Нахождение вероятности

Sawer · **Добавлено:** Ср авг 08, 2007 5:46 am

Уважаемый Александр Иванович!

Мне пришлось столкнуться с такой задачей:

Дано:
1. Две бутстреп-выборки A и B, каждая из которых характеризуется параметрами а и b.
2. Параметры определены на интервале (0; 100).
Искомый производный параметр Y=a/b. Округление значения Y производится отбрасыванием второго и более знака после запятой (например, 1,0985≡1,0).
Характеристики выборки А:
1. Доверительные интервалы значения а на уровне значимости 0,1% – (36,8; 48,8).
2. Доверительные интервалы значения b на уровне значимости 0,1% – (24,9; 32,6).
3. Y принимает значения от 1,1 до 2,0.
Характеристики выборки В :
1. Доверительные интервалы значения а на уровне значимости 0,1% – (27,8; 36,1).
2. Доверительные интервалы значения b на уровне значимости 0,1% – (32,0; 41,5).
3. Y принимает значения от 0,7 до 1,1.
Найти: вероятность того, что Y(A)≤Y(B).

Очевидно, что искомая вероятность определяется вероятностью того, что а(А)≤τ1, а b(A)≥τ2; одновременно для выборки В а(А)≤τ3, а b(A)≥τ4. τ1…4 – определённые числа, находящиеся внутри доверительных интервалов.

Неясно следующее:
1. Как найти максимальную вероятность того, что Y(A)≤Y(B).
2. Как учесть при этом граничные значения переменных.

Наверняка кто-то уже занимался решением подобных задач. Дайте, пожалуйста, ссылку.

Проф.А.И.Орлов · **Добавлено:** Ср авг 08, 2007 11:05 am

Не могу понять Вас.
Задача не поставлена.
Вероятностно-статистическая модель не описана.
Термин "бутстреп" используется не так, как в учебниках на http://orlovs.pp.ru

Что такое "параметр"? Судя по формулировкам про "доверительные интервалы", речь идет о каком-то параметрическом семействе. Каком? И зачем тогда бутстреп - ведь можно применять те или иные методы оценивания параметров = ОМП, одношаговые оценки и т.п.

Советую сформулировать вопрос в терминах прикладной статистики.

К тому же пишете:
для выборки А

Цитата:

3. Y принимает значения от 1,1 до 2,0.

и одновременно для выборки В:

Цитата:

3. Y принимает значения от 0,7 до 1,1.

Хотите:

Цитата:

Найти: вероятность того, что Y(A)≤Y(B).

Ясно, что неравенство невозможно, а равенство может быть только в случае Y(A) = Y(B) = 1,1. Т.е. - для непрерывных случайных величин - с вероятностью 0.

Почему бы Вам попросту не проверить гипотезу однородности двух независимых выборок (значений У) с помощью критерия Вилкоксона?

Sawer · **Добавлено:** Пн авг 13, 2007 9:00 am

Проф.А.И.Орлов писал(а):

Не могу понять Вас.
Задача не поставлена. Советую сформулировать вопрос в терминах прикладной статистики.

Уважаемый Александр Иванович!

Воспользовался Вашим советом, перечитал раздел 3.2 учебника "Прикладная статистика". Понял, что мне на самом деле требуется, и теперь попытаюсь сформулировать вопрос более чётко.

Передо мной стоит задача оценки качества алготитма классификации. Классифицируемые объекты необходимо отнести к одной из двух групп. Объекты характеризуются признаками х и у, измеренными в шкале отношений. На основании исследованной выборки можно определить границы, в которых изменяются значения обоих признаков для каждой из групп. Прогностический индекс Z вычисляется как частное от их деления.

В учебнике рекомендуется для оценки качества использовать метод пересчета на модель линейного дискриминантного анализа, там же приводится алгоритм проверки обоснованности применения этого метода.

Контрольную выборку получить весьма сложно, поэтому для проверки качества алгоритма классификации я планирую построить обучающую выборку. Для этого мне кажется логичным воспользоваться бутстрепом, применив его следующим образом:
- для каждой из групп при помощи генератора случайных величин строится выборка из N объектов, для каждого из которых величина признака х и у определяется независимо друг от друга,
- для полученных объектов находится значение Z,
- на основании полученных массивов данных находится показатель качества классификации.

Теперь - возникшие вопросы.
1. Правомерно ли применение бутстрепа описанным способом?
2. Если ответ на первый вопрос положителен, то выборки какого объёма следует строить, и сколько их требуется? По мнению самого Эфрона (Складной нож, бутстреп..., 1988), хватает 100 выборок (с. 77), но верно ли это для моей задачи?
3. При проверке обоснованности необходимо взять два пороговых значения. Из каких соображений определяется их величина?

Заранее спасибо,
Денис[/i]

Проф.А.И.Орлов · **Добавлено:** Пн авг 13, 2007 2:03 pm

Уважаемый Денис!
Ваше описание:

Цитата:

Для этого мне кажется логичным воспользоваться бутстрепом, применив его следующим образом:
- для каждой из групп при помощи генератора случайных величин строится выборка из N объектов, для каждого из которых величина признака х и у определяется независимо друг от друга,
- для полученных объектов находится значение Z,
- на основании полученных массивов данных находится показатель качества классификации.

- это описание применения метода статистических испытаний (Монте-Карло), но не бутстрепа.
Бутстреп - это метод размножения выборок (resampling), в котором исходные данные - выборка результатов наблюдений, в Вашем случае - выборка двумерных векторов (x(i), y(i))? i=1,2,...,n. 1. Каждому из этих векторов приписывают вес 1/n, получают т.н. ээмпирическое распределение. И уже из него берут бутстреп-выборки.
(Учебник "Эконометрика", глава 11, п.11.4.)

Кроме терминологии, два вопроса:
1) каков

Цитата:

генератор случайных величин

, т.е. как Вы моделируете значения х и у?
2) На чем основано Ваше предположение о независимости х и у?

Цитата:

Контрольную выборку получить весьма сложно, поэтому для проверки качества алгоритма классификации я планирую построить обучающую выборку.

Неясно, о чем речь. Если моделируете обучающую выборку, то, продолжив моделировать, получаете контрольную. Обучающая выборка так называется, поскольку по ней настраивается (строится) алгоритм классификации. Какие параметры алгоритма классификации Вы оцениваете по обучающей выборке - неясно.

Разделение данных на обучающую и контрольные выборки делается для того, чтобы по обучающей выборке построить алгоритм, а по контрольной - проверить его качество. Проверять качество по обучающей выборке затруднительно, поскольку параметры оценены по той же выборке, и качество будет завышаться. Насколько велик этот эффект - зависит от алгоритма.
НО для предварительного изучения ситуации - попробовать можно.

Чем больше число моделирований в методе статистических испытаний (и бутстрепе), тем лучше. Дисперсия оцениваемых при
этом величин величин убывает как единица делить на объем моделирования. Можно отслеживать изменение параметров при росте числа моделирований и таким путем выявить рациональное число моделирований. Думаю, что 100 у Эфрона - это отражение возможностей компьютеров 70-х годов. За 30 лет компьютеры стали несколько мощнее, а расчеты - дешевле. Сейчас лучше 10000.

Пороговые значения лучше брать те, что реально используются. Например, если реально прогностический индекс используется для деления на 3 группы, то естественно взять границы между группами.

Если естественных границ нет, то можно пороговые значения взять произвольно. Например, квантили порядка 1/3 и 2/3 эмпирического распределения прогностического индекса Z .

В учебнике "Прикладная статистика" бутстреп рассмотрен в заключительной части, в разделе "Компьютеры в прикладной статистике".

Желаю успехов!

Sawer · **Добавлено:** Вт авг 14, 2007 7:49 am

Здравствуйте!

Цитата:

Ваше описание - это описание применения метода статистических испытаний (Монте-Карло), но не бутстрепа.

Да, конечно, это моя ошибка. Спасибо за указание на неё.

Цитата:

Кроме терминологии, два вопроса:
1) каков генератор случайных величин, т.е. как Вы моделируете значения х и у?
2) На чем основано Ваше предположение о независимости х и у?

1. С помощью Экселя. Я в курсе, благодаря Вашему сайту, что машинная генерация случайных величин не идеальна, но использование таблиц случайных чисел - тоже, а хлопот гораздо больше. Так что - Эксель...
2. На основании вычисленного коэффициента корреляции между ними (Спирмена -0,39, Кендалла -0,23).

Цитата:

Какие параметры алгоритма классификации Вы оцениваете по обучающей выборке - неясно.

Дело в том, что, если значение х близко к минимальному (минимум установлен по имеющейся выборке), а у - к максимальному, то объект будет классифицирован неправильно. Для объектов, данные по которым у меня имеются, такого не отмечено, но теоретически подобная ситуация возможна. Отсюда и необходимость оценить качество алгоритма классификации.

Цитата:

Контрольную выборку получить весьма сложно, поэтому для проверки качества алгоритма классификации я планирую построить обучающую выборку.

Неясно, о чем речь. Если моделируете обучающую выборку, то, продолжив моделировать, получаете контрольную. Обучающая выборка так называется, поскольку по ней настраивается (строится) алгоритм классификации.

Здесь я ещё раз запутался в терминах.

Надеюсь, что я достаточно прояснил ситуацию. Если Вы найдёте ещё неточности - буду благодарен за разъяснения.

Большое спасибо за обсуждение и советы! С уважением,
Денис

Проф.А.И.Орлов · **Добавлено:** Вт авг 14, 2007 10:26 am

Конечно, остались неясности. Например, какой закон распределения используется для моделирования х и у, на каком уровне значимости принимается гипотеза независимости переменных. На эти вопросы надо бы ответить при подготовке публикаций.

Рад, что переписка оказалась Вам полезной.

Высокие статистические технологии

Нахождение вероятности

Кто сейчас на форуме