Уважаемый Денис!
Ваше описание:
Цитата:
Для этого мне кажется логичным воспользоваться бутстрепом, применив его следующим образом:
- для каждой из групп при помощи генератора случайных величин строится выборка из N объектов, для каждого из которых величина признака х и у определяется независимо друг от друга,
- для полученных объектов находится значение Z,
- на основании полученных массивов данных находится показатель качества классификации.
- это описание применения метода статистических испытаний (Монте-Карло), но не бутстрепа.
Бутстреп - это метод размножения выборок (resampling), в котором исходные данные - выборка результатов наблюдений, в Вашем случае - выборка двумерных векторов (x(i), y(i))? i=1,2,...,n. 1. Каждому из этих векторов приписывают вес 1/n, получают т.н. ээмпирическое распределение. И уже из него берут бутстреп-выборки.
(Учебник "Эконометрика", глава 11, п.11.4.)
Кроме терминологии, два вопроса:
1) каков
Цитата:
генератор случайных величин
, т.е. как Вы моделируете значения х и у?
2) На чем основано Ваше предположение о
независимости х и у?
Цитата:
Контрольную выборку получить весьма сложно, поэтому для проверки качества алгоритма классификации я планирую построить обучающую выборку.
Неясно, о чем речь. Если моделируете обучающую выборку, то, продолжив моделировать, получаете контрольную. Обучающая выборка так называется, поскольку по ней настраивается (строится) алгоритм классификации. Какие параметры алгоритма классификации Вы оцениваете по обучающей выборке - неясно.
Разделение данных на обучающую и контрольные выборки делается для того, чтобы по обучающей выборке построить алгоритм, а по контрольной - проверить его качество. Проверять качество по обучающей выборке затруднительно, поскольку параметры оценены по той же выборке, и качество будет завышаться. Насколько велик этот эффект - зависит от алгоритма.
НО для предварительного изучения ситуации - попробовать можно.
Чем больше число моделирований в методе статистических испытаний (и бутстрепе), тем лучше. Дисперсия оцениваемых при
этом величин величин убывает как единица делить на объем моделирования. Можно отслеживать изменение параметров при росте числа моделирований и таким путем выявить рациональное число моделирований. Думаю, что 100 у Эфрона - это отражение возможностей компьютеров 70-х годов. За 30 лет компьютеры стали несколько мощнее, а расчеты - дешевле. Сейчас лучше 10000.
Пороговые значения лучше брать те, что реально используются. Например, если реально прогностический индекс используется для деления на 3 группы, то естественно взять границы между группами.
Если естественных границ нет, то можно пороговые значения взять произвольно. Например, квантили порядка 1/3 и 2/3 эмпирического распределения прогностического индекса Z .
В учебнике "Прикладная статистика" бутстреп рассмотрен в заключительной части, в разделе "Компьютеры в прикладной статистике".
Желаю успехов!