Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Пн июн 26, 2017 8:18 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 5 ] 
Автор Сообщение
 Заголовок сообщения: Открываем дискуссию о статистическом моделировании
СообщениеДобавлено: Пн фев 08, 2016 1:33 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 7011
Секция «Математические методы исследования» журнала «Заводская лаборатория. Диагностика материалов» открывает дискуссию о современном состоянии и перспективах развития статистического моделирования, т. е. теории и практики применения метода статистических испытаний (Монте-Карло), в том числе различных аспектов имитационного моделирования. В рамках дискуссии предлагается обсудить математические методы исследования, опирающиеся на использование датчиков псевдослучайных чисел. Предыдущая дискуссия о свойствах таких датчиков проводилась нашим журналом в 1985 - 1993 гг.
В настоящем номере публикуются две "затравочные статьи" дискуссии (Ю. Д. Григорьева и А. И. Орлова). Предлагаем специалистам, развивающим и/или применяющим метод статистических испытаний (Монте-Карло), принять участие в дискуссии, рассказать о возникающих проблемах, способах их преодоления и обменяться полученными научными результатами, непосредственно затрагивающими тематику дискуссии.

Статьи просим направлять в редакцию журнала http://zldm.ru/index.php с указанием в сопроводительном письме "На дискуссию о статистическом моделировании".


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Открываем дискуссию о статистическом моделировании
СообщениеДобавлено: Вс фев 14, 2016 10:07 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 7011
Одна из "затравочных" статей.

УДК 519.2

Предельные теоремы и метод Монте-Карло

А.И. Орлов

Цель математической статистики - разработка методов анализа данных, предназначенных для решения конкретных прикладных задач. С течением времени подходы к разработке методов анализа данных менялись. Сто лет назад принимали, что распределения данных имеют определенный вид, например, являются нормальными, и исходя из этого предположения развивали статистическую теорию. На следующем этапе на первое место в теоретических исследованиях выдвинулись предельные теоремы. Под "малой выборкой" понимают такую выборку, для которой нельзя применять выводы, основанные на предельных теоремах. В каждой конкретной статистической задаче возникает необходимость разделить конечные объемы выборки на два класса - те, для которых можно применять предельные теоремы, и те, для которых делать это нельзя из-за риска получения неверных выводов. Для решения этой задачи часто используют метод Монте-Карло (статистических испытаний). Более сложные проблемы возникают при изучении влияния на свойства статистических процедур анализа данных тех или иных отклонений от исходных предположения. Для изучения такого влияния также часто используют метод Монте-Карло. Основная - и не решенная в общем виде - проблема при изучении устойчивости выводов при наличии отклонений от параметрических семейств распределений состоит в том, какие распределения использовать для моделирования. Рассмотрены некоторые примеры применения метода Монте-Карло, относящиеся к деятельности нашего научного коллектива. Сформулированы основные нерешенные проблемы.

Ключевые слова: математическая статистика, прикладная статистика, анализ данных, предельные теоремы, метод Монте-Карло, малая выборка, устойчивость выводов, нерешенные проблемы.


Цель математической статистики - разработка методов анализа данных, предназначенных для решения конкретных прикладных задач. Под данными имеются в виду результаты измерений, наблюдений, испытаний, анализов, опытов, обследований.
С течением времени подходы к разработке методов анализа данных менялись. Сто лет назад принимали, что распределения данных имеют определенный вид, например, являются нормальными, и исходя из этого предположения развивали статистическую теорию. В наследство от этого периода нам остался, например, критерий Стьюдента. Од подходов этого периода отказались, поскольку стало ясно, что распределения реальных данных не укладываются в "прокрустово ложе" четырехпараметрического семейства Пирсона и тем более его подсемейств (включающих нормальные распределения, распределения Вейбулла - Гнеденко, гамма-распределения и др.).
На следующем этапе на первое место в теоретических исследованиях выдвинулись предельные теоремы. Лидеры этого направления И.А. Ибрагимов и Р.З. Хасьминский писали в 1979 г.: "Как и вся математическая статистика, теория оценивания возникла из некоторых практических задач. Для многих таких задач типична неасимптотическая постановка проблемы, когда требуется построить наилучшие для данной схемы при данном объеме статистического материала оценки. Однако решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто сильно зависит от конкретного типа распределения, объема выборки и т.д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона. По словам Б.В. Гнеденко и А.Н. Колмогорова [1], "познавательная ценность теории вероятностей раскрывается только предельными теоремами", и теория статистического оценивания не составляет исключения" [2].
Под "малой выборкой" понимают такую выборку, для которой нельзя применять выводы, основанные на предельных теоремах. В каждой конкретной задаче возникает необходимость разделить конечные объемы выборки на два класса - те, для которых можно применять предельные теоремы, и те, для которых делать это нельзя из-за риска получения неверных выводов.

Предельные теоремы и распределения при конечных объемах выборок

К сожалению, предельными теоремами нельзя непосредственно пользоваться при статистическом анализе конкретных данных. Приходится делать предположения о том, что предельные теоремы позволяют делать статистические выводы "с достаточной для практики точностью". Подобные предположения обосновывают с помощью того или иного метода прикладной математики.
Таким образом, схема исследования такова. Сначала с помощью предельных теорем получают расчетные формулы. Затем изучают точность этих формул. Например, согласно работам С.Н. Бернштейна и В. Феллера для применения нормального закона в теореме Муавра-Лапласа достаточно объема выборки 100 (т.е при объеме выборки 100 и более допредельное распределение нормированной центрированной биномиально распределенной случайной величины с достаточной для практики точностью совпадает с предельным нормальным. Второй пример - согласно расчетам магистранта МФТИ К. Виноградова использование полученной нами формулы (для синтеза плана статистического контроля на основе ограничения на предел среднего выходного уровня дефектности) обосновано для объема выборки n > 10. Третий пример - биномиальное приближение для гипергеометрического распределения можно использовать, когда объем генеральной совокупности N по крайней мере в 10 раз больше объема выборки n, т.е. при N > 10 n.
Принципиально важной является работа по созданию таблиц критических точек двухвыборочного критерия Смирнова [3]. В ней таблицы точных распределений доведены до тех границ, за которыми можно пользоваться расчетными формулами, вытекающими из предельных распределений.
В прикладной статистике и других математических методах исследования получено много рекомендаций, вытекающих из предельных теорем, для которых точность этих рекомендаций еще не исследована достаточно подробно. При просмотре современных учебников [4 - 7], соответствующих новой парадигме математических методов исследования [8 - 9], становится очевидным, что подобные рекомендации составляют их основное содержание.
Констатируем, что к классическим инструментам прикладной статистики – предельным теоремам теории вероятностей – добавились новые, основанный на интенсивном использовании компьютеров. Метод статистических испытаний (Монте-Карло) – вот партнер и конкурент асимптотическим методам математической статистики. Термин "метод Монте-Карло" объединяет обширную совокупность интеллектуальных инструментов. Например, бутстреп [10] – лишь один из таких инструментов.

Отклонения от параметрических семейств распределений

Более сложные проблемы возникают при изучении влияния на свойства статистических процедур анализа данных тех или иных отклонений от исходных предположения. Для изучения такого влияния часто используют метод Монте-Карло.
Как известно, математическая статистика как наука была сформирована в начале ХХ в. [4, 11]. Ее создатели исходили из предположения о том, что распределения статистических данных входят в те или иные параметрические семейства размерности 1 - 4. В большинстве случаев принималось (без обоснования) нормальное распределение. Исходя из этого предположения, были получены распределения Стьюдента, Фишера, хи-квадрат и др. Однако хорошо известно, что практически все распределения реальных статистических данных не являются нормальными [12].
Следовательно, имеется необходимость изучения свойств расчетных методов классической математической статистики, опирающихся на предположение нормальности, в ситуациях, когда это предположение не выполнено. Аппаратом для такого изучения наряду с методом Монте-Карло могут послужить предельные теоремы теории вероятностей, прежде всего центральная предельная теорема (ЦПТ), поскольку интересующие нас расчетные методы обычно используют разнообразные суммы. Пока подобное изучение не проведено, остается неясной научная ценность, например, применения основанного на предположении многомерной нормальности факторного анализа к векторам из переменных, принимающих небольшое число градаций и к тому же измеренных в порядковой шкале.
Одна из важных проблем - использование асимптотических результатов при конечных объемах выборок. Конечно, естественно изучить свойства алгоритма с помощью метода Монте-Карло. Однако из какого конкретного распределения, отличного от базового (например, стандартного нормального) брать выборки при моделировании? От выбора распределения зависит результат. Кроме того, датчики псевдослучайных чисел лишь имитируют случайность. До сих пор неизвестно, каким датчиком целесообразно пользоваться в случае возможного безграничного роста размерности пространства [13].
Обманчивым является часто возникающее у наивных авторов впечатление о простоте получения окончательных выводов путем примитивного применения метода Монте-Карло. Проще говоря - помоделировал, сформулировал выводы, написал статью. Разработав примитивный программный продукт из двух основных блоков (получение псевдослучайных чисел и процедуры статистического анализа), создают конвейер по изготовлению однотипных статей рассматриваемого типа.
Удивительно, что часто не указывают даже точность полученных выводов. Если с помощью n статистических испытаний оценивают вероятность p, то в предположении, что псевдослучайные числа можно рассматривать как независимые одинаково распределенные случайные величины, то выборочная доля p* имеет биномиальное распределение, деленное на n, а потому в соответствии с теоремой Муавра-Лапласа полуширина доверительного интервала, соответствующего доверительной вероятности 0,95, равна
. (1)
Если p =0,5 (или близко к этому числу), то согласно (1) точность метода Монте-Карло оценивается как
. (2)
Следовательно, согласно (72) для оценивания со сравнительно малой точностью 0,001 необходимо провести не менее 1 000 000 статистических испытаний. Наивные авторы ограничиваются меньшим числом испытаний.
Основная - и не решенная в общем виде - проблема при изучении устойчивости выводов при наличии отклонений от параметрических семейств распределений состоит в том, какие распределения использовать для моделирования. Так, при анализе влияний отклонений от нормальности следует изучать не логистическое распределение, от которого расстояние Колмогорова до многообразия нормальных распределений не более 0,01 (см. [4]), а распределение Коши, у которого нет даже математического ожидания. Кроме тех или иных теоретически заданных распределений, целесообразно использовать эмпирические распределения данных из интересующей исследователя прикладной области. Однако ясно, что возможных отклонений от изучаемого параметрического семейства распределений бесконечно много, перебрать их все, очевидно, невозможно, а потому выводы, полученные с помощью метода Монте-Карло, всегда являются не строго доказанными, а лишь правдоподобными.
Итак, при изучении влияния отклонений распределений элементов выборки от параметрических семейств распределений основная проблема - какие распределения моделировать с целью оценки величины влияния. Речь идет как о теоретических распределениях (логистических, Коши и др.), так и об эмпирических, полученных при предыдущих исследованиях.

Некоторые примеры применения метода Монте-Карло

При обсуждении нацеленного на практические применения математического метода исследования естественно опираться на опыт его практического использования. Поэтому перечислим некоторые примеры применения метода Монте-Карло, относящиеся к деятельности нашего научного коллектива [29].
На использовании метода Монте-Карло основано исследование [14], посвященное изучению и сравнению свойств различных критериев однородности двух независимых выборок, а именно, реальных и номинальных уровней значимости. В этой статье продемонстрирована необходимость учета отличия, вызванного дискретностью распределения непараметрического критерия, реального уровня значимости статистического критерия от номинального (заданного).
Если возможные подмножества признаков образуют расширяющееся семейство, например, оценивается степень полинома, то естественно ввести термин «размерность модели» (используется также в многомерном шкалировании). Выполнен ряд работ по оцениванию размерности модели. Первая из них подготовлена нами во Франции в 1976 г. [15]. В ней изучена одна оценка размерности модели в регрессии, например, степени полинома в предположении, что зависимость описывается полиномом. Эта оценка была известна в литературе, но позже ее стали ошибочно приписывать А.И. Орлову, в то время как в [15] лишь изучены ее свойства, в частности, установлено, что эта оценка не является состоятельной, и найдено ее предельное геометрическое распределение. Другие, уже состоятельные оценки размерности регрессионной модели были предложены и изучены в статье [16]. Этот цикл завершила содержащая ряд уточнений работа [17]. Крайняя публикация на эту тему включает в себя обсуждение результатов изучения скорости сходимости в ранее полученных предельных теоремах методом Монте-Карло [18].
Аналогичные по методологии оценки размерности модели в задаче расщепления смесей (часть теории классификации) рассмотрены в статье [19]. Оценки размерности модели в многомерном шкалировании изучаются в работах [20 - 22]. В этих же публикациях установлено предельное поведение характеристик метода главных компонент (с помощью асимптотической теории поведения решений экстремальных статистических задач).
Упомянем также изучение методом Монте-Карло скорости сходимости к пределу характеристик влияния помех, создаваемых электровозами, на проводные линии связи [23, 24].

Основные нерешенные проблемы

Первая дискуссия по датчикам псевдослучайных чисел (т.е. по методу Монте-Карло) была проведена в журнале "Заводская лаборатория. Диагностика материалов" в 1985 - 1993 гг. (см. № 5, 1985 г.; №1, 1986; № 10, 1987; №3, 1990; №7, 1993 г.). Итоги были подведены в статье [25] С.М. Ермакова и нашем комментарии к ней [13].
За прошедшие 22 года возможности и доступность компьютерной техники резко выросли, в результате широки массы исследователей получили возможность использовать метод Монте-Карло в своей работе. Однако не видно адекватного роста в методологическом обосновании и теоретическом обеспечении этого метода. В результате наблюдаем не рост, а падение научного уровня ряда публикаций в этой области. Необходимо провести новую дискуссию по методу Монте-Карло, на этот раз обратив внимание не столько на свойства датчиков псевдослучайных чисел, сколько на соотношение этого метода с предельными теоремами математической статистики.
Целесообразно разделить идеальный и реальный методы Монте-Карло.
В идеальном методе Монте-Карло предполагаем возможность моделирования последовательности независимых одинаково распределенных случайных величин с заданным распределением. Как показано выше, такие последовательности могут быть использованы для решения ряда актуальных задач.
В реальном методе Монте-Карло необходимо учитывать, что датчики псевдослучайных чисел лишь имитируют последовательности случайных числе. Поэтому, строго говоря, их нельзя назвать датчиками случайных чисел. Согласно второму (алгоритмическому) подходу А.Н. Колмогорова к определению понятия случайности, сложность идеального датчика должна расти вместе с длиной последовательности, в то время как реально используемые датчики алгоритмически ограничены (описываются несложными алгоритмами конечной длины). Для обоснования возможности использования датчиков псевдослучайных чисел используют результаты теории чисел, как это показано С.М. Ермаковым [25]. Однако обоснование удалось найти лишь для псевдослучайных векторов заранее фиксированной размерности. Между тем часто возникает необходимость проводить испытания вплоть до осуществления некоторого события, например, до отказа технического устройства (в математической модели это может означать достижение случайным процессом некоторой границы). В прикладной статистике зачастую нужно определить момент, когда допустимо пользоваться предельным распределением. Это - задача того же типа: ищется момент, когда погрешность меньше заданной величины. В подобных задачах размерность пространства, в которых лежат рассматриваемые объекты, не фиксирована заранее.
Неизвестность для задач с ростом размерности пространства выявлена давно. Еще в 1986 г. в докладе на Первом Всемирном конгрессе Общества математической статистики и теории вероятностей им. Бернулли председатель Оргкомитета академик АН СССР Ю.В. Прохоров обращал внимание на то, что нет строгого обоснования возможности применения метода Монте-Карло в задачах с ростом размерности пространства (см. об этом в [26]).
Более простым и одновременно более практичным кажется вопрос о выборе конкретного датчика псевдослучайных чисел для использования в своей работе. Анализировавшие этой вопрос Ю.Н. Тюрин и В.Э. Фигурнов пришли к следующим выводам [27]:
1. Ходовые методы проверки датчиков псевдослучайных чисел не обеспечивают их полную проверку. Так, забракованные в [27] датчики URAND, G19BNU, датчики Аренса — Дитера — Грубе успешно проходят проверки этими методами.
2. Несмотря на сравнительно небольшое число проверенных датчиков, можно сделать вывод о преимуществе датчиков, основанных на М-алгоритме. При эффективной программной реализации увеличение времени счета в практических задачах при переходе к использованию таких датчиков не превышает нескольких процентов.
3. Следует также заметить, что были замечены случаи, когда различные датчики забраковывались при одинаковых параметрах проверки, показывая при этом почти одинаковые результаты проверки. Таким образом, различные датчики могут иметь общие недостатки. Это показывает ошибочность распространенного мнения, что совпадение результатов расчетов при использовании различных датчиков доказывает правильность этих результатов.
Можем ли мы сейчас, через 25 лет после появления статьи [27] (и других по рассматриваемому вопросу, см., например, [28]), говорить о преимуществе датчиков, основанных на М-алгоритме? Или же появились более эффективные датчики псевдослучайных чисел?
Автор благодарен Ю.Д. Григорьеву за полезные обсуждения.

Литература

1. Гнеденко Б.В., Колмогоров А.Н. Предельные распределения для сумм независимых случайных величин. - М. - Л.: ГИТТЛ, 1949. - 264 с.
2. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.
3. Орлов А.И., Миронова Н.Г., Фомин В.Н., Черномордик О.М. Методика. Проверка однородности двух выборок параметров продукции при оценке ее технического уровня и качества. - М.: ВНИИСтандартизации, 1987. - 116 с.
4. Орлов А.И. Прикладная статистика. — М.: Экзамен, 2006. — 671 с.
5. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. — 541 с.
6. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Ч.2. Экспертные оценки. М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. 486 с.
7. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.
8. Орлов А.И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. 2012. Том 78. №1, часть I. С.87-93.
9. Орлов А.И. Новая парадигма математических методов исследования // Заводская лаборатория. Диагностика материалов. 2015. Т.81. №.7 С. 5-5.
10. Орлов А.И. О реальных возможностях бутстрепа как статистического метода // Заводская лаборатория. Диагностика материалов. 1987. Т.53. №10. С.82-85.
11. Орлов А.И. Основные этапы становления статистических методов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 97. С. 73-85.
12. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. 1991. Т.57. №7. С.64-66.
13. Орлов А.И. Комментарий к статье С.М.Ермакова «О датчиках случайных чисел». // Заводская лаборатория. Диагностика материалов. 1993. Т.59. №7. С.51-51.
14. Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез // Заводская лаборатория. Диагностика материалов. 1986. Т.52. №12. С.55-57.
15. Орлов А.И. Предельное распределение одной оценки числа базисных функций в регрессии // Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - М.: Наука, 1978. С.380-381.
16. Орлов А.И. Оценка размерности модели в регрессии // Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. С.92-99.
17. Орлов А.И. Асимптотика некоторых оценок размерности модели в регрессии. – В сб.: Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.260-265.
18. Орлов А.И. Об оценивании регрессионного полинома // Заводская лаборатория. Диагностика материалов. 1994. Т.60. №5. С.43-47.
19. Орлов А.И. Некоторые вероятностные вопросы теории классификации // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.166-179.
20. Орлов А.И. Общий взгляд на статистику объектов нечисловой природы // Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. С.58-92.
21. Orlov A.I. On the Development of the Statistics of Nonnumerical Objects // Design of Experiments and Data Analysis: New Trends and Results. - M.: ANTAL, 1993. Р.52-90.
22. Орлов А.И. Методы снижения размерности //Приложение 1 к книге: Толстова Ю.Н. Основы многомерного шкалирования: Учебное пособие для вузов. – М.: Издательство КДУ, 2006. - 160 с.
23. Карякин Р.Н., Орлов А.И., Адамов С.Ю. Вероятностная теория высших гармоник помех, создаваемых электровозами. – В сб.: Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - М.: Наука, 1978. С.376-380.
24. Орлов А.И. Вероятностно-статистическое моделирование помех, создаваемых электровозами // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 106. С. 225 – 238.
25. Ермаков С.М. О датчиках случайных чисел // Заводская лаборатория. Диагностика материалов. 1993. Т.59. №7. С.48-50.
26. Орлов А.И. Первый Всемирный конгресс Общества математической статистики и теории вероятностей им. Бернулли // Заводская лаборатория. Диагностика материалов.8 1987. Т.53. №3. С.90-91.
27. Тюрин Ю.Н., Фигурнов В.Э. О проверке датчиков случайных чисел // Теория вероятностей и ее применения. 1990. Т.35. Вып. 1. С.156–161. URL: http://www.mathnet.ru/links/638b9757785 ... tvp919.pdf (дата обращения 04.11.2015).
28. Орлов А.И. Комментарий II к статье В.Г. Алексеева «Об одном методе проверки датчика псевдослучайных чисел» // Заводская лаборатория. Диагностика материалов. 1990. Т.56. №3. С.86-87.
29. Орлов А.И. Научная школа кафедры «Экономика и организация производства» в области эконометрики // Четвёртые Чарновские Чтения. Сборник трудов. Материалы IV международной научной конференции по организации производства. Москва, 5-6 декабря 2014 г. – М.: НП «Объединение контроллеров», 2014. – С.326 - 337. URL: https://yadi.sk/i/7xrB6x37eyPp3 (дата обращения 04.11.2015).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Открываем дискуссию о статистическом моделировании
СообщениеДобавлено: Сб июл 30, 2016 1:24 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 7011
О дискуссии объявлено в июльском номере журнала "Заводская лаборатория. Диагностика материалов". См.:

Орлов А.И. Метод статистических испытаний - инструмент исследователя // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С. 5-5.

Орлов А.И. Предельные теоремы и метод Монте-Карло // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С. 67-72.

Григорьев Ю.Д. Метод Монте-Карло: вопросы точности асимптотических решений и качества генераторов псевдослучайных чисел // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Открываем дискуссию о статистическом моделировании
СообщениеДобавлено: Ср авг 10, 2016 1:39 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 7011
Метод статистических испытаний - инструмент исследователя

Для решения конкретных прикладных задач исследователи постоянно разрабатывают новые методы обработки статистических данных - результатов измерений (наблюдений, испытаний, анализов, опытов) и экспертных оценок. Свойства нового метода необходимо изучить. Какие интеллектуальные инструменты можно применить для такого изучения?
Мощным инструментом исследователей в области математической статистики являются предельные теоремы теории вероятностей - закон больших чисел, центральная предельная теорема и т.п. Ориентированные на математику специалисты призывают ими и ограничиться. Однако для практического использования статистических методов предельных теорем недостаточно. Необходимо найти границу - выяснить, начиная с какого объема выборки можно пользоваться результатами, полученными с помощью предельных теорем. И выяснить, как принимать решения, если объем имеющихся данных меньше этой границы.
С середины ХХ в. исследователю доступна универсальная "отмычка" - метод статистических испытаний (метод Монте-Карло), другими словами, имитационное моделирование. Он основан на использовании последовательности псевдослучайных чисел, свойства которых напоминают свойства рассматриваемых в теории вероятностей случайных величин. Основная идея состоит в последовательном выполнении следующих этапов: разработке вероятностно-статистической модели реального явления или процесса; планировании статистического испытания, в котором случайные величины заменяются псевдослучайными, полученными с помощью того или иного датчика; проведении большого числа испытаний (тысяч или миллионов); анализе полученных результатов расчетов.
С каждым этапом связаны соответствующие проблемы адекватности имитационного моделирования. Так, для предельных теорем обычно справедлив тот или иной принцип инвариантности, т.е. в пределе исчезает зависимость от конкретного вида распределения. Однако при изучении скорости сходимости выбор этого конкретного вида весьма важен, поскольку от него зависит итоговый результат статистического моделирования - один для нормального распределения, другой - для логистического, третий - для распределения Коши...
Датчики псевдослучайных чисел лишь имитируют случайность. Алгоритмы получения псевдослучайных чисел имеют достаточно короткое описание, в то время как по определению А.Н. Колмогорова 60-х годов (в рамках теории информации) описание случайной последовательности должно расти пропорционально длине этой последовательности. Кроме этой глобальной причины методологической несостоятельности датчиков псевдослучайных чисел есть и частные недостатки. Например, у некоторых популярных до настоящего времени датчиков три последовательных значения связаны линейной зависимостью.
Значения, рассчитанные с помощью метода Монте-Карло, имеют погрешности, определяемые конечностью числа испытаний. При оценивании вероятности события погрешность достигает величины , где N - число испытаний. Значит, для оценивания вероятности с точностью 10-6 необходимо 1012 / 4 испытаний. На практике провести такое количество испытаний невозможно.
Проблемы теории и практики статистических испытаний (Монте-Карло) заслуживают тщательного обсуждения. В разделе "Математические методы исследования" начинаем дискуссию о современном состоянии и перспективах развития статистического моделирования (имитационного моделирования). Предлагаем читателям принять участие в обсуждении математических методов исследования, использующих датчики псевдослучайных чисел. В нашем журнале предыдущая дискуссия о свойствах таких датчиков была проведена в 1985 - 1993 гг.

Проф., докт. техн. наук, докт. экон. наук, канд. физ.-мат. наук А.И. Орлов

Публикация:
Орлов А.И. Метод статистических испытаний - инструмент исследователя // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С. 5-5 (Колонка редколлегии).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Открываем дискуссию о статистическом моделировании
СообщениеДобавлено: Сб апр 29, 2017 6:42 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 7011
Значение информационно-коммуникационных технологий
для математических методов исследования

А.И. Орлов

Математические методы исследования применяются с древних времен. Так, в Ветхом Завете рассказано о проведенной Моисеем переписи военнообязанных (см. Четвертую книгу Моисееву "Числа").
В развитии математических методов исследования выделяем два важных периода. Первый - начало ХХ в., когда были разработаны базовые положения современной математической статистики, сформулированы основные идеи таких ее разделов, как описание данных, оценивание параметров, проверка статистических гипотез. Эти идеи легли в основу учебников, используемых и в настоящее время. Наряду с рациональными приемами анализа данных продолжают пропагандироваться устаревшие воззрения, например, основанные на использовании параметрических семейств распределений вероятностей, в то время как установлено, что практически все распределения реальных данных ненормальны и не описываются с помощью иных семейств распределений вероятностей.
Второй период - с 1980-х годов по настоящее время. Усилиями сотен исследователей разработана новая парадигма прикладной статистики (см. №1 нашего журнала за 2012 г., в кратком обозначении ЗЛ 2012/1), более широко и точно - новая парадигма математических методов исследования [1]. Заложены основы математики XXI в. - системной нечеткой интервальной математики [2]. На первое место вышла статистика нечисловых данных. За 10 лет (2006 - 2015) ей посвящены 27,6% всех публикаций раздела "Математические методы исследования" нашего журнала, т.е. 63,0% статей по прикладной статистике (ЗЛ 2017/1).
Новая парадигма математических методов исследования опирается на эффективное применение информационно-коммуникационных технологий как при расчете характеристик методов анализа данных, так и при имитационном моделировании. Датчики псевдослучайных чисел лежат в основе многих современных технологий анализа данных. Эти эффективные инструменты исследователя внутренне противоречивы - с помощью детерминированных алгоритмов получаем числа, обладающие многими свойствами случайных величин. Поэтому свойства таких инструментов требуют тщательного изучения.
В 2016 г. наш журнал начал дискуссию о современном состоянии и перспективах развития статистического моделирования, т.е. теории и практики применения метода статистических испытаний (Монте-Карло), различных вариантов имитационного моделирования. Предлагаем обсудить математические методы исследования, использующие датчики псевдослучайных чисел. В нашем журнале предыдущая дискуссия о свойствах таких датчиков была проведена в 1985 - 1993 гг. (итоги подведены в ЗЛ 1993/7).
"Затравкой" дискуссии послужили статьи Ю.Д. Григорьева и А.И. Орлова (ЗЛ 2016/7). В первой из них рассмотрены задачи повышения эффективности вычислений методом Монте-Карло. Отмечено, что ключевую роль в их решении играют вопросы выбора объема статистических испытаний (количества моделируемых случайных чисел), а также качества соответствующих датчиков случайных чисел. Обсуждены проблемы реализации алгоритмов методов Монте-Карло, обусловленные требованиями повышения скорости сходимости асимптотических решений к истинным решениям.
В статье А.И. Орлова констатируется, что цель прикладной математической статистики - разработка методов анализа данных, предназначенных для решения конкретных прикладных задач. С течением времени подходы к разработке таких методов менялись. Сто лет назад принимали, что распределения данных имеют определенный вид, например, являются нормальными, и исходя из этого предположения развивали статистическую теорию. На следующем этапе на первое место в теоретических исследованиях выдвинулись предельные теоремы. Под «малой выборкой» понимают такую выборку, для которой нельзя применять выводы, основанные на предельных теоремах. В каждой конкретной статистической задаче возникает необходимость разделить конечные объемы выборки на два класса: для одного можно применять предельные теоремы, а для другого делать этого нельзя из-за риска получения неверных выводов. Для выбора границы часто используют метод Монте-Карло (статистических испытаний). Более сложные проблемы возникают при изучении влияния на свойства статистических процедур анализа данных тех или иных отклонений от исходных предположений. Такое влияние также часто изучают, используя метод Монте-Карло. Основная и пока не решенная в общем виде проблема при изучении устойчивости выводов при наличии отклонений от параметрических семейств распределений состоит в том, какие распределения использовать для моделирования. Сформулированы и другие нерешенные проблемы.
Подборка из трех статей опубликована в (ЗЛ 2017/3). О.И. Кутузов и Т.М. Татарникова рассмотрели две задачи, обусловленные особенностями применения имитационного моделирования при исследовании сложных технических систем. Одна из них связана с реализацией подхода к повышению эффективности метода Монте-Карло при моделировании редких событий: сочетание расслоенной выборки с равновзвешенным моделированием позволяет значительно ускорить алгоритмический анализ моделей стохастических систем методом имитации. Решение другой задачи выявило проблему, связанную с неадекватностью использования одного и того же датчика псевдослучайных чисел при сопоставлении выборочных значений очередей, полученных на имитационных моделях фрактальной и классической систем массового обслуживания.
И.З. Аронов и О.В. Максимова представили результаты статистического моделирования, характеризующие зависимость времени достижения консенсуса от числа членов технических комитетов по стандартизации (ТК) и их авторитарности. Использована математическая модель обеспечения консенсуса в работе ТК, основанная на модели, предложенной Де Гроотом. Проведен анализ основных проблем достижения консенсуса при разработке консенсусных стандартов в условиях предложенной модели. Показано, что увеличение числа экспертов ТК и их авторитарности негативно влияет на время достижения консенсуса и способствует разобщенности группы.
В связи с этой статьей А.И. Орлов проанализировал соотношение консенсуса и истины. Работа технических комитетов по стандартизации - одна из форм экспертных процедур, поэтому ее целесообразно рассматривать в рамках теории и практики экспертных оценок. Тогда проблема консенсуса - это проблема согласованности мнений членов комиссии экспертов. Однако цель работы экспертной комиссии - не достижение согласованности экспертов (консенсуса), а получение (в качестве коллективного мнения) выводов, отражающих реальность, обычно нацеленных на выработку обоснованных управленческих решений, короче говоря, на получение истины. Наблюдаем объективное противоречие между стремлением к выявлению истины и желанием обеспечить консенсус.
Столь интересно начатая дискуссия заслуживает продолжения и расширения круга обсуждаемых проблем. Предлагаем специалистам, развивающим и/или применяющим метода статистических испытаний (Монте-Карло), принять участие в дискуссии, рассказать о возникших проблемах и полученных научных результатах.

Литература
1. Орлов А.И. О новой парадигме математических методов исследования // Научный журнал КубГАУ. 2016. №122. С. 807–832.
2. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика.– Краснодар, КубГАУ. 2014. – 600 с.

Публикация (план):
Орлов А.И. Значение информационно-коммуникационных технологий
для математических методов исследования // Заводская лаборатория. Диагностика материалов. 2017. Т.83. №7. С. 5-6. (Колонка редколлегии).


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB