Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Ср ноя 30, 2022 5:22 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
 Заголовок сообщения: Предисловия
СообщениеДобавлено: Сб окт 07, 2006 1:05 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 10465
В конце 2003 г. Российская ассоциация статистических методов начала работу над серией монографий «Статистические методы». В 2004 г. вышла первая книга серии: Новиков Д.А. Статистические методы в педагогических исследованиях (типовые случаи). М.: МЗ-Пресс, 2004. – 65 с. К сожалению, она пока является единственной. Закончена подготовка к изданию книги Н.А. Цейтлина «Из опыта аналитического статистика». Остается рукописью монография Э.М. Кудлаева «Разделимые статистики и их применение». Помещаем предисловия к этим двум книгам.
Несколько слов к читателю (вместо предисловия)

Книга Н. А. Цейтлина «Из опыта аналитического статистика» интересна, прежде всего, описанием «кухни» работы специалиста по анализу статистических данных.
Кому и для чего нужна эта книга? В своей профессиональной деятельности – инженеру, менеджеру, экономисту, научному работнику, практически любому специалисту приходится сталкиваться с необходимостью осознанно и квалифицированно применять методы анализа данных, основанные на теории вероятностей и статистике.
Читатель может использовать книгу Н. А. Цейтлина, по крайней мере, на трех уровнях. Сразу отметим, что предполагается знакомство читателя с вводным курсом «теории вероятностей и математической статистики», который читают математики студентам многих вузов на втором году обучения.
Первый уровень – знакомство с различными статистическими методами. Хотя есть много иных учебников (сотни и тысячи), старых и новых, с теоретическим уклоном или ориентированных на конкретную область применений – экономику, социологию или медицину. Но не всегда эти книги под рукой.
Второй уровень – описание решения конкретных прикладных задач. Таких публикаций мало, ибо мало специалистов, владеющих одновременно двумя областями, к примеру, прикладной статистикой и химической технологией. Много учебников написано, но мало рассказов о практической работе.
Обычно решению конкретных задач посвящены не монографии, а статьи в специальных журналах. К тому же чётко видны два уклона. Ориентированные на математику авторы используют прикладную область как источник примеров, причем интерпретация результатов расчетов является весьма наивной с точки зрения специалиста этой области. Если же статья написана химиком или врачом, то усечению подвергается математико-статистическая составляющая исследования. Иногда - до одной фразы: «Математические расчеты показали, что…».
Книга «Из опыта аналитического статистика» вполне соответствует названию. В ней описан опыт успешного решения важных прикладных задач.
Читатель! Вряд ли рядом с Вами лежит еще одна столь же полезная книга. Хватайте её – польза и удовольствие обеспечены!
Но есть и третий уровень. Рассказ профессионала о своей работе. О том, как, для чего и почему он это делает. Такие книги исключительны. Приходят на память несколько шедевров: Н. Винер «Я – математик» (именно так! – он никогда не называл себя «кибернетиком»), Н. Н. Моисеев «Математик задает вопросы…» и «Математика ставит эксперимент». Сопоставлю с книгой «Всё о жизни» писателя М. Веллера.
Мне больше всего интересен третий уровень в монографии Н. А. Цейтлина. Первые два мне понятны и привычны. А вот ради третьего – я и сам читаю про опыт аналитического статистика, и всем коллегам советую. Конечно, третий уровень не всем доступен. Сначала надо набрать необходимый интеллектуальный багаж, приобрести опыт размышлений и практической работы.
Старое и новое. Пройдут десятилетия, и появятся новые подходы к обработке данных, новые алгоритмы и технологии. Мода в математике не раз сменится. Но задачи-то, интересующие прикладников, останутся прежними!
Врач и учитель, крестьянин и инженер решают те же задачи, что и 50 лет назад. Достаточно взглянуть на содержание раздела «Математические методы исследования» журнала «Заводская лаборатория», в котором печатаются основные отечественные работы по статистическому анализу данных. И в 60-е годы, и сейчас – тематика та же! Меняются средства, инструменты решения задач, но не сами задачи. Поэтому нет ничего удивительного, что и сейчас актуальны книги середины ХХ-го века. Например, только что выпущено очередное издание «Курса теории вероятностей» Б. В. Гнеденко, впервые опубликованного в 1950 г.
Особенно верно сказанное для такой старой науки, как статистика. Первая известная нам публикация – это Библия, Книга Чисел. Там описана перепись военнообязанных, приведено их число – 603550. Чем отличаются нынешние отчеты официальной статистики? Только тем, что используются таблицы (в Ветхом Завете все шло сплошным текстом). В ХIХ-м веке таблицы умели строить не хуже, чем сейчас. Инструментарий официальной статистики не меняется третий век подряд.
Совсем иная ситуация в области статистических методов, которым посвящена книга «Из опыта аналитического статистика». Началом современного этапа считаем 1900 г., когда Карл Пирсон начал издавать журнал «Биометрика», посвященный статистическим методам в биологии. За первую половину ХХ-го века была создана та научная дисциплина, которая и до сих пор преподается под названием «теория вероятностей и математическая статистика».
А в 60-е годы начался современный этап. Он противоречив. С одной стороны, достижения предыдущего этапа «пошли в массы», стали применяться и преподаваться. С другой стороны, стали возникать новые методы и целые разделы статистики – статистика нечисловых данных, статистика интервальных данных…
Быстрое развитие сопровождается борьбой нового со старым. Например, параметрическая статистика, в которой предполагается, что результаты наблюдений (измерений, испытаний, опытов, анализов) имеют нормальное распределение или распределение из какого-либо иного параметрического семейства, вытесняется непараметрической статистикой, свободной от этих нереалистических предположений. Однако в учебниках по-прежнему говорят о распределениях Стьюдента и Фишера, которые существуют только в головах статистиков, а не в реальном мире.
Распространенные пакеты программ по статистике (SAS, SPSS и др.) соответствуют уровню научных исследований 50-70-х годов ХХ-го века, следовательно, отстают от переднего края исследований на 30-50 лет. Так что у каждого есть выбор – пользоваться стандартными, но устаревшими пакетами, либо потратить ресурсы, чтобы войти в мир современной статистики.
Книга Н. А. Цейтлина в мире статистики. Из сказанного ясно, что работы, выполненные 20 или 30 лет назад, отнюдь не устарели. В частности, они и сейчас могли бы быть опубликованы в научных изданиях. Точнее, представим себе мысленный эксперимент. Берется работа Н. А. Цейтлина тех лет, перепечатывается и направляется в подходящий по тематике журнал. Естественно сделать косметический ремонт – заменить фамилии авторов, название места их работы, чисто формально «омолодить» список литературы (например, ссылку на учебник Б. В. Гнеденко 1950 г. заменить ссылкой на его седьмое издание 2001 г.). Можно предсказать, что такая статья почти наверняка будет опубликована, причем не будет заметно выделяться на фоне других статей. И никто не обнаружит сдвига во времени.
Конечно, есть и прогресс. Если раньше для визуализации данных вручную наносили точки на миллиметровую бумагу, то сейчас естественно поручить компьютеру сделать это на экране монитора (опция «корреляционное поле»). А вот на каком компьютере и с помощью каких программ проведены расчеты, совершенно безразлично. Компьютеры и версии программных продуктов меняются часто, для определенности, – раз в пять лет, а время смены подходов и методов анализа данных – на порядок больше (для определенности – 50 лет).
По моей личной оценке, предыдущая статистическая парадигма сформирована в 50-60-х годах, а современная рождается сейчас, она отражена в моих учебниках «Прикладная статистика» (2006), «Эконометрика» (2002, 2003, 2004) и иных, представленных на сайте «Высокие статистические технологии» (http://orlovs.pp.ru).
В современной научно-технической литературе имеется много противоречащих друг другу подходов, утверждений и результатов. Встречаются и грубые ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам управления качеством продукции. Или в учебниках по т. н. «общей теории статистики», рекомендованных так называемым «министерством образования». Подробно об этом рассказано в названных выше наших учебниках.
Конечно, не собираюсь утверждать, что по многим вопросам анализа статистических данных «есть два мнения: одно – мое, другое – неправильное». Дискуссии продолжаются. Так, в ряде ситуаций практически работающему статистику приходится выбирать между двумя возможностями. Либо использовать методы на основе нереалистической гипотезы нормальности распределения результатов наблюдений, надеясь, что отклонения от нормальности незначительно отразятся на качестве выводов. Либо применять методы на основе асимптотических результатов математической статистики (обычно на основе центральной предельной теоремы теории вероятностей), предполагая, что объемы выборок достаточно велики, чтобы можно было пользоваться асимптотикой. Выбор субъективен!
Сформулируем основную проблему. Приходится обрабатывать данные, опираясь на предпосылки, которые практически всегда более или менее нарушаются. Причем не ясно, как эти нарушения влияют на качество выводов. Эта проблема подробно обсуждается в книге Н. А. Цейтлина.
Конечно, в каждом конкретном случае с помощью новых исследований удается продвинуться в решении этой проблемы. Однако в современной статистической теории имеется масса нерешенных задач. Например, неясно, каким методом проверять однородность двух независимых выборок. Это – одна из задач «цахкадзорской тетради», составленной нами в 1981 г. вместе с Н. Г. Загоруйко, с целью наметить пути перспективных научных исследований в области прикладной статистики.
За каждой решённой задачей встают десятки нерешённых. Поэтому аналитическая статистика – это не только наука, но и искусство.
Иногда возникают забавные коллизии. Сто лет назад сотрудник пивоваренного завода Госсет разработал метод проверки равенства математических ожиданий для двух выборок из нормальных распределений с одинаковыми дисперсиями. Хозяин завода, опасаясь проникновения конкурентов в «ноу-хау» своего предприятия, запретил Госсету публиковаться под своим именем. И он взял псевдоним «Стьюдент». Так появился всем известный критерий Стьюдента.
Особенно его полюбили медики. Не владея статистической теорией, они записали в своих методиках правила расчета, не обращая внимания на проверку предпосылок. И были правы, поскольку проверить нормальность по тем объемам данных, которые у них обычно есть, невозможно в принципе, а проверка равенства дисперсий – более сложная задача, чем проверка равенства математических ожиданий.
В 1987 г. я напечатал в «Вестнике Академии медицинских наук» статью, в которой показал, что при больших объемах выборок предположение нормальности не нужно (нужный эффект обеспечивается центральной предельной теоремой), а при равном или близком объеме выборок равенство дисперсий также не требуется. Другими словами, если объемы двух выборок достаточно велики (не менее нескольких десятков) и равны, то проверка равенства математических ожиданий с помощью критерия Стьюдента дает правильные результаты, независимо от того, выполнены ли предпосылки нормальности и равенства дисперсий или нет.
Но самое интересное началось через 10 лет. Нашелся деятель, который решил обыграть тот факт, что медики не обращают внимания на проверку предпосылок применимости критерия Стьюдента. Он решил собирать такие работы (т. е. большинство среди научных медицинских исследований) и помещать их в «кунсткамеру» как нарушителей правил статистического анализа. Мою упомянутую выше статью 1987 г. он поместил на свой сайт. Поэтому знал, что выводы в большинстве таких работ вполне обоснованы. Цель понятна – заставить медиков обратиться за консультациями. Ненаказуемый рэкет на научной основе!
Много интересного в мире статистики и статистиков. Книга «Из опыта аналитического статистика» занимает в нём достойное место. Наука и искусство аналитической статистики рассмотрены на основе личного опыта теоретической и прикладной работы на уровне, адекватном современному состоянию статистической науки.
Хорошо сделано! Несколько десятилетий я знаком с Н. А. Цейтлиным и его работами. Можно сказать, почти всю творческую жизнь рядом. Некоторые контакты отражены в тексте этой книги.
Одна из основных заслуг автора – разработка понятия АС (аналитический статистик), - содержания его работы. Я ведь тоже – аналитический статистик. Работал и работаю вместе с экономистами, социологами, стандартизаторами, медиками. Приятно читать книгу соратника. Тем более, написанную с такой заботой о читателе, превосходным литературным языком. Помогают пониманию отступления и эпиграфы, связь с этапами профессионального и жизненного пути автора.
Сначала я собирался комментировать страницу за страницей. Потом стало ясно, что на каждую страницу текста хочется написать по крайней мере столько же комментариев, и я загрустил. Впрочем, такая же ситуация складывалась и с рукописями некоторых других авторов.
Потом я решил рассматривать книгу Н. А. Цейтлина как одну среди ряда публикаций по статистической теории и практике. И тогда стало ясно, что нет необходимости обсуждать здесь преимущества непараметрической статистики по сравнению с гауссовскими моделями. Поскольку об этом много сказано в моих учебниках «Прикладная статистика», «Эконометрика» и других, представленных, в частности, и на вышеупомянутом сайте http://orlovs.pp.ru. Приглашаю заинтересованных читателей самостоятельно сопоставить содержание этих учебников и книги «Из опыта аналитического статистика».
Отмечу, что по многим вопросам мы с Н. А. Цейтлиным придерживаемся различных взглядов. Это касается как теоретических вопросов, так и оценки роли отдельных персон. Некоторые термины автор книги «Из опыта аналитического статистика» использует нестандартно, не так, как в моих учебниках, например, «шкала интервалов».
Есть у Н. А. Цейтлина много точек соприкосновения с другими исследователями. Один из моих учителей В. В. Налимов отстаивал необходимость развертывания системы статистических консультаций. Понятие «аналитический статистик» близко к понятию «консультант», но есть и различие. Консультант находится «снаружи» по отношению к консультируемой организации, его место работы – ВУЗ или специализированная организация. А «аналитический статистик» находится «внутри». Плюсы и минусы каждой из этих двух организационных схем очевидны. А вот содержание работы, требования к подготовке консультанта и аналитического статистика достаточно близки.
Приглашаю читателей творчески относиться к рассуждениям автора. Отталкиваться от его мыслей, формулировать своё видение обсуждаемой проблемы и путей её решения.
В добрый путь!


Президент Российской ассоциации статистических методов,
доктор технических наук, профессор
А. И. Орлов

3 сентября 2006 г.


Несколько слов о книге Э.М. Кудлаева
«Разделимые статистики и их применение»

Современные статистические методы - это набор высокоэффективных интеллектуальных инструментов. Эти инструменты постоянно применяются широкими массами специалистов различных областей науки и отраслей народного хозяйства для анализа конкретных данных. За массой учебной литературы и описаний программных продуктов не всегда заметны работы, посвященные развитию статистических методов как самостоятельной научной дисциплины. Но именно такие работы определяют будущее.
Книга Э.М. Кудлаева - весомый вклад в будущее развитие статистических методов. Она посвящена фундаментальному исследованию важного класса функций от результатов наблюдений (измерений, испытаний, опытов, анализов) - разделимым статистикам. Как показано в монографии, такие статистики широко используются в задачах оценивания и проверки гипотез.
В развитие теории разделимых статистик большой вклад внесли исследователи из Москвы, Санкт-Петербурга, Новосибирска, Ташкента, Киева, Петрозаводска, Минска, Твери, Красноярска и других научных центров, а также зарубежные специалисты. Их результаты отражены в монографии (404 литературные ссылки), хотя она посвящена, прежде всего, собственным результатам автора, полученным за последние десятилетия работы на механико-математическом факультете Московского государственного университета им. М.В. Ломоносова.
По стилю изложения книга Э.М. Кудлаева продолжает известную серию «Теория вероятностей и математическая статистика» издательства «Наука». Она предназначена для двух групп читателей - студентов-математиков и специалистов, интересующихся теорией вероятностей, математической статистикой и их приложениями.
Монография Э.М. Кудлаева относится к теоретическому «крылу» серии «Статистические методы». С удовольствием рекомендую ее читателям.

Президент Российской ассоциации статистических методов,
профессор, д.т.н.
А.И.Орлов


Последний раз редактировалось Проф.А.И.Орлов Сб дек 23, 2006 3:26 pm, всего редактировалось 1 раз.

Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Предисловия
СообщениеДобавлено: Сб окт 07, 2006 1:43 pm 
Не в сети

Зарегистрирован: Ср окт 04, 2006 10:05 am
Сообщений: 47
Удалено


Последний раз редактировалось Игорь Пн май 07, 2007 3:50 pm, всего редактировалось 1 раз.

Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб окт 07, 2006 2:25 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 10465
Медики часто применяют алгоритм расчетов, сответствующий критерию Стьюдента.
При этом они не проверяют нормальность и равенство дисперсий.

Так вот, они получают правильные результаты, если объемы двух выборок достаточно велики (не менее нескольких десятков) и равны:

Орлов А.И. О применении статистических методов в медико-биологических исследованиях. - Журнал "Вестник Академии медицинских наук СССР". 1987. No.2. С.88-94.
http://orlovs.pp.ru/stat.php#s3p3

Невежда в статистике В.П. Леонов совершенно напрасно помещает такие работы в "кунсткамеру". В камеру надо посадить его самого - за то, что необоснованно обвиняет этих медиков в неправильном применении статистических методов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб окт 07, 2006 3:58 pm 
Не в сети

Зарегистрирован: Ср окт 04, 2006 10:05 am
Сообщений: 47
Удалено


Последний раз редактировалось Игорь Пн май 07, 2007 3:51 pm, всего редактировалось 1 раз.

Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб окт 07, 2006 4:42 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 10465
Думаю, что многое уже сказано.
Советую прочитать в указанных Вам работах, к каким результатам приводит применение критерия Стьюдента. Там выписаны распределения критерия при нарушении предпосылок.
А также все это сказано в учебниках на сайте - для того они и выставлены.
Общие соображения приведены в теме http://forum.orlovs.pp.ru/viewtopic.php?t=97


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вс июн 10, 2007 9:40 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 10465
Предисловие к упомянутой книге Д.А. Новикова:

Новиков Д.А. Статистические методы в педагогических исследованиях (типовые случаи). М.: МЗ-Пресс, 2004. – 65 с.

Статистические методы - это набор инструментов научного работника. Одни инструменты предназначены для первичной обработки, другие - для более тонкой отделки. Одни используются чаще, другие - реже. Одни - современные, другие устарели. Но есть базовый набор, которым должен владеть каждый научный работник. Этот набор и представлен в книге Д.А. Новикова.
В настоящее время теория измерений - это базовая общенаучная теория, с которой должен быть знаком каждый научный работник. В книге рассмотрены основные шкалы измерения. Из них в педагогических исследованиях наиболее часто применяются шкалы порядка и отношений. На основе теории измерений дается обоснованная критика распространенной практике использования «среднего балла».
Изложение построено на основе выделенной автором структуры педагогического эксперимента. Создаются экспериментальная и контрольная группы. Проверяется отсутствие различий между ними. Затем в экспериментальной группе применяется исследуемая методика. А в контрольной - традиционная. Если в конечном состоянии группы различаются, то налицо эффект (превосходство) исследуемой методики.
В книге рассмотрены методы решения шести базовых задач. Для каждой из двух наиболее часто применяемых шкал измерения (порядковой и отношений) разобраны методы описания данных, проверки совпадения характеристик двух групп и установления различия двух групп. Приведены все необходимые формулы и алгоритмы расчетов. Нет необходимости обращаться к иной литературе - все есть в этой книге!
Однако статистические методы отнюдь не исчерпываются базовыми задачами. «Продвинутым» исследователям целесообразно обратиться к существенно более толстым сочинениям, многие из которых указаны в списке литературы. В частности, при различии групп в начальном состоянии может помочь технология стандартизации выборки. Более того, контрольная группа не всегда нужна, например, при изучении взаимосвязи признаков.
Наконец - самое важное. Настоящая книга полезна не только при проведении педагогических исследований. Столь же хорошо она может быть использована и в научных медицинских исследованиях. А также и в любых иных областях науки, отраслях народного хозяйства.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 12


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB