Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Чт мар 28, 2024 8:55 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 11 ] 
Автор Сообщение
 Заголовок сообщения: Статистические пакеты – инструменты исследователя
СообщениеДобавлено: Пт янв 18, 2008 1:25 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Журнал "Заводская лаборатория". 2008 (в печати)

Статистические пакеты – инструменты исследователя

А.И. Орлов

Проанализированы проблемы разработки, внедрения и использования статистических пакетов в России за последние 20 лет, дан критический анализ популярных в настоящее время пакетов в сопоставлении с результатами современных научных исследований, намечены перспективы развития работ в области статистического программного обеспечения.

Очевидно, что математические методы исследования, в том числе методы статистического анализа данных, требуют больших вычислений и зачастую невозможны без компьютеров. Продвинутое применение высоких статистических технологий [1] предполагает использование соответствующих программных продуктов. Статистические пакеты – постоянно используемые интеллектуальные инструменты исследователей, инженеров, управленцев, занимающихся анализом больших массивов данных.
Наш журнал неоднократно рассматривал вопросы разработки и применения статистических пакетов. Так, более 20 статистических пакетов, разработанных Всесоюзным центром статистических метолов и информатики (директор – А.И. Орлов), в том числе пакеты СПК, АТСТАТ-ПРП, СТАТКОН, АВРОРА-РС, ЭКСПЛАН, ПАСЭК, НАДИС, проанализированы в [2, 3]. Перечисленные семь пакетов рассмотрены также в [4]. Сравнительному анализу четырех диалоговых систем по статистическому контролю посвящена статья [5], и т.д.
Однако наряду с очевидной пользой статистические пакеты могут приносить вред неискушенному пользователю. Например, в них зачастую пропагандируется применение двухвыборочного критерия Стьюдента (много раз этот критерий упомянут в статье О.С.Смирновой в настоящем номере журнала), когда условия его применимости не проверены, а зачастую и не выполнены. Между тем хорошо известно, каковы последствия использования критерия Стьюдента вне сферы его применимости, а также и то, что применять его нет необходимости поскольку разработаны более адекватные критерии [6].
Другой пример. Малограмотность переводчиков в русифицированной версии MS Excel (по крайней мере в разделе «Анализ данных») шокирует специалиста по прикладной статистике: например, «объем выборки» именуется «счет». С сожалением приходится констатировать, что не соответствует современным требованиям и электронный учебник – обзор методов, реализованных в пакете STATISTICA6, о котором идет речь в статье О.С. Смирновой.
К сожалению, анализ допущенных в документации к пакету недочетов занял бы не меньше места, чем сама документация. В [2] продемонстрировано, насколько трудоемким оказался критический анализ всего лишь нескольких десятков ГОСТов по статистическим методам управления качеством. Это замечание касается, конечно, не только пакетов. Из одной публикации в другую кочуют одни и те же ошибки. Для разоблачения каждой нужна развернутая публикация. Например, распространенная ошибка при использовании критериев Колмогорова и омега-квадрат разобрана в статье [7], ошибочные утверждения о том, какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона, разоблачены в [8].
Основное противоречие в области разработки статистических пакетов таково. Те, кто программирует, не являются специалистами по прикладной статистике, поскольку это не входит в их профессиональные обязанности. С другой стороны, специалисты по статистическим методам не берутся реализовывать их в пакетах, поскольку такая работа, весьма трудоемкая и ответственная, обычно не соответствует их профессиональным устремлениям. Судя по опыту Всесоюзного центра статистических метолов и информатики, стоимость разработки (на профессиональном уровне) пакета среднего уровня сложности – порядка 70 тыс. руб. (в ценах 1990 г.), что соответствует 4,2 млн. руб. в ценах 2007 г. (индекс инфляции за 17 лет равен 60 при расчете по методике [9], гл.7). Это означает, что разработкой, распространением и сопровождением статистических пакетов должны заниматься специализированные на этом организации или подразделения.
В нашей стране активная работа по созданию развернутой системы отечественных статистических пакетов развернулась в 80-х годах [4]. Как уже отмечалось, только Всесоюзным центром статистических метолов и информатики было разработано более 20 программных продуктов по прикладной статистике и другим статистическим методам. Эта работа проводилась в рамках более широкого проекта, нацеленного на объединение усилий специалистов по статистическим методам с целью повышения эффективности теоретических и прикладных исследований. Важным промежуточным итогом было создание в 1990 г. Всесоюзной организации по статистическим методам и их применениям и Всесоюзной статистической ассоциации [10, 11]. Планы тех лет отражены в статье [12]. Итогом виделось создание (развертывание, организационное оформление) новой отрасли прикладной науки по образцу метрологии.
Развал СССР, либерализация цен и гиперинфляция начала 90-х положили конец рассматриваемому проекту. Из плана работ реализована только подготовка современных учебников [9, 13], составленных на основе статей, опубликованных в «Заводской лаборатории» (учебники выложены в свободном доступе на сайте «Высокие статистические технологии» http://orlovs.pp.ru). Предприятия и организации, лишившись оборотных средств из-за инфляции, перестали покупать статистические программные продукты, коллективы разработчиков распались, перестали поддерживать статистические пакеты в условиях быстрого обновления технических средств и базового программного обеспечения. В результате многообразие продуктов на отечественном рынке статистических пакетов резко сократилось, и монополистами оказались SPSS, STATISTICA, SNATGRAPHICS (и немногие другие), о которых идет речь в статье О.С. Смирновой.
На опасность бездумного применения статистических пакетов В.В. Налимов обращал внимание еще около 40 лет назад [14]. Он имел в виду прежде всего склонность к проведению расчетов без знакомства с сутью применяемых методов. Необходимо обратить внимание также на научно-технический уровень самих пакетов и сопровождающей документации. Дополнительно к сказанному в начале этой статьи приходится констатировать, что в популярных в настоящее время в России статистических пакетах нет примерно половины того, что разработано представителями отечественной вероятностно-статистической научной школы и включено в современные учебники [9, 13], подготовленные в соответствии с рекомендациями Всесоюзной статистической ассоциации и – позже - Российской ассоциации статистических методов. Сказанное легко проверить, сопоставив содержание указанных учебников и перечень методов, включенных в распространенные пакеты (см. статью О.С. Смирновой). Поэтому в МГТУ им. Н.Э. Баумана мы сознательно избегаем использования в учебном процессе перечисленных в статье О.С. Смирновой пакетов, чтобы не приучать студентов к статистике 60-70-х годов прошлого века. Однако, поскольку нет современных пакетов, приходится для практических расчетов использовать устаревшие программные продукты.
Тиражи пакетов и учебников сопоставимы. Пакет STATGRAPHICS имеет более 40 тыс. зарегистрированных пользователей, учебник [13] выпущен суммарным тиражом 6 тыс. экземпляров, электронную версию с сайта «Высокие статистические технологии» скачали 19 тыс. пользователей. Поэтому состав пакетов и качество документации имеют большое значение. Они во многом определяют качество прикладных научных работ и обоснованность хозяйственных решений.
Отметим, что по сравнению с 80-ми годами к настоящему времени наметился рост внимания к статистическим технологиям [1], а не только к их составляющим – конкретным методам обработки данных. В этом суть популярного ныне подхода Data Mining (на русском - «добыча данных», «интеллектуальный анализ данных»). Термин Data Mining введен эмигрантом из СССР Г. Пятецким-Шапиро в 1989 г. Задачи, решаемые Data Mining, – классификация, кластеризация, регрессия, ассоциация (поиск повторяющихся паттернов, например, поиск устойчивых связей) – это типичные задачи прикладной статистики. Новизна состоит в разработке технологий добычи данных путем решения ряда таких задач.
Еще более выражена отмеченная тенденция в технологии «Шесть сигм» [15], о которой идет речь в конце статьи О.С. Смирновой. Эта технология, первоначально позиционированная как «революционный метод управления качеством», основана на применении теории принятия решений [16] и прикладной статистики [13]. Мы ее рассматриваем как подход к совершенствованию бизнеса [17] и как новую систему внедрения математических методов исследования [18].
Итак, статистические пакеты – интеллектуальные инструменты, необходимые широким кругам научных работников, инженеров, менеджеров. Однако распространенные в настоящее время статистические программные продукты отстают от современного уровня научных исследований примерно на 30 лет. Весьма актуальна задача разработки статистических пакетов нового поколения, соответствующих современному научному уровню и одновременно обеспечивающих удобства пользователей, достигнутые в популярных ныне пакетах. Эта задача должна решаться одновременно с созданием систем обучения, сопровождения и внедрения пакетов нового поколения, в частности, в соответствии с технологиями типа «Шесть сигм».

Литература

1. Орлов А.И. Высокие статистические технологии / Заводская лаборатория. 2003. Т.69. No.11. С.55-60.
2. Орлов А.И. Сертификация и статистические методы (обобщающая статья) / Заводская лаборатория. 1997. Т.63. No.3. С. 55-62.
3. Орлов А.И. Внедрение современных статистических методов с помощью персональных компьютеров / Качество и надежность изделий. No.5(21). - М.: Знание, 1992, с.51-78.
4. Хохлов В.И. / Теория вероятностей и ее применения. 1990. Т.35. No.1. С.190-197.
5. Орлов А.И. Математическое обеспечение сертификации: сравнительный анализ диалоговых систем по статистическому контролю / Заводская лаборатория. 1996. Т.62. No.7. С.46-49.
6. Орлов А.И. О проверке однородности двух независимых выборок / Заводская лаборатория. 2003. Т.69. No.1. С.55-60.
7. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат / Заводская лаборатория. 1985. Т.51. No.1. С.60-62.
8. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона? / Заводская лаборатория. 1999. Т.65. No.1. С.51-55.
9. Орлов А.И. Эконометрика. Изд. 3-е, переработанное и дополненное. - М.: Изд-во "Экзамен", 2004. – 576 с.
10. Орлов А.И. О создании Статистической федерации СССР и Московской статистической федерации / Заводская лаборатория. 1990. Т.56. No.5. С.100-100.
11. Орлов А.И. Создана единая статистическая ассоциация / Вестник Академии наук СССР. 1991. No.7. С.152-153.
12. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов / Заводская лаборатория. 1992. Т.58. No.1. С.67-74.
13. Орлов А.И. Прикладная статистика. Изд. 2-е, переработанное и дополненное. - М.: Экзамен, 2007. - 672 с.
14. Налимов В.В. / О преподавании математической статистики экспериментаторам. Препринт Межфакультетской лаборатории статистических методов No.17. – М.: Изд-во Московского университета, 171. – С.5-39.
15. Панде П., Холп Л. Что такое «Шесть сигм»? Революционный метод управления качеством / Пер. с англ. - М.: Альпина Бизнес Букс, 2004. - 158 с.
16. Орлов А.И. Теория принятия решений. Изд. 2-е, переработанное и дополненное. – М: Экзамен, 2007. – 576 с.
17. Фалько С.Г., Орлов А.И. «Шесть сигм» как подход к совершенствованию бизнеса / Контроллинг. 2004. No.4(12). С.42-46.
18. Орлов А.И. «Шесть сигм» - новая система внедрения математических методов исследования / Заводская лаборатория. 2006. Т.72. No.5. С. 50-53.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вс июн 08, 2008 8:37 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Публикация:

Орлов А.И. Статистические пакеты – инструменты исследователя. - Журнал «Заводская лаборатория». 2008. Т.74. No.5. С.76-78.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Удивили...
СообщениеДобавлено: Пт сен 19, 2008 3:52 pm 
Не в сети

Зарегистрирован: Пт сен 19, 2008 3:32 pm
Сообщений: 1
Здравствуйте!

Многое из написанного Вами меня очень неприятно удивило.

Как можно говорить о невежественности кого-либо, считая, что современные стат. пакеты морально устарели чуть ли не в 70-м году?

К Вашему сведению, платформа SAS включает в себя едва ли не все самые мощные и современные статистические методы. Только не все об этом знают, по той простой причине, что на изучение пакета могут уйти годы. Потому что возможности такие же огромные. С конца 60-х годов, как его начали разрабатывать в Кери, в Университете Северной Каролины, пакет совершенствовался и очень скоро стал, пожалуй, мощнейшей и не имеющей аналогов платформой.

Говорить о Statistica и SPSS в таком же ключе - по меньшей мере непрофессионально.

Почему в Бауманке не "дают" эти пакеты? Отнюдь причина не в том, что эти пакеты устарели. Причина в другом. Их несколько: деньги, квалификация преподавателей. И очень жаль, что не преподают статистику с вовлечением этих средств автоматизации вычислений. Как еще можно обработать большие массивы данных? Поэтому и существует такая проблема, что выпускники не знают, как на практике применить полученные знания, т.к. методы они знают, но не могут это применить на реальных данных, потому что на занятиях они у доски считали все на выборках размера 10-20 обследований, на модельных задачах. А ведь теорию-то дают на высоком научном уровне! У нас полно классных преподавателей.

Вот вам, господа профессоры, направление - совместите глубокие теоретические знания и навыки компьютерной обработки данных. Таким образом вы подготовите современных и нужных специалистов.
На западе с этим проблем как раз нет. Полно университетов, готовящих выпускников с хорошей теоретической подготовкой. И почему-то в нашей стране некоторые вещи упорно не включаются в программы подготовки экономистов, математиков. Я по образованию математик, но за все свое время обучения так и не слышал из уст преподавателей про логит, пробит, SVM, нейросети и пр. пр. Извините, что немного пришлось пожонглировать терминами. Все эти вещи приходилось изучать самому, сначала по зарубежным книгам, а затем уже по переведенным и "профанским" публикациям.

Помимо прочего, на вашем месте мне было бы стыдно на каждом шагу рекламировать свои учебники. Это некрасиво.

Сайт и материалы меня поначалу заинтересовали, но, познакомившись с Вашими материалами, стало понятно, что так наша наука тоже далеко не уйдет... И это ваше самолюбование... бр-р... Извините.

С уважением, Дмитрий.

Выпускник МГТУ им. Баумана.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 19, 2008 5:03 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Dmitry говорят - пакеты (имярек) устарели. Dmitry это не нравится. Разве трудно проверить? Достаточно взять современный учебник и посмотреть, какие методы из этого учебника есть в обсуждаемых пакетах.
Но вместо этого Dmitry занимается демагогией, демонстрируя свое знакомство с "новостями" тридцатилетней (и более) давности:
Цитата:
логит, пробит, SVM, нейросети

Констатируем: Dmitry - типовой невежда и болтун. Второе вытекает из первого - надо же прикрыть свое невежество.
Констатируем и низкопоклонство перед Западом.
Очень жаль, что среди выпускников МГТУ им. Баумана встречаются столь умственно убогие. Пожалеем его - Dmitry всегда будет среди отстающих.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср янв 21, 2009 1:57 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
На сайте МГТУ им. Баумана http://www.ibm.bmstu.ru/nil/biblio.html#stats-29-instr


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб июн 13, 2009 5:20 am 
Не в сети

Зарегистрирован: Вс июн 07, 2009 10:19 am
Сообщений: 2
Проблема зарубежных пакетов в том, что алгоритмы их "запаяны". Например, в модуле кластерного анализа Statistica вам дадут рассчитывать только той мерой, которая есть в списке, причём там одни расстояния. В биологии активно используются меры сходства - я промолчу как надо выкручиваться чтобы считать свои данные.

Конечно современные пакеты весьма далеки от идеала, но к сожалению не распространены (существуют ли?) другие программы.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вс июн 14, 2009 12:41 am 
Не в сети

Зарегистрирован: Вс июн 14, 2009 12:21 am
Сообщений: 1
Всё дело в том, что действительно современные статистические пакеты - это уже не проприетарные продукты с "запаянным" содержимым, вроде STATISTICA или SPSS - а пакеты с открытым исходным кодом и открытой архитектурой, как, например, R. Они ориентированы на то, что сообщество пользователей само расширяет их функциональность, в том числе и новейшими методами. Каждый исследователь может создать модуль, реализующий ТОЛЬКО функциональность функциональность изобретённого им же метода. Это абсолютно реальная задача, не требующая столь уж крупных капиталовложений.

По поводу преподавания на Западе: да, там уделяется больше внимания практическим навыкам студентов. Но теоретическое понимание методов у них хуже. И это факт. А с другой стороны: что нужно, чтобы изучить статистическую программу? Пару вечеров. А что нужно, чтобы понимать статистические технологии? Для этого нужно отучиться в приличном вузе. А тогда у кого больше интеллектуальный потенциал: у нас или на Западе? Решайте сами...


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт окт 08, 2009 2:02 pm 
Не в сети

Зарегистрирован: Пн авг 24, 2009 9:25 pm
Сообщений: 13
Dmitry
А разве в мгту баумана не вышла книжка МЕТОДЫ ТЕОРИИ
АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ Егупова и др.? Там были нейросети. А логит и пробит можно найти в любом западном курсе эконометрики для экономистов. Если вы математик, то это вам понять очень легко. Так зачем оскорблять тех, кто вас учил?


Последний раз редактировалось mishuko Вт окт 13, 2009 9:49 pm, всего редактировалось 1 раз.

Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт окт 08, 2009 7:21 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Да, в опусах по убогой эконометрике рассказывают про логит и пробит http://forum.orlovs.pp.ru/viewtopic.php?t=552 . Хотел бы я узнать хотя бы об одном практическом (в российском компании) использовании этих подходов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт окт 08, 2009 9:51 pm 
Не в сети

Зарегистрирован: Пн авг 24, 2009 9:25 pm
Сообщений: 13
Александр Иванович, Дмитрию пригодилось. Стало быть, одному человеку понадобилось в России. Где-то читал ,что изобретение этих самых л. и п. - одно из главных достижений эконометрики)))


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт окт 09, 2009 3:04 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Из текста Дмитрия следует, что он ЧИТАЛ про логит и пробит, но не следует, что он ИСПОЛЬЗОВАЛ их при решении каких-либо реальных задач.
Цитата:
Где-то читал ,что изобретение этих самых л. и п. - одно из главных достижений эконометрики)))

Интересно, кто же так высказался. Я эти методы не включаю в курс эконометрики, поскольку не считаю важными.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 86


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB