Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Пт янв 18, 2019 2:15 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 9 ] 
Автор Сообщение
 Заголовок сообщения: Математические методы классификации
СообщениеДобавлено: Пт июн 29, 2012 9:37 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8016
Предлагаем новую статью А.И. Орлова «О развитии математических методов теории классификации». Статья посвящена обзору математических методов построения и использования классификаций. Рассмотрены основные подходы к решению задач кластер-анализа и группировки. Предложены глобальные и локальные критерии естественности классификации. Методы дискриминантного анализа (диагностики, распознавания образов с учителем) обсуждаются в связи с проблемами построения обобщенных показателей (рейтингов).



О развитии математических методов теории классификации

А.И. Орлов

Кафедра теории классификации Международного университета междисциплинарных знаний

1. Введение. Основные понятия

Термин «классификация» имеет несколько основных смысла. Во-первых, это система классов. Во-вторых, это действие, связанное с системой классов. Согласно [1, с.6] «термином «классификация» обозначают, по крайней мере, три разные вещи: процедуру построения классификации (выделение классов – А.О.), построенную классификацию (систему выделенных классов – А.О.) и процедуру ее использования (например, правила отнесения вновь поступающего объекта к одному из ранее выделенных классов –А.О.)» Выделим естественную триаду: построение классификаций – их изучение – и применение, в соответствии с которой упорядочим анализ задач классификации.
Математическая теория классификации – обширная область прикладной статистики и эконометрики [2, 3]. Какие научные исследования относить к этой теории? Исходя из потребностей специалиста, применяющего математические методы классификации, целесообразно принять, что сюда входят исследования, во-первых, отнесенные самими авторами к этой теории; во вторых, связанные с ней общностью тематики, хотя бы их авторы и не упоминали термин «классификация». Это предполагает сложную внутреннюю структуру рассматриваемой научной области.
Следует иметь в виду, что в литературе наряду с термином «классификация» в близких смыслах используются термины «группировка», «распознавание образов», «диагностика», «дискриминация», «сортировка», «типология», «таксономия» и др. Терминологический разнобой связан прежде всего с традициями научных кланов, к которым относятся авторы публикаций, а также с внутренним делением самой теории классификации.
В научных исследованиях по современной теории классификации можно выделить два относительно самостоятельных направления. Одно из них опирается на опыт таких наук, как биология, география, геология, и таких прикладных областей, как ведение классификаторов продукции и библиотечное дело. Типичные объекты рассмотрения - классификация химических элементов (таблица Д.И. Менделеева), биологическая систематика, универсальная десятичная классификация публикаций (УДК), классификатор товаров на основе штрих-кодов. Опыт этого направления с гносеологических позиций обобщен в [1], соответствующий математический аппарат приведен в [4, 5].
Другое направление опирается на опыт технических исследований, экономики, маркетинговых исследований, социологии, медицины. Типичные задачи - техническая и медицинская диагностика. А также, например, разбиение на группы отраслей промышленности, тесно связанных между собой, выделение групп однородной продукции. Обычно используются такие термины, как «кластер-анализ», «распознавание образов» или «дискриминантный анализ». [6]. Краткое осмысление опыта и современного состояния этого направления дано в [7].
Это направление обычно опирается на математические модели; для проведения расчетов интенсивно используется ЭВМ. Однако относить его к математике столь же нецелесообразно, как астрономию или квантовую механику. Рассматриваемые математические модели можно и нужно изучать на формальном уровне, и такие исследования проводятся. Но направление в целом сконцентрировано на решении конкретных задач прикладных областей и вносит вклад в технические или экономические науки, медицину, социологию, но, как правило, математики не рассматривают полученные научные результаты как вклад в математику.
В 60-х годах XX века внутри прикладной статистики (в понимании этой науки, раскрытом в [2, 8, 9]) достаточно четко оформилась область, посвященная методам классификации. Несколько модифицируя формулировки М. Дж. Кендалла и А. Стьюарта 1966 г. (см. русский перевод [10, с.437]), в теории классификации выделим три подобласти: кластеризация (кластер-анализ) и группировка, статистический анализ классификаций, дискриминация (дискриминантный анализ). Опишем эти подобласти.
При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, типология, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы «группируются» или распадаются на изолированные «скопления», «кластеры» (от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.
При группировке, наоборот, «мы хотим разбить элементы на группы независимо от того, естественны ли границы разбиения или нет» [10, с.437]. Цель по-прежнему состоит в выявлении групп однородных объектов, сходных между собой (как в кластер-анализе), однако «соседние» группы могут не иметь резких различий (в отличие от кластер-анализа). Границы между группами условны, не являются естественными, зависят от субъективизма исследователя. Аналогично при лесоустройстве проведение просек (границ участков) зависит от специалистов лесного ведомства, а не от свойств леса.
Задачи кластеризации и группировки принципиально различны, хотя для их решения могут применяться одни и те же алгоритмы. Важная для практической деятельности проблема состоит в том, чтобы понять, разрешима ли задача кластер-анализа для конкретных данных или возможна только их группировка, поскольку совокупность объектов достаточно однородна и не разбивается на резко разделяющиеся между собой кластеры.
Как правило, в математических задачах кластеризации и группировки основное - выбор метрики, расстояния между объектами, меры близости, сходства, различия. Хорошо известно, что для любого заданного разбиения объектов на группы и любого числа  > 0 можно указать метрику такую, что расстояния между объектами из одной группы будут меньше , а между объектами из разных групп - больше 1/. Тогда любой разумный алгоритм кластеризации даст именно заданное разбиение. Поэтому весьма важен выбор метрики, адекватной решаемой прикладной задаче. Некоторые подходы к выбору расстояния в задачах классификации рассмотрены в обзоре [11].
В дискриминантном анализе классы предполагаются заданными - плотностями вероятностей или обучающими выборками. Задача состоит в том, чтобы вновь поступающий объект отнести в один из этих классов. У понятия «дискриминация» имеется много синонимов: диагностика, распознавание образов с учителем, автоматическая классификация с учителем, статистическая классификация и т.д. Для построения системы диагностических классов используют разнообразные методы кластерного анализа и группировки объектов.
Наименее известен второй член триады (отсутствующий у Кендалла и Стьюарта [10]) – изучение отношений эквивалентности, полученных в результате построения системы диагностических классов. Например, эксперты разбивают объекты экспертизы на группы схожих между собой. Ответ каждого из них – классификация (т.е. разбиение на классы исходного множества объектов экспертизы, в другой терминологии – отношение эквивалентности). Как построить итоговое мнение комиссии экспертов? Статистический анализ отношений эквивалентности - часть статистики бинарных отношений и тем самым - статистики объектов нечисловой природы [2, 12]. Помимо общих результатов этой области прикладной статистики, представляют интерес частные результаты, полученные специально для отношений эквивалентности [13].
Диагностика в узком смысле слова (процедура использования классификации, т.е. отнесения вновь поступающего объекта к одному из выделенных ранее классов) - предмет дискриминантного анализа. Отметим, что с точки зрения статистики объектов нечисловой природы дискриминантный анализ является частным случаем общей схемы регрессионного анализа, соответствующим ситуации, когда зависимая переменная принимает конечное число значений, а именно - номера классов, а вместо квадрата разности стоит функция потерь от неправильной классификации []. Однако есть ряд специфических постановок, выделяющих задачи диагностики среди всех регрессионных задач.

2. Основные постановки задач построения классификаций

Процедуры построения диагностических правил делятся на вероятностные и детерминированные. К первым относятся задачи расщепления смесей [15-17]. В них предполагается, что распределение вновь поступающего случайного элемента является смесью вероятностных законов, соответствующих диагностическим классам. Как и при выборе степени полинома в регрессии [2, 18], при анализе данных о веществах и материалах встает вопрос оценки числа элементов смеси, т.е. числа диагностических классов. Нами изучены результаты применения обычно рекомендуемого критерия Уилкса для оценки числа элементов смеси. Оказалось [19], что оценка с помощью критерия Уилкса не является состоятельной, асимптотическое распределение этой оценки – геометрическое, как и в случае задач восстановления зависимости [2, 18]. Итак, продемонстрирована несостоятельность обычно используемых оценок. Для получения состоятельных оценок достаточно связать уровень значимости в критерии Уилкса с объемом выборки, как это предложено в работах [20, 21] для задач регрессии.
В рамках задач расщепления смесей важно обратить внимание на одно распространенное заблуждение. Иногда рекомендуют сначала построить систему диагностических классов, а потом в каждом диагностическом классе отдельно проводить регрессионный анализ (в классическом смысле) или применять иные методы многомерного статистического анализа. Однако необходимо подчеркнуть, что при этом нельзя опираться на вероятностную модель многомерного нормального распределения, так как распределения результатов наблюдений, попавших в определенный кластер, будут отнюдь не нормальным, а усеченным нормальным (усечение определяется границами кластера), как это подробнее разъяснено в статье [19].
Перейдем к детерминированному случаю. Как уже отмечалось, задачи построения системы диагностических классов целесообразно разбить на два типа: с четко разделенными кластерами (задачи кластер-анализа) и с условными границами, непрерывно переходящими друг в друга классами (задачи группировки). Такое деление полезно, хотя в обоих случаях могут применяться одинаковые алгоритмы [22 - 25].
Сколько существует алгоритмов построения системы диагностических правил? Иногда называют то или иное число. На самом же деле их бесконечно много.
Действительно, часто применяется т.н. агломеративный иерархический алгоритм «Дендрограмма», в котором вначале все элементы рассматриваются как отдельные кластеры, а затем на каждом шагу объединяются два наиболее близких кластера. Для работы «Дендрограммы» необходимо задать правило вычисления расстояния между кластерами. Оно вычисляется через расстояние d(x,у) между элементами х и у. Поскольку da(x,y) при 0 < a < 1 также расстояние, то каждому значению а соответствует свой алгоритм.
Расстояние между кластерами рассчитывается как средняя связь (отсюда и еще название – алгоритм средней связи), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй. После ряда шагов все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), т.н. «Дендрограмму». Из нее можно выделить кластеры разными способами. Один подход - исходя из заданного числа кластеров. Другой - из соображений предметной области. Третий - исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения – значит, оно отражает реальность). И т.д.
Каким из бесконечного (континуального) семейство алгоритмов средней связи пользоваться при обработке данных? Дело осложняется тем, что практически в любом пространстве мер близости различных видов существует весьма много [11]. Именно в связи с обсуждаемой проблемой следует указать [26] на принципиальное различие между кластер-анализом и задачами группировки.
Если классы реальны (в соответствии с определением, данным в [19]), естественны, существуют на самом деле, четко отделены друг от друга, то любой алгоритм кластер-анализа их выделит. Следовательно