Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Ср авг 05, 2020 11:29 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 19 ] 
Автор Сообщение
 Заголовок сообщения: Какой метод прикладной статистики нужно применить?
СообщениеДобавлено: Вс янв 07, 2007 3:29 pm 
Не в сети

Зарегистрирован: Вс янв 07, 2007 3:26 pm
Сообщений: 7
У нас есть распределение F1 случайной величины по нормальному с закону с параметрами - k, qn, mn, dn (где k – количество компонент смеси, q- весовые коэффициенты, m – мат. Ожидания, d - дисперсии).

Конечная смесь F2 формируется следующим образом: случайным образом по закону F1 формируется какое –либо число и к нему прибавляется число либо S1 либо S2. К примеру вероятности S1=S2=0.5 а значения S1 и S2 м.б. 1 и 0).

В результате к нам поступает конечная смесь F2 с неизвестными нам параметрами, известно лишь значения S1 и S2 и их вероятности.

С помощью методов прикладной статистики оценки неизвестных параметров описанных в книг Айвазяна мне удалось довольно точно определить параметры конечной смеси F2 (k2, q2n, m2n, d2n).

Вопрос!!! Как определить параметры смеси F1, зная параметры конечного распределения F2 , значения S1, S2 и их вероятности.

Всем заранее спасибо!!!


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вс янв 07, 2007 4:15 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
Задача расщепления смесей (определения параметров смеси F2 (k2, q2n, m2n, d2n)) подробно разобрана еще в начале 70-х (О.В. Староверов, Н.Н. Апраушева и др.). Итоги даны в книге:
Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. - М.: Статистика, 1974.
Раздел о смесях писал О.В. Староверов.

Параметры смесей F1 и F2 (k2, q2n, m2n, d2n) связаны линейными уравнениями.
В случае "общего положения" в F2 вдвое больше элементов смеси, чем в F1, поскольку каждый элемент F1 порождает два элемента F2 путем двух сдвигов математического ожидания и разбиения весового коэффициента на два слагаемых.

Сама постановка вряд ли адекватна реальной ситуации, поскольку нормальных распределений в реальном мире не существует (см. соответствующие разделы учебников на сайте).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн янв 08, 2007 2:25 pm 
Не в сети

Зарегистрирован: Вс янв 07, 2007 3:26 pm
Сообщений: 7
Я ознакомлен с Вашими публикациями, и знаю ваше отношение к параметрической статистике, в частности к «подгонке» распределений к нормальному закону.

Вся загвоздка состоит в том, что в моём случае отойти от параметрики нельзя, потому что существующие алгоритмы обработки данных (в моем случае) строятся на том, что в них закладываются параметры распределения F1, и это реализовано аппаратно. Т.е. синтезируемые алгоритмы должны строится так, что бы они могли быть технически реализованы. Поэтому задача состоит в том что бы определить параметры распределения F1 для дальнейшей работы алгоритмов (алгоритмы обработки работают только с этими параметрами).

Параметры смесей F1 и F2 (k2, q2n, m2n, d2n) связаны линейными уравнениями.
В случае "общего положения" в F2 вдвое больше элементов смеси, чем в F1, поскольку каждый элемент F1 порождает два элемента F2 путем двух сдвигов математического ожидания и разбиения весового коэффициента на два слагаемых.

Да, процесс формирования распределения смеси F2 из смеси F1очевиден, но процесс определение параметров смеси F1, это немного другая задача, потому что компоненты смесей могут накладываться друг на друга и заранее неизвестно какие компоненты наложились, а какие нет (например мат ожидания распр. F2 = 1 2 3 4, S1=1, S2=0, здесь мат.ожидания F1 м.б. 1 2 3 либо 1 3). Если Вам известна методика оценивания неизвестных параметров смеси F1, то просьба поделится этой информацией. Заранее спасибо!!!


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт янв 09, 2007 10:22 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
Создается впечатление, что Вы не вникли в задачу.
Есть система уравнений, нужно ее решить. Решений может быть 0, 1, иное число.
Приведенные Вами данные
Цитата:
мат ожидания распр. F2 = 1 2 3 4, S1=1, S2=0, здесь мат.ожидания F1 м.б. 1 2 3 либо 1 3

неполны. Нет весов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср янв 10, 2007 10:28 am 
Не в сети

Зарегистрирован: Вс янв 07, 2007 3:26 pm
Сообщений: 7
Я сознательно не указал ни весов, ни сигм. Этот пример приведен для того что бы показать трудность использования систему линейных уравнений когда точно неопределенны мат.ожидания.

Ну хорошо! Тогда если ввести полные условия, тогда как будут выглядеть линейные уравнения по оценки весов, мат.ожиданий и сигм распределения F1?

Пример 1: F2 = 1 2 3 4, S1=1, S2=0, веса = 0.3 0.3 0.2 0.2 сигмы = 0.1 0.11 0.3 0.33(реальные параметры F1 мат.ож = 1 3 веса 0.6 0.4 сигмы = 01. 03)

Пример 2: F2 = 1 2 3 4, S1=1, S2=0, веса = 0.2 0.4 0.3 0.1 сигмы = 0.2 0.15 0.15 0.3(реальные параметры F1 мат.ож = 1 2 3 веса 0.5 0.3 0.2 сигмы = 0.2 01. 03)


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср янв 10, 2007 11:36 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
Так действуйте!
Напишите систему уравнений и решайте.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт янв 11, 2007 10:26 am 
Не в сети

Зарегистрирован: Вс янв 07, 2007 3:26 pm
Сообщений: 7
Система уравнений не всегда дает верные решения. Конечно, построить систему линейных уравнений можно, но она будет давать правильное решение лишь если параметры смеси F2 подобраны идеально. Но это невозможно, так как известно, что любой метод дает погрешность. Примером является пример № 1 указанный выше (при решении этой системы получаем мат.ожидания = 1 2 3 веса 0.45 0.25 0.3, хотя мат. ожид = 2 не существует)!

Для правильного решения необходимо установить в каких компонентах смеси F2 присутствует S1, в каких S2, а в каких обе присутствуют. Зная это мы можем автоматически вычислить мат ожидания распределения F1 и без проблем построить систему уравнений для вычисления весов.

Но как это сделать? Можно ли просто для каждой компоненты проверять две простые гипотезы: есть в этой компоненте S1 или нет, и есть в этой компоненте S2 или нет. И как это реализовать? А может это заблуждение и есть какой-либо другой способ решения этой задачи?...


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт янв 11, 2007 10:31 am 
Не в сети

Зарегистрирован: Вс янв 07, 2007 3:26 pm
Сообщений: 7
Доброе утро Александр Иванович!!!

Система уравнений не всегда дает верные решения. Конечно, построить систему линейных уравнений можно, но она будет давать правильное решение лишь если параметры смеси F2 подобраны идеально. Но это невозможно, так как известно, что любой метод дает погрешность. Примером является пример № 1 указанный выше (при решении этой системы получаем мат.ожидания = 1 2 3 веса 0.45 0.25 0.3, хотя мат. ожид = 2 не существует)!

Для правильного решения необходимо установить в каких компонентах смеси F2 присутствует S1, в каких S2, а в каких обе присутствуют. Зная это мы можем автоматически вычислить мат ожидания распределения F1 и без проблем построить систему уравнений для вычисления весов.

Но как это сделать? Можно ли просто для каждой компоненты проверять две простые гипотезы: есть в этой компоненте S1 или нет, и есть в этой компоненте S2 или нет. И как это реализовать? А может это заблуждение и есть какой-либо другой способ решения этой задачи?...


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт янв 11, 2007 11:59 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
1. Такую постановку задачи, как у Вас, я не встречал, поэтому сомневаюсь, что в литературе описано решение этой задачи. Придется Вам самому продвигаться.
Могу посоветовать обратиться в ЦЭМИ РАН к Староверову http://www.cemi.rssi.ru/rus/index.htm и к ВЦ РАН к Апраушевой (если она там еще работает). Через Интернет найдете их адреса электронной почты.

2. Целесообразно различать две задачи:
а) все параметры смеси F2 полностью известны;
б) параметры оцениваются по статистическим данным.

Каждый компонент смеси F1 расщепляется на два, и трудности возникают тогда, когда математическое ожидание одного из этих двух совпадает с математическим ожиданием иного компонента смеси F1. Если параметры оцениваются по статистическим данным, то вероятность такого совпадения равна 0.
Поэтому Ваши примеры описывают то, что с вероятностью 1 не может получиться в постановке б).

3. Насколько я понял, в рассмотренном Вами случае обратная задача имеет несколько решений. Одна и та же смесь F2 может быть получена, исходя из нескольких различных смесей F1. Такова реальность.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вс май 25, 2008 2:16 am 
Не в сети

Зарегистрирован: Вс май 25, 2008 2:11 am
Сообщений: 1
Откуда: ВЦ им. А.А. Дородницына РАН
Проф.А.И.Орлов писал(а):
Могу посоветовать обратиться в ВЦ РАН к Апраушевой (если она там еще работает). Через Интернет найдете их адреса электронной почты.

Я так и продолжаю работать в ВЦ им. А.А. Дородницына РАН. Но у меня проблемы с тем ящиком, который можно найти в Интернете, поэтому если нужна - пишите на pesikot-real@yandex.ru


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Метод подбора сходного множества объектов
СообщениеДобавлено: Пн авг 11, 2008 4:30 pm 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Здравствуйте, Александр Иванович и участники форума.

Позвольте с вами посоветоваться. Передо мной поставлена задача -нахождение множества объектов c n-м количеством параметров каждый, которое максимально "сродни" исходному заданному множеству объектов, каждый их которых имеет n численных параметров.

Вопрос, каким методом это лучше сделать? Важна скорость. Нужно 300-ам объектам (ссуды) найти максимальное количество соответствий по базе данных из 40000 тыс. объектов (другим ссудам). Одним из параметров была взята дата выдачи ссуды, думаю ее надо трансформировать в число - количество дней от 01.01.1900г.

У меня есть мысль, что надо использовать алгоритмы кластеризации. Зернами, причем жесткими, должны являться исходные объекты, вокруг которых надо по определенному критерию отсечь наиболее близкие к ним.

Что вы думаете?

С уважением, Борис.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт авг 12, 2008 7:33 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
Ваше описание противоречиво.
Начнем с примера - ссуды. Вполне естественно ввести расстояние в пространстве ссуд, а затем для каждого интересующего Вас объекта найти расстояния до объектов, имеющихся в базе (их 40000), упорядочить эти расстояния и взять объекты, самые близкие к исходному. Сколько? Возможны варианты. Но ясно, что все выделенные объекты должны быть ближе к исходному, а не к какому-либо иному из интересующих Вас объектов (из 300).
Чтобы сократить расчеты, можно сначала найти все попарные расстояния между 300 объектами, найти минимальное из них - пусть это число А. Тогда из базы (40000 объектов) брать те, для которых расстояние до интересующего Вас объекта не более А/2.
Можно построить 300 кластеров с "центрами" в 300 заданных точках, каждый объект из базы отнеся к тому из 300, к которому объект из базы ближе, чем к остальным 299.
Не ясно, что Вам надо - похожие объекты или же 300 кластеров в целом, или что-то иное..
Но ясно, что речь не о кластер-анализе, цель которого - разбить все объекты на группы схожих. Даже если применить метод k- средних с k=300, с центрами в заданных 300 объектов, то в результате итераций Ваши 300 объектов могут быть (частично) оттеснены на периферию.
Не ясно, как быть с тем, что число параметров у 300 объектов и у 40000 объектов различно.
Поскольку расстояние можно вводить разными способами, то естественно провести расчеты для нескольких расстояний, хотя бы двух, сравнить результаты и выделить общее.
Часто ссуды делят на группы, а вновь поступающую заявку относят к одному из классов. Это - задача диагностики (дискриминации, распознавания образов с учителем), а нее кластер-анализа.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср авг 13, 2008 9:51 am 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Добрый день.

Спасибо за ваши советы. Действительно речь не о кластерном разбиении, а о нахождении потенциально похожих по признакам ссуд неким образцам, выделении только близжайших по некому критерию.

Александр Иванович, какие виды расстояний вы бы посоветовали использовать?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср авг 13, 2008 10:51 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8986
Расстояний - много видов. Зависят от способа описания данных - вектора, бинарные отношения и др. См. соответствующие разделы в учебниках "Прикладная статистика", "Нечисловая статистика" http://orlovs.pp.ru/ .
Там же - системы аксиом, приводящие к тем или иным расстояниям. Дополнительная рекомендация - использовать не менее лвух расстояний и сравнить результаты.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт авг 15, 2008 4:58 pm 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Приветсвую вас!

Возникла следующая ситуация:
если ссуды-зерна очень похожи, радиус получается микроскопический, что ведет практически к невозможности отбора похожих ссуд по порфтелю.

Можно брать минимальный радиус вокруг зерна как как среднее половины расстояния среди зерен.

Как думаете?

С уважением, Борис


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Мысль
СообщениеДобавлено: Пн авг 18, 2008 4:57 pm 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Доброго времени суток!

Уважаемые форумчане, как вы думаете, можно ведь отбор ссуд производить какими-то вероятностными методами, в обход подсчета разного рода расстояний? Например, изучив и описав многомерный закон распределения по параметрам эталонных ссуд, производить выборку ссуд (случайную/неслучайную) и проверять их соответствие этому распределению. Будет ли это легче и(или) быстрее, чем ранее предложенным способом?

С уважением Борис


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Размерность времени выдачи
СообщениеДобавлено: Вт авг 19, 2008 12:53 pm 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Добрый день.

Появились такие мысли о том, как при вычислении "расстояния" между ссудами правильно учитывать период их выдачи.

Если брать элемент расстояния по периоду выдачи как ((Гзер - Гi)/Гзер)^2, где
Гзер - год выдачи эталонной ссуды-зерна,
Гi - год выдачи i-ой ссуды, сравниваемой с эталонной

то попеременно подставив значения 2006 и 2008 для двух величин, получим, что бОльший вклад в расстояние дает ситуация, когда Гзер<Гс, хотя важным является только то, насколько отличается год выдачи i-й ссуды от эталонного года, а не то, ранее или позднее они относительно друг друга.

Можно в знаменателе отношения брать среднее между Гзер и Гi. Это избавляет от чувствительности к хронологии собятий, но как понимаю уменьшает чувствительность при измерении расстояний.

Другой вариант - в знаменателе брать MAX(Гзер, Гi).

Сам я почему-то склоняюсь к выбору первого варианта, объяснить это научно я не могу.

Дорогие форумчане и Александр Иванович, какой вариант вы считаете подходящим лучше всего?

Всего вам доброго.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт авг 19, 2008 4:12 pm 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Как я теперь понял это касается любого другого параметра, при использовании квадратов типа [(Pi - Pj ) / Pi]^2. Получается надо все квадраты "относительных" расстояний расчитывать либо через отношение к среднему либо к максимальному значению.

Вопрос открыт, что лучше?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Мысли
СообщениеДобавлено: Чт авг 21, 2008 8:29 am 
Не в сети

Зарегистрирован: Пн авг 11, 2008 4:18 pm
Сообщений: 7
Доброе утро, дорогие коллеги :)

Хочу обсудить еще один аспект отбора. Для выделения главных факторов, влияющих на степень близости ссуды к зерну, я использую веса, в сумме дающие 1. Результат отбора не дал того, чего ожидал. Например год выдачи по большинству ссуд приходится не на наиболее частый среди "зёрен". В качестве радиуса брал среднее расстояние между зернами, поделенное на некий целочисленный коэф-т (10). Возможно надо итеративно менять этот коэффициент, чтобы добиться максимальной чувствительности на год выдачи. Пока смена коэффицеинта мало на что влияла.

Возникла мысль, что каждые элементарные "относительные расстояния" надо как-то нормировать пропорционально их дисперсиям (максимальным/минимальным отклонениям), поскольку они вносят разный вклад не смотря на веса. Также возможно необходимо делить не на максимум, а на минимум из сравниваемых значений, дабы повысить чувствительность к наиболее важным параметрам ...

С уважением, Борис


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 19 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 7


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB