Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 08, 2019 11:47 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 11 ] 
Автор Сообщение
 Заголовок сообщения: Группирование наблюдений
СообщениеДобавлено: Чт сен 06, 2007 2:43 pm 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Здравствуйте, Александр Иванович!


Я хотел бы проконсулитьроваться с Вами, по вопросу каким наилучшим методом оценить наличие выбросов в наборе данных. На данный момент остановился на методе Граббса. Проблема в том, что неизвестно распределение и анализировать надо большое число различных наборов данных (маленьких по объему). Я читал, что для улучшения оценки набора данных, используют методы группирования (в частности, асимпототическое оптимальное группирование) насколько это оправдано. Наборы данных содержат от 5 до 7 наблюдений на данный момент.

P.S. Я не компетентен в этом вопросе, поэтому по возможности, поправьте меня.

Заранее благодарю


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт сен 06, 2007 6:38 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8603
См. учебник "Эконометрика" http://orlovs.pp.ru пп. 4.1 и 4.2


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 14, 2007 12:13 pm 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Спасибо, большое.
Я ознакомился с материалами. Меня заинтресовали непараметрические методы проверки однородности для случая, когда выборок больше чем 2. Насколько я понимаю применение критерия Фишера, не допустимо в случае, когда распределение неизвестно и может отличаться от нормального.

Еще очень интересно почитать более подробно про метод проверки однородности Лемана-Розенблатта. Вы не подскажите, где более подробно можно ознакомиться с этим методом?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 14, 2007 5:59 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8603
1. Пишете:
Цитата:
Меня заинтересовали непараметрические методы проверки однородности для случая, когда выборок больше чем 2.

См.
Холлендер М., Вульф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983. - 518 с.
Главы 6 и 7 посвящены непараметрическому дисперсионному анализу, т.е. методам проверки однородности для случая, когда выборок больше чем 2.
Цитата:
Насколько я понимаю применение критерия Фишера, не допустимо в случае, когда распределение неизвестно и может отличаться от нормального.

Вы правы. Хорошо известно, что критерий Фишера чувствителен к отклонениям от нормальности.
Этой тематикой (непараметрическим дисперсионным анализом) занимался Дмитрий Семенович Шмерлинг
http://www.indem.ru/persons/pers_shmerling.html
http://new.hse.ru/C4/C6/shmerling-d-s/default.aspx
Можно к нему обратиться.
2. В ответ на
Цитата:
Еще очень интересно почитать более подробно про метод проверки однородности Лемана-Розенблатта. Вы не подскажите, где более подробно можно ознакомиться с этим методом?

посылаю главу из новой книги, в которой подробнее рассказано о критерии Лемана-Розенблатта. Буду благодарен за хзамечания, которые позволят улучшить текст.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб сен 15, 2007 7:58 am 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Благодарю Александр Иванович за предоставленную информацию и Вашу помощь.

Цитата:
Этой тематикой (непараметрическим дисперсионным анализом) занимался Дмитрий Семенович Шмерлинг
http://www.indem.ru/persons/pers_shmerling.html
http://new.hse.ru/C4/C6/shmerling-d-s/default.aspx
Можно к нему обратиться.


Последовал Вашему совету. Что касается книги: Холлендер М., Вульф Д. Непараметрические методы статистики, пока не могу найти в интернете.

Александр Иванович, возникла такая ситуация: имеется выборка 5-6 значений, и имеется значение, которое предположительно, должно принадлежать данному распределению. Закон распределения неизвестен. Какой анализ, я могу провести с данным значением и имеющейся выборкой? Могу ли я оценить на выброс это значение методом Граббса, если оно минимальное или максимальное для данной выборки? Опять же у меня вызывает сомнение в применении этого метода, так как неизвестен закон распределения. Можно оценить попадание в доверительный интервал, опять же неизвестен закон распределения. Правильно ли будет, если я построю асимптотический доверительный интервал и оценю попадание в него?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб сен 15, 2007 11:57 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8603
См. учебник "Эконометрика" http://orlovs.pp.ru п. 4.2

Кроме того:
Цитата:
Можно оценить попадание в доверительный интервал, опять же неизвестен закон распределения. Правильно ли будет, если я построю асимптотический доверительный интервал и оценю попадание в него?

Не понял, о каком доверительном интервале речь?

В учебнике "Эконометрика" http://orlovs.pp.ru п. 4.2 предлагается применить неравенство Чебышёва.
Но главное - соображения из содержательной области. От статистических методов при таком малом числе наблюдений - 6 - толку мало.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт сен 18, 2007 3:53 pm 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Цитата:
Не понял, о каком доверительном интервале речь?


Извиняюсь, немного путанно изложил. Речь идет об интервале математического ожидания в п. 4.3 уче6ника эконометрика. В контексте своей проблемы я хотел построить интервал мат ожидания и оценить попадание или непопадание величины. Правильно ли это будет?

Цитата:
От статистических методов при таком малом числе наблюдений - 6 - толку мало.


Я прекрасно, это пониманию, хочу построить адекватную модель, которая будет уточняться по мере добавления в нее новых данных.

Цитата:
В учебнике "Эконометрика" http://orlovs.pp.ru п. 4.2 предлагается применить неравенство Чебышёва.


Я не нашел в этом пункте 4.2 прямой ссылки на неравенство Чебышёва. Уточните пожалуйста.

Спасибо, Александр Иванович


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт сен 18, 2007 4:44 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8603
1. Доверительный интервал для математического ожидания, а также для дисперсии и других характеристик можно строить по п.4.3 учебника "Эконометрика".

2. Про неравенство Чебышева, прошу прощения, говорится не в "Эконометрике", а в "Математике случая", гл.6 (см. сайт). Цитирую оттуда:

Цитата:
Если функция распределения результатов наблюдений F(x) известна, то критическое значение d находят из соотношения (2). Если F(x) известна с точностью до параметров, например, известно, что F(x) – нормальная функция распределения, то также разработаны правила проверки рассматриваемой гипотезы [8].
Однако часто вид функции распределения результатов наблюдений известен не абсолютно точно и не с точностью до параметров, а лишь с некоторой погрешностью. Тогда соотношение (2) становится практически бесполезным, поскольку малая погрешность в определении F(x), как можно показать, приводит к большой погрешности при определении критического значения d из условия (2), а при фиксированном d уровень значимости критерия может существенно отличаться от номинального [2].
Поэтому в ситуации, когда о F(x) нет полной информации, однако известны математическое ожидание М(Х) и дисперсия σ2 = D(X) результатов наблюдений X1, X2 , , Xn, можно использовать непараметрические правила отбраковки, основанные на неравенстве Чебышёва. С помощью этого неравенства найдем критическое значение d = d(α,n) такое, что

Так как

то соотношение (3) будет выполнено, если
(4)
По неравенству Чебышёва
(5)
поэтому для того, чтобы (4) было выполнено, достаточно приравнять правые части формул (4) и (5), т.е. определить d из условия
(6)
Правило отбраковки, основанное на критическом значении d, вычисленном по формуле (6), использует минимальную информацию о функции распределения F(x) и поэтому исключает лишь результаты наблюдений, весьма далеко отстоящие от основной массы. Другими словами, значение d1, заданное соотношением (1), обычно много меньше, чем значение d2, заданное соотношением (6).


Прощу прощения - формулы не скопировались.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт сен 20, 2007 10:02 am 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Спасибо Александр Иванович!

Хотел бы уточнить: с помощью неравенства Чебышева, можно оценить, является ли максимальное значение промахом или нет, т.е. минимальное оценить нельзя? Или в "Математике случая" рассмотрен только вариант оценки максимального значения?

А оценка методом Граббса не используется, так как он чувствителен к закону распределения? Мне он приглянулся он, так как с помощью него можно оценить сразу на выброс и минимум и максимум, или максимум и соседнее (к масимуму) значение. Встречались сведения, что если оценить всю выборку сразу, можно даже оценить с помощью метода Граббса наличие систематической ошибки во всем наборе данных. Хотелось бы услышать, Ваше мнение Александр Иванович!


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт сен 20, 2007 10:14 am 
Не в сети

Зарегистрирован: Чт сен 06, 2007 2:28 pm
Сообщений: 12
Александр Иванович, для неравенства Чебышева, в "Математике случая" критическое значение получается: d=(станд отклонение*корень из числа экспериментов)/на корень из альфа. Альфа в данной формуле - это доверительная вероятность в относительных величинах? Например а=0,95. Упустил из внимание, чем является эта величина.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт сен 20, 2007 5:24 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 8603
1. Если Вы поменяете знак у всех рассматриваемых величин (замените Х на (-Х)), то минимум перейдет в максимум, а максимум - в минимум. Поэтому в "Математике случая" рассмотрен только случай максимума.
Для случая минимума критическая область имеет вид {x: x <= - d}, а d - то же, что и в формуле (6).

2. "Альфа" - это уровень значимости (см. в "Математике случая" кусок ранее процитированного). Например, "альфа" = 0,05.

3. Термин "критерий Граббса" относится к ситуации, когда заранее известно, что распределение результатов измерений является нормальным. Мы не рекомендуем его использовать,
Цитата:
так как он чувствителен к закону распределения

(см. п.4.1 "Эконометрики"). Есть ряд вариантов этого критерия. Насколько помню, Вы правы:
Цитата:
с помощью него можно оценить сразу на выброс и минимум и максимум, или максимум и соседнее (к масимуму) значение.
Но только в предположении нормальности.
Однако
Цитата:
оценить с помощью метода Граббса наличие систематической ошибки во всем наборе данных
вряд ли можно. Предположим, ко всем результатам наблюдений прибавили одно и то же число 132,24. Статистическими методами обнаружить это нельзя. Разве что есть внешняя информация. Например, о том, что наблюдения должны лежать между 0 и 1. Но обнаружение выбросов к этому случаю применить нельзя.
Впрочем, надо анализировать конкретные тексты рекомендаций.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB