Из шести приведенных по указанному адресу книг четыре - это опусы Катышева-Магнуса-Пересецкого и Анатольева, и по объему - 2/3 на эти опусы приходится.
Во всех этих опусах охват эконометрических методов, нужных для практической работы экономиста и менеджера, не превышает 5%.
То, что нужно таким работникам, хорошо видно по оглавлению нашего учебника "Эконометрика"
.
Опусы засорены тем, что не нужно - различными извращениями МНК.
Отрицательная оценка подобных опусов становится все более распространенной. Вот что пишет мне зав. каф. ГУ-ВШЭ 03-01-2008:
Что ж, надо изгонять троянских коней. Может быть, Вы мне поможете грамотнее разобраться еще с одним элементом троянской технологии. Речь идет об использовании т.н. dummy переменных. Таковыми называются переменные, приписываемые отдельным градациям номинального признака. Скажем, если у нас есть признак "профессия" с тремя градациями - токарь, пекарь, лекарь, то мы искусственно вводим три новых дихотомических признака: "токарный", равный 1,если человек токарь, и 0, если не токарь, "пекарный" и "лекарный". И эти три признака засовываем в любой классический статистический анализ, чаще всего - регрессионный. Интерпретация - кошмарная (обычная, числовая, как положено для регрессионного анализа, т.е. абсолютно не подходящая для рассматриваемой ситуации). Засилье такого подхода огромно. Вышкинские пропагандисты эконометрики катят огромный вал на наших студентов. Надо написать что-нибудь серьезное по этому поводу.
Об использовании т.н. dummy переменных
1. Исходная идея вполне естественна. Есть вектора разнотипных данных – часть переменных измерена в количественных шкалах, часть в качественных (простейший вариант – номинальные признаки). И есть стандартный статистический пакет. Как обработать данные? Представить их в квазиколичественном виде. Если перенумеровать все возможные значения номинальной переменной (например, профессии), то данные будут выглядеть неестественно (в частности, расстояния между значениями номинальной переменной не будут иметь содержательного смысла).
Неестественность затушевывается при использовании т.н. dummy переменных. Таковыми называются переменные, приписываемые отдельным градациям номинального признака. Скажем, если у нас есть признак "профессия" с тремя градациями - токарь, пекарь, лекарь, то мы искусственно вводим три новых дихотомических признака: "токарный", равный 1, если человек токарь, и 0, если не токарь. Аналогично вводим признаки "пекарный" и "лекарный".
2. Получив искусственную матрицу данных, можно ее обрабатывать с помощью различных алгоритмов. Как интерпретировать результаты обработки? Ответ зависит от того, какая принята модель порождения данных.
К сожалению, в настоящее время пользователи обычно и не подозревают, что интерпретация результатов расчетов зачастую сильно зависит от принятой модели порождения данных.
Например, под регрессионным анализом понимают совокупность методов, основанных на использовании нескольких принципиально различных моделей. Во всех них исходные данные – это набор пар (x(i), y(i)), i = 1,2,…,n. Наиболее популярны две модели – модель детерминированного предиктора и модель случайного вектора. Есть еще модель конфлюентного анализа, ряд моделей в рамках статистики интервальных данных и т.д.
3. В модели детерминированного предиктора x(i), i = 1,2,…,n, - детерминированы. Случайность содержится только в y(i), i = 1,2,…,n, обычно в виде случайных погрешностей измерения. В этой модели значения предиктора x(i), i = 1,2,…,n, могут иметь любую природу, количественную или качественную. В том числе вполне возможно использование dummy переменных. В нечисловой статистике (Орлов А.И. Нечисловая статистика
http://orlovs.pp.ru/stat.php#k2 ) доказаны теоремы о состоятельности оценок в рассматриваемой задаче аппроксимации зависимости параметрическим семейством возможных функциональных зависимостей (см. формулировки в указанном источнике).
В модели детерминированного предиктора есть «нюансы». Например, коэффициент детерминации нельзя рассматривать как квадрат коэффициента корреляции, поскольку не определено само понятие корреляции между детерминированной величиной (функцией от предиктора) и случайным откликом.
4. В модели случайного вектора пары (x(i), y(i)), i = 1,2,…,n, - это независимые одинаково распределенные случайные вектора. Теория развита лишь для весьма частного случая, когда это общее распределение – многомерное нормальное. Ясно, что dummy переменные не могут иметь нормальное распределение.
5. Если алгоритм использует квантили распределения Стьюдента – значит, он основан на предположении нормальности распределения отклика, фактора или пары фактор-отклик. Реальные данные, как правило, ненормальны (конечно, лучше сказать – негауссовы) – см. раздел 4.1 в учебнике А.И. Орлова «Эконометрика»
http://orlovs.pp.ru/econ.php#ek1). Использование модели нормального распределения – это поведение человека, который ищет ключи под фонарем, где светлее, хотя знает, что потерял их в кустах, где темно.
6. Но, может быть, он все-таки найдет ключи? Каково влияние отклонений от нормальности (в частности, использование dummy переменных) на достоверность выводов? Это – интересная сфера исследования (глава 4 в том же учебнике).
К сожалению, изучение (для меня лично) свойств оценок метода наименьших квадратов в непараметрической постановке только начато (раздел 5.1 в учебнике А.И. Орлова «Эконометрика»
http://orlovs.pp.ru/econ.php#ek1 ). Возможно, всё уже исследовано, но я не знаю сейчас об этом.
7. Использование dummy переменных в линейном регрессионном анализе натыкается на возражение другого типа – не в рамках прикладной статистики, а в рамках организационно-экономического (или, в старых терминах, математического) моделирования. Зависимости для разных профессиональных групп отличаются только свободными членами, а наклон одинаков (точнее, одинаковы коэффициенты при линейных членах). Свободные члены оцениваются как коэффициенты при dummy переменных, и только на них эти переменные влияют.
Почему же наклон одинаков? Возможно, иногда есть этому объяснение, но в общем случае обоснования нет.
8. Как-то обратились ко мне с вопросом по поводу использования dummy переменных в регрессии, когда возраст автомобиля рассматривался как номинальный признак. Вопрошающий разбил значения возраста на интервалы и каждому интервалу поставил в соответствие dummy переменную.
Такую постановку задачи я расценил как крайне странную. Но она показывает, насколько распространилась пропаганда dummy переменных.
9. Большинство книг по эконометрике на русском языке относится в двум группам – вредным и очень вредным.
Вредные – это перепев устаревших западных учебников, посвященных крайне узкой тематике вокруг МНК и модели нормального распределения. Но изложение в них хотя бы соответствует требованиям математической строгости.
Очень вредные – те, в которых нет и следа математической строгости. Обычно они написаны экономистами, которые ничего в математике не понимают. К сожалению, к ним относятся и сочинения, выпущенные чл.-корр. РАН И.И. Елисеевой, например:
Практикум по эконометрике / И.И. Елисеева и др. Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001. – Рецензенты: каф. матем. статистики и эконометрики МЭСИ, а также Дэн, проф. В.И. Афанасьев.
К сожалению, опыт показывает, что аргументированное разоблачение подобных сочинений занимает объем не меньший, чем само разбираемое сочинение. Поэтому решиться на такой труд можно лишь в случае крайней необходимости.
А.И. Орлов
2008-01-05
Остальное сказано в начале темы.