Колеников С. - Прикладной эконометрический анализ в статистическом пакете Stata

Данный текст это материалы к семинарам по прикладной эконометрике, проведенным весной 2000 г, на экономических факультетах Воронежского Государственного Университета и Уральского Государственного Университета (Екатеринбург) в рамках программы повышения квалификации преподавателей экономических вузов на базе Центра дополнительного профессионального образования Российской Экономической Школы ( ).
Основной акцент изложения сделан на прикладных аспектах эконометрического анализа. В частности, освещаются такие проблемы, как выбор спецификации эконометрической модели, нарушения предположений классической модели множественной линейной регреееии, методы диагностики регрессий, а также приводятся дополнительные сведения о наиболее часто используемых в литературе методах анализа экономических зависимостей.

Никаких теорем не доказывается, хотя ссылки на теоретическую литературу в нужных местах приводятся. Неетрогоеть изложения не должна вводить в заблуждение: корректное применение даже достаточно простых эконометрических методов невозможно без достаточного знания теории, поэтому данная книга не может служить введением в эконометрику.
Практическая реализация обсуждаемых методов выполнена в пакете Stata (Stat-аСогр. 1999, 2001, Kolenikov forthcoming).

Параллельно с изложением теоретических результатов и подходов приводятся ссылки на соответствующие команды пакета. Этот
пакет популярен среди прикладных экономистов как в России, так и за рубежом, благодаря его открытости и обширному набору средств эконометрического анализа. На практических занятиях, а также в экзаменационных работах использовались данные Мониторинга здоровья и экономического положения домохозяйств России (RLMS). Основные сведения, необходимые для работы е этой базой данных, также приводятся в этой книге, Эти данные ценны тем, что они являются практически единственным открытым источником микроэкономических данных по России ( ).
Stata
Врезки, в которых будут указываться и описываться необходимые команды Stata, будут оформлены так, как этот абзац. Как правило, описание будет весьма кратким.

Более подробную информацию о любой команде Stata можно получить через встроенную систему помощи. Для этого надо войти в меню Help/Search или Help/Command или набрать на клавиатуре whelp имя команды, например, whelp regress.

Идеалом, безусловно, является обращение к первоисточникам руководствам пользователя.
Анализ данных это скорее искусство (или по меньшей мере ремесло), нежели точная наука, и автор надеется, что рекомендации, даваемые в этой книге, не будут возведены в ранг абсолютной истины. Практика показывает, что данные могут вести себя как угодно, и тесты, хорошо работающие в одних условиях, будут совершенно бесполезны в других, и разные тесты, пытающиеся уловить один и тот же эффект (например, гетероскедастичность), могут давать совершенно противоположные результаты.
Книга построена следующим образом. В главе 2 приводятся основные понятия и результаты вводных курсов эконометрики, связанные с концепцией линейной регрессии и метода наименьших квадратов, рассматриваются возможные варианты развития и дополнения этой базовой концепции. В главе 3 приводятся основные команды пакета Stata и пользовательские приемы, упрощающие работу с пакетом.

Далее в главе 4 дается краткое введение в базу данных HI.MS ее основные характеристики и базовые ориентиры для работы. Небольшое заключение в главе 5 подводит основные итоги книги.

И, наконец, в главе 6 приводятся домашние задания, выдававшиеся участником семинара. Читатель может использовать их для самоконтроля.
Возможны разные варианты прочтения этой книги. Читатель, пользующийся другим эконометрическим или статистическим пакетом, вряд ли нуждается в гл, 3, и, скорее всего, захочет просмотреть основные методы диагностики регрессий в параграфах 2,3-2,4, сведенные в удобную табличку тестов на стр, 52, с которой пользователи, возможно, будут консультироваться весьма часто.

Наиболее любопытные читатели доберутся до параграфа 2,6, посвященного эконометрическим моделям, выходящим достаточно далеко за рамки модели линейной регрессии, В частности, в этом разделе дается краткое введение в модели логит, пробит, в анализ панельных данных, и пр. Этот материал содержит минимальную информацию как о сути упоминаемых методов, так и об их реализации в пакете Stata,
Напротив, читатель, перед которым стоит задача как можно быстрее разобраться, "как же работает эта чертова программа", сосредоточит свое внимание на главе 3, Она дает общее представление о том, что и как надо делать, чтобы ввести данные, преобразовать их к нужному виду, оценить свою статистическую модель и перенести результаты в любимый редактор для подготовки публикации. Совершенно необходим для дальнейшего чтения вводный раздел обозначений 3,1, Следующий по важности и общности материал как записываются вообще команды Stata (параграфы 3,3-3,6), Далее команды и элементы синтаксиса Stata сгруппированы по основным видам (работа с файлами, преобразование данных, вывод результатов, средства программирования, графика). Список команд (примерно на полторы страницы), соответствующих основным эконометрическим моделям, приводится в разделе 3,9 (с, 83), В разделе 3,20 предложены средства самообучения и начала работы в пакете Stata,

Иееледователям-практикам, а также преподавателям, придумывающим задачи и курсовые работы для студентов, будет полезна глава, посвященная HI.MS основному источнику экономических микроданных по домохозяйствам России,
При чтении книги может создаться впечатление, что она перегружена отдельными деталями, при том, что многие концепции и методы упомянуты лишь вскользь. Автор намеренно шел на это: учитывая низкую насыщенность рынка эконометрической литературы на русском языке, я счел полезным предоставить хотя бы минимальную информацию о моделях и методах, вообще не упоминаемых в начальных курсах теоретической эконометрики, но встречающихся достаточно часто в прикладной работе и научных публикациях, в надежде, что исследователь, пользующийся этой книгой, сможет найти о них более подробную информацию и применить в своей работе метод, адекватный задаче.
Автор выражает благодарность всем тем, без кого эта книга не появилась бы, появилась бы позже или в значительно худшем виде: Сергею Гуриеву, руководителю Центра дополнительного профессионального образования РЭШ, за идею по проведению этого курса и написания книги, а также за помощь в подготовке текста; Сергею Артемьевичу Айвазяну, моему научному руководителю в аспирантуре Центрального экономико-математического института, за ценные замечания и научную поддержку; Эрику Берглофу, директору Российско-Европейского центра по экономической политике, за поддержку в ходе работы над семинарами и книгой; Анне Хмелевской, Ирине Щепиной и Инне Мальцевой за организацию семинаров в Воронеже и Екатеринбурге; Сергею Голованю за неоценимую помощь с TeXm; всем читателям этой книги и слушателям семинаров за их вопросы и замечания; компании Stata Corporation за замечательный пакет; Университету Северной Каролины, компании Paragon и Институту социологии РАН за проведение и публикацию данных Мониторинга здоровья и экономического положения домохозяйств России, Работа была профинансирована в рамках проекта поддержки кафедр программы "Высшее образование" Мегапроекта "Развитие образования в России" Института Открытое Общество, гранты N НВС 807, 808,
21 декабря 2000 г, начались поставки новой седьмой версии пакета Stata, Эта версия сохраняет совместимость с предыдущими версиями, однако содержит и много новых и приятных особенностей. На том уровне изложения, который был в целом принят в этой брошюре, самые заметные отличия поддержка более длинных имен переменных и программ (до 32 символов), улучшенные средства поиска в Интернет; объединение функций окна подсказки и вывода результатов (кликабельное! ьокна результатов) при помощи внутреннего языка SMCL (Stata Markup and Control Language), родственного с другими языками разметки (HTML, SGML); улучшенная (наконец-то) графика, в т,ч, разные стили линий (пунктирные и т,п,); новые средства кластерного анализа; дальнейшее усиление средств анализа панельных данных; наконец, общее ускорение работы за счет использования новых компиляторов. Описание новых возможностей имеется на корпоративном сайте по адресу , Станислав Колеников, РЭШ, ЦЭМИ, РЕЦЭП, ЦЭФИР, Университет Северной Каролины (Чапел Хилл)

Регрессионные модели

Применение статистических методов в экономических исследованиях

В настоящее время в России все большее признание находит подход к анализу экономических явлений, опирающийся на аналитические системы теоретической экономики и использующий математический аппарат как для построения теоретических моделей, так и для анализа данных.
Прикладные экономические исследования обязательно включают в себя обработку статистических данных макроэкономических временных рядов, бюджетов домохозяйств, характеристик экономической деятельности предприятий и т, д. Статистика и эконометрика, понимаемые как научные методы обработки данных, могут при этом служить различным целям:
1, Исследование данных, разведочный анализ и диагностика , При данном подходе к анализу данных исследователь позволяет данным направлять исследование (data-driven research), Отталкиваясь от данных (и пользуясь аппаратом мат, статистики и эконометрики) при самых минимальных модельных допущениях, исследователь делает вывод о наличии статистических соотношений (корреляций) между рядами экономических показателей, о наличии единичных корней в финансовых времен-
ных рядах, о группировании данных в кластеры и т, д, о наличии в данных внутренней структуры,
2, Достаточно близко к этому примыкают методы обработки данных, возникшие в 1990-х гг, и объединяемые названием data mining (что можно перевести на русский как "обогащение данных", по аналогии с процессами обогащения руды в горном деле), Эта область находится на стыке информационных технологий и статистики и, как правило, имеет дело с объемами данных, исчисляемыми мега- и гигабайтами, Разрабатываемые в ее рамках алгоритмы направлены на поиск в данных повторяющихся фрагментов и шаблонов (patterns), В эконометрической практике эти методы пока что еще не встречаются. Data mining не ставит задачи оценки статистической достоверности получаемых результатов, что в определенной мере снижает их ценность для научных исследований,
3, Верификация теоретических моделей. Здесь во главу угла ставится теоретическая модель, которую экономист хочет проверить на практике. Она должна быть представима в виде, допускающем эконометрическую проверку например, сформулированы результаты сравнительной статики, временной ряд разложен в соответствии с предполагаемой лаговой структурой, производственная функция или функция полезности потребителя представлены в удобном аналитическом виде, и т, и. Иногда в качестве подтверждения теоретической модели исследователи довольствуются корреляциями (частными корреляциями, свободными от (линейного) вклада прочих переменных, в многомерных задачах), т, е, знаками коэффициентов регрессионной модели,
В подавляющем большинстве случаев приходится довольствоваться ретроспективными (т, е, уже наблюденными) данными, а не планировать и проводить эксперимент, как это возможно в естественнонаучных отраслях; при этом данные, которыми располагает исследователь, могут не вполне точно соответствовать переменным теоретической модели, а некоторые переменные могут и вовсе быть ненаблюдаемы, и исследователю приходится изобретать те или иные приближения (proxy)
4, proxy к нужным параметрам (например, квалификация работника сама по себе может не быть наблюдаема, однако в качестве апроксимации квалификации могут выступать уровень образования среднее, высшее, техникум, и т.п. или общая продолжительность обучения). Модель теоретическая, таким образом, достаточно жестко обуславливает модель эконометрическую, предписывая определенные спецификации, включающие в себя требуемые переменные.
После того, как все необходимые предварительные действия проведены построена теоретическая модель, сформулирована эконометрическая спецификация, выработаны проверяемые гипотезы исследования, собраны и подготовлены данные исследователь с помощью эконометрических и статистических методов принимает или отвергает гипотезы о наличии и виде зависимости между экономическими переменными, о значениях определенных параметров модели, и т.п,
5, Построение и идентификация моделей, Часто возникают ситуации, когда перед исследователем стоит задача выбора какой-то одной модели из ряда имеющихся. Например, на основную исследуемую переменную может влиять много факторов, и исследователь хочет выделить наиболее существенные. Так, цена на жилье определяется в первую очередь его размером количеством комнат, общей площадью, однако есть дополнительные факторы: наличие телефона, лифта, совмещенный или раздельный санузел, этаж дома, тип дома, недавний ремонт, престижный район и т.п.

Другим примером выбора модели из нескольких возможных может служить выбор автокорреляционной структуры временного ряда (ARMА модель), В таких задачах исследователь оценивает (идентифицирует) каждую из моделей и по определенным критериям сравнивает полученные модели.
Для дотошного читателя сделаем следующие ремарки. Следует иметь в виду, что теоретические свойства оценок коэффициентов в выбираемых таким образом моделях отличаются от свойств оценок, характерных для заранее фиксированных моделей, и точных результатов в данной области пока что нет,
С выбором "лучших" вариантов связано явление publication bias (смещенность публикуемых результатов), которое заключается в том, что для публикации в научном журнале скорее будет выбрана работа, в которой показаны статистически значимые результаты, чем работа, в которой эксперимент не привел к значимым результатам. Эти и подобные эффекты исследуется в рамках мета-анализа дисциплины, исследующей связь различных публикаций и возможности извлече-
ния информации за счет объединения статистических результатов, полученных в разных исследованиях на одну и ту же тему,
6, Построение прогнозов. Для построения хороших прогнозов нужно иметь (вычислительно) хорошую модель прогнозируемых процессов, и для решения данной задачи естественно привлекать лучшее из вышеупомянутых подходов.

Далеко не всякая теоретическая модель хорошо описывает реальные данные; более того, для достаточно сложных процессов реального мира теоретических моделей может вообще не существовать. Поэтому для построения прогнозов (и, соответственно, для выбора прогнозирующих моделей) используются меры и критерии, связанные с качеством подгонки под данные (goodness of fit), зачастую без явного выдвижения статисических гипотез или анализа взаимосвязей между факторами (переменными), подразумеваемых выбранной прогностической моделью, и даже без формирования параметрической модели (т.е. непараметрическими методами, среди которых можно упомянуть ядерные оценки плотностей и линий регрессии или модели нейронных сетей).
Эта задача в определенной мере перекликается с предыдущей в частности, если в качестве критериев отбора моделей используются критерии goodness of fit или перекрестной проверки (cross-validation).
Каждый из этих подходов имеет свои критерии "качества" конструируемых ими моделей. При разведочном анализе критерии обычно достаточно субъективны: обнаружены убедительные связи в данных или нет. Data mining в основном оперирует понятиями типа частот правильной классификации шаблонов. Выбор и идентификация моделей обычно базируются на информационных критериях или мерах качества подгонки, основанных на остаточных суммах квадратов.

Прогнозные модели должны обеспечивать хорошее качество приближения при прогнозировании вне выборки (out of sample prediction).
Математически наиболее обоснованными являются статистические процедуры, опирающихся на результаты математической статистики, т.е, область анализа данных, названная выше "верификацией теоретических моделей". Конечным результатом таких процедур обычно является мера достоверности статистических выводов уровень значимости, или доверительная вероятность, В классических курсах статистики обычно проводится проверка строго сформулированных нулевых гипотез при уровне значимости 10%, 5% или 1%, Более интересная и более универсальная формулировка приводится в классической книге по математической статистике Кендалла и Стюарта (Кендалл, Стьюарт 1973): Любой критерий с уровнем значимости вплоть до [указанная цифра] отвергнет данную нулевую гипотезу.
Современная трактовка понятия доверительной вероятности в эконометрической литературе это (условная) вероятность получить такие (или еще хуже, в контексте нулевой гипотезы) наблюдения в реальном эксперименте, если верна нулевая гипотеза, Для нулевой гипотезы эта вероятность должна быть вычислима аналитически, и именно поэтому в качестве нулевой гипотезы Н₀ в подавляющем большинстве случаев выступает простая гипотеза.
Одним из удобных и в то же время достаточно простых, а потому интенсивно используемых в прикладных эконометрических исследованиях, способов описания статистических зависимостей между (количественными) экономическими переменными является линейная регрессия,

Классическая модель линейной регрессии

Обозначения и формулировки

По определению, регрессия это зависимость среднего значения случайной величины от некоторой другой величины или нескольких величин, или условное математическое ожидание Мат, энциклопедия (1984):
E[y|x] = f (x). (2.1)
Таким образом, модель регрессии описывает вероятностное соотношение между объясняющими переменными (регрессорам,и, независимыми переменными) и зависимой (результирующей) переменной. Естественным первым приближением для функции регрессии является ее линеаризация, и соответствующая модель носит название модель линейной регрессии, Предлагается следующее функциональное соотношение между ре-
ализовавшимся значением зависимой переменной и регрессорами:
Уі = в + ?і, i = 1,... ,n (2.2)
где y_i зависимая переменная, x_i вектор объясняющих переменных, x_i G Rp, в ~ вектор параметров соответствующей размерности, e_i ошибка, i номер наблюдения и n общее количество наблюдений. Если объединить в столбцы данные по веем наблюдениям, то модель (2.2) может быть записана в матричном виде следующим образом:
y = XT в + ?, (2.3)
где y = (yi,... , y_N)T, ? = pi,... ,?n)t, и матрица плана X представляет собой матрицу, в которой по строкам записаны наблюдения x_i; i = 1,... ,n, а по столбцам объясняющие переменные Xj, j = 1,... , p:
Чаще всего полагается, что x_i1 = 1, тогда коэффициент в₁ _ эт0 константа, или свободный член регрессионной модели.
В классической модели линейной регрессии, помимо функционального соотношения (2.2) (или (2.3)), накладываются дополнительные (и весьма жесткие) предположения о стохастической структуре модели:

E ?i = 0	(2.5)
r.2 2 E?i = а	(2.6)
E?i?j = 0 Vi = j	(2.7)
rk X = p n	(2.8)
Xj детерминир ованы.	(2.9)
предположение о явной форме ошибок:
?і ~ N(0, а2)	(2.10)

Метод наименьших квадратов

При подобных предположениях основным (и, как будет упомянуто ниже, наиболее качественным, в определенном смысле) способом оценки параметров модели в является метод наименьших квадратов:
N
вмнк = argmin ^ (y - в) (2.11)
в і= і
Решением данной минимизационной задачи является оценка наименьших квадратов (англ, OLS, ordinary least squares), записываемая в матричном виде как
вмнк = (XTX)-1XTy (2.12)
По результатам оценивания регрессионной модели можно построить прогнозные значения (fitted values) y_i = в и остатки (residuals) e_i = y_i y_i; i = 1,... ,n.
Stata
Команда пакета Stata, производящая оценку по методу наименьших квадратов, носит естественное название regress. После команды regress можно получить достаточно большое количество диагностических статистик (см. ниже), а также создать переменные, содержащие прогнозные значения, остатки и т. п., отдав команду predict "новая переменная", опция , где опция это вид статистики, которую надо построить: predict ... , residuals для получения остатков, predict, ... xb для получения прогнозных значений у и т. д. Более подробное описание возможностей команды regress и связанных с ней команд можно получить во встроенном мини-уроке tutorial regress.
Теоретическим обоснованием метода наименьших квадратов служит теорема Гаусса-Маркова:
Теорема 2.1 (Гаусс, Марков) МНК-оценки являются несмещенными линейными оценками с минимальной дисперсией при выполнении условий (2.2)-(2.9), имеющими нормальное распределение при дополнительном предположении (2.10).
Иными словами, в классе несмещенных линейных оценок МНК-оценки имеют наименьшую ковариационную матрицу, которая равна
Var вмнк = a2(XT X)-1 (2.13)
Естественная оценка этой матрицы получается подставлением естественной оценки Несмещенность и эффективность (минимальная, в определенном смысле, точнее, в определенном классе оценок, дисперсия) вполне приятные свойства, и именно поэтому МИК заслужил большую популярность в прикладной статистике. Заметим также, что МНК-оценки являются оценками максимального правдоподобия, если сделать дополнительное предположение о нормальности ошибок (2.10).
Прочие свойства оценок МИК. прогнозных значений и остатков можно найти в любой вводной книге по эконометрике.

Проверка статистических гипотез

Почти всегда в прикладных исследованиях следующим шагом после оценивания регрессии является проверка тех или иных гипотез. Наиболее явно эта задача ставится при верификации теоретических моделей, хотя и в других задачах статистического анализа данных результаты проверки определенных гипотез могут служить дополнительным доводом в пользу рассматриваемой модели.
Наиболее часто проверяются линейные гипотезы относительно коэффициентов, т.е. гипотезы вида
Н₀ : C/3 = r vs. H_a : C/3 = r, (2.16)
где C матрица qxp полного ранга по строкам (rk C = q p), a r вектор qx 1. Иными словами, гипотеза H₀ накладывает на коэффициенты q ограничений. Примером такой гипотезы может служить Н₀ : в₂ = ... = в_Р = 0, или проверка того, что регрессионная модель в целом значима (т.е. описывает данные лучше, чем фраза "В среднем, у = у"). Для такой гипотезы C = I_p-1, r = 0 q = p 1.
Статистикой для проверки гипотез такого вида является F-етатиетика:
(SSEr SSEu)/q (03 - r)T(C(XTX)-1CT)-1(Ce - r)/q
SSEu/(n p) SSEu/(n p) ’
где SSE_r =sum of squared errors of the restricted model сумма квадратов остатков модели с ограничениями (т.е. модели, оцененной при H_o), SSEu =sum of squared errors of the unrestricted model сумма квадратов остатков в модели без ограничений. При нулевой гипотезе F-етатиетика имеет (центральное) распределение Фишера F(q,n p).
В частных случаях проверки гипотезы о значении одного из коэффициентов H_o : вк = вк vs. H_a : в_к = ek0 используется t-етатиетика
в в(o)
te, = в. к ~ t(n р)\н₀, (2,18)
Рк Var(₍dfc)1/2 ( P)|H0, 1 '
имеющая при H_o распределение Стыодента с n p степенями свободы, где оценка дисперсии Var(вк) соответствующий диагональный элемент матрицы (2,15),
В классическом подходе к проверке гипотез, гипотеза H_o должна быть отвергнута, если F- или t-статистика превосходит соответствующий квантиль заранее зафиксированного критического уровня. Более современный вариант с использованием доверительных вероятностей предлагает считать статистической мерой достоверности получаемых результатов условную вероятность наблюдать такой же или худший исход при условии H_o, Например, если в качестве нулевой выступает гипотеза о независимости от определенного фактора (наиболее часто проверяемая гипотеза, которая обычно встраивается в результаты оценивания регрессии статистическими пакетами):

Содержание раздела