d9e5a92d

Диагностика регрессий

Эта тема привлекла и привлекает значительное внимание в общественных науках, однако в эконометрике, как ни странно, эта тема известна только в рамках довольно узких моделей тобит-регрессии и выборочного отбора (sample selection модель Хекмана), Данный раздел в значительной мере следует Little and Rubin (1987),
Терминология
Возможность использования методов анализа разной степени сложности связана с тем, насколько простым или сложным является механизм, согласно которому данные оказываются пропущенными. Полезная терминология была введена в Rubin (1976), Говорится, что пропуски в данных полностью случайны (data are missing completely at random MCAR), если P(Xj пропуще но (прочие X) те зависит н и от Xj, ни от про чих X (то есть эта вероятность постоянна для всех наблюдений, и наблюдаемые Xj являются случайной подвыборкой тех Xj, которые должны были получиться в эксперименте), Пропуски в данных случайны (missing at random MAR), если P(Xj пропуще но (прочие X) не зависит от Xj (но могут зависеть от других X), Оказывается, что в этих случаях механизм пропусков несущественнен (ignorable), и к данным применимы вариации метода максимального правдоподобия. Наконец, если P(Xj пропуще но (прочие X) зависит от самого Xj, то механизм пропусков является существенным (non-ignorable), и для корректного анализа данных необходимо знать этот механизм.

Введенные выше понятия относятся к отдельным переменным, и в пределах одной и той же базы данных можно наблюдать все эти варианты. Можно построить тесты, отличающие MAR от MCAR, однако по данным невозможно отличить, являются ли они MAR, или же механизм пропусков существенней,
В качестве пояснения чаще всего приводится пример ответов на вопросы, связанные с доходом респондентов. Если вероятность сообщить свой доход постоянна для всех респондентов (например, 15%), то данные следуют MCAR, Если эта вероятность связана с другими переменными (скажем, люди с более низким образованием реже указывают
свой доход), то данные следуют MAR, Наконец, если более богатые люди менее охотно указывают свой доход, то механизм пропусков является существенным, и это, увы, наиболее правдоподобный вариант.
Перейдем теперь к рассмотрению методов анализа, используемых на практике.
Анализ имеющихся данных
Наиболее естественным способом анализа данных с пропусками кажется анализ по всем имеющимся данным, т.е. с использованием тех наблюдений, по которым наблюдаются все интересующие исследователя переменные (complete case analysis), В свете вышесказанного очевидно, что он дает несмещенные оценки только тогда, когда данные следуют MCAR, Иногда можно использовать для отдельных фрагментов анализа разные наблюдения на основании доступности тех или иных данных например, для расчета корреляций использовать не только наблюдения, в которых наблюдаются все переменные, корреляции которых необходимо посчитать ...
Stata
как это делает команда correlate ...
а и те наблюдения, по которым имеются наблюдения конкретной пары переменных
Stata
как это делает pwcorr.
Такой метод можно назвать методом доступных случаев (available case analysis). Очевидный его недостаток полученная таким образом корреляционная матрица может не быть положительно определенной.

Естественно, оговорка относительно MCAR относится и к этому случаю.
Еще одним популярным способом скорректировать выборку при наличии пропусков является использование весов. Типичным примером являются поет-етратификационные веса в стратифицированных выборочных обследованиях.

Эти веса соотносят количество запланированных наблюдений, которые должны были быть получены в данной страте, и количество реально наблюдавшихся выборочных единиц.
"Пополнение" данных
Следующим по популярности подходом к анализу неполных данных является метод "вписывания", или "пополнения" данных (imputation): на основании тех или иных ео-ображений сам исследователь или его программа вписывает на место пропущенных данных какие-то осмысленные, на взгляд исследователя или программы, цифры, В какой-то степени похожей задачей являются задачи интерполяции и экстраполяции, когда по известным значениям функции в нескольких точках необходимо построить значения функции в других точках.
Stata
Стандартный метод, предоставляемый пакетом Stata детерминистическое пополнение данных на основе линейной регрессии. А именно: команда impute для каждого наблюдения (точнее, для каждой группы наблюдений с одинаковой структурой пропусков) оценивает линейную регрессию по имеющимся переменным в качестве регрессоров и пропущенными переменными в качестве зависимой переменной (дополнительно используя, естественно, все случаи, для которых эта переменная доступна наряду с остальными имеющимися переменными) и строит прогнозное значение по этой регрессии.


Метод пополнения данных по линейной модели вполне работоспособен тогда, когда данные следуют MAR, и когда линейная модель действительно адекватно описывает данные,
В стратифицированных обследованиях популярен другой метод, называемый методом "горячей колоды" (hot deck imputation). Он, как, впрочем, и восстановление по линеной модели, обыгрывает идею восстановления данных по условному распределению: если условием является категорийная переменная (возможно, многомерная), то пропущенные данные можно подставить из числа наблюденных в той же группе (или, в некотором более общем виде, подставить значение, наблюденное в "похожем" по прочим признакам наблюдении), В простейшем виде этот метод восстанавливает пропуски, пользуясь наблюдениями в той же страте.

Теоретические свойства этой процедуры не вполне ясны.
Stata
Имеется пользовательская команда hotdeck, выполняющая пополнение данных по этому методу (Mander and Clayton 1999).
Наконец, "венцом творения" в области восстановления пропущенных данных на данный момент является метод множественного восстановления (multiple imputation), предложенный в конце 70-х Дональдом Рубином Rubin (1978), Его идея состоит в том, чтобы восстановить данные не один, а несколько раз, оценить требуемые модели с по-
мощью стандартных методов анализа полных данных, а затем подходящим образом обобщить результаты оценивания. Обычно обобщение сводится к усреднению точечных оценок и вычислению дисперсии полученной оценки как взвешенной суммы оценок дисперсий отдельных точечных оценок (within variance) и разброса между отдельными вычислительными экспериментами (between variance), В качестве модели происхождения данных используется многомерное нормальное распределение; число повторов обычно невелико от трех до пяти. Ограничением данной модели является предположение о том, что данные следуют MAR,
Stata
Автору неизвестны программные модули Stata, которые выполняли бы множественное пополнение данных, хотя пользователи пакета неоднократно высказывали свои пожелания о том, что такие процедуры необходимо иметь.
Методы на основе ММП
Принципиально иным подходом к анализу пропущенных данных является оценивание моделей на основе метода максимального правдоподобия, скорректированного на пропуски, Пусть данные, которыми располагает исследователь, имеют вид Y = (Ymiss, Yobs), где Y0bs это реально наблюденные величины, a Ymiss пропущенные, которые исследователь мог бы наблюдать, если бы данные были полными.
Для стандартных моделей функция правдподобия для всех данных, в т.ч. ненаблюдаемых, может быть сравнительно легко записана в виде L(0\Y) = f (Y\?). Величина, к которой необходимо свести задачу L^\Y0bs). Сделав определенные предположения о механизме, согласно которому данные оказываются пропущенными Rij = I(yj наблюдается) со своей функцией распределения g(R\Y,ф) , можно получить общую функцию правдоподобия в виде
L^^\Yobs,R) = J f (Yobs ,Ymiss^)g(R\Yobs,Ymiss^)dYmiss (2.56)
При определенных условиях интегрирование в правой части можно провести в явном виде, либо факторизовать задачу, разложив функцию правдоподобия на последовательно интегрирующиеся сомножители,
Элегантным решением многих задач е пропущенными данными является ЕМ-алго-ритм, итеративно чередующий подстановку оценок вместо пропущенных данных (по определенной параметрической модели) и получение новых оценок параметров по пополненной таким образом выборке. Классической работой на эту тему, в которой доказаны теоретические свойства ЕМ-алгоритма (сходимость алгоритма, сходимость к критической точке функции правдоподобия, скорость сходимости в зависимости от количества доступных данных), является Dempster et, al, (1977), однако Little and Rubin (1987) считают, что самые ранние аналоги ЕМ-алгоритма были предложены еще в 1920е гг.

Оказывается, что довольно большое число задач может быть переформулировано в терминах ЕМ-алгоритма за счет введения дополнительных переменных например, в задаче кластерного анализа такой переменной является функция принадлежности, те. номер кластера, к которому принадлежит наблюдение.
Название "ЕМ-алгоритм" связано с двумя его шагами, отрабатываемыми на каждой итерации. Шаг "Е" (expectation) это вычисление условного ожидания "пропусков" при условии наблюдающихся данных и текущих значений параметров. Во многих задачах (в частности, при анализе данных из экспоненциального семейства, включающего в себя такие распределения, как нормальное, биномиальное, Пуассона и Бернулли, возможно, в сочетаниях) этот шаг напрямую не выполняется, поскольку функция правдоподобия зависит от данных только через достаточные статистики,и поэтому на шаге Е можно посчитать условные ожидания этих достаточных статистик.

Шаг "М" представляет собой максимизацию функции правдоподобия (в соответствии с методами анализа для полных данных), в которую подставлены оценки пропущенных данных (или достаточных статистик), полученные на шаге Е, Обобщенные ЕМ-алгоритмы ограничиваются тем, что просто увеличивают значение функции правдоподобия на каждом шаге. Итерации прекращаются, когда приращение функции правдоподобия на очередном шаге меньше заданного уровня (скажем, 10-6),

Диагностика регрессий

Как можно обнаружить, что с регрессией что-то не в порядке? Выше были упомянуты тесты на нарушение предположений классической модели гетероскедастичность, нелинейность нт, п,, а также соответствующие им команды пакета Stata, Ниже будет
приведена сводка этих диагностических тестов, а сейчас рассмотрим более подробно, как находить выделяющиеся наблюдения, которые могут существенно искажать оценки коэффициентов.
Stata
В пакете Stata имеется достаточно обширный спектр средств диагностики регрессий, некоторые из которых уже упомянуты выше, а некоторые будут рассмотрены ниже. Справку по этим средствам можно найти по ключевым словам regdiag и diagplots.

Сводка методов диагностики

Сведем вышеперечисленные методы диагностики регрессий в единую таблицу.
Stata
После оценивания регрессии Stata сохраняет информацию об оцененной модели до следующей процедуры оценивания параметров (или до целенаправленного сброса результатов оценивания), поэтому можно, отдав один раз команду regress, после этого последовательно отдавать диагностические команды, проводить тесты на коэффициенты или получать прогнозные значения, не прогоняя регрессию заново. Все это объяснено в tutorial regress и авторском tutorial aboutreg.

Таблица 2,1: Диагностика регрессий
Название
теста
Принцип "Плохие" признаки Stata
Коррелированностъ ошибок
Тест
Дарбина-
Уотсона
Но : EetSt-і = 0 Статистика DW
ближе к 0 или к 4,
чем к 2
regress ^
dwstat
Гетероскедастичностъ: дисперсия не постоянна
Тест Кука-
Вайсберга
Но : ln Gi = yTzi Значимость доп. регрессии: F, х2 ^ ж regress ^
hettest
Визуальный
анализ
Графики частных регрессий и
остатков-прогнозов
Четко выраженное
увеличение разброса
regress ^
avplot;
rvfplot
Мультиколлинеарность
Главные
компонен
ты
Выявление осей, возле которых
группируются данные
Высокое отношение
собственных значений ков. м-цы
^¦max/^-min ^ 1
factor, pc
VIF Оценка увеличения дисперсии
оценок коэффициентов из-за
мультиколлинеарности
Индивидуальные
значения VIF 4
(VVIF 2)
regress ^
vif
Нелинейность
RESET-
тест Рамсея
Регрессия зависимой переменной на степени объясняющих
переменных или прогнозных
значений
F, х2 ^ ж regress ^
ovtest
Визуальный
анализ
Графики частных регрессий,
остатков-прогнозов
Наличие четко выраженных кривых
вместо случайного
разброса точек
regress ^
avplot;
rvfplot;
cprplot

Название
теста
Принцип "Плохие" признаки Stata
Робастность, выбросы
Форма распределений Информация о характеристиках распределения
(асимметрия, тяжелые
хвосты)
Значимо отличные от 0
значения коэффициентов асимметрии и эксцесса остатков, наличие тяжелых хвостов;
несовпадение с прямой
на нормальной бумаге
summarize;
sktest;
graph
переменная,
norm;
kdensity;
qnorm
D-
статистика
Кука,
DFFITS,
DFBETA
Идентификация выделяющихся наблюдений Точки с высоким значением статистик влияния regress ^
predict,
cooksd;
predict,
df it;
predict,
dfbeta
Визуальный
анализ
Графики частных регрессий
и остатков-прогнозов
Отдельно отстоящие
ТОЧКИ
avplot;
rvfplot
Стохастичность регрессоров
Тест Хау-
смана
Сравнение эффективной
(при Но), но несостоятельной (при На) модели с состоятельной (при обеих гипотезах), но менее эффективной (при Но)
х2 ^ ^ hausman
С, О, Колеников

Пример анализа регрессии

В этом подразделе мы приведем пример "разбора полетов" е применением описанных выше средств диагностики,
В нашем примере будет использована регрессия 1 из обучающей программы tutorial aboutreg, В этом уроке, конечно, сеть гораздо больше, чем эта регрессия, но для получения приводимой ниже таблицы результатов и ее обсуждения в Stata можно отдать команды:
. use auto, clear
. regress price mpg foreign weight
Stata выводит следующую таблицу результатов регрессии:

Таблица 2,2: Пример распечатки регрессии в пакете Stata
Source 1 SS df MS Number of obs = 74
---------+- F( 3, 70) = 23.29
Model 1 317252881 3 105750960 Prob F = 0.0000
Residual | 317812515 70 4540178.78 R-squared = 0.4996
---------+- Adj R-squared = 0.4781
Total | 635065396 73 8699525.97 Root MSE = 2130.8

price |
_________j__
Coef. Std. Err. t P 111 [95% Conf . Interval]
mpg | 21.8536 74.22114 0.294 0.769 -126.1758 169.883
weight | 3.464706 .630749 5.493 0.000 2.206717 4.722695
foreign | 3673.06 683.9783 5.370 0.000 2308.909 5037.212
_cons | -5853.696 3376.987 -1.733 0.087 -12588.88 881.4931

Здесь в левом верхнем углу таблица дисперсионного анализа (с указанием суммы квадратов и доли дисперсии у, объясненных моделью, суммы квадратов остатков и их дисперсии, общая сумма квадратов и дисперсия у), справа вверху прочая информация, связанная с регрессией (количество наблюдений, общая F-етатиетика для гипотезы
Н0: все коэффициенты равны нулю, кроме константы; статистики Я2 и R2adj и оценка стандартного отклонения остатков), Наконец, в нижней части таблицы приведены оценки коэффициентов и их стандартных ошибок, і-етатиетики для гипотез Н0 : вк = 0 и доверительные интервалы.
Результаты аналитических тестов (таких, как ovtest, hettest и прочих) оставляются на научное любопытство читателя, а ниже будут приведены основные результаты визуального анализа.
Начнем с графика, представляющего проекцию облака точек на ось прогнозных значений (fitted values). На рис, 2,3 представлены, помимо самих точек, линейный прогноз (биссектриса графика) и непараметрическая ядерная оценка ( kernreg, см, ниже раздел 2,6,5), На этом графике видно, что линейная апроксимация функции регрессии не является адекватной, что и подтверждается тестом Рамсея на нелинейность (2,44),
Рис, 2,3: Регрессия в пространстве прогнозных значений: прямая, полученная по МИК. и непараметрическая оценка кривой регрессии. Видно значительное расхождение.
Иногда нелинейность, а также гетероскедастичность, относительно отдельных переменных можно выявить с помощью графика частной регрессии (см, стр, 2,52), В данном случае (рис, 2,4), впрочем, ничего особенного не наблюдается.
Одним из наиболее важных и информативных графиков является график, евязы- вающий регрессионные остатки и прогнозные значения, В случае приведенной выше регрессии этот график, к счастью для пояснительных целей и к несчастью для научных, показывает едва ли не все дефекты данной регрессии из числа рассматриваемых в этой книге,
В простейшем представлении (рис, 2,5) мы видим, что остатки почти линейно связаны с прогнозными значениями в первых двух третях графика, после чего их дисперсия заметно возрастает, они смещаются вверх, и за счет этого их сумма равна нулю. Такое поведение, естественно, неудовлетворительно, поскольку в идеале мы рассчитываем увидеть "белый шум", т.е. график без каких-либо очевидных зависимостей.
Более того, если приложить определенные усилия (см, подпись к рис, 2,6 по поводу использованного синтаксиса команды rvfplot), то можно построить красивый график, демонстрирующий нелинейность соотношения между прогнозными значениями и остатками.
Влияние отдельных наблюдений исследуются при помощи статистик, получаемых командой predict с такими опциями, как rstudent , dfbeta , dff its , cooksd и hat На рис, 2,7 приведен график, связывающий относительное влияние каждого наблюдения (leverage) и величину стьюдентизированного остатка. Произведение этих величин составляет расстояние Кука D, Более подробное объяснение см, в разделе 2,4,3, Наблюдения, которые могут оказывать существенное влияние на коэффициенты, промаркированы названиями соответствующих автомобилей.

Чтобы представить себе, насколько существенно могут сместиться оценки коэффициентов при воздействии выбросов, найдите в выборке наблюдение с максимальным значением D и проведите оценку параметров регрессионной модели без этого наблюдения (подсказка: predict ... , cooksd и regress ... , if ......, где вместо ... вы подставите что-нибудь более осмысленное).
Рис, 2,7: Статистики, характеризующие влияние отдельных наблюдений, Дополнительным подтверждением тому, что регрессионные остатки в данной модели не обладают хорошими статистическими свойствами, может служить график для диагностики отклонений распределения остатков от нормального. На рис, 2,8 отложены квантили распределения остатков и нормального распределения с аналогичным средним и дисперсией.

Точки не лежат на хорошей и аккуратной прямой, а три точки в правой части графика означают тяжелые хвосты остатков: наблюдаемые квантили больше, чем соответствующие процентные точки нормального распределения. На этом, безусловно, графические средства анализа данных в пакете Stata не исчерпываются, Автор призывает читателя углубить свои знания и закрепить практические навыки, изучив обучающие программы tutorial regress, tutorial aboutreg и tutorial graphics,

Альтернативные спецификации статистических зависимостей

В современной эконометрической практике применяется очень много различных вариантов описания зависимостей одних величин от других, объединяемых в общее понятие "регрессии"; МНК-оценки как таковые применяются далеко не всегда.
Выше упоминались такие модели, как временные ряды, робастные регрессии, ридж-оценки и др. Расскажем еще о нескольких видах регрессионных моделей, встречающихся в литературе.

Данные особой структуры и обобщенный МНК

Как уже упоминалось выше, учет структуры матрицы ковариации ошибок может дать выигрыш в эффективности оценок. Иногда этот выигрыш может даже быть "в разы".

Неверное же представление о етохаетичеекой структуре модели может приводить к смещению оценок дисперсии, что искажает выводы на основе t-, F- и у2-статистик. Одним из частных примеров моделей со сложной структурой ошибок являются панельные модели, насчитывающие три измерения данных: переменные - объекты (исследуемые единицы) - время. Для них разработаны специальные методы анализа (Maddala 1993, Baltagi 1995), Как правило, индивидуальные эффекты выделяются в виде аддитивной составляющей:
(2.57)
Ун xJtв + Ui + ?и
Эти данные порождаются длительными обследованиями, в которых одни и те же индивидуумы (домохозяйства, фирмы и т, п.) опрашиваются последовательно через определенные интервалы времени (как правило, раз в год или в квартал).
Stata
Команды пакета Stata для анализа панельных данных имеют префикс xt, обозначающий наличие как структурной стохастики х, так и временной компоненты t. Панельные регрессии вызываются командой xtreg: с фиксированным эффектом (англ, fixed effect) с опцией xtreg ... , fe, со случайным эффектом (англ, random effect) с опцией xtreg ... , re. Для использования этих команд данные должны быть приведены в "длинную" форму см. reshape, с. 81.

Для оценивания моделей, предполагающих сложную ковариационную структуру ошибок ей (автокоррелированность, гетероскедастичность) можно воспользоваться командой xtgls, а в седьмой версии пакета командой xtregar.
Зависимость между наблюдениями возникает также в стратифицированных выборках, к которым относится большинство крупномасштабных экономических исследований (в т.ч. цитируемое далее обследование HI.MS. гл, 4), Выборка для таких исследований разрабатывается следующим образом. Выбираются однородные (по социальным, экономическим, демографическим показателям, если речь идет о населении; по объему выпуска и занятости, по отраслевой принадлежности, если речь идет о предприятиях) группы объектов страты (так, в HI.MS стратой является административный
район; область была сочтена разработчиками слишком крупным объектом). Из набора этих страт, полностью покрывающих интересующую исследователя совокупность, выбираются случайным образом с вероятностями, пропорциональными размеру страт, некоторое малое число первичных единиц выборки (primary sampling units PSU), Затем в пределах этих PSU процедура случайного выбора повторяется с использованием более мелких группировок (в RLMS участки переписи населения, избирательные участки, почтовые отделения), и так далее, пока единицей случайного выбора не будут сами объекты домохозяйства, предприятия и т.п.

Процедура случайного отбора может быть модифицирована, с тем, чтобы в выборку не попали "слишком близкие" объекты (например, соседи по лестничной площадке).
Ввиду подобной структуры выборки, отдельные наблюдения, в отличие от истинно случайной выборки, не являются независимыми. Действительно, если в выборке присутствует объект из некоторого PSU данной страты, то условная вероятность (при указанном выше условии включения элемента в выборку) того, что другие элементы этого же PSU попадут в выборку, больше, чем условная вероятность того, что в выборку попадут элементы из других PSU этой страты. Индивиды, относящиеся к одной структурной единице выборки, могут находиться под воздействием специфических для данной единицы ошибок, что требует включения дополнительных членов в уравнение регрессии в стиле дисперсионного анализа:
Vit = + VPSU + ui + ?it (2,58)
Подобная зависимость наблюдений будет сказываться на всех оценках и статистических выводах, которые делаются на основе результатов анализа подобной стратифицированной выборки, В частности, наивные оценки вторых моментов (дисперсий) будут сильно занижены, поскольку основной вклад в дисперсию будет связан с самым первым уровнем стратифицкации.



Содержание раздела