d9e5a92d

Преобразование к нормальности и линейности

N
^ p(zi;e^ rcejn (2.З6)
- 1 в
І=1
где функция p(-) асимптотически растет то первому аргументу медленнее, чем z2 и тем самым придает меньшие веса далеко отстоящим наблюдениям , Примером функции, обеспечивающей робастность оценок, является p(z,@) = |z|. Получаемая при этом регрессия называется медианной, поскольку получаемая линия соответствует условной медиане.
Еще одна частно используемая спецификация функция Хьюбера (Huber)
z2/2, |z | c
c\z | c2/2, |z | c
nHuber
pc
(2.37)
(z)
Параметр c 0 играет роль настроечного параметра, отвечающего за робастность: если c ^ то, то мы получаем метод наименьших квадратов; если, напротив, c ^ 0, то мы получаем робастную медианную регрессию.
Другая спецификация функции p(-), которая практически игнорирует слишком далекие выбросы бивесовая функция Тыоки (Tukey): |z| c |z| c
pbiweight
pc
(z )
(2.38)
c2 6 ,
Здесь c также параметр робастности. При c ^ то бивесовая функция вырождается в обычную параболу метода наименьших квадратов.
Stata
Похожий алгоритм реализован в команде rreg робастная регрессия в пакете Stata. В нем на начальных стадиях алгоритма используется функция Хьюбера, а затем функция Тьюки.
Естественно, что, приобретая робастность оценки, мы должны где-то потерять. Обычно компромисс происходит за счет эффективности: если ошибки действительно имеют нормальное распределение, то робастные оценки теряют в эффективности
5-10% при H0 : ?і ~ N(0,а2). Эти оценки, впрочем, превосходят по эффективности МИК даже при долях загрязнения тяжелыми хвостами на уровне малых процентов. Тема идентификации выбросов, связанная е проблемами робастности, будет еще раз поднята в разделе 2,4,3,

Преобразование к нормальности и линейности

Иногда отклонение от нормальности можно компенсировать за счет преобразования зависимых и/или объясняющих переменных. Наиболее популярным классом преобразований является однопараметричеекое преобразование Бокса-Кокса (Вох-Сох):
у(Л) = ( луА-1, Л = 0 (2.39)
1 yln у, Л = 0
где у = (П n 1 Уг)1/п среднее геометрическое у^. Оценку необходимой степени преобразования Л можно произвести методом максимального правдоподобия , Оказывается, что преобразование Бокеа-Кокеа не только позволяет прийти к нормальности, но и, в ряде случаев, стабилизировать дисперсию ошибок, а также избавиться от нелинейности (ем, также раздел 2,4,2)
Самым типичным случаем является логарифмическое преобразование, применяемое тогда, когда ошибки имеют мультипликативный характер (приводящий к логарифмически нормальному распределению), а не аддитивный (приводящий к обычному нормальному распределению). Эти данные являются частным случаем данных с постоянным коэффициентом вариации CV = (Var X) 2/EX.

Очень многие экономические данные имеют распределение, близкое к логнормальному (доходы населения, объем производства, занятость, капитал промышленных предприятий, параметры бюджетов разных стран или регионов, и т, и,). Еще одним аргументом в пользу логарифмирования в экономических задачах можно считать то, что логарифмическое преобразование производственной функции Кобба-Дугласа приводит ее к линейному виду.
Следует, впрочем, иметь в виду, что при использовании преобразования Бокса-Кокса (как и любого другого преобразования) могут возникнуть сложности с интерпретацией регрессионной модели, ее ошибок или коэффициентов, В случае с логарифмическим преобразованием коэффициенты имеют вполне понятную экономисту интерпретацию эластичностей зависимой переменной по объясняющей.
Stata
Преобразование Бокса-Кокса выполняется командой Ьохсох. Опция Ьохсох ... , graph позволяет ввівести график итераций процед?рві максимального правдоподобия.

Преобразованные значения можно получить командой predict ... , tyhat или опцией Ьохсох ... , generate. Задав, помимо преобразуемой переменной, список регрессоров, можно получить оценку регрессии
(2.40)
у(Л) = хт в + ошиб ки,
результаты которой можно востребовать командой regress без параметров. Более мощный вариант преобразования Бокса-Кокса дается командой Ьохсох2, доступной в официальном дополнении STB-54.

Прочие отклонения от модели

Помимо отклонений от допущений (2.5)(2.9), в реальной жизни нарушается и условие (2,2) на сам вид модели, что также необходимо уметь диагностировать и исправлять,

Спецификация модели: выбор нужных переменных

В регрессию, анализируемую исследователем, могут быть как включены переменные, не связанные с зависимой, так и пропущены переменные, существенные для ее объяснения, В первом случае точность оценивания, вообще говоря, снижается: оценки "зашумляются", хотя и остаются несмещенными. Кроме того, включение дополнительных переменных несет риск возникновения или усиления мультиколлинеарности, что также сопряжено с увеличением дисперсии. Во втором случае оценки коэффициентов могут быть смещенными, а в силу недостаточной точности модели остатки будут слишком велики (т, е, оценка дисперсии ошибок будет смещена вверх),


К сожалению, однозначных рецептов выбора переменных, которые надо оставить в регрессии, не существует, В силу вышесказанного предпочтительнее изначально включать в регрессию как можно больше переменных (увеличение дисперсии все-таки не так плохо, как смещение оценок).
Если же необходимо, из тех или иных соображений, ограничить размерность модели, то обычно используемые процедуры включают в себя методы пошагового отбора или удаления переменных, основанные на тестах отношения правдоподобия или информационных критериях, в которых одни члены учитывают точность приближения, а другие штрафуют за излишне большое число подгоночных параметров.
Stata
Решение задачи выбора регрессоров в пакете Stata выполняется метакомандой sw (англ, stepwise). Полный синтакс процедуры выбора регрессоров в линейной модели будет иметь вид sw regress depvar varlist, опции , где опции описывают параметры включения в модель и исключения из нее объясняющих переменных из списка varlist.

Критерием, на основе которого делается решение о включении или исключении переменной из списка регрессоров, является статистика отношения правдоподобия.
Популярной мерой, характеризующей качество приближения модели (goodness of fit), является доля объясненной дисперсии Я2: чем выше, т.е. ближе к 1, статистика Я2, тем лучше. Эта статистика настолько популярна, что для целого ряда моделей были придуманы квази-Я2, принимающие значение 0, если модель не имеет никакой объясняющей силы, и 1, если данные объяснены полностью. Следует, однако иметь в виду, что:
- етатиетика Я2 возрастает с добавлением новых регрессоров, а при количестве регрессоров, равному количеству наблюдений, гарантированно достигает единицы (что, однако, не означает, что данные хорошо и полностью описаны: дисперсия прогнозных значений будет равна бесконечности),
- етатиети ка Я2 не робастна: при наличии в ыброеов Я2 ^ 1.
- квази-Я2 могут в действительности иметь максимальное значение намного меньше 1, и в силу этого их ценность, мягко говоря, невелика.
- етатиети ка Я2 характеризует только прогностические возможности модели (goodness of fit). Анализ причинных связей задача гораздо более тяжелая и требующая применения весьма мощных вероятностных концепций (причинность по Грэнжеру, Granger causality test (Handbook 1983, 1984, 1986, 1994),
Модификацией R2, учитывающей первый из указанных эффектов, является статистика в которой более тонко учитывается число степеней свободы модели:
R2 , _ eTе/п р Rdj yTy/n 1'
где e вектор регрессионных остатков, ay (центрированный) вектор значений зависимой переменной.
Более удачны, в статистическом смысле, информационные критерии, соотносящие информацию, предоставляемую моделью, и информацию, имеющуюся в данных. Их идея состоит в том, что "качество модели" достигается как баланс качества приближения к реальным данным и статистической сложности модели, связанной со слишком большим числом параметров (overparametrization), поэтому статистика критерия состоит из штрафа за недостаточную подгонку и штрафа за излишнее число параметров , Исторически первым, а потому наиболее популярным информационным критерием является критерий Акайке (АІС, Akaike information criteria):
AIC = 2 ln L(tf) + 2p, (2.42)
где L(0) значение функции правдоподобия (ее логарифм сводится к остаточной сумме квадратов в нормальном случае), ар количество регрессоров, "Оптимальная" в смысле данного критерия регрессия будет доставлять минимум критерию АІС, Другой вариант, байесовский критерий Шварца (Schwarz Bayesian information criterion, SBIC, BIC), использует в качестве штрафа за параметры р ln п, где п число наблюдений:
SBIC = 2ln L(0) + р ln n, (2.43)
Поскольку критерий Шварца сильнее штрафует за лишние параметры, он выбирает модели меньшей размерности.
Stata
К сожалению, в пакете Stata нет встроенных команд, посвященных информационным критериям. Есть, однако, программа fittest, находящаяся в архиве SSC-IDEAS
(), которая выдает также значения R2,R2adji информационных критериев Акайке и Шварца, а также ряд статистик, относящихся в основном к логистическим регрессиям. Другая программа, вычисляющая критерии Акайке, Шварца, а также критерий информационной сложности Боздогана, находится на web-страничке автора и называется ісотр.

Нелинейность

Другим возможным нарушением классической модели регреееии может быть случай, когда функция регреееии E[y|x] нелинейна. Игнорирование нелинейности может представлять определенную проблему, поскольку неучтенная нелинейность отзовется изменением свойств остатков. Они оказываются смещенными, у них возникает корреляционная структура, а значит, смещаются и ковариационные матрицы оценок коэффициентов и, в конечном итоге, t- и F-етатиетики, Эта проблема может быть сформулирована в терминах пропущенных переменных (можно считать, что в регрессии пропущены необходимые нелинейные члены), и один из вариантов теста на неучтенную нелинейность был предложен в 1960-х гг.

Рамсеем. В этом тесте рассматривается полиномиальная регрессия вида
к
ei = yУІ + ошибкад (2.44)
к= 1
где yi - прогнозные значения из обычной линейной МНК-регреееии, а ei ее остатки, и проверяется гипотеза Н0 : д = 0.
Stata
Тест Рамсея осуществляется в пакете Stata командой ovtest. Stata использует первые четыре степени (K = 4) регрессоров или предсказанных значений независимой
переменной.
Нелинейность может заключаться в том, что функция регрессии связана е известными нелинейными функциями регрессоров (например, в моделях вида у = а + Ъх2 + е,у = а sin х + е,у = ахьв?, где ? "хорошие" (центрированные, независимые, с конечной дисперсией) ошибки, В подобных случаях преобразованием переменных задачу можно свести к классической модели линейной регрессии, где линейность понимается как линейность относительно параметров.
В более серьезных случаях нелинейность является существенной, т.е. не сводимой к линейной модели. Функция регрессии имеет общий вид
(2.45)
Уі = f (xi,e) + ?i,
где f (- ) известная функция достаточно общего вида (у = а sin(bx + c) + ?, у = ахь + ? чем отличаются эти функции от приведенных выше?). Оказывается, что нелинейный метод наименьших квадратов (англ, NLS, non-linear least squares) обеспечивает наиболее эффективные, в определенном классе макеимизационных задач, оценки искомых параметров.
Stata
Пакет Stata позволяет оценивать и такие нелинейные регрессии с помощью команды пі. Чтобы воспользоваться этой командой, необходимо написать небольшую программу с достаточно жестко зафиксированным синтаксисом, которая будет вычислять значение функции регресии f (- ) и передавать на оптимизацию пі.

Идентификация резко выделяющихся наблюдений

В связи с тем, что МНК-оценки неробастны, возникает естественный вопрос: не получится ли так, что малое число выделяющихся наблюдений будет задавать такую поверхность регрессии, которая будет иметь мало общего с поверхностью, проходящей через большинство точек? Например, в случае парной регрессии может ли случиться, что прямая регрессии пройдет через одну точку и центр масс остальных?

Увы, ответ положительный: наличие выделяющихся наблюдений (influential observations), или выбросов (outliers) явление скорее типичное, нежели редкое, в прикладном анализе. Иногда это связано с тем, что отдельные наблюдения действительно сильно отличаются от остальных (например, Москва практически всегда выделяется при анализе данных по регионам России), а иногда может быть вызвано ошибкой во вводе данных непра-
вильно поставленная десятичная запятая, пропуск цифры при вводе данных или запись величины в миллионах рублей вместо тысяч (в результате деноминации 1997 г,), и т, и. Наконец, далеко отстоящие (в терминах стандартных отклонений) от основной массы данных точки могут появляться в асимметричных распределениях (логнормальное, гамма) или в распределениях с тяжелыми хвостами (распределение Стьюдента),
Чрезмерно высокое влияние отдельных наблюдений может быть связано с тем, что данное наблюдение отстоит далеко от остальных наблюдений в пространстве регрессоров (и, соответственно, обладает большим плечом (англ, leverage) в воздействии на данные), а может быть связано с большой ошибкой ? в данном наблюдении. Может быть, что оба фактора накладываются друг на друга, что может как усугубить (рис, 2,4,3), так и облегчить ситуацию.
Выявлять выделяющиеся наблюдения можно следующим образом , Рассмотрим
прогнозные значения зависимой переменной:
(2.46)
у = Хв = X(XT X)-1XT у = Ну
Элементы матрицы Н несут информацию о конфигурации точек в пространстве регрессоров X и в то же время непосредственно задают влияние каждой точки уі на все прогнозные значения у. Можно показать, что hii = j=1 hj, и поэтому мерой влияния і-точки можно положить hi = hii (англ, hat value, имеет смысл условной корреляции наблюденного и прогнозного значений при фиксированной остальной выборке). Далее,
1 /п hi 1, причем среднее значение равняется p/n, и поэтому потенциально выделяющиеся наблюдения можно идентифицировать по высокому значению hi например, больше 3p/n.
Stata
hat-values можно получить командой predict ... , hat, отдаваемой после команды
regress.
Помимо идентификации "опасных" точек в пространстве регрессоров, влияние на оценки МНК будут оказывать, как упоминалось выше, большие ошибки. Остатки регрессии как таковые, по всей видимости, не обязательно будут достаточно информативны, поскольку в совокупности они не являются независимыми, и, более того, МНК стремится провести поверхность регрессии как можно ближе к далеко отстоящим данным. Для получения независимых остатков необходимо исключить данное і-е наблюдение, прогнать регрессию заново и получить стъюдептизироваппые остатки:
(2.47)
где Sei) оценка стандартного отклонения остатков при исключении і-го наблюдения, а появление коэффициента -Д1 hi связано с тем, что Varei|Ho = (1 hi)a2. При нулевой гипотезе нормального распределения ошибок величина е* имеет распределение Стыодента с N p 1 степенями свободы. Полностью аналогичной величиной будет
t-етатиетика для коэффициента 7 в регрессии y = XT/ + yD' + ец где Dj, бинарная переменная, равная единице в г-й точке и нулю в остальных.
Сочетание "большого плеча" и большого остатка выявляется при помощи D-етатиетики Кука (англ. Cook’s distance):
e2 h¦
Di = 7 Thi (2'48)
Самые высокие значения D-етатиетики свидетельствуют о том, что данное наблюдение достаточно заметно изменяет МНК-оценки коэффициентов. Эмпирическое значение порога "тревожности" Di ¦
Непосредственное влияние отдельных наблюдений на оценку коэффициента /к дается статистикой DFBETAki:
/t - вк'1
(?аДк?72 ’
(2.49)
DF BET Ак ,i
где верхний индекс (г) показывает, что из расчетов исключено г-е наблюдение. Иными словами, мы получаем оценки коэффициентов и оценку их ковариационной матрицы по методу складного ножа и строем что-то вроде t-статистики, показывающей отклонение коэффициента при исключении данного наблюдения, В соответствии с этой интерпретацией, следует обращать внимание на наблюдения с \DFBETАк,'і 2Д/п p.
Еще одна статистика диагностики влияния наблюдений показывает, насколько сильно данное наблюдение оттягивает на себя линию регрессии:
DFFITSi = eU ^7 (2.50)
V 1 hii
Здесь h в числителе учитывает, насколько далеко данная точка отстоит от основного массива, а 1 h дает поправку на дисперсию остатков. Как и расстояние Кука, эта статистика учитывает и величину остатка, и его плечо в воздействии на линию регрессии, Если абсолютная величина статистики DFFITS'B г-м наблюдении с выше 2л/р/П, то, возможно, это наблюдение заметно смещает всю линию регрессии.
Stata
Стьюдентизированные остатки можно получить командой predict ... , г student после команды regress. D-статистика Кука вычисляется командой predict ... , cooksd, статистики DFBETA predict ... , dfbetaC имя переменной) или отдельной командой dfbeta, статистики DFFITS командой predict ... , dfits.

Визуальный анализ

Визуальный анализ часто является хорошим подспорьем в диагностике регрессий не очень больших размерностей и зачастую может помочь выявить большинство упомянутых выше нарушений классических предположений. Перечислим основные виды графиков, которые можно использовать для анализа "адекватности" регрессии.
Stata
Практически вся графика Stata является вариантами команды graph, у которой имеется добрая сотня разнообразных опций на разнообразные случаи жизни. Наиболее часто используемые графики реализованы в виде отдельных команд.

См. раздел 3.14.
- Перед началом анализа, еще до стадии оценивания регрессии, можно проанализировать распределение зависимой и независимых переменных. Сильная асимметрия может свидетельствовать о необходимости применения преобразований к нормальности, многомодальность о наличии структуры групп наблюдений (которую можно учесть, введя бинарные переменные), и т, д.
Stata
Общая сводка описательных статистик по одной или нескольким переменным выводится командой summarize. Графическое представление распределения отдельной переменной, т. е. гистограмму, можно получить командой graph "имя переменной".

Более продвинутые варианты анализа включают в себя использование ядерных оценок плотности (kdensity), нормальной бумаги (qnorm), а также прочие диагностические графики (описание которых можно найти по ключевому слову diagplots) и более совершенные средства создания гистограмм (программа histplot, загружаемая с архива программных компонентов SSE-IDEAS, находящегося в Бостонском Колледже: ). Наконец, относительно простым тестом на нормальность является тест по третьему и четвертому моментам (которые, при соответствующей нормировке, равны нулю у нормального распределения, и совместное выборочное распределение которых является нормальным) sktest, от англ, skewness-kurthosis test.
- Аналогичную процедуру можно выполнить в отношении регрессионных остатков
14
... которые можно получить командой predict ... , residuals после regress.
Stata
- Связь отдельных регрессоров с зависимой переменной можно проследить на диаграммах рассеяния. При помощи этих графиков уже можно выявить определенные недостатки регрессии.

Так, если на диаграмме рассеяния большая часть данных группируется возле нуля, и есть несколько точек в оставшемся поле, то, скорее всего, данные необходимо трансформировать, чтобы снизить влияние удаленных точек.
Пример диаграммы рассеяния двух асимметричных распределений приводится на рис. 2.4.4.
Более содержательным, в регрессионном контексте, графиком будет (частная) диаграмма рассеяния, очищенная от линейного вклада остальных переменных,
не обязательно приводят к большим остаткам. Кроме того, остатки в совокупности не являются независимыми (так, их сумма равна нулю).
т, е, диаграмма рассеяния остатков регрессий

y = X(-k)T в(-к) + ?(-к) (2.51)
Xk = X(-k)T у(-к) + ?(-к), (2.52)

где верхний индекс (к) означает отутствие в составе регрессоров k-й переменной, Такой график называется графиком добавленной переменной (англ, added variable plot) или графиком, частной регрессии (англ, partial regression plot), С его помощью можно выявлять гетероскедастичность (вида роста дисперсии ошибок с ростом какой-либо из переменных), нелинейность, а также находить возможные выбросы.
Stata
График частной регрессии выводится командой avplot. К этой команде, как и к другим командам диагностики, выводящим двумерные графики, приложимы большинство опций диаграмм рассеяния.
- Общую скрытую нелинейность и/или гетероскедастичность можно обнаружить и на графике остатков в зависимости от прогнозных значений (т, е, по горизонтальной оси откладываются у, а то вертикальной в). По построению, эти переменные некоррелированы, поэтому в общем и целом график должен лежать вокруг оси абсцисс.
Stata
Соответствующая команда носит название rvfplot англ, residual versus fitted. Аналитическими дополнениями являются диагностические тесты hettest и ovtest.
- Альтернативой графику частной регрессии (в особенности для диагностики нелинейности) может быть график частных остатков:
(2.53)
е(к) = e + /Зк Xk
Stata
Соответсвующие команды Stata cprplot и acprplot (англ, component plus residual).
Возможно, какие-то из этих графиков можно включать в публикуемые материалы исследования как свидетельство основательного анализа данных и адекватности статистических результатов.

Множественная проверка гипотез

Одним из простейших случаев проверки нескольких гипотез одновременно является F-теет на несколько линейных ограничений на параметры вида (2,16), Более тонким случаем является проверка гипотезы о значении (знаке) одного и того же коэффициента в нескольких регрессиях. Тонкостью, обычно игнорируемой, однако чрезвычайно важной, является корректная интерпретация получаемого совокупного уровня значимости. Действительно, если событие Ak состоит в том, что в k-й регрессии нулевая гипотеза не отвергнута (и, соответственно, Ak что отвергнута), то, очевидно,
P (UfcAfc) Y, Р (Afc) (2-54)
k
а следовательно,
Р (ПAk) 1 - ^ Р (Ak) (2.55)
k
В левой части (2,55) фигурирует вероятность принять нулевую гипотезу во всех регрессиях, Соответственно, если требуется, чтобы совокупный уровень значимости составлял а, то самым простым способом гарантировать этот уровень значимости будет потребовать, чтобы правая часть (2,54) превосходила 1 а, В свою очередь, простейший способ добиться этого потребовать, чтобы уровень значимости в каждом из тестов P(Ak) не превосходил а/K, где K общее количество тестов. Описанная выше процедура называется процедурой Бонферрони (Bonferroni adjustment) и является одним из примеров поправок на проверку множественных гипотез. Другие известные процедуры, зачастую более точные и менее консервативные процедуры Шеффе (Sheffe), Тыоки (Тикеу) н Воркинга-Хотеллинга (Working-Hotelling) (Шеффе 1980, Smith and Young 2001),
Поправка на множественность процедура методологическая, поэтому явно выраженной команды Stata для нее нет. Если исследователь собирается применять процедуру Бонферрони и ему заранее известно количество моделей, которые он будет оценивать, то можно задать уровень значимости для построения доверительных интервалов после оценивания моделей командой set level ... , По умолчанию устанавливается уровень значимости 95 (процентов), Текущее состояние можно выяснить командой query см, раздел 3,15,

Данные с пропусками

Данные е пропусками это проклятие исследований, в которых используются результы выборочных обследований: зачастую, увы, невозможно гарантировать, что все респонденты дадут полную и точную информацию.



Содержание раздела