Выборка RLMS

Выборка RLMS изначально является выборкой домохозяйств, и поэтому

Таблица 4.1: Выборка ELMS

Параметры выборки	Проект	Реализация
Раунд 5	Раунд 6	Раунд 7	Раунд 8
Объем выборки домохозяйств индивидуумов Кол-во страт	4718 38	3973 11284	3781 10648	3750 10465	3831 10677

результаты HI.MS должны в первую очередь относиться к генеральной совокупности домохозяйств. Впрочем, представительность выборки индивидуумов, как показывает сравнение ее основных социальных и демографических характеристик е результатами переписи 1989 г., также вполне удовлетворительна. Данные о выборке и участии домохозяйств в обследовании приводятся в таблице 4.1.
Выборка домохозяйств HI.MS была сделана по схеме многоступенчатой стратификации, т.е. последовательного случайного выбора. В выборку были включены саморепрезентативные страты, т.е. страты, выбираемые с вероятностью 1 в силу своей уникальности Москва, Московская область, С.-Петербург. В качестве первичных единиц выборки (PSU) были использованы административные районы областей или крупных городов. Ряд местностей был исключен из-за труднодоступное™, низкой плотности населения или ведения боевых действий; общая численность населения исключенных местностей составляет порядка 4.4% населения РФ. Из каждой страты выбирался один район (PSU), Вторичной единицей выборки (SSU, secondary sampling unit) являются участки переписи, избирательные участки или почтовые отделения (в порядке предпочтения). Наконец, на третьем уровне выбираются сами домохозяйства.
В силу описанной структуры выборки, HI.MS нельзя использовать для анализа региональных данных. Точнее, HI.MS не является представительным обследованием на региональном уровне. Так, из 89 субъектов Федерации, обследование затрагивает чуть
более трех десятков, при этом в одних субъектах опрашивается только городское население, в других только сельское. Безусловно, при наличии внешних данных о состоянии региона таких, как темпы инфляции или уровень безработицы их вполне можно включать в регрессии там, где это уместно. Корректность использования данных является в некотором смысле направленной: использовать хорошие региональные данные в HI.MS можно, а данные HI.MS в региональных исследованиях нельзя.
Интервьюерами заполняются три типа анкет: семейная, индивидуальная для взрослых и индивидуальная для детей. Семейную анкету заполняет член семьи, наиболее еведующий в ее ресурсных и финансовых потоках. Детские анкеты заполняются родителями, Кроме того, создается также файл данных, содержащих сведения об инфраструктуре поселения и ценах местной торговой сети (коммунальные данные). Эти данные распространяются отдельно от индивидуальных и семейных данных, и для их использования необходимо заполнить определенное соглашение с университетом.
Данные, полученные из заполненных анкет, представлены в Интернете, Кроме того, разработчики HI.MS проводят минимальную чистку и сверку этих данных, результаты которой также имеются в открытом доступе. Файлам данных даются следующие имена:
- r#hh* исходные данные семейных анкет;
- r#he* переработанные данные семейных анкет;
- г#іп* исходные индивидуальные данные;
- г#* прочие вторичные данные (потребление алкоголя, табака, калорийность
питания и т.п.)
Здесь # обозначает номер раунда, а * произвольное окончание. Так, файл с исходными данными о доходах домохозяйств за седьмой раунд будет носить название r7hhincm. Всего таких файлов около двух десятков за каждый раунд. Кроме самих данных, в Интернете имеются и pdf-файлы с бланками всех анкет (на английском языке).
Во всех файлах данных имеются идентификаторы семей и/или индивидуумов, которые можно использовать в команде merge, В пределах одного раунда такими идентификаторами являются переменные site# (номер местности), censusd# (номер участка участка всеобщей переписи, избирательного участка или зоны охвата почтового отделения в городах, деревни в сельской местности), family# (идентификационный номер
семьи) и person# (номер индивида в пределах домохозяйства в индивидуальных данных), где # по-прежнему номер раунда. Возможны, впрочем, мелкие отклонения; так, в данных 6-го раунда вместо переменных site6, censusd6, family6, регвопб имеются переменные site, census, family, person, что создает определенные неудобства при попытках написать программы, универсальные для всех периодов. Для совмещения данных за разные раунды следует пользоваться переменными aid, bid, cid и did, представляющими собой уникальные идентификаторы домохозяйств или индивидуумов за соответствующие раунды, К сожалению, и для индивидуумов, и для домохозяйств используются переменные с одним и тем же названием; переменные для домохозяйств при этом на две цифры короче.

Для определенных задач (например, анализа с учетом стратификации командами svy* или бутетрепа) могут потребоваться идентификаторы страт (и, соответственно, первичных единиц выборки). Эта информация содержится в переменных psu или psu#. Они в файлах ELMS встречаются редко, однако, поскольку структура выборки зафиксирована, они однозначно соответствуют переменным site# за разные раунды (одному psu соответствует несколько site).
Основными темами обследования ELMS являются здоровье и экономические характеристики населения. Наряду с указанными домохозяйствами номинальными экономическими показателями, во вторичных файлах ELMS приводятся также "реальные" (дефлированные) показатели ,
Все переменные во всех файлах имеют описания (во всяком случае, в исходных файлах, размещенных в Интернете), При конвертации программой StatTransfer эти описания сохраняются.
Начиная работать с данными ELMS (как и любой другой базы данных), помните о
правилах "хорошего стиля":
1, Необходимо хранить исходные файлы в сохранности, модифицируя их do-файлами и сохраняя, при необходимости, в виде отдельных новых файлов. Это полезно не только для восстановления ценных исходных файлов данных и результатов собственных исследований в случае сбоя, но и для возможности, хотя бы теоретической, воспроизведения ваших результатов другими исследователями,
2, Из числа прочих правил работы с данными, упоминаемыми в разных частях главы 3, стоит напомнить о необходимости описания данных ( label data ) и переменных (label variable ) непосредственно после их создания, а также о возможностях внесения комментариев в файлы данных ( notes ), Эти функции пакета Stata начинают особенно цениться при обращении к файлам, созданным несколько недель (и тем более месяцев) тому назад,,,
В заключение упомянем, что, по данным Университета Северной Каролины, базой данных HI.MS пользуются около трехсот научно-исследовательских организаций по всему миру.

Глава 5 Заключение

В данном пособии были рассмотрены основные аспекты прикладного эконометрического анализа. Безусловно, приведенный материал страдает схематичностью: практически каждая из рассмотренных проблем вполне может послужить темой для отдельной монографии, Автор скорее ставил целью не изложить детально всевозможные аспекты регрессионного анализа, а подсказать читателю, какие методы анализа данных вообще существуют и как можно выяснить, следует ли применять эти методы в данном конкретном случае, а также познакомить читателя с эконометрическими методами, встречающимися в современной литературе.
Для дальнейшего чтения могут быть порекомендованы, в первую очередь, книги Айвазян, Мхитарян (1998) и Greene (1997), Некоторые из более узких тем освещены в специальной литературе, а также в справочниках по эконометрике и статистике, ссылки на которые также приводится в списке литературы. Число источников на русском языке, к сожалению, достаточно ограниченно, в особенности в отношении пособий и монографий по эконометрике, с которой российские исследователи и студенты стали знакомиться только в последние годы.
Тем не менее, автор надеется, что это пособие поможет в прикладной работе эконо-миетам-иееледователям в анализе реальных данных и студентам в освоении предмета эконометрики.

Глава 6 Домашние задания

Неотъемлемой частью любого учебного курса являются домашние задания. Данный куре является сугубо практическим и прикладным, и домашние задания выстроены соответствующим образом.
Перед семинаром предлагается нулевое домашнее задание, предназначенное в основном для отбора слушателей для семинара. Оно предназначено для того, чтобы потенциальные слушатели могли реально соотнести свои возможности с уровнем сложности материала курса.

Представление о том, как решать такие и подобные задачи, является отправной точкой для усвоения материала курса.
Для выполнения нулевого домашнего задания я настоятельно рекомендую ознакомиться с книжкой по эконометрике Катышева и Пересецкого (хотя бы в объеме первых трех глав Магнус Я, Р,, Катышев П, К,, Пересецкий А, А, Эконометрика, Начальный курс, М,, Дело, 1997) или с соответствующими главами книжки Айвазяна и Мхитаря-на (Айвазян С,А,, Мхитарян В,С, Прикладная статистика и основы эконометрики, М,, ЮНИТИ, 1999), посвященными регрессионным моделям и методу наименьших квадратов.
Если вам кажется, что утверждение задачи некорректно или ошибочно, укажите, почему,
1, (Магнус, Катышев, Пересецкий, 1997) Что произойдет с МНК-оценками, если к одному из регрессоров добавить константу? Если к зависимой переменной добавить константу?

Если заменить регрессоры и зависимую переменную на отклонения от средних значений? Исследуйте, как изменятся оценки (если изменятся) и как изменится значимость регрессоров (если изменится),
2, В модели множественной регрессии наряду с регрессором x не имеет смысла использовать его степени x2,x ,..., так как эти степени являются зависимыми от регрессора x и, следовательно, не дают никакой дополнительной информации. Обоснуйте или опровергните,
3, У всякой регрессии сумма остатков равна нулю. Обоснуйте или приведите контрпример.
Дальнейшие задачи связаны с пакетом Stata, занятиями курса или материалом пособия,
1, Сколько параметров должно быть у команды regress пакета Stata?
2, Как по распечатке регрессии понять, какие переменные статистически значимы, и значима ли вся регрессия в целом?
3, Известно, что мультиколлинеарность и гетероскедастичность увеличивают ошибки МНК-оценок коэффицентов. Если оба этих эффекта действуют одновременно, можно ли за счет борьбы с одним из них ослабить эффект другого?
4, Какие значения статистики R2 вы бы сочли хорошими, и почему: 0,7315, 0,0082, 0.1041, 0.9989, 0.9305, 0.5000?
5, Воспроизведите на данных auto.dta графики на рис, 2,3-2,8,
6, Рассчитайте по данным HI.MS среднедушевые доходы и расходы домохозяйств. Совпадают ли эти цифры?

Должны ли они совпадать?
По окончании курса слушателям предлагается выполнить небольшое исследование по мотивам ELMS с использованием пакета Stata, заключающееся в подборе данных, выборе и обосновании спецификаций регрессии, формулировке и проверке статистических гипотез, а также в диагностике полученных результатов.
Задание. По данным одного из раундов RLMS рассчитайте, как связаны между собой уровень образования и доходы. Что необходимо учитывать, если объединять данные за несколько раундов?

Можно ли на основе полученных результатов утверждать, что наличие высшего образования повышает или понижает зарплату на столько-то рублей / столько-то процентов?
Срок выполнения задания две недели.
Задание, безусловно, представлено в максимально общем виде, в целях приближения обстановки к "боевой": в условиях реального исследования будет необходимо точно так же выбирать переменные для анализа, вычищать данные, выбирать спецификацию модели, проводить диагностику регрессии и т.п.

Литература

Айвазян С, А,, И, С, Енюков, Л, Д, Мешалкин, Прикладная статистика. Исследование зависимостей, М,, "ФиС", 1983,
Айвазян С, А,, С, О, Колеников, Бедность и дифференциация по расходам в России, Заключительный отчет для Российской программы экономических исследований, 2000.
Айвазян С, А,, В, С, Мхитарян, Прикладная статистика и основы эконометрики, М,, ЮНИТИ, 1998.
Демиденко Е, 3, Линейная и нелинейная регрессия, М,, "ФиС", 1981,
Кендалл М, Дж,, А, Стюарт, Статистические выводы и связи, М,, Наука, 1973,
Магнус Я,, П, К, Катышев, А, А, Пересецкий, Эконометрика, Начальный курс, М,, "Дело", 1997.
Математическая энциклопедия, М,, "Советская энциклопедия", 1984,
Себер Дж, Линейный регрессионный анализ, М,, "Мир", 1980,
Справочник по прикладной статистике, П/р Э, Ллойда и У, Ледермана, Пер, с англ, п/р Ю, Н, Тюрина, М,, "ФиС", 1989,
Тюрин, Ю, II.. А, А, Макаров, Статистический анализ данных на компьютере, М,, Инфра-М, 1998,
Хардле В, Прикладная непараметрическая регрессия, М,, "Мир", 1993,
Хьюбер П, Робастность в статистике, М,, "Мир", 1984,
Шеффе Г, Дисперсионный анализ, М.. Наука, 1980,
Эфрон Б, Нетрадиционные методы многомерного статистического анализа, М,, "ФиС", 1988.
Handbook of statistics. Volume 11, Econometrics, G.S, Maddala, C.E, Eao, H.D, Vinod (eds,), North-Holland, 1993,
Handbook of econometrics, vol. 1 (ed, Z, Griliehes, M, Intrilligator, 1983), 2 (ed, Z, Griliches, M, Intrilligator, 1984), 3 (ed, Z, Griliches, M, Intrilligator, 1986), 4 (ed, E, Engle, D, McFadden, 1994), Elsevier,
Baltagi, В, H, Econometric Analysis of Panel Data, John Wiley Sons, 1995,
Dempster, A, P,, M, M, Laird, and D, B, Eubin, Maximum likelihood from incomplete data via the EM algorithm (with discussion), J. Royal Statist. Society, B39, 1-38 (1977),
Draper, N,, H, Smith, Applied regression analysis, 3rd edition, Wiley, 1998 (имеется русские переводы 1-го и 2-го изданий: Н, Дрейпер, X, Смит, Прикладной регрессионный анализ,),
Efron, В, Bootstrap methods: Another look at the jacknife, Ann. Stat., 7, 1-26, 1979,
Fox, J, Applied regression analysis, linear models, and related methods, SAGE, 1997,
Gallup, J, outreg Formatting regression output, Stata Technical Bulletin, 46 (1998), 48 (1999), 58 (2000), 59 (2001).
Gould, W,, W, Sribnev, Maximum Likelihood Estimation with Stata, Stata Press, 1999,
Greene, W, H, Econometric Analysis, 3rd edition, Prentice Hall, 1997,
Hausman, J, Specification Tests in Econometrics, Econometrica, 46, 1251-1271, 1978,
Kolenikov, S, Review of Stata 7, J. of Applied Econometrics, forthcoming,
Konishi, S,, and G, Kitagawa, Generalized information criteria in model selection, Biometri-ka, 83 (4), 875-890, 1996.
Little, E, J, A,, and D, B, Rubin, Statistical Analysis with Missing Data, Wiley (1987),
Maddala, G, Limited Dependent and Qualitative Variables in Econometrics, Cambridge Univ. Press, 1983,
Maddala, G, The Econometrics of Panel Data, Brookfield, 1993,
Mander, A,, and D, Clayton, Hotdeek imputation, Stata Technical Bulletin, 51 (1999), 54
(2000).
Matvas, L,, ed. Generalized method of moments estimation, Cambridge University Press, 1999.
Mroz, T,, D, Maneini, B, Popkin, Monitoring Economic Conditions in the Russian Federation, The Russia Longitudinal Monitoring Survey 1992-98, Report submitted to the USAID, Carolina Population Center, University of North Carolina at Chapel Hill, 1999,
Newev, W, К,, K, D, West, A Simple, Positive Semi-definite, Heteroskedastieitv and Autocorrelation Consistent Covariance Matrix, Econometrica, 55, 703-708, 1987,
Nevman, J,, and E, S, Pearson, On the use and interpretation of certain test criteria for purposes of statistical inference, Biometrika, 20-A: 175-247, 264-299 (1928),
Rubin, D, B, Inference and missing data, Biometrika, 63, 581-592 (1976),
Rubin, D, B, Multiple imputations in sample surveys a phenomenological Bayesian approach to nonresponse. Imputation and Editing of Faulty or Missing Survey Data , U.S, Department of Commerce, pp, 1-23 (1978),
Smith, lb. and K, Young, Linear Regression, Oxford University Press (2001),
StataCorp, Stata Statistical Software, Release 6 (1999), Release 7 (2001),
Swafford, M, Sample of the Russian Federation, Rounds V and VI of the Russian Longitudinal Monitoring Survey, Technical Report, Paragon Research International, 1996,
Wessie, J, mmerge Safe and easy matched merging, Stata Technical Bulletin, 53 (1999),

Содержание раздела