Фиктивные переменные
DESCRIPTION
Фиктивные переменные. Опр. Фиктивная переменная – сконструированная количественная переменная, описывающая качественные факторы. Примеры качественных факторов: пол профессия образование климатические условия принадлежность к какой-либо группе - PowerPoint PPT PresentationTRANSCRIPT
Фиктивные переменные
Опр. Фиктивная переменная – сконструированная количественная переменная, описывающая
качественные факторы
• Примеры качественных факторов:– пол– профессия– образование– климатические условия– принадлежность к какой-либо группе
• Возможные пути учета качественного фактора:– оценивание отдельных регрессий для каждой категории с
последующим выяснением значимо ли отличаются коэффициенты;
– оценивание единой регрессии с введенной фиктивной переменной и измерением степени влияния качественного фактора.
Пример 1. Анализ зависимости урожайности пшеницы от вида вспашки и количества внесенного органического удобрения
• Пусть y – урожайность пшеницы,
x – количество внесенного удобрения,
z – вид вспашки.
z=1 – для зяблевой вспашки,
z=0 – для весенней вспашки.
1) Результаты регрессионного анализа без учета вида вспашки
F=8,7 ta=11,9 tb=2,95 rxy=0,5246
Вывод: уравнение регрессии статистически значимо.
xy 326,046,11ˆ
2) Результаты регрессионного анализа по отдельным видам вспашки
3) Результаты регрессионного анализа с учетом вида вспашки путем введения фиктивной переменной z
F=15,6 R=0,766 ta=11,8 tb=3,9 td=4,1 rxz=-0,016
uzxy zxy 908,2331,0908,9ˆ
xy 349,0678,12ˆ
xy 300,0148,10ˆ
xyz 331,0816,12ˆ 1 xyz 331,0908,9ˆ 0
Общий случай• Пусть качественный фактор имеет число градаций больше двух:
– тогда в модель вводим несколько фиктивных переменных, число которых меньше числа качественных градаций;
– одна из градаций выбирается как эталонная (для нее значения фиктивных переменных равны 0) и определяются значения фиктивных переменных для всех остальных градаций.
Пример 2. Анализ зависимости цены двухкомнатной квартиры от полезной площади с учетом качества (типа)
дома.
Тип дома: «хрущевка», панельный, кирпичный.
Решение. Введем две фиктивные переменные: z1 и z2.
Эталонная категория – «хрущевка».
кирпичныйхрущевка
панельныйz
,""0
11
панельныйхрущевка
кирпичныйz
,""0
12
21 16002200500320ˆ zzxy
Замечание 1: параметры при фиктивных переменных представляют собой разность между
средними уровнями результативного признака для соответствующей группы и эталонной группы.
Замечание 2: целью включения фиктивной переменной может быть желание отразить в модели неоднородность данных.
Замечание 3: рассмотренный метод фиктивной переменной предполагает равенство коэффициентов регрессии при x по
частным совокупностям и возможность их замены общим коэффициентом регрессии.
Множественные совокупности фиктивных переменных
• Если имеются данные, собранные как по ряду количественных факторов, так и по ряду качественных факторов, то в уравнение регрессии включаются более одной совокупности фиктивных переменных.
Пример 3. Исследуется зависимость веса новорожденного от интенсивности курения матери с учетом семейного положения и рожала ли ранее или нет.
y - вес новорожденного
x - количество сигарет, выкуриваемых в день будущей матерью
d - рожала ли в прошлом
s - семейное положение
• 1) Замужняя мать, первые роды s=0, d=0• 2) Одинокая мать, первые роды s=1, d=0• 3) Замужняя мать, не первые роды s=0, d=1• 4) Одинокая мать, не первые роды s=1, d=1
Эталонная категория – первая.
Результат исследования данных (США):
xsdy 2,71321093386ˆ
Фиктивные переменные для коэффициента наклона
• Пример 4. Исследуется зависимость веса новорожденного от интенсивности курения матери и фиктивной переменной числа родов в прошлом.Рассмотрим две модели:а)
воздействие курения матери на вес новорожденного не зависит от номера родов;б)
воздействие курения матери на вес новорожденного зависит от того, рожала раньше или нет
d=0
d=1
uxdy
uxddudxxdy )(
dxxdy 1,80,41433363ˆ xy 0,43363ˆ
xy 1,123506ˆ
Взаимодействие между фиктивными переменными
• Вернемся к примеру 3.Введем фиктивную переменную взаимодействия (sd), которую определим как произведение s и d.(sd)=1 для одиноких матерей, рожавших ранее(sd)=0 в остальных случаяхМодель
или
Результат
с.о. (18) (28) (52) (115) (2,1)
uxsdsdy
uxsdsy )(
uxsddy )(
xsdsdy 3,772117113385,3ˆ
Тест Чоу• Пусть имеется выборка, состоящая из двух подвыборок.
Вопрос: следует ли их объединить для оценивания общей регрессии P или оценить отдельные регрессии A и B?Обозначим: UA – сумма квадратов остатков выборки A
UB – сумма квадратов остатков выборки B UP – сумма квадратов остатков
объединенной выборки F-статистика:
Вывод: если F>Fтабл - не следует оценивать объединенную выборку
Что делать?Ввести фиктивные переменные,
позволяющие не задавать заранее какой-либо коэффициент одинаковым для обеих подвыборок.
22/
1/
knUU
kUUU
BA
BAP