Download - Фиктивные переменные
![Page 1: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/1.jpg)
Фиктивные переменные
![Page 2: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/2.jpg)
Опр. Фиктивная переменная – сконструированная количественная переменная, описывающая
качественные факторы
• Примеры качественных факторов:– пол– профессия– образование– климатические условия– принадлежность к какой-либо группе
• Возможные пути учета качественного фактора:– оценивание отдельных регрессий для каждой категории с
последующим выяснением значимо ли отличаются коэффициенты;
– оценивание единой регрессии с введенной фиктивной переменной и измерением степени влияния качественного фактора.
![Page 3: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/3.jpg)
Пример 1. Анализ зависимости урожайности пшеницы от вида вспашки и количества внесенного органического удобрения
• Пусть y – урожайность пшеницы,
x – количество внесенного удобрения,
z – вид вспашки.
z=1 – для зяблевой вспашки,
z=0 – для весенней вспашки.
1) Результаты регрессионного анализа без учета вида вспашки
F=8,7 ta=11,9 tb=2,95 rxy=0,5246
Вывод: уравнение регрессии статистически значимо.
xy 326,046,11ˆ
![Page 4: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/4.jpg)
2) Результаты регрессионного анализа по отдельным видам вспашки
3) Результаты регрессионного анализа с учетом вида вспашки путем введения фиктивной переменной z
F=15,6 R=0,766 ta=11,8 tb=3,9 td=4,1 rxz=-0,016
uzxy zxy 908,2331,0908,9ˆ
xy 349,0678,12ˆ
xy 300,0148,10ˆ
xyz 331,0816,12ˆ 1 xyz 331,0908,9ˆ 0
![Page 5: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/5.jpg)
Общий случай• Пусть качественный фактор имеет число градаций больше двух:
– тогда в модель вводим несколько фиктивных переменных, число которых меньше числа качественных градаций;
– одна из градаций выбирается как эталонная (для нее значения фиктивных переменных равны 0) и определяются значения фиктивных переменных для всех остальных градаций.
Пример 2. Анализ зависимости цены двухкомнатной квартиры от полезной площади с учетом качества (типа)
дома.
Тип дома: «хрущевка», панельный, кирпичный.
Решение. Введем две фиктивные переменные: z1 и z2.
Эталонная категория – «хрущевка».
кирпичныйхрущевка
панельныйz
,""0
11
панельныйхрущевка
кирпичныйz
,""0
12
21 16002200500320ˆ zzxy
![Page 6: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/6.jpg)
Замечание 1: параметры при фиктивных переменных представляют собой разность между
средними уровнями результативного признака для соответствующей группы и эталонной группы.
Замечание 2: целью включения фиктивной переменной может быть желание отразить в модели неоднородность данных.
Замечание 3: рассмотренный метод фиктивной переменной предполагает равенство коэффициентов регрессии при x по
частным совокупностям и возможность их замены общим коэффициентом регрессии.
![Page 7: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/7.jpg)
Множественные совокупности фиктивных переменных
• Если имеются данные, собранные как по ряду количественных факторов, так и по ряду качественных факторов, то в уравнение регрессии включаются более одной совокупности фиктивных переменных.
Пример 3. Исследуется зависимость веса новорожденного от интенсивности курения матери с учетом семейного положения и рожала ли ранее или нет.
y - вес новорожденного
x - количество сигарет, выкуриваемых в день будущей матерью
d - рожала ли в прошлом
s - семейное положение
![Page 8: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/8.jpg)
• 1) Замужняя мать, первые роды s=0, d=0• 2) Одинокая мать, первые роды s=1, d=0• 3) Замужняя мать, не первые роды s=0, d=1• 4) Одинокая мать, не первые роды s=1, d=1
Эталонная категория – первая.
Результат исследования данных (США):
xsdy 2,71321093386ˆ
![Page 9: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/9.jpg)
Фиктивные переменные для коэффициента наклона
• Пример 4. Исследуется зависимость веса новорожденного от интенсивности курения матери и фиктивной переменной числа родов в прошлом.Рассмотрим две модели:а)
воздействие курения матери на вес новорожденного не зависит от номера родов;б)
воздействие курения матери на вес новорожденного зависит от того, рожала раньше или нет
d=0
d=1
uxdy
uxddudxxdy )(
dxxdy 1,80,41433363ˆ xy 0,43363ˆ
xy 1,123506ˆ
![Page 10: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/10.jpg)
Взаимодействие между фиктивными переменными
• Вернемся к примеру 3.Введем фиктивную переменную взаимодействия (sd), которую определим как произведение s и d.(sd)=1 для одиноких матерей, рожавших ранее(sd)=0 в остальных случаяхМодель
или
Результат
с.о. (18) (28) (52) (115) (2,1)
uxsdsdy
uxsdsy )(
uxsddy )(
xsdsdy 3,772117113385,3ˆ
![Page 11: Фиктивные переменные](https://reader036.vdocuments.pub/reader036/viewer/2022082414/56812f52550346895d94e192/html5/thumbnails/11.jpg)
Тест Чоу• Пусть имеется выборка, состоящая из двух подвыборок.
Вопрос: следует ли их объединить для оценивания общей регрессии P или оценить отдельные регрессии A и B?Обозначим: UA – сумма квадратов остатков выборки A
UB – сумма квадратов остатков выборки B UP – сумма квадратов остатков
объединенной выборки F-статистика:
Вывод: если F>Fтабл - не следует оценивать объединенную выборку
Что делать?Ввести фиктивные переменные,
позволяющие не задавать заранее какой-либо коэффициент одинаковым для обеих подвыборок.
22/
1/
knUU
kUUU
BA
BAP