МУЛЬТИКОЛЛИНЕАРНОСТЬ

36
1 МУЛЬТИКОЛЛИНЕАРНОСТЬ Чем выше корреляция, тем выше дисперсии и больше риск получить несостоятельные оценки. В этом случае говорят о мультиколлинеарности. Высокая коррелированность не всегда ведет к несостоятельности. Например если n велико и дисперсия случайного члена мала, то можно получить состоятельные оценки. Любая регрессия страдает от мультиколлинеар- ности. Задача определить, когда это влияние становится существенным.

Upload: gisela-hutchinson

Post on 03-Jan-2016

22 views

Category:

Documents


0 download

DESCRIPTION

МУЛЬТИКОЛЛИНЕАРНОСТЬ. Чем выше корреляция, тем выше дисперсии и больше риск получить несостоятельные оценки. В этом случае говорят о мультиколлинеарности . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: МУЛЬТИКОЛЛИНЕАРНОСТЬ

1

МУЛЬТИКОЛЛИНЕАРНОСТЬ

• Чем выше корреляция, тем выше дисперсии и больше риск получить несостоятельные оценки. В этом случае говорят о мультиколлинеарности.

• Высокая коррелированность не всегда ведет к несостоятельности. Например если n велико и дисперсия случайного члена мала, то можно получить состоятельные оценки.

• Любая регрессия страдает от мультиколлинеар- ности. Задача определить, когда это влияние становится существенным.

Page 2: МУЛЬТИКОЛЛИНЕАРНОСТЬ

2

X2 X3 Y

10 19 51

11 21 56

12 23 61

13 25 66

14 27 71

15 29 76

МУЛЬТИКОЛЛИНЕАРНОСТЬ

3232 XXY

12 23 XX

Предположим Y = 2 + 3X2 + X3 и X3 = 2X2 - 1. Случайного возмущения нет.

Page 3: МУЛЬТИКОЛЛИНЕАРНОСТЬ

3

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Графики переменных приведены выше.

0

10

20

30

40

50

60

70

80

1 2 3 4 5 6

Y

X3

X2

Page 4: МУЛЬТИКОЛЛИНЕАРНОСТЬ

4

Change Change ChangeX2 X3 Y in X2 in X3 in Y

10 19 51 1 2 5

11 21 56 1 2 5

12 23 61 1 2 5

13 25 66 1 2 5

14 27 71 1 2 5

15 29 76 1 2 5

МУЛЬТИКОЛЛИНЕАРНОСТЬ

3232 XXY

12 23 XX

Y увеличивается на 5 в каждом наблюдении при увеличении X2 на 1.

Page 5: МУЛЬТИКОЛЛИНЕАРНОСТЬ

5

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Итоговое соотношение Y = 1 + 5X2.

0

10

20

30

40

50

60

70

80

1 2 3 4 5 6

Y

X3

X2

Y = 1 + 5X2 ?

Page 6: МУЛЬТИКОЛЛИНЕАРНОСТЬ

6

Change Change ChangeX2 X3 Y in X2 in X3 in Y

10 19 51 1 2 5

11 21 56 1 2 5

12 23 61 1 2 5

13 25 66 1 2 5

14 27 71 1 2 5

15 29 76 1 2 5

МУЛЬТИКОЛЛИНЕАРНОСТЬ

3232 XXY

12 23 XX

С другой стороны можно выразить Х2 через Х3.

Page 7: МУЛЬТИКОЛЛИНЕАРНОСТЬ

7

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Уравнение имеет вид Y = 3.5 +2.5X3. Что предпочесть?

0

10

20

30

40

50

60

70

80

1 2 3 4 5 6

Y

X3

X2

Y = 3.5 + 2.5X3 ?

Page 8: МУЛЬТИКОЛЛИНЕАРНОСТЬ

8

МУЛЬТИКОЛЛИНЕАРНОСТЬ

uXXY 33221 23 XX

22222

22222

22222

22222

23232

323322

),(Cov))Var((Var

),(Cov),(Cov-)()Var(Cov

])[,(Cov))Var((Var

])[,(Cov)],([Cov-)()Var(Cov

),(Cov))Var((Var

),(Cov),(Cov-)()Var(Cov

XXXX

XXYXX,YX

XXXX

XXYXX,YX

XXXX

XXYXX,YXb

Определим как влияет на коэффициенты регрессии мультиколлинеарность. Подставим Х3 в выражение для b2. Выражение не зависит от .

Page 9: МУЛЬТИКОЛЛИНЕАРНОСТЬ

9

МУЛЬТИКОЛЛИНЕАРНОСТЬ

00

)(Var))Var((Var

)(Var),(Cov-)()Var(Cov

),(Cov)Var()(Var

),(Cov),(Cov-)(Var)(Cov

),(Cov))Var((Var

),(Cov),(Cov-)()Var(Cov

2222

222

222

2

2222

22

22222

2

22222

222222

XXX

XYXX,YX

XXXX

XXYXX,YX

XXXX

XXYXX,YXb

Вынося µ за знак вариации и сокращая подобные члены в числителе и знаменателе получаем 0. Регрессионный коэффициент не определен. Наличие строгой связи говорит о логической ошибке спецификации.

uXXY 33221 23 XX

Page 10: МУЛЬТИКОЛЛИНЕАРНОСТЬ

10

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Регрессия EARNINGS от S, ASVABC и ASVAB5. ASVAB5 - тест на скорость арифметических операций. ASVABC, оценки этого теста построены так, что имеют ожидание 50 и стандартное отклонение 10.

Page 11: МУЛЬТИКОЛЛИНЕАРНОСТЬ

11

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Регрессионный коэффициент времени обучения - $0.71. Значимая оценка.

Page 12: МУЛЬТИКОЛЛИНЕАРНОСТЬ

12

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Увеличение ASVABC на единицу увеличивает часовую зарплату на $0.11. Оценка значимая на уровне 2,9%.

Page 13: МУЛЬТИКОЛЛИНЕАРНОСТЬ

13

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

На единицу способностей в арифметических вычислениях зарплата прибавляется на $0.08. Уровень значимости 9,7% Нужно ли включать эту переменную в уравнение?

Page 14: МУЛЬТИКОЛЛИНЕАРНОСТЬ

14

. reg EARNINGS S ASVABC

Source | SS df MS Number of obs = 570---------+------------------------------ F( 2, 567) = 39.98 Model | 4745.74965 2 2372.87483 Prob > F = 0.0000Residual | 33651.2874 567 59.3497133 R-squared = 0.1236---------+------------------------------ Adj R-squared = 0.1205 Total | 38397.0371 569 67.4816117 Root MSE = 7.7039

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 ASVABC | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Без учета ASVAB5, t статистика умственных способностей была 3.60, более чем на 0.1% уровне.

Page 15: МУЛЬТИКОЛЛИНЕАРНОСТЬ

15

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Причина в высокой коррелированности ASVABС и ASVAB5. Трудно определить индивидуальный эффект вносимый каждой переменной. Как следствие – неопределенность оценок регрессии.

. cor ASVABC ASVAB5(obs=570)

| ASVABC ASVAB5--------+------------------ ASVABC| 1.0000 ASVAB5| 0.6371 1.0000

Page 16: МУЛЬТИКОЛЛИНЕАРНОСТЬ

16

. reg EARNINGS S ASVABC ASVAB5

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

. reg EARNINGS S ASVABC

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 ASVABC | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Большая коррелированность ведет к увеличению стандартных ошибок и свидетельствует, что эти оценки несостоятельные. Скачки регрессионных коэффициентов, большие стандартные ошибки и низкие значения t-статистики - характерные признак мультиколлинеарности.

Page 17: МУЛЬТИКОЛЛИНЕАРНОСТЬ

17

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Средства уменьшения среднеквадратичного отклонения, отражающего влияние переменных не включенных в уравнение регрессии.

Page 18: МУЛЬТИКОЛЛИНЕАРНОСТЬ

18

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Добавление новых переменных, вносящих существенный вклад в модель с целью уменьшения отклонения.

1) Уменьшение путем включения других релевантных переменных в регрессионную модель

2u

Page 19: МУЛЬТИКОЛЛИНЕАРНОСТЬ

19

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Оценкой качества модели может служить R2.

Page 20: МУЛЬТИКОЛЛИНЕАРНОСТЬ

20

. reg EARNINGS S ASVABC ASVAB5 TENURE MALE URBAN

Source | SS df MS Number of obs = 570---------+------------------------------ F( 6, 563) = 23.60 Model | 7715.87322 6 1285.97887 Prob > F = 0.0000Residual | 30681.1638 563 54.4958505 R-squared = 0.2009---------+------------------------------ Adj R-squared = 0.1924 Total | 38397.0371 569 67.4816117 Root MSE = 7.3821

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .8137184 .1563975 5.203 0.000 .5065245 1.120912 ASVABC | .0442801 .049716 0.891 0.373 -.0533714 .1419317 ASVAB5 | .1113769 .0458757 2.428 0.016 .0212685 .2014853 TENURE | .287038 .0676471 4.243 0.000 .1541665 .4199095 MALE | 3.123929 .64685 4.829 0.000 1.853395 4.394463 URBAN | 2.061867 .7274286 2.834 0.005 .6330618 3.490672 _cons | -10.60023 2.195757 -4.828 0.000 -14.91311 -6.287358------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Добавим 3 новые переменные время пребывания в должности работодателя (в неделях), пол респондента и место проживания (город, село). Все они значимы на уровне 1% или выше.

Page 21: МУЛЬТИКОЛЛИНЕАРНОСТЬ

21

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 27.66 Model | 4909.11468 3 1636.37156 Prob > F = 0.0000Residual | 33487.9224 566 59.1659406 R-squared = 0.1279---------+------------------------------ Adj R-squared = 0.1232 Total | 38397.0371 569 67.4816117 Root MSE = 7.6919

. reg EARNINGS S ASVABC ASVAB5 TENURE MALE URBAN

Source | SS df MS Number of obs = 570---------+------------------------------ F( 6, 563) = 23.60 Model | 7715.87322 6 1285.97887 Prob > F = 0.0000Residual | 30681.1638 563 54.4958505 R-squared = 0.2009---------+------------------------------ Adj R-squared = 0.1924 Total | 38397.0371 569 67.4816117 Root MSE = 7.3821

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Но их вклад в итоговую объясняющую способность модели невелик.

Page 22: МУЛЬТИКОЛЛИНЕАРНОСТЬ

22

. reg EARNINGS S ASVABC ASVAB5

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

. reg EARNINGS S ASVABC ASVAB5 TENURE MALE URBAN

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .8137184 .1563975 5.203 0.000 .5065245 1.120912 ASVABC | .0442801 .049716 0.891 0.373 -.0533714 .1419317 ASVAB5 | .1113769 .0458757 2.428 0.016 .0212685 .2014853 TENURE | .287038 .0676471 4.243 0.000 .1541665 .4199095 MALE | 3.123929 .64685 4.829 0.000 1.853395 4.394463 URBAN | 2.061867 .7274286 2.834 0.005 .6330618 3.490672 _cons | -10.60023 2.195757 -4.828 0.000 -14.91311 -6.287358------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Как следствие влияние на стандартные ошибки ASVABC и ASVAB5 мало значимо. Нестабильность коэффициентов – признак мультиколлинеарности

Page 23: МУЛЬТИКОЛЛИНЕАРНОСТЬ

23

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Добавление новых переменных, вносящих существенный вклад в модель с целью уменьшения отклонения. Увеличение выборки переходом к более коротким интервалам (кварталам вместо года)

2) Увеличение числа наблюдений n, приводящего кувеличению бюджета обследования, или переход к более коротким интервалам обследования;

Page 24: МУЛЬТИКОЛЛИНЕАРНОСТЬ

24

. reg EARNINGS S ASVABC ASVAB5

Source | SS df MS Number of obs = 2868---------+------------------------------ F( 3, 2864) = 183.45 Model | 36689.8765 3 12229.9588 Prob > F = 0.0000Residual | 190928.139 2864 66.664853 R-squared = 0.1612---------+------------------------------ Adj R-squared = 0.1603 Total | 227618.016 2867 79.3924017 Root MSE = 8.1649

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | 1.002693 .0787447 12.733 0.000 .8482905 1.157095 ASVABC | .1448345 .0241135 6.006 0.000 .097553 .1921161 ASVAB5 | .0483846 .0218352 2.216 0.027 .0055703 .091199 _cons | -9.654593 1.033311 -9.343 0.000 -11.6807 -7.628485------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Результаты построения регрессионной модели для 2,867 наблюдений.

Page 25: МУЛЬТИКОЛЛИНЕАРНОСТЬ

25

. reg EARNINGS S ASVABC ASVAB5 Number of obs = 570------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7115506 .1612235 4.413 0.000 .3948811 1.02822 ASVABC | .1104595 .0504223 2.191 0.029 .0114219 .2094972 ASVAB5 | .0770794 .0463868 1.662 0.097 -.0140319 .1681908 _cons | -5.944977 2.161409 -2.751 0.006 -10.19034 -1.699616------------------------------------------------------------------------------

. reg EARNINGS S ASVABC ASVAB5 Number of obs = 2868------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | 1.002693 .0787447 12.733 0.000 .8482905 1.157095 ASVABC | .1448345 .0241135 6.006 0.000 .097553 .1921161 ASVAB5 | .0483846 .0218352 2.216 0.027 .0055703 .091199 _cons | -9.654593 1.033311 -9.343 0.000 -11.6807 -7.628485------------------------------------------------------------------------------

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Результаты построения регрессионной модели для 2,867 наблюдений. Более значимые коэффициенты. Выше t-статистка для ASVABС.

Page 26: МУЛЬТИКОЛЛИНЕАРНОСТЬ

26

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Проектирование выборки так, чтобы разброс переменных был велик. Выбор единиц измерения. Включение респондентов с крайними оценками.

3) Увеличение VAR(X).

Page 27: МУЛЬТИКОЛЛИНЕАРНОСТЬ

27

Зависимость от выборочного отклонения

А) Б)

МУЛЬТИКОЛЛИНЕАРНОСТЬ

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

-15

-10

-5

0

5

10

15

20

25

30

35

0 5 10 15 20

На правой диаграмме точки Х находятся ближе друг к другу [ Var(Xa)>Var(Xб) ], что обуславливает большую возможную ошибку в значениях оценок.

10

Y Y

X X

Y = 3.0 + 0.8X

Page 28: МУЛЬТИКОЛЛИНЕАРНОСТЬ

28

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Проектирование модели так, чтобы корреляция объясняющих переменных была относительно невелика.

4) Уменьшить степень коррелированности объясняющих переменных

32 ,XXr

Объединение коррелированных переменных в одну

Page 29: МУЛЬТИКОЛЛИНЕАРНОСТЬ

29

МУЛЬТИКОЛЛИНЕАРНОСТЬ

. reg EARNINGS S ASVAB2 ASVAB3 ASVAB4

Source | SS df MS Number of obs = 570---------+------------------------------ F( 4, 565) = 25.68 Model | 5906.47726 4 1476.61931 Prob > F = 0.0000Residual | 32490.5598 565 57.5054156 R-squared = 0.1538---------+------------------------------ Adj R-squared = 0.1478 Total | 38397.0371 569 67.4816117 Root MSE = 7.5832

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7362439 .1586812 4.640 0.000 .4245668 1.047921 ASVAB2 | .2472668 .0472249 5.236 0.000 .154509 .3400246 ASVAB3 | .0137422 .058716 0.234 0.815 -.1015861 .1290705 ASVAB4 | -.1051868 .0544682 -1.931 0.054 -.2121716 .001798 _cons | -4.734303 2.06706 -2.290 0.022 -8.794363 -.6742428------------------------------------------------------------------------------

Высокая коррелированность между ASVAB переменными.

. cor ASVAB2 ASVAB3 ASVAB4(obs=570)

| ASVAB2 ASVAB3 ASVAB4--------+--------------------------- ASVAB2| 1.0000 ASVAB3| 0.6916 1.0000 ASVAB4| 0.6536 0.7628 1.0000

Page 30: МУЛЬТИКОЛЛИНЕАРНОСТЬ

30

МУЛЬТИКОЛЛИНЕАРНОСТЬ

. reg EARNINGS S ASVABC

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 ASVABC | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095------------------------------------------------------------------------------

. reg EARNINGS S ASVAB2 ASVAB3 ASVAB4

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7362439 .1586812 4.640 0.000 .4245668 1.047921 ASVAB2 | .2472668 .0472249 5.236 0.000 .154509 .3400246 ASVAB3 | .0137422 .058716 0.234 0.815 -.1015861 .1290705 ASVAB4 | -.1051868 .0544682 -1.931 0.054 -.2121716 .001798 _cons | -4.734303 2.06706 -2.290 0.022 -8.794363 -.6742428------------------------------------------------------------------------------

Сравнение использования интегральной переменной ASVABC с ее компонентами. Стандартная ошибка ASVABC меньше, чем у ее компонент.

Page 31: МУЛЬТИКОЛЛИНЕАРНОСТЬ

31

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Проектирование выборки так, чтобы не включать некоторые коррелированные объясняющие переменные. Опасно по причине смещения оценок из-за исключения из модели существенных переменных.

6) Исключение некоторых коррелированных переменных

Page 32: МУЛЬТИКОЛЛИНЕАРНОСТЬ

32

MULTICOLLINEARITY

. reg EARNINGS S ASVAB2

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .6449415 .1519755 4.244 0.000 .3464378 .9434452 ASVAB2 | .2019724 .0376567 5.364 0.000 .1280086 .2759361 _cons | -5.796398 1.957987 -2.960 0.003 -9.642191 -1.950605------------------------------------------------------------------------------

. reg EARNINGS S ASVAB2 ASVAB3 ASVAB4

------------------------------------------------------------------------------EARNINGS | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .7362439 .1586812 4.640 0.000 .4245668 1.047921 ASVAB2 | .2472668 .0472249 5.236 0.000 .154509 .3400246 ASVAB3 | .0137422 .058716 0.234 0.815 -.1015861 .1290705 ASVAB4 | -.1051868 .0544682 -1.931 0.054 -.2121716 .001798 _cons | -4.734303 2.06706 -2.290 0.022 -8.794363 -.6742428------------------------------------------------------------------------------

Удаление ASVAB3 и ASVAB4. Стандартные ошибки стали меньше.

Page 33: МУЛЬТИКОЛЛИНЕАРНОСТЬ

33

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

Устранение мультиколлинеарности при использовании дополнительной информации.

Пример: Зависимость времени обучения от IQ, и числа лет обучения отца и матери.

7) Эмпирические и теоретические ограничения

uSFSMASVABCS 4321

Page 34: МУЛЬТИКОЛЛИНЕАРНОСТЬ

34

МУЛЬТИКОЛЛИНЕАРНОСТЬ

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000Residual | 2176.00584 566 3.84453329 R-squared = 0.3700---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214------------------------------------------------------------------------------

Неравные вклады отца и матери в S выглядят странными. Сильная корреляция образования при подборе супружеских пар является причиной мультиколлинеарности.

. cor SM SF(obs=570) | SM SF--------+------------------ SM| 1.0000 SF| 0.6391 1.0000

Page 35: МУЛЬТИКОЛЛИНЕАРНОСТЬ

35

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Средства для смягчения мультиколлинеарности

2,2

22

32

2 1

1

)(Var XX

ub rXn

7) Эмпирические и теоретические ограничения

uSFSMASVABCS 4321

Предположим, что выдвинута гипотеза о равном вкладе родителей в образование детей, т.е. 3 = 4. Добавляя переменную SP можно получить новую модель.

43

uSPASVABC

uSFSMASVABCS

321

321 )(

Page 36: МУЛЬТИКОЛЛИНЕАРНОСТЬ

36

МУЛЬТИКОЛЛИНЕАРНОСТЬ

. g SP=SM+SF

. reg S ASVABC SP

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- ASVABC | .1295653 .0099485 13.024 0.000 .1100249 .1491057 SP | .093741 .0165688 5.658 0.000 .0611973 .1262847 _cons | 4.823123 .4844829 9.955 0.000 3.871523 5.774724------------------------------------------------------------------------------

. reg S ASVABC SM SF

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214------------------------------------------------------------------------------

Новая оценка β3 = 0.094. Это компромисс между SM и SF. Стандартная ошибка SP меньше чем у SM и SF. t-статистика очень высока. Мультиколлинеарность модели устранена.