Множественный регрессионный анализ
DESCRIPTION
Множественный регрессионный анализ. Множественная регрессия – это уравнение связи с несколькими независимыми переменными:. часть значения у, которая объяснена уравнением регрессии с несколькими факторами. необъясненная часть значения у (или возмущение). - PowerPoint PPT PresentationTRANSCRIPT
Множественный регрессионный анализ
часть значения у, которая объяснена
уравнением регрессии с несколькими факторами
),...,,( 21 pххxfу
необъясненная часть значения у (или возмущение)
Множественная регрессия – это уравнение связи с несколькими независимыми переменными:
Построение уравнения регрессии1. Постановка задачи
Данные наблюдений
y x1 x2 … xp
1 y1 x11 x21 … xp1
2 y2 x12 x22 … xp2
… … … … … …
n yn x1n x2n … xpn
По имеющимся данным n наблюдений за совместным изменением параметров y, xj и ((yi,xj,i); j=1, 2, ..., p; i=1, 2, ..., n) необходимо определить аналитическую зависимость ŷ = f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений.
min)ˆ( 2ii yyS
Критерий качествавыбранной зависимости:
2. Спецификация модели
zxy 10522600
2.1. Отбор факторов, подлежащих включению в модель
Требования к отбираемым факторам
Факторы не должны быть взаимно
коррелированы
Факторы должны быть
количественно измеримы целесообразность
включения каждого нового фактора оценивается с помощью коэффициента детерминации;при возникновении необходимости добавить в уравнение качественный фактор вводится «фиктивная» переменная
Пример:y – себестоимость единицы продукцииx – заработная плата работникаz – производительность труда
95,0xzr
Парная коллинеарность и мультиколлинеарность
Две переменные считаются явно коллинеарными, т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7.
Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения.
Мультиколлинеарность – линейная зависимость между более чем двумя переменными, т.е. совокупное воздействие факторов друг на друга.
Включение в модель мультиколлинеарных факторов нежелательно
по следующим причинам: • затрудняется интерпретация параметров
множественной регрессии; параметры линейной регрессии теряют экономический смысл;
• оценки параметров не надежны, имеют большие стандартные ошибки и меняются с изменением количества наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
Оценка мультиколлинеарности
Для оценки мультиколлинеарности используется определитель матрицы парных коэффициентов интеркорреляции:
(!) Если факторы не коррелируют между собой, то матрица коэффициентов интеркорреляции является единичной, поскольку в этом случае все недиагональные элементы равны 0. Например, для уравнения с тремя переменными
1
100
010
001
)(
333231
232221
131211
xxxxxx
xxxxxx
xxxxxx
rrr
rrr
rrr
RRDet
332211 xbxbxbay
(!) Если между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0.
Чем ближе к 0 определитель матрицы коэффициентов интеркорреляции, тем сильнее мультиколлинеарность и ненадежнее результаты множественной регрессии.Чем ближе к 1 определитель матрицы коэффициентов интеркорреляции, тем меньше мультиколлинеарность факторов.
0
111
111
111
)( RRDet
Способы преодоления мультиколлинеарности факторов:
• исключение из модели одного или нескольких факторов;
• переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например,
если , то можно построить следующее совмещенное уравнение:
• переход к уравнениям приведенной формы (в уравнение регрессии подставляется рассматриваемый фактор, выраженный из другого уравнения).
),,( 321 xxxfy
322331132112332211 xxbxxbxxbxbxbxbay
2. Спецификация модели2.2. Выбор формы уравнения регрессии
• Линейная регрессия
• Линеаризуемые регрессии– Степенная регрессия
– Экспоненциальная регрессия
– Гиперболическая регрессия
ppxbxbxbay ...2211
pbpbb xxaxy ...2121
ppxbxbxbaey ...2211
ppxbxbxbay
...
1
2211
Например, зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим
уравнением:Qd = 2,5 - 0,12P + 0,23 I.
Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц, а при
увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы.
Например, зависимость выпуска продукции Y от затрат капитала K и труда L:
говорит о том, что увеличение затрат капитала K на 1% при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23%.
Увеличение затрат труда L на 1% при неизменных затратах капитала K вызывает увеличение
выпуска продукции Y на 0,81%.
81.023.089.0 LKY
3. Оценка параметров модели3.1. МНК
min)ˆ( 2ii yyS min2 или
Отсюда
получаем систему
уравнений:
),...,,()...( 12
2211 pppi bbaSxbxbxbayS
0)...(2
...
0)...(2
0)...(2
2211
22111
2211
1
ppipb
ppib
ppia
xbxbxbaybS
xbxbxbaybS
xbxbxbayS
p
....
...................................................................................
,...
,...
22211
121221111
2211
pppppp
pp
pp
xbxxbxxbxayx
xxbxxbxbxayx
xbxbxbnay
Решение системы уравнений с помощью метода определителей:
где ∆ – определитель
системы:
pp
bb
bb
aa ...,,, 1
1
221
222212
112211
21
...
...............
...
...
...
pppp
p
p
p
xxxxxx
xxxxxx
xxxxxx
xxxn
∆a, ∆b1, ∆bp – частные определители (∆j) , которые получаются из основного определителя путем замены j-го столбца на столбец свободных членов
pyx
yx
y
...1
3. Оценка параметров модели3.2. Метод оценки параметров через стандартизованные коэффициенты β
Уравнение регрессии в стандартизованном (нормированном) масштабе:
где , - стандартизованные переменные
β - стандартизованные коэффициенты регрессии.β-коэффициенты показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат за счет изменения соответствующего фактора xi на одну сигму при неизменном среднем уровне других факторов.
1 21 2 ...py x x p xt t t t
yy
y yt
i
i
i ix
x
x xt
Взаимосвязь bi и β
Связь коэффициентов «чистой» регрессии bi с коэффициентами βi описывается соотношением:
i
yi i
x
b
),...,2,1( piby
x
iii
или
Параметр a определяется как:
1 1 2 2 ... p pa y b x b x b x
Коэффициенты β определяются при помощи МНК из следующей системы уравнений методом определителей:
1 2 1 3 1 1
2 2 1 3 2 2
1 2 3
1 2 3
1 2 3
1 2 3
... ,
... ,
...
p
p
p p p p
yx x x x x p x x
yx x x x x p x x
yx x x x x x x p
r r r r
r r r r
r r r r
4. Проверка качества уравнения регрессии Н0: уравнение статистически не значимо
yi = ŷi + εi
2)(
1 yyn
2)ˆ(1
yyn
2)ˆ(
1 yyn
D(y) = D(ŷ) + D(ε)
полная (общая) сумма
квадратов отклонений
= сумма квадратов
отклонений,
объясненная
регрессией
+ (остаточная) сумма
квадратов отклонений,
не объясненная регрессией
F-критерий Фишера:
m
mn
R
Rили
mn
Dk
yD
F1
11
)(
)ˆ(
2
2
где m – число независимых переменных в уравнении
регрессии; n – число единиц совокупности.
Если Fфакт > Fтабл, то Н0 о случайной природе связи отклоняется и признается статистическая значимость и
надежность уравнения.Если Fфакт < Fтабл, то Н0 не отклоняется и признается статистическая незначимость уравнения регрессии.
Частный F-критерий:
- оценивает статистическую значимость присутствия каждого из факторов в уравнении.
1
12
......1
1
2...11
...1
2......
1
mn
px
ixyx
R
px
ix
ixyx
Rpx
ixyx
R
iчастxF