Прогнозирование - Лекция 3. Множественная регрессия

Курс «Компьютерная Курс «Компьютерная поддержка поддержка

прогнозирования»прогнозирования»

Заходякин Глеб Викторович,

кафедра Информационных систем и технологий в логистикеe-mail: [email protected]

Эту презентацию следует смотреть в полноэкранном режиме, чтобы работала анимация. В Adobe Reader переключение в полноэкранный режим производится сочетанием клавиш Ctrl-L

mailto:[email protected]

2

Построение и анализ многомерных Построение и анализ многомерных регрессионных моделейрегрессионных моделей

1. Оценка степени линейной связи между переменными

2. Статистическая модель многомерной линейной регрессии, условия ее применения

3. Оценка качества многомерной регрессионной модели

4. Анализ взаимозависимости факторов

5. Отбор факторов для включения в модель

6. Регрессионная диагностика и анализ остатков

3

Корреляционная матрицаКорреляционная матрицаo Корреляционная матрица используется для оценки линейных связей

между парами переменных (Analyze>Correlate>Bivariate)

o Визуально оценить тесноту связей можно с помощью матрицы диаграмм рассеяния (Scatterplot Matrix, SPLOM) (Graphs>…>Matrix Scatter)

4

Статистическая модель Статистическая модель многомерной линейной регрессиимногомерной линейной регрессии

o Статистическая модель многомерной линейной регрессии позволяет определить математическое ожидание Y для каждого набора значений Xj, j=1..k, по уравнению:

o Фактическое значение будет отличаться от ожидаемого на величину ошибки , которая отражает вклад ненаблюдаемых факторов

o Распределение ошибки – нормальное, с мат. ожиданием Y и постоянным СКО для любого набора значений Xj

o Уравнение регрессионной прямой совокупности:

0 1 1 2 2Y k kX X X

Допущения модели:• ошибки независимы• ошибки случайны• m=0 • = const

0 1 1 2 2 k kY X X X

5

Статистический анализ модели Статистический анализ модели многомерной регрессиимногомерной регрессии

o Из статистической модели многомерной регрессии следует:

o Это равенство можно преобразовать:

o И далее:

o Стандартная ошибка оценки:

0 1 1ˆ ˆ( )k kY b b X b X e Y Y Y

Прогноз + Остаток

ˆ ˆ ˆ ˆ( )Y Y Y Y Y Y Y Y Y Y Y Y

2 22 ˆ ˆY Y Y Y Y Y SST SSE SSR

df = n – 1 n – (k +1) == n – k – 1

k

2ˆ1 1y x

Y Y SSEs MSE

n k n k

6

Коэффициент детерминацииКоэффициент детерминацииo Коэффициент детерминации обозначает долю объясненной дисперсии в

общей дисперсии:

o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой:

o Корень из R2 называется многомерным коэффициентом корреляции и характеризует корреляцию между зависимой переменной и оценкой, полученной по модели:

2

22

Y YSSRR

SST Y Y

2

22

ˆ1 1

Y YSSER

SST Y Y

2r R

7

Исправленный коэффициент детерминацииИсправленный коэффициент детерминации

o Коэффициент детерминации R2, рассчитанный по формуле:

возрастает с увеличением числа факторов в модели, при этом не обязательно модель с большим числом факторов будет лучше работать на новых данных

o Чтобы исключить влияние числа факторов на величину R2, используют исправленный коэффициент детерминации (R-squared adjusted), в котором вводится штраф за увеличение числа переменных:

o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот показатель, поэтому он наиболее полезен на стадии отбора факторов для построения модели

o Если модель строится по генеральной совокупности, то обычный R2 – более предпочтительный показатель

2 1SSE

RSST

2

2

11 1

1

11 1

1

SST

SSE

SSE df SSE nR

SST df SST n k

nR

n k

8

Пример расчета характеристикПример расчета характеристик

9

Проверка значимости регрессии Проверка значимости регрессии при помощи таблицы при помощи таблицы ANOVAANOVA

o Гипотезы:

o Выборочная статистика:

o При справедливости H0 имеет F-распределение с числом степеней свободы dfMSR, dfMSE, т.е. k и n-k-1 соответственно

o При отсутствии связи MSR и MSE оценивают дисперсию ошибки , если существует j<>0, то MSR>MSE

o При уровне значимости гипотеза отклоняется при F > Fи dfMSR, dfMSE

o Удобнее всего пользоваться p-значением, при малом p (столбец Significance в таблице дисперсионного анализа) гипотеза отвергается

o F-критерий проверяет значимость регрессии в целом, с учетом всех переменных

0 : 0, 1jH j k MSR

FMSE

1 : 0, 1jH j k

10

Проверка гипотез о значимости Проверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии

o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю коэффициента регрессионной функции совокупности:

o Гипотезы:

o Выборочная статистика:

o Найти критическое значение для , df = n – k – 1

o Если |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим

o Проверка с использованием p-значения (Sig.)

o Проверка с использованием доверительного интервала для bj: если не включает 0, то гипотеза H0 отвергается

0 1 1 k kY X X

0 : 0jH 1 : 0jH j

jb j

bt

s

11

Интервальный прогнозИнтервальный прогнозo Прогнозируемое значение для зависимой переменной можно получить

с помощью найденной оценки функции регрессии:

o Ширину доверительного интервала для уровня значимости можно приближенно оценить с использованием стандартной ошибки оценки и t-распределения:

o Эта оценка для ширины доверительного интервала построена для большого числа наблюдений n и независимых X

0 1 1 k kY b b X b X

/2, 1

ˆ ˆ, 1

n k y xY t s

P Y Y Y Y Y

12

Мультиколлинеарность факторовМультиколлинеарность факторовo Наличие линейных зависимостей между факторами в модели

называется мультиколлинеарностью– Пример - зависимость объема продаж от характеристик автомобиля:

• Мощность двигателя (Horsepower)• Колесная база (Wheelbase)• Длина (Length)• Ширина (Width)• Собственный вес (Curb Weight)

К появлению мультиколлинеарности приводит включение в модель факторов, которые «обозначают одно и то же»

13

Проблема мультиколлинеарностиПроблема мультиколлинеарностиo Оценки коэффициентов, полученные по МНК, оказываются

неустойчивыми (сильно изменяются при небольших изменениях данных)

o Метод вычисления коэффициентов (МНК) оказывается чувствительным к ошибкам округления (точность компьютерного представления данных и вычислений)

o Коэффициенты могут иметь неправильный знак (например, объем продаж в физических единицах по уравнению увеличивается, если цена увеличивается)

o Коэффициенты могут оказаться не значимыми по t-критерию, а уравнение регрессии в целом – значимым (по F-критерию)

o Коэффициенты уравнения взаимозависимы

o Удаление одной переменной сильно меняет остальные коэффициенты и их значимость

o Трудно анализировать вклад отдельного фактора в прогнозируемую величину

14

Фактор роста дисперсии (Фактор роста дисперсии (VIF)VIF)o Степень мультиколлинеарности измеряется фактором роста

дисперсии (Variance Inflation Factor, VIF):

o R2j – коэффициент детерминации из регрессии j-й переменной по

оставшимся (j-1) независимым переменным. Для k = 2 это значение равно квадрату их выборочного коэффициента корреляции (rj)2

o Если переменная Xj не связана с остальными факторами, то R2j = 0 и

VIFj = 1

o Если Xj сильно связана с другими факторами, то VIFj >> 1, для R2j = 0.9

VIFj = 1/(1-0.9) = 10

o Значение VIFj близкое к 1, означает:

– нет проблемы мультиколлинеарности для Xj

– добавление или удаление других независимых переменных в модель не изменит коэффициента bj и статистики tj

2

1, 1..

1jj

VIF j kR

15

Пример эффекта мультиколлинеарностиПример эффекта мультиколлинеарности

o Исходные данные – файл car_sales.sav

o Цель – построить модель для прогнозирования объема продаж в зависимости от параметров автомобиля

16

Результат включения всех факторов, Результат включения всех факторов, коррелирующих с продажамикоррелирующих с продажами

17

Результат исключения Результат исключения horsepowerhorsepower

o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – мощность двигателя (horsepower)

18

Результат исключения Результат исключения priceprice

o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – цена продажи (price)

19

Результат исключения Результат исключения lengthlength

o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – длина (length)

20

Анализ частных корреляцийАнализ частных корреляцийo При построении модели многомерной линейной регрессии

в SPSS можно вывести в отчет таблицу корреляций между переменными (Statistics… > [x] Part and Partial Correlations

o Данные о корреляции между переменными выводятся в таблице Coefficients:

– Zero-order – коэффициент корреляции r для фактора и зависимой переменной

– Partial (частная корреляция) – r между фактором и зависимой переменной после удаления из обеих переменных линейных эффектов других независимых переменных модели

– Part (частичная, или получастная корреляция) – r между фактором и зависимой переменной после удаления линейных связей фактора с другими независимыми переменными модели, эта корреляция связана с изменением R2 при добавлении данного фактора в модель

o Резкое уменьшения частных коэффициентов корреляции по сравнению с r свидетельствует о сильной взаимозависимости фактора с другими факторами

21

Выбор факторов для уравнения регрессииВыбор факторов для уравнения регрессии

1. Определить набор всех возможных независимых переменных, способных улучшить точность прогноза

o Необходимо использовать как можно больше факторов, содержащих новую информацию для прогноза

o Необходимо использовать как можно меньше факторов, т.к. для построения модели придется собирать информацию обо всех этих факторах

2. Отбросить переменные, неадекватные данному случаю:o Должна быть реальная, объяснимая логически взаимосвязь между фактором и зависимой

переменной

o Фактор не должен быть связан с другими факторами (мультиколлинеарность)

o Измерение фактора не должно производиться с большой ошибкой или требовать значительных затрат ресурсов

3. Определить путем сокращения числа независимых переменных «наилучший» набор факторов

o для этого нет однозначного критерия

o даже при использовании для сравнения одного критерия (например, R2 или исправленный R2 для модели), разная последовательность отбора факторов будет давать разные уравнения регрессии

o число комбинаций очень велико: 2k, т.е. для 5 факторов можно построить 25 = 32 уравнения

o отбор факторов в значительной степени субъективен

22

Пошаговая регрессияПошаговая регрессияo Метод пошаговой регрессии (stepwise) предполагает поэтапное добавление

(или удаление) в уравнение отдельных факторов, по одному на каждом этапе:1. Рассматриваются все простые регрессии. Выбирается фактор с наибольшим

коэффициентом корреляции с Y.

2. Из числа еще не включенных факторов выбирается дающий наибольшее значимое увеличение SSR. Значимость проверяется по F-критерию, минимальное значение F-статистики (или соответствующее ему p-значение) задает пользователь - параметр F для включения (Entry)

3. Проверяется значимость коэффициентов при всех переменных в полученном уравнении. Если p-значение меньше заданного пользователем, переменная исключается

4. Повторяются этапы 2 и 3, пока все возможные добавления не окажутся незначимыми, а все возможные удаления – значимыми

o Модификации метода:– метод последовательного включения (forward):

переменные только добавляются, но не удаляются

– метод последовательного исключения (backward): вначале включены все переменные, затем последовательно удаляются незначимые

o Методы не гарантируют нахождения наилучшего сочетания факторов

23

Результат пошаговой регрессииРезультат пошаговой регрессии

24

Результат последовательного включенияРезультат последовательного включения

25

Результат последовательного исключенияРезультат последовательного исключения

26

Допущения модели многомерной регрессииДопущения модели многомерной регрессии

o Статистическая модель многомерной регрессии основана на следующих допущениях:

– Для заданного набора факторов Xj генеральная совокупность значений Y нормально распределена относительно регрессионной функции совокупности, параметры распределения (Y,)

– СКО генеральной совокупности относительно регрессионной функции совокупности всюду постоянно (=const), нарушение этого предположения - гетероскедастичность

– Слагаемые ошибок независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция)

– В генеральной совокупности существует линейная зависимость между факторами Xj и Y

27

Схема анализа остатков моделиСхема анализа остатков моделиo Для проверки справедливости допущений статистической модели

многомерной регрессии выполняется анализ остатков:1. Проверить нормальность (гистограмма, график P-P или Q-Q)

2. Проверить независимость остатков от Xj (графики остатки – Xj)

3. Проверить независимость остатков от прогнозируемой величины

– Для данных временного ряда требуются дополнительные проверки:– независимость остатков от времени (график остатки – t)– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на

серийную корреляцию)

Y

Дисперсия остатков увеличивается с ростом Y

28

Анализ выбросовАнализ выбросовo Выбросы – это:

– значительные отклонения фактического значения зависимой переменной от прогноза

– крайние значения в наборе данных, заметно отличающиеся от остальных по величине

o Выбросы могут существенно влиять на качество модели, поэтому необходимо изучать их и рассматривать вопрос об исключении их из набора при построении модели, или об использовании весов для наблюдений, с целью уменьшить влияние выбросов на модель

o SPSS может выводить в отчет информацию о значительных (более 2-3 СКО) отклонениях прогноза от факта. Эти наблюдения также можно увидеть на графике стандартизованных остатков

29

Оценка влияния выбросовОценка влияния выбросовo Для проверки влияния выбросов на уравнение регрессии используются две метрики:

– Значение разбалансировки (Leverage value) - измеряет влияние точки данных на согласие регрессии, 0 < hi < 1. Если hi близко к 1, то прогноз для точки данных i почти полностью определяется значением Xij при отсутствии влияния соседних наблюдений. Это может происходить в том случае, когда набор значений факторов Xij находится на значительном удалении от среднего. Для парной линейной регрессии:

Для k независимых переменных можно показать, что 0 < hi < 1 и среднее значение разбалансировки hср = (k + 1) / n, по эмпирическому правилу hi > 3hср считается большим

– Расстояние Кука (Cook’s distance) – измеряет, насколько изменятся остатки для всех точек данных, если текущее наблюдение будет исключено при оценке коэффициентов уравнения. Большая величина расстояния Кука (D>4/n) свидетельствует о значительном изменении коэффициентов при удалении данного наблюдения

2

2

1 i

i

X Xh

n X X

2ˆ ˆ

1

j j i

i

Y YD

k MSE

- прогноз при удалении i-го наблюдения

30

Оценка влияния выбросов в Оценка влияния выбросов в SPSSSPSS

o SPSS позволяет вычислить и сохранить в набор данных расстояние Кука, значение разбалансировки и стандартизованные остатки

o В дальнейшем их можно анализировать при помощи диаграмм рассеяния

o Точки с большими значениями обоих параметров могут сильно влиять на качество модели

o Это влияние можно сократить путем преобразования переменных

0.0167 0.05

0.025

31

Анализ причин выбросовАнализ причин выбросовo Диаграммы рассеяния: стандартизованные остатки – факторы

демонстрируют асимметрию распределения, которую можно устранить логарифмированием

32

Прогнозирование вне допустимого множестваПрогнозирование вне допустимого множества

o Регрессионная модель строится по ограниченной выборке, которая может неравномерно представлять всю генеральную совокупность

o Если применить полученную модель к другому набору данных из той же совокупности, ошибка может многократно увеличиться

o Прогнозирование вне допустимого множества имеет место при малом объеме выборки и большом числе факторов

o Эмпирическое правило рекомендует ограничивать число факторов так, чтобы на один фактор приходилось как минимум 10 наблюдений, т.е. 40 точек данных на 4-факторную модель

o Для проверки модели может использоваться подгонка на одном подмножестве точек данных и тестирование на другом подмножестве из того же набора, при этом анализируется рост MSE

Прогнозирование - Лекция 3. Множественная регрессия

Business