Прогнозирование - Лекция 2. Корреляционный анализ и...

Post on 16-Jun-2015

7.401 Views

Category:

Business

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Курс "Компьютерная поддержка прогнозирования" Лекция 2. Корреляционный анализ и простая линейная регрессия

TRANSCRIPT

Курс «Компьютерная Курс «Компьютерная поддержка поддержка

прогнозирования»прогнозирования»

Заходякин Глеб Викторович,

кафедра Информационных систем и технологий в логистикеe-mail: postlogist@gmail.com

В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.

2

Построение и анализ моделей Построение и анализ моделей линейной регрессиилинейной регрессии

1. Оценка степени линейной связи между переменными

2. Средства построения регрессионных моделей в SPSS

3. Статистическая модель линейной регрессии, условия ее применения

4. Оценка качества регрессионной модели

3

Диаграммы рассеянияДиаграммы рассеянияo Диаграммы рассеяния (Scatter Plot) позволяют визуально

оценить наличие связи между двумя переменнымиo Связь между переменными предполагает, что увеличение

одной из них приводит к увеличению/уменьшению второй

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

Совершенная

Несовершенная (стохастическая)

ОтрицательнаяПоложительная

4

Диаграммы рассеянияДиаграммы рассеяния

o Связь между переменными может быть нелинейнойo Связь может отсутствовать

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

Нелинейная связь Отсутствие связи X-Y

5

Теснота связи и коэффициент Теснота связи и коэффициент корреляции корреляции rr

o Теснота связи – близость ее к «совершенной» (точки, лежащие на прямой Y= f (X))

o Теснота линейной связи характеризуется коэффициентом корреляции Пирсона:

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

r1 0.788 r2 0.974

2 2

cov( , )

x y

X X Y YX Yr

X X Y Y

6

Свойства Свойства rro Пределы изменения: -1 ≤ r ≤ 1

o Характеризует наличие корреляции, а не причинной зависимостиo Характеризует линейную зависимость, для сильной нелинейной

зависимости r может быть небольшим

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

0 2 4 6 8 100

2

4

6

8

X

Y

r1 0.788 r2 0.8 r3 0.027

7

ПримерыПримеры

o Сильная положительная корреляция

r = 0.8

8

ПримерыПримеры

o Слабая корреляция

r = 0.27

9

ПримерыПримеры

o Отрицательная корреляция

r = -0.553

10

Исследование корреляций в Исследование корреляций в SPSSSPSSo Для исследования корреляций между переменными в SPSS используются

два метода:– Построение корреляционной матрицы (Analyze>Correlate>Bivariate)– Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter)

Sales of Men's

Clothing

Sales of Women's Clothing

Sales of Jewelry

Number of Catalogs Mailed

Number of Pages in Catalog

Sales of Men's Clothing Pearson Correlation 1 ,802** ,701** ,803** ,259**

Sig. (2-tailed)   .000 .000 .000 .004

N 120 120 120 120 120

Sales of Women's Clothing

Pearson Correlation ,802** 1 ,705** ,681** ,301**

Sig. (2-tailed) .000   .000 .000 .001

N 120 120 120 120 120

Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110

Sig. (2-tailed) .000 .000   .000 .231

N 120 120 120 120 120

Number of Catalogs Mailed

Pearson Correlation ,803** ,681** ,453** 1 .140

Sig. (2-tailed) .000 .000 .000   .127

N 120 120 120 120 120

Number of Pages in Catalog

Pearson Correlation ,259** ,301** .110 .140 1

Sig. (2-tailed) .004 .001 .231 .127  

N 120 120 120 120 120

11

Прямая регрессииПрямая регрессииo Для определения наилучшего приближения зависимости

используется метод наименьших квадратов

o Коэффициенты r и b1

взаимосвязаны:

r = - 0.863

0 1Y b b X 2 2

0 1ˆSSE Y Y Y b b X

2

1 2

Y Yb r

X X

Y = 32.1 – 9.68X

12

Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессииo Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Yo Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X,

по уравнению прямой:

o Фактическое значение будет отличаться от ожидаемого на величину ошибки , которая отражает вклад ненаблюдаемых факторов

o Распределение ошибки – нормальное, с мат. ожиданием Y и постоянным СКО для любого значения X

o Уравнение регрессионной прямой совокупности:

0 1Y X

0 1Y X

Допущения модели:• ошибки независимы• ошибки случайны• m=0 • = const

13

Стандартная ошибка оценкиСтандартная ошибка оценкиo Построенное по выборке уравнение прямой регрессии можно

рассматривать как оценку регрессионной прямой совокупности, а остатки модели – как оценки погрешности :

– Совокупность

– Выборка

o Стандартная ошибка оценки показывает среднее отклонение точек данных от прямой регрессии:

o Для больших выборок (N>30) можно ожидать 67% остатков в пределах +/- syx и 95% остатков в пределах +/- 2syx

0 1Y X

0 1Y b b X e ˆe Y Y - остаток модели

2ˆ2y x

Y Ys

n

YY - ошибка

14

Выборочные распределенияВыборочные распределенияo Выборочное распределение – множество всех возможных значений выборочной

статистики, полученной для выборки данного объема (N) из генеральной совокупности. Например, можно говорить о распределении выборочного среднего.

o Свойства выборочного распределения описываются центральной предельной теоремой. При N -> +inf справедливо:

– распределение выборочного среднего – нормальное– выборочное среднее -> генеральное:– СКО выборочного среднего:

– Эти свойства проявляются независимо от распределения генеральной совокупности, из которой получена выборка

/X N - стандартная ошибка выборочного среднего

/X N Xm

XE X

15

Доверительные интервалы Доверительные интервалы для выборочного среднего (для выборочного среднего ( известна)известна)

o При известном (генеральном СКО) можно построить доверительный интервал для выборочного среднего, пользуясь свойствами выборочного распределения

o Ширина интервала выбирается из условия:

o Соответствующие площади можно вычислить при помощи таблиц или функций, в т.ч. Excel

/X N Xm

1P X X P ZN

16

Определение вероятности попадания случайной Определение вероятности попадания случайной величины в интервалвеличины в интервал

o Вероятность попадания в заданный интервал для непрерывной случайной величины может быть определена при помощи плотности или функции распределения

b

a

P a X b f x dx F b F a

4 2 0 2 40

0.1

0.2

0.3

fd x 2 2( )

f x( )

0

x

4 2 0 2 40

0.5

1

F x( )

0

x

2

2

xf x( )

d 0.954

F 2( ) F 2( ) 0.954

1 1 2 1

2 2 1 / 2

F b F a F b F b F b

F b F b

Для нормального распределения справедливо:

1F x F x

17

Интервальная оценка среднего при неизвестном Интервальная оценка среднего при неизвестном o Если неизвестно , то в качестве его оценки принимается s

o В случае небольшой (N<30) выборки из нормальной совокупности используется распределение Стьюдента (t-распределение):

o При N > 30 можно использовать нормальное выборочное распределение:

,df

st

N

sZ

N

10 5 0 5 10

0.1

0.2

0.3

0.4

dnorm X 0 1( )

dt X 1( )

dt X 5( )

dt X 30( )

X

N=1 N=5

N=30Нормальная

кривая

Сходимость t-распределения к нормальному при N->inf

Квантили t- и Z-распределения для = 5% (двухсторонний интервал)

Число степеней свободы (t-распределения)

Z или t

18

Источники неопределенности при прогнозировании Источники неопределенности при прогнозировании по уравнению регрессиипо уравнению регрессии

o Прогноз, полученный по уравнению регрессии, подвержен двум видам неопределенности:

– В статистической модели содержится слагаемое ошибки

– Уравнение регрессии построено по случайной выборке, поэтому расположение регрессионной прямой также случайно и не совпадает с регрессионной прямой генеральной совокупности

0 1Y X

19

Интервальный прогнозИнтервальный прогноз

o Стандартная ошибка прогноза позволяет оценить меру вариативности предсказанного значения Y, учитывающую оба вида неопределенности

o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно увеличивается при увеличении отклонения от среднего

o Для построения интервального прогноза используется t-распределение Стьюдента с df = N – 2 степенями свободы

o При N >= 30 можно использовать стандартное нормальное распределение

2 2

2 22 2

1 11f y x y x y x

X X X Xs s s s

n nX X X X

вклад ошибки вклад отклонения от прямой генеральной совокупности

1 /2 fZ s

1 /2, 2N ft s

1 5%/2 1.96 2Z

20

Разложение дисперсииРазложение дисперсииo Из статистической модели регрессии следует:

o Это равенство можно преобразовать:

o И далее:

0 1ˆ ˆ( )Y b b X e Y Y Y

Наблюдаемое значение Y

Объясненное линейной

зависимостью

Остаток

ˆ ˆ( )

ˆ ˆ

Y Y Y Y Y Y

Y Y Y Y Y Y

ˆY YY Y

Y Y

2

2 2ˆ ˆ

Y Y

Y Y Y Y

21

Формула разложения дисперсииФормула разложения дисперсии

o В статистических пакетах приняты обозначения:

SS = Sum of Squares, T - Total, R – Regression, E – Error (полная, объясненная, остаточная суммы квадратов соответственно)

o С учетом этих обозначений формула разложения дисперсии:

o Равенство справедливо и для числа степеней свободы:

2 22 ˆ ˆY Y Y Y Y Y

2SST Y Y 2ˆSSE Y Y 2ˆSSR Y Y

SST SSR SSE

1 1 2

df SST df SSR df SSE

n n

22

Таблица дисперсионного анализаТаблица дисперсионного анализаo При выполнении процедуры линейной регрессии можно вывести таблицу

дисперсионного анализа (Analysis of Variance, ANOVA)

o В таблице дисперсионного анализа содержатся суммы квадратов, степени свободы и средние квадраты (Mean Squares), получаемые делением сумм на число степеней свободы

o При этом средний квадрат ошибки связан со стандартной ошибкой оценки:

2 2ˆ

2 y x

Y YMSE s

n

23

Коэффициент детерминацииКоэффициент детерминацииo Коэффициент детерминации обозначает долю объясненной дисперсии в общей

дисперсии:

o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой:

o Для простой линейной регрессии коэффициент детерминации связан с коэффициентом корреляции:

o Тем не менее, R2 и r необходимо рассматривать отдельно, т.к. они несут разную информацию: r – о направлении и тесноте связи X-Y, а R2 – о том, насколько хорошо модель объясняет изменчивость Y

o Коэффициент детерминации применяется и для многофакторной регрессии, для которой r не определен

2

22

Y YSSRR

SST Y Y

2

22

ˆ1 1

Y YSSER

SST Y Y

2 2R r

2 1S

STR

SE

S

24

Диапазон значений Диапазон значений RR22

o Если модель полностью объясняет Y, то SSE = 0 => R2 = 1

o Если связи между переменными нет, то SSE = SST => R2 = 0

o Возможна ситуация, когда SSE > SST, поэтому нижней границы у области значений R2 не существует

Нет корреляции Совершенная связь X-Y

25

Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии

o Коэффициенты уравнения регрессионной прямой:

оцениваются по ограниченной выборке, поэтому они являются случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто случайными причинами

o Значимость коэффициентов регрессии проверяется через проверку гипотезы о равенстве коэффициента 0:

0 1Y X

0 1: 0H

26

Проверка статистических гипотезПроверка статистических гипотезo Проверка утверждения о выборке или генеральной совокупности

(статистической гипотезы) включает этапы:

1. Формулируется проверяемая гипотеза H0 и альтернативная гипотеза H1, которая принимается если отвергается H0

2. Выполняется случайная выборка из генеральной совокупности, для выборки вычисляются требуемая выборочная статистика

3. Рассматривается распределение выборочной статистики в предположении что H0 верна

4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения

5. Если эта вероятность высока, то H0 принимается, в противном случае – отвергается и принимается H1 При этом предполагается заданная малая вероятность ошибки, называемая уровнем значимости

27

Ошибки при проверке гипотезОшибки при проверке гипотез

Выбор аналитика

Действительное состояние

H0 принимается H0 отвергается

H0 справедлива Ошибка I рода, вероятность (уровень значимости)

H0 несправедлива

Ошибка II рода, вероятность (мощность критерия)

28

Пример проверки гипотезы Пример проверки гипотезы (2-сторонний критерий)(2-сторонний критерий)

o Задача: Проверить, верно ли, что средний вес деталей, производимых на оборудовании по-прежнему равен 50 г. СКО веса деталей известно и равно 5 г

o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г

o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г

o Схема проверки:– строим выборочное распределение в предположении истинности H0

– определяем критические значения X из условия P(| - Xcp| > dx) = a

– если | – Xcp | > dx, то H0 отвергается на уровне значимости , иначе - нет оснований ее отвергнуть

– В данном случае:Xcp- = 1.3 г > dx,H0 – отвергаем,принимаем H1

50 N 100 5

Xcp

N0.5 5% dx qnorm 1

2

0 Xcp

dx 0.98

48 49 50 51 520

0.2

0.4

0.6

dcrit x Xcp dnorm x Xcp

dx dx

x

dx 49.02 dx 50.98

2

2.5%2

2.5%dxdx

29

p-p-значениязначенияo p-значение – это вероятность того, что выборочная статистика, полученная из

распределения, окажется не меньше найденной по выборкеo В предыдущем примере – вероятность того, что отклонение от среднего dx

превысит найденное по выборке значение | 51.3 – 50 | = 1.3

o Малое значение p свидетельствует о низком правдоподобии H0, в примере p = 0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0.

o Равносильное утверждение: p – минимальный уровень значимости, с которым может быть отвергнута гипотеза H0.

o p-значения очень удобны, поскольку не требуют использования таблиц критических значений для проверочных статистик

0 1 2 30

0.2

0.4

0.6

0.8

p dx Xcp

dx

2 1 0 1 2

0.2

0.4

0.6

dcrit x 0 Xcp dnorm x 0 Xcp

dx dx

x

p dx ( ) 2 1 pnorm dx 0 ( )( )

p 1.3 Xcp 0.0093

P 1 F dx( )( ) 2

30

Пример проверки гипотезы Пример проверки гипотезы (1-сторонний критерий)(1-сторонний критерий)

o Задача: Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по-прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке

o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500

o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35.

o Предполагая распределение совокупности нормальным, для описания выборочного распределения используется t-распределение. Статистика критерия:

o Критическое значение t-критерия определяется для = 5% и df = N-1 = 14,tкрит= -1.761

o p-значение – вероятностьполучить из t-распределенияотклонение от 0 больше полученной по выборке t-статистикиp = 0.008, H0 - отвергаем

475 5002.766

/ / 35 / 15

X Xt

N S N

4 2 0 2 4

0.2

0.4

tcrit t N 1 dt t N 1 dnorm t 0 1

t tcrit

t

t 2.766 tcrit 1.761

p t N( ) pt t N( )

p t N 1( ) 0.008

t-статистика – нормализованное

отклонение от среднего

31

Проверка гипотез о значимости Проверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии

o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю углового коэффициента регрессионной прямой совокупности:

o Гипотезы:

o Выборочная статистика:

o В примере:

o Критическое значение для = 1%, df = 10-2 = 8: t0.005=3.355

o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим

o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0 отвергается на уровне значимости 0.1%

0 1Y X

0 1: 0H 1 1: 0H 1

b

bts

2

y xb

ss

X X

1 0.9694.842

0.2b

bts

32

Проверка значимости регрессии Проверка значимости регрессии при помощи таблицы при помощи таблицы ANOVAANOVA

o Гипотезы:

o Выборочная статистика:

o При справедливости H0 имеет F-распределение с числом степеней свободы:

o при 1=0 MSR и MSE оценивают дисперсию ошибки , если 1<>0, то MSR>MSE

o При уровне значимости a гипотеза отклоняется при F > Fи dfMSR, dfMSE

0 1: 0H 1 1: 0H

1 0MSR

FMSE

,df MSR df MSE

F.95=5.3F.99=11.3

33

Допущения модели линейной регрессииДопущения модели линейной регрессии

o Статистическая модель линейной регрессии основана на следующих допущениях:

– Для заданного X генеральная совокупность значений Y нормально распределена относительно регрессионной прямой совокупности, параметры распределения (Y,)

– СКО генеральной совокупности относительно регрессионной прямой совокупности всюду постоянно (=const), нарушение этого предположения - гетероскедастичность

– Слагаемые ошибок независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция)

– В генеральной совокупности существует линейная зависимость между X и Y

34

Схема анализа остатков моделиСхема анализа остатков моделиo Для проверки справедливости допущений статистической модели

регрессии выполняется анализ остатков:1. Проверить нормальность (гистограмма, график P-P или Q-Q)

2. Проверить независимость остатков от X (график остатки – X)

3. Проверить независимость остатков от прогнозируемой величины

– Для данных временного ряда требуются дополнительные проверки:– независимость остатков от времени (график остатки – t)– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на

серийную корреляцию)

Y

Дисперсия остатков увеличивается с ростом Y

35

Построение модели простой линейной Построение модели простой линейной регрессии в регрессии в SPSSSPSS

o Подготовка набора данных, проверка типов и шкал измерения переменных

• Для построения модели данные должны иметь количественный тип (Numeric) и интервальную шкалу (Scale).• Двоичные (1-0) переменные в номинальной шкале также могут использоваться как факторы в регрессионной модели (фиктивные переменные)

36

Отбор наблюденийОтбор наблюденийo Если переменная содержит данные для нескольких объектов, то данные

можно:

– отобрать (Data>Select Cases>[задать условие отбора]

– расщепить (Data>Split File)>[выбрать переменную или набор переменных, для каждого значения которой будет создана отдельная группа]

37

Исследование корреляцийИсследование корреляцийo Корреляционная матрица (Analysis>Correlate>Bivariate)

o Данные в таблице– Pearson Correlation – коэффициент корреляции Пирсона r– Sig – p-значение для проверки гипотезы о r = 0– N – число наблюдений, по которым производился расчет– * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%

38

Исследование корреляцийИсследование корреляцийo Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter)

o Диаграмма рассеяния (Graphs> … > Simple Scatter)

39

Построение уравнения регрессииПостроение уравнения регрессииo Analyze>Regression>Linear

– Отобрать зависимую (Dependent) и независимые (Independents) переменные– Method – метод включения независимых переменных (Enter = принудительное

включение)– Case Labels – метки

наблюдений: если есть идентификаторы объектов, можно пометить ими наблюдения (в таблицах и на графиках)

40

Настройка вывода статистикНастройка вывода статистикo [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет

таблиц со статистическими характеристиками модели

o Regression Coefficients– [x] Estimates – выводить оценки коэффициентов уравнения– [x] Confidence intervals / Level – выводить доверительные интервалы для

коэффициентов, доверительная вероятность

o Residuals– [x] Casewise diagnostics –

обнаружение выбросов (за пределами n стандартных отклонений)

41

Анализ моделиАнализ моделиo Model Summary - Сводка о статистических характеристиках модели

o ANOVA – Таблица дисперсионного анализа

• R – коэфициент корреляции• R Square – коэффициент детерминации R2

Std. Error of the Estimate – стандартная ошибка оценки, syx

• Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная (Residual) и общая (Total) суммы квадратов (разложение дисперсии)• df - Число степеней свободы• Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx

2

• F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df• Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой коэффициент равен нулю => нет связи между переменными). Регрессия в примере значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи

42

Коэффициенты уравнения регрессииКоэффициенты уравнения регрессииo Coefficients – коэффициенты модели и их статистические характеристики

o Model – константа + список переменных, включенных в модель, коэффициенты в строках таблицы соответствуют этим переменным

o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они включаются в уравнение)

– B – значение коэффициента

– Std. error – стандартная ошибка

o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами (Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных

o t – статистика для проверки значимости коэффициента, t = b/sb

o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном примере b0 незначим, коэффициент b1 значим на уровне 0.06%

o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если интервал включает 0, то коэффициент незначим, в данном случае b0 незначим

43

Уточнение моделиУточнение моделиo Если константа b0 незначима, можно построить модель без ее учета

– [Options…] в диалоге Linear Regression– [ ] Include constant in equation

o Результаты оценки модели без учета b0

44

Сохранение результатовСохранение результатовo [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и остатки в

переменныеo Prediction Values - оценки

– Unstandardized – непреобразованные (полученные из уравнения для независимых переменных, для каждого наблюдения)

– Standardized – нормализованные– Adjusted – прогноз для данного наблюдения

по модели, не учитывающей это наблюдение– S.E. of mean predictions – стандартная

ошибка прогноза для данного значения зависимой переменной

o Residuals – Остатки– Unstandardized - непреобразованные

– Standardized – нормализованные с учетом syx

– Studentized – нормализованные с учетом sf

– Deleted – полученные по модели, не учитывающей данное наблюдение

– Studentized deleted – то же, + нормализация o Prediction Intervals – доверительные интервалы

– Mean – полученный на основе стандартной sf

– Confidence Interval – уровень значимости

45

Вывод графиков для остатков моделиВывод графиков для остатков моделиo [Plots…] Вывести в отчет графики для анализа остатков модели

o Standartized Residual Plot– [x] Histogram – гистограмма остатков– [x] Normal Probability Plot – график P-P для проверки нормальности остатков

o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков– ось X: ZPRED – нормализованное значение оценки– ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный

остаток

46

Диаграммы рассеяния для моделиДиаграммы рассеяния для моделиo Качество модели можно визуально оценить по диаграмме рассеяния

Модель с константой >

< Модель без константы

47

Анализ остатковАнализ остатковo Проверка нормальности с помощью гистограммы

Модель без константы Модель с константойМодель без константы

48

Анализ остатковАнализ остатковo Проверка нормальности с помощью P-P графика

Модель без константы Модель с константойМодель без константы Модель с константой

49

Анализ остатковАнализ остатковo Проверка равенства дисперсий (отсутствия

гетероскедастичности) с помощью графика Остаток-Оценка

Модель без константы Модель с константой

50

Анализ остатковАнализ остатковo Проверка равенства дисперсий (отсутствия

гетероскедастичности) с помощью графика Остаток-Независимая переменная

51

Анализ остатковАнализ остатковo Проверка независимости остатков с помощью графика

Остаток-Номер наблюдения

52

Преобразование переменныхПреобразование переменныхo Для исключения нелинейной зависимости между переменными можно

строить уравнение регрессии для преобразованных переменных:

– ln Y = b0+b1 X

– X -> 1/X , log(X), sqrt(X), X2

53

Анализ остатковАнализ остатков

до преобразования

после преобразования

54

Пример преобразования переменныхПример преобразования переменныхИсходные данные

55

Пример преобразования переменныхПример преобразования переменныхX -> sqrt(X)

56

Пример преобразования переменныхПример преобразования переменныхX -> lg(X)

57

Пример преобразования переменныхПример преобразования переменныхX -> 1/X

y = 4.3 – 12.7 / X

top related