Лекция 1

205
Лекция 1. Предмет математической статистики

Upload: wayne-neal

Post on 02-Jan-2016

26 views

Category:

Documents


1 download

DESCRIPTION

Лекция 1. Предмет математической статистики. Статистика – наука, изучающая совокупность массовых явлений с целью выявления скрытых закономерностей и изучения их с помощью некоторых обобщенных показателей. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Лекция 1

Лекция 1.

Предмет математической статистики

Page 2: Лекция 1

• Статистика – наука, изучающая совокупность массовых явлений с целью выявления скрытых закономерностей и изучения их с помощью некоторых обобщенных показателей

Page 3: Лекция 1

• Все методы математической статистики можно отнести к двум основным ее разделам: теории статистического оценивания параметров и теории проверки статистических гипотез.

Page 4: Лекция 1

Выборочный метод в статистике.

• Пример 1. Рассматривается урна, содержащая N шаров, каждый из которых может быть либо белым, либо черным. Неизвестное нам количество белых шаров обозначим M, тогда черных шаров будет N-M.

Page 5: Лекция 1

• Пусть нам разрешили извлекать из урны шары и фиксировать их цвет. Если извлеченный шар белый – пишем 1, иначе 0. После фиксации цвета шар возвращается в урну. Пусть мы извлекли таким образом n шаров и получили упорядоченный набор из n нулей и единиц- выборку.

Page 6: Лекция 1

• Можем ли мы на основе этой выборки сформулировать некоторое утверждение о количестве белых шаров ( или о доле p белых шаров) в урне ? Очевидно, что да.

Page 7: Лекция 1

• Формализуем задачу: пусть мы рассматриваем случайную величину X, имеющую распределение Бернулли, т.е. принимающую только два значения 0 и 1 с вероятностями, соответственно, p, 1-p. Выборку теперь мы можем интерпретировать как последовательность n независимых наблюдений сл.в. X. Задача состоит в оценке параметра p данного распределения.

Page 8: Лекция 1

• В общем случае выборочный метод состоит в следующем: рассматриваются n независимых наблюдений изучаемой сл.в. X – выборка, и опираясь на эту информацию мы должны сделать некоторое высказывание о распределении изучаемой сл.в. ( или о его параметрах).

Page 9: Лекция 1

• В математической статистике выборку удобно рассматривать иначе: как единственную реализацию n-мерной случайной величины X, относительно компонент которой предполагается, что они независимы и имеют такое же распределение, как и исходная случайная величина X.

Page 10: Лекция 1

• Идею выборочного метода можно изложить на содержательном языке. Вводится понятие генеральной совокупности, т.е. множества всех мыслимых значений изучаемой величины и выборки- некоторого наблюдаемого подмножества генеральной совокупности.

Page 11: Лекция 1

• Выборочный метод на таком языке:• по выборке, т.е. по части множества

мы должны сформулировать некоторое высказывание о всей генеральной совокупности. При таком подходе выделяют два основных требования, предъявляемых к выборке

• репрезентативность • однородность.

Page 12: Лекция 1

• Выборка считается репрезентативной, если у каждого элемента генеральной совокупности равные шансы попасть в выборку.

• Выборку называют однородной, если в ней представлены значения одной сл.в., а не нескольких, имеющих существенно различные распределения.

Page 13: Лекция 1

Пример 2

• На одних из президентских выборов в США у Ф.Рузвельта был малоизвестный сейчас конкурент Ландон. Одна из компаний перед выборами провела большого объема телефонный опрос избирателей из различных штатов «За кого собираетесь голосовать?» На основании результатов опроса была предсказана победа Ландону. В чем заключалась ошибка при составлении выборки?

Page 14: Лекция 1

Пример 3

• Пусть на лекции присутствует достаточно много студентов. Мы записали рост каждого из присутствующих, в надежде получить оценку среднего роста человека студенческого возраста. Что можно сказать об однородности данной выборки и почему?

Page 15: Лекция 1

• Следует быть очень внимательным к нарушениям требований, предъявляемых к выборке. Если выборка «плохая», то никакая изощренная математика и никакие совершенные программные средства Вас не спасут!

Page 16: Лекция 1

Первичная обработка статистических данных.

• Здесь мы рассмотрим, как сделать данные более обозримыми и наглядными, что позволит нам далее сделать некоторые первичные предположения об изучаемой сл.в.

Page 17: Лекция 1

1) Группировка данных

• Группировка данных делает данные обозримыми, что весьма полезно (особенно при «ручном» счете).

• Если изучаемая сл.в. дискретная, то группировка данных очевидна: выписываются в в порядке возрастания различные элементы, наблюдавшиеся в выборке (варианты) и соответствующие им частоты (либо- относительные частоты ).

iuim

/im n

Page 18: Лекция 1

• Если же сл.в. дискретная, то выборка «накрывается» набором непересекающихся промежутков, для каждого из которых находится количество попавших в него элементов

• Для числа интервалов r в этом случае рекомендуется формула :

im

2[log ] 1r n

Page 19: Лекция 1

2) Графическое представление данных.

• Любые графики делают данные наглядными. Самыми полезными графиками на этом этапе являются гистограмма и полигон. Для построения этих графиков данные должны быть сгруппированы, после чего строятся кусочно-постоянная (гистограмма) либо кусочно-линейная (полигон) зависимость частот от вариант.

Page 20: Лекция 1

• Если частоты пронормированы, то такие графики можно интерпретировать как некие статистические аналоги графиков, задающих распределение сл.в X (например плотности распределения, если X непрерывна).

Page 21: Лекция 1

• Глядя на такой график часто удается обнаружить неоднородность выборки, или – выдвинуть первичное предположение о виде распределения.

Page 22: Лекция 1
Page 23: Лекция 1

Полигон

Histogram

150 160 170 180 190 200

rost

0

3

6

9

12

15

freq

uenc

y

Page 24: Лекция 1

Histogram

150 160 170 180 190 200

rost

0

10

20

30

40

freq

uenc

y

Page 25: Лекция 1

Точечные оценки параметров распределения.

• В курсе теория вероятностей и математическая статистика давались формальные определения основных требований, предъявляемых к точечным оценкам: состоятельности, несмещенности и

эффективности оценки.

Page 26: Лекция 1

• Оценка будет состоятельной, если с увеличением объема выборки существенное отклонение оценки от оцениваемого параметра становится маловероятным.

• Оценка будет несмещенной, если она не дает систематической ошибки.

Page 27: Лекция 1

• Оценка будет максимально эффективной, если рассеивание ее значений относительно оцениваемого параметра, полученных для серии выборок, будет минимально. (Это оценка, дающая максимальную «кучность»).

Page 28: Лекция 1

• Сравнительно редко удается построить оценки, удовлетворяющие всем трем условиям. Обычно используются состоятельные, но лишь асимптотически эффективные или несмещенные оценки.

Page 29: Лекция 1

• Вспомним некоторые (основные) оценки, известные нам из курса теории вероятностей и математической статистики.

Page 30: Лекция 1

Средние значения :

выборочное среднее, медиана, мода. • Выборочное среднее- это среднее

арифметическое значение для элементов данной выборки ‑ (принятые обозначения: Mean или ), т.е. средним арифметическим значением признака называется величина

• где - значение i-го элемента выборки, n - число элементов в выборке

xx

n

ii

n

1

xi

Page 31: Лекция 1

• мода – наиболее часто встречающееся значение переменной (M, Mo)

• медиана – среднее по порядку значение (принятые обозначения: Median, Me). Медиана - это "серединное" значение признака в том смысле, что у половины объектов совокупности значения этого признака меньше, а у другой половины - больше медианы.

Page 32: Лекция 1

• Приближенно вычислить медиану можно, упорядочив все значения признака по возрастанию (убыванию) и найдя число в этом вариационном ряду, которое либо имеет номер (n+1)/2 - в случае нечетного n, либо находится посередине между числами с номерами n/2 и (n+1)/2 - в случае четного n.

Page 33: Лекция 1

• Напомним, что выборочные мода и медиана более устойчивы к «засоренности» выборки, чем выборочное среднее.

Page 34: Лекция 1

• Показатели вариации, разброса значений: дисперсия, среднее квадратическое (стандартное) отклонение, коэффициент вариации.

Page 35: Лекция 1

• Несмещенная (исправленная) выборочная дисперсия

2 2

1

( ) /( 1)n

is x x n

Page 36: Лекция 1

• (исправленное) среднее квадратическое или стандартное отклонение ‑ мера разброса значений признака около среднего арифметического значения (принятые обозначения: Std.Dev. (standard deviation), или s). Величина этого отклонения вычисляется по формуле

2s s

Page 37: Лекция 1

• коэффициент вариации ‑ отношение стандартного отклонения к среднему арифметическому, выраженное в процентах (обозначается в статистике буквой V). Коэффициент вычисляется по формуле: .

• Коэффициент вариации используется для сравнения вариаций «размерных» величин.

Vsx

100%

Page 38: Лекция 1

• Все вышеуказанные оценки среднего и вариации, а также многие другие оценки Вы научитесь находить средствами STATGRAPHICS в лабораторных работах 1-2

Page 39: Лекция 1
Page 40: Лекция 1

Можно добавить другие характеристики

Page 41: Лекция 1

Лекция 2.

Основные виды распределений, используемых в статистике.

Статистические таблицы.

Page 42: Лекция 1

1) Нормальное распределение .

• Обозначение:

• Плотность распределения:

• m=MX,

2

2

( )

21( )

2

x m

f x e

2 DX

Page 43: Лекция 1

График плотности

Mean,Std. Dev.0,1

Normal Distribution

-5 -3 -1 1 3 5

x

0

0,1

0,2

0,3

0,4

de

nsi

ty

Page 44: Лекция 1

Mean,Std. Dev.0,16,10,2

Normal Distribution

-10 -6 -2 2 6 10 14

x

0

0,1

0,2

0,3

0,4

de

nsi

ty

Page 45: Лекция 1

2)РаспределениеПирсона.• Обозначение

• где распределены по закону и независимы. Плотность распределения:

для x>0.

,),(1

22

k

iiXZkZ

iX )1,0(N

2( ) 12 2

( )2( )( 2)

n

k nxk

f x x ekГ

Page 46: Лекция 1

D. F.10

Chi-Squared Distribution

0 10 20 30 40

x

0

0,02

0,04

0,06

0,08

0,1

de

nsi

ty

Page 47: Лекция 1

Разное количество степеней свободы

D. F.10440

Chi-Squared Distribution

0 20 40 60 80 100

x

0

0,04

0,08

0,12

0,16

0,2

de

nsi

ty

Page 48: Лекция 1

3)Распределение t Стьюдента.

• Обозначение

• Где и независимы.• Плотность распределения:

),(ktY

XY

Zk

)(),1,0( 2 kZNX

2( 1) / 2(( 1) / 2)

( ) (1 )( )2

nГ k xf x

kkkГ

Page 49: Лекция 1

D. F.10

Student's t Distribution

-6 -4 -2 0 2 4 6

x

0

0,1

0,2

0,3

0,4

de

nsi

ty

Page 50: Лекция 1

D. F.5230

Student's t Distribution

-8 -4 0 4 8

x

0

0,1

0,2

0,3

0,4

de

nsi

ty

Page 51: Лекция 1

4)Распределение Фишера.

• Обозначение:

• Где и независимы.

• Плотность распределения:

для x>0

),,( 21 kkFF

1 1

2 2

Z kF

Z k

)(),( 22

212

1 kZkZ

1 2 11 2

1 ( ) / 21 2 2 2 21 2 2 1

1 2

(( ) / 2)( ) ( )

( ) ( )2 2

k k kk kГ k k

f x k k x k k xk kГ Г

Page 52: Лекция 1

Num. D.F.,Denom. D.F.10,10

F (variance ratio) Distribution

0 1 2 3 4 5

x

0

0,2

0,4

0,6

0,8

de

nsi

ty

Page 53: Лекция 1

Num. D.F.,Denom. D.F.10,104,440,10

F (variance ratio) Distribution

0 1 2 3 4 5

x

0

0,2

0,4

0,6

0,8

1

de

nsi

ty

Page 54: Лекция 1

• Статистические таблицы.

• В статистике довольно часто используются таблицы критических значений (например - для сл.в. X) , из которых по заданному (например, 0.05) можно найти такое , чтобы

( )P X

Page 55: Лекция 1

2. Доверительные интервалы.

• В предыдущей лекции мы научились строить выборочные оценки некоторых параметров распределения. Рассмотрим теперь следующий пример .

Page 56: Лекция 1

Пример 1.

• Пусть Вы работаете в статистическом управлении и Вам поручено определить среднемесячный доход жителя Вашего города (например- Екатеринбурга). Вы опросили 20 жителей города и построили выборочное среднее для среднемесячного дохода. Пусть это 10000 рублей. Дает ли это число ответ на поставленный вопрос?

Page 57: Лекция 1

• Очевидно, что нет, ведь нам нужно найти генеральное среднее, т.е. среднее по множеству состоящему из миллиона с лишним элементов…

Page 58: Лекция 1

• На формальном языке: генеральное среднее- это математическое ожидание m для среднемесячного дохода, а мы нашли выборочное среднее - оценку для математического ожидания.

• Возникает естественный вопрос о том, насколько эта оценка может отклоняться от математического ожидания?

Page 59: Лекция 1

• Для того чтобы ответить на этот вопрос, нам придется вспомнить определение доверительного интервала, известное нам из курса теории вероятностей и математической статистики:

Page 60: Лекция 1

• Доверительным интервалом для параметра

• с доверительной вероятностью P (по умолчанию P=0.95) называется интервал, следующего вида:

• если выполняется следующее условие:

a

1 1 2 2 1 2( ( , ,..., ), ( , ,..., ))n na x x x a x x x

1 1 2 2 1 2{ ( , ,..., ) ( , ,..., )} Pn nP a x x x a a x x x

Page 61: Лекция 1

• В курсе теории вероятностей и математической статистики, мы выяснили, что для математического ожидания m доверительный интервал выглядит следующим образом:

• где - выборочное среднее, - несмещенная выборочная дисперсия, а параметр определяется из таблицы критических значений для распределения Стьюдента с k=n-1 степенью свободы и

P P

s sx m x

n n

x2s

P

(1 ) / 2P

Page 62: Лекция 1

• Напомним, что построенный нами доверительный интервал строго обоснован только для случая, когда изучаемая нами случайная величина имеет нормальное распределение, однако, если выборка достаточно велика (на практике - уже для n=12), можно пользоваться построенным интервалом и для случайных величин с неизвестным нам распределением.

Page 63: Лекция 1

• Вернемся к нашему примеру: пусть Вы построили доверительный интервал и у Вас получилось, что среднемесячный доход лежит в промежутке от 9500 до 10500, но Вы хотите увеличить точность оценки в 10 раз.

• Во сколько раз для этого следует увеличить объем выборки?

Page 64: Лекция 1
Page 65: Лекция 1

Лекция 3.

Проверка статистических гипотез.

Page 66: Лекция 1

• Статистическая гипотеза - это гипотеза о виде распределения изучаемой случайной величины X, или о параметрах распределения, если вид распределения известен.

Page 67: Лекция 1

• Если вид распределения известен, и выдвигается гипотеза о параметрах распределения, то такую гипотезу называют параметрической, в противном случае гипотеза непараметрическая.

Page 68: Лекция 1

• Гипотезы бывают простые и сложные.

• Простая гипотеза- это такая гипотеза, которая полностью определяет распределение изучаемой случайной величины X.

• Все остальные гипотезы называются сложными.

Page 69: Лекция 1

Пример 1.

• Пример 1. Вернемся к примеру с белыми и черными шариками из лекции 1. Нам неизвестна доля белых шаров в урне т.е.вероятность извлечения белого шара p. Выдвинем две гипотезы:

• H0: p=1/2• H1: p>1/2• Какая из данных гипотез простая? сложная ?

параметрическая? Непараметрическая?

Page 70: Лекция 1

• Гипотезы обычно выдвигаются парами. Одна из них (как правило - простая) называется основной и обозначается H0, вторая – альтернативной, обозначается H1.

• Наша цель состоит в том, чтобы по имеющейся выборке научиться выбирать из двух гипотез наименее правдоподобную.

Page 71: Лекция 1

• Разумеется, поскольку у нас нет полной информации (мы располагаем лишь выборкой), то при принятии решения возможны ошибки.

Page 72: Лекция 1

Ошибки бывают первого и второго рода.

• Ошибка первого рода: отвергается основная гипотеза, хотя она верна.

• Пусть у нас в n-мерном пространстве есть такое множество S, при попадании в которое выборки, основная гипотеза отвергается. (Критическая область для H0 ). Тогда вероятность ошибки первого рода может быть записана так:

0( / )P X S H

Page 73: Лекция 1

• Ошибка второго рода: отвергается альтернативная гипотеза, хотя она верна.

• Вероятность ошибки второго рода может быть записана так:

1( / )P X S H

Page 74: Лекция 1

• Нейман: Выбирается некоторый допустимый уровень вероятности ошибки первого рода a. Среди всех критических областей, гарантирующих вероятность ошибки 1-го рода не выше , ищется такая область, для которой вероятность ошибки 2-го рода минимальна.

• (Это- наилучшая критическая область, НКО).

Page 75: Лекция 1

Проверка типичных гипотез о математических ожиданиях.

• Пусть рассматривается случайная величина X и соответствующая выборка: (x1,x2,…,xn). Обозначим m=MX.

Page 76: Лекция 1

Задача 1.

• (правосторонняя альтернативная гипотеза)

• 1)• 2)• 3)• 4)По заданному a (по умолчанию a=0.05) из

табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a

• 5) Если Yнабл> , то - отвергается.

0 0:H m m

1 0:H m m

1

1n

ix xn 2 2

1

1 ( )( 1)

n

is x xn 0( )

набл

x mY n

s

0H

Page 77: Лекция 1

ЗАМЕЧАНИЕ:

• В статистических пакетах принят несколько иной подход:

• вычисляется Pval=P(Y>Yнабл) и если Pval< a, то Н0-отвергается.

• Такое правило действует и при проверке других гипотез!

Page 78: Лекция 1

Задача 2.

• (левосторонняя альтернативная гипотеза)

• 1)• 2) • 3) • 4) По заданному a (по умолчанию a=0.05) из

табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a

• 5) Если Yнабл<- , то - отвергается.

0 0:H m m

1 0:H m m

1

1n

ix xn 2 2

1

1 ( )( 1)

n

is x xn

0( )набл

x mY n

s

0H

Page 79: Лекция 1

Задача 3.

• (двухсторонняя альтернативная гипотеза)

• 1) • 2)• 3) • 4) По заданному a (по умолчанию a=0.05) из

табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a/2

• 5) Если, |Yнабл|> , то H0- отвергается

0 0:H m m

1 0:H m m

1

1n

ix xn

2 2

1

1 ( )( 1)

n

is x xn

0( )набл

x mY n

s

Page 80: Лекция 1

• Пусть рассматриваются две независимых случайных величины X и соответствующая выборка: (x1,x2,…,xn) и Y и соответствующая выборка: (y1,y2,…,yn). Обозначим m1=MX , m2=MY .

Page 81: Лекция 1

Задача 4.

• (правосторонняя альтернативная гипотеза)

• 1)• 2) , • 3)

• 4) По заданному a (по умолчанию a=0.05) из табл. критических значений распределения Стьюдента t(n1+n2 -2 ), находится :P(Y> )= a

• 5) Если Yнабл> , то H0- отвергается

0 0:H m m

1 0:H m m

1

1 1

1n

ix xn 1

2 21

1 1

1 ( )( 1)

n

is x xn 2

2 22

2 1

1 ( )( 1)

n

is y yn

2 21 1 2 2

1 2 1 1

( )

( 1) ( 1) 1 1( )

2

набл

x yZ

n s n sn n n n

Page 82: Лекция 1

• Следующая задача может быть сведена к предыдущей (почему? к какой?), но мы выпишем ее отдельно с небольшими изменениями в алгоритме (предполагается, что n>50).

• Пусть X- имеет распределение Бернулли, т.е. принимает значения 0 и 1 с вероятностями p и q=1-p.

Page 83: Лекция 1

Задача 5.

• (правосторонняя альтернативная гипотеза)

• 1) m- число единиц в выборке, • 2) • 3) По заданному a (по умолчанию a=0.05) из

табл. для функции Лапласа Ф(x) (нормального распределения), находится :Ф( )=0.5 - a

• 5) Если Yнабл> , то H0- отвергается.

0 0:H p p

1 0:H p p

0

0 0(1 )набл

m npY

np p

Page 84: Лекция 1

Замечание 1

• Алгоритмы, используемые в задачах 1-4 строго обоснованы только для случайных величин, имеющих нормальное распределение, однако ими можно пользоваться и в общем случае, если выборки достаточно велики ( на практике может хватить и n=12). (Подумайте - почему?)

Page 85: Лекция 1

Замечание 2.

• В задаче 4 требуется равенство дисперсий X и Y, однако, если выборки не сильно отличаются по объему и достаточно велики, равенство дисперсий можно не проверять.

Page 86: Лекция 1

Замечание 3

• Если в задаче 4 выборки нельзя считать независимыми, например: если наблюдения парные, то алгоритм из задачи 5 неприменим. Однако для парных наблюдений дело сводится к одной из задач 1-3 переходом к с сл.в. Z=X –Y.

Page 87: Лекция 1

Проверка гипотез о математических

ожиданиях в пакете StatGraphics.

• В пакете StatGraphics имеется возможность проверки достаточно широкого набора гипотез, в частности- легко проверить и любую из описанных выше гипотез о матожидании.

Page 88: Лекция 1
Page 89: Лекция 1
Page 90: Лекция 1
Page 91: Лекция 1

Лекция 4.

Однофакторный дисперсионный анализ и условия его

применимости. Критерий Краскелла-Уоллеса.

Page 92: Лекция 1

Однофакторный дисперсионный анализ.

• Пусть дано k (обычно k>2) независимых случайных величин и соответствующих им выборок:

• X: (x1, x2,…, xn1),• Y: (y1, y2,…, yn2),• Z: (z1, z2,…, zn3),• ………........• Обозначим: m1=MX, m2=MY, m3=MZ …,• • H0: m1=m2=m3= …,• H1: не H0

Page 93: Лекция 1

• Алгоритм, который сейчас будет описан (однофакторный дисперсионный анализ, ANOVA), обоснован при следующих предположениях:

• 1)• 2) Все случайные величины имеют

нормальное распределение.

2 2 21 2 3 ...

Page 94: Лекция 1

Алгоритм ANOVA

• 1) Находим внутригрупповые средние:

• 2) Общее среднее:

• 3) Факторную (межгрупповую) дисперсию:

1 2

1 11 2

1 1, ,...

n n

i ix x y yn n

1 2

1...a n x n y

n

2 2 21( ) ( ) ...

1фs x a y ak

Page 95: Лекция 1

• 4) Остаточную (внутригрупповую) дисперсию:

• 5) Отношение:

• 6) По заданному a=0.05 (по умолчанию) из таблиц критических значений для распределения Фишера с k1=k-1, k2=n-k, находим : P(F> )=a.

• 7) Если , то H0-отвергается.

1 22 2 20

1 1

1( ) ( ) ...

n n

i is x x y yт k

2 2

0/набл фF s s

наблF

Page 96: Лекция 1

Замечание

• Замечание: Так же, как и при любой проверке гипотез на компьютере, вместо последних двух шагов:

• вычисляется Pval= P(F> Fнабл)

• и, если Pval<a, то H0-отвергается.

Page 97: Лекция 1

Пример.

• Есть ли существенное влияние дня недели на дневную выручку крупного магазина?

Page 98: Лекция 1
Page 99: Лекция 1
Page 100: Лекция 1

Лекция 5

Критерии согласия.

Page 101: Лекция 1

• Пусть Fn(x) – эмпирическая функция распределения, полученная по выборке, а F(x) –гипотетическая функция распределения.

0 n

1 n

: F (x)= F(x)

: F (x) F(x)

H

H

Page 102: Лекция 1

Критерий согласия

• Критерий основан на сравнении выборочной гистограммы с теоретической плотностью распределения.

Page 103: Лекция 1

• 1)Диапазон изменения экспериментальных данных разбивается на k непересекающихся промежутков, и подсчитывается величина

• где mi –количество элементов выборки, попавших в i интервал,

2

1

( )ki i

наблi

m npZ

np

Page 104: Лекция 1

• 2) - вероятность попадания случайной величины в i интервал,

• 3)По заданному a =0.05 ( по умолчанию) из таблиц критических значений для распределения (k-1) находим : P(Z> )= a

• 4)Если Zнабл> , то H0- отвергается.

1( ) ( )i i ip F x F x

2

Page 105: Лекция 1

• На практике критерий следует использовать для достаточно больших выборок, при этом интервалы должны быть таковы, чтобы .

2

5inp

Page 106: Лекция 1

Замечание

• В приложениях параметры гипотетического распределения обычно неизвестны, поэтому в приведенном выше алгоритме их следует заменить выборочными оценками, изменив при этом число степеней свободы k-1 на k-r-1, где r – число оцениваемых параметров.

Page 107: Лекция 1

Критерий Колмогорова-Смирнова

• Пусть вариационный ряд, построенный по выборке.

• Колмогоров нашел предельное распределение для при . Оказалось, что оно не зависит от распределения сл.в. X !

(1) (2) ( )... nx x x

sup ( ) ( )n nD F x F x

nnD n

Page 108: Лекция 1

Алгоритм:

• 1) Выписывается вариационный ряд и функция Fn(x),

• 2) Вычисляется = .• 3) По a из таблиц критических значений

для распределения Колмогорова, находится критическое значение .

• 4) Если = , то H0- отвергается.

наблnnD

наблnnD

Page 109: Лекция 1

Замечание

• При использовании критерия Колмогорова-Смирнова гипотетическое распределение не должно содержать неизвестных параметров.

Page 110: Лекция 1

Normal Probability Plot

160 170 180 190 200

rost

0,1

1

5

20

50

80

95

99

99,9

cum

ula

tive

pe

rce

nt

Page 111: Лекция 1

Histogram for rost

150 160 170 180 190 200

rost

0

3

6

9

12

15

fre

qu

en

cy

DistributionNormal

Page 112: Лекция 1
Page 113: Лекция 1
Page 114: Лекция 1

Лекция 6.

Проверка однородности выборок.

Page 115: Лекция 1

Двухвыборочный критерий Смирнова

• Перед нами стоит вопрос, можно ли считать, что случайные величины имеют одинаковые распределения? (На содержательном языке: можно ли их объединить?)

0 X Y

1 X Y

H :F (x)= F (x)

H :F (x) F (x)

Page 116: Лекция 1

1. Критерий Смирнова. Алгоритм

• 1) Вычисляются эмпирические функции распределения .

• 2) Находим

• 3) По a из таблиц критических значений для распределения Колмогорова, находится критическое значение (так же, как в критерии Колмогорова -Смирнова в предыдущей лекции).

• 4) Если , то Ho – отвергается.

* *( ), ( )X YF x F x

* *1 2

1 2

sup ( ) ( )набл X Y

n nF x F x

n n

набл

Page 117: Лекция 1

2. Ранговые критерии сдвига.

Критерий Манна-Уиттни (Вилкоксона).

• Рассматриваемые здесь критерии являются непараметрическими, т.е. они не зависят от вида распределения изучаемых случайных величин.

Page 118: Лекция 1

Алгоритм:

• Объединяем обе выборки в одну и упорядочиваем их по возрастанию. Элементы первой выборки помечаем при этом штрихами.

• Находим сумму рангов R элементов, помеченных штрихом. Полагаем, что

• По заданным a, , из таблиц для критерия Вилкоксона, находим критические значения R1 и R2 .

• Если R< R1 или R> R2, то H0 отвергается.

1 2n n1 2n n

Page 119: Лекция 1

Замечание1

• При можно считать, что сл.в.

• имеет стандартное нормальное распределение и основная гипотеза будет отвергаться, если (для a=0.05).

1 1 2

1 2 1 2

( 1)2

( 1)12

n n nR

Wn n n n

Page 120: Лекция 1

Замечание 2

• Можно пользоваться критическими значениями из таблиц для критерия Манна-Уиттни для

1 21 2

( 1)

2

n nU n n R

Page 121: Лекция 1

3. Ранговые критерии парных наблюдений

• Пусть мы имеем дело с парными наблюдениями и следовательно . В этом случае можно использовать простой, но достаточно грубый критерий.

1 2n n n

Page 122: Лекция 1

Критерий знаков. Алгоритм

• 1)Выписываем знаки разностей

• 2) Находим число плюсов D1 и минусов D2.

• 3)По заданному a и n из таблиц критических значений для критерия знаков находим Кa.

• 4) Если min(D1, D2)< Кa, то H0 отвергается.

i i iz x y

Page 123: Лекция 1

Критерий знаковых ранговых сумм

• 1)Выписываем разности .• 2) Ранжируем разности по модулю.• 3)Находим сумму рангов с плюсом T1 и

минусом T2.• 3)По заданному a и n из таблиц критических

значений для для одновыборочного критерия Вилкоксона находим Ta.

• 4) Если min(T1, T2)< Ta, то H0 отвергается.

i i iz x y

Page 124: Лекция 1

Реакция на звук и свет

Page 125: Лекция 1
Page 126: Лекция 1

Лекция 7.

Выявление связей между признаками.

Page 127: Лекция 1

• При проверке гипотез о наличии связей в о всех случаях предполагается в качестве основной гипотезы гипотеза об отсутствии связей, т.е. о независимости признаков.

Page 128: Лекция 1

1. Выявление связей для качественных признаков

• Таблицей сопряженности называется прямоугольная таблица, по строкам которой указываются категории одного признака (например, разные социальные группы), а по столбцам - категории другого (например, партийная принадлежность). Таким образом, в клетках таблицы стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков.

Page 129: Лекция 1

Критерий Пирсона. Алгоритм

• Производится группировка признаков, составляется таблица сопряженности:

2

Page 130: Лекция 1

m11 m12 m1r m1.

m21 m2r

mk1 mkr m1.

m.1 m.2 m.r n

Page 131: Лекция 1

• Составляется сумма

j i 2

1 1 j i

m. m .( )

nm. m .

n

k r ij

набл

mZ

Page 132: Лекция 1

• 3) По заданному a из таблиц критических значений для распределения , где l=(k-1)(r-1) находится критическое значение ea.

• Если , то H0 (независимость)-отвергается.

2 ( )l

наблZ

Page 133: Лекция 1

• Для сравнения тесноты связей качественных признаков используют следующие коэффициенты(чем больше коэффициент, тем сильнее связь):

Page 134: Лекция 1

Коэффициент контингенции.

( 1)

min( , )

0 1

наблZV

n q

q r k

V

0 1Q

Page 135: Лекция 1

Коэффициент Крамера

• Где

( 1)наблZ

Vn q

min( , )

0 1

q r k

V

Page 136: Лекция 1

Выявление связей для порядковых признаков

• Пусть нам дана выборка из парных наблюдений и для каждого наблюдения известны ранги по двум признакам – (xi ,yi ):

Page 137: Лекция 1

N 1 2 … n

X x1 x2 xn

Y y1 y2 … yn

D=X-Y d1 d2 … dn

Page 138: Лекция 1

Критерий Спирмена. Алгоритм

• 1)Записываем разности рангов di• 2)Находим сумму квадратов разностей

• 3)Коэффициент Спирмена:

• если близок к 1, то связь есть и она прямая, если он близок к -1, то связь есть и она обратная.

2( )i iS x y

2

61

( 1)набл

S

n n

Page 139: Лекция 1

Замечание

• Коэффициент Кендалла дает более осторожную оценку корреляции, чем коэффициент Спирмена (числовое значение всегда меньше, чем ).

Page 140: Лекция 1
Page 141: Лекция 1

Лекция 8

Элементы регрессионного анализа.

Page 142: Лекция 1

Элементы регрессионного анализа

• В курсе теории вероятностей рассматривалось понятие условного математического ожидания одной случайной величины по другой – функции регрессии:

( ) ( / )x M Y X x

Page 143: Лекция 1

• Если мы знаем функцию регрессии, то мы по значению сл.в. X можем прогнозировать Y. Однако, для построение функции регрессии (теоретической) нужно знать двумерное распределение (X,Y)-в действительности мы его не знаем.

Page 144: Лекция 1

• Однако нам может быть известна последовательность парных значений сл.в. (X,Y)- т.е. выборка:

1 2

1 2

: ... n

n

xx xX

Y y y y

Page 145: Лекция 1

• Можно попытаться на основе этой выборки построить аппроксимацию теоретической функции регрессии- выборочную функцию регрессии.

Page 146: Лекция 1

• Вид функции регрессии нам, как правило неизвестен и по этому поводу мы можем делать различные предположения. Здесь в приложениях, как правило, опираются на вид «облака точек» с координатами (корреляционное поле).

Page 147: Лекция 1
Page 148: Лекция 1

• При этом может быть полезен известный из теории вероятностей факт: если двумерная сл.в. имеет нормальное распределение, то теоретическая функция регрессии линейна.

Page 149: Лекция 1

Линейная выборочная функция регрессии. Метод наименьших

квадратов.• Пусть мы предположили, что теоретическая

функция регрессии линейна и мы ищем выборочную функцию регрессии

• Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

( )x x

ˆ ˆ( )y y x a bx

Page 150: Лекция 1

• МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:

22

1 1

mini

n n

i ixi i

y y

Page 151: Лекция 1

• Обозначим через , тогда: 2i

i

, S a b

2 0;

2 0.

Sy a b x

aS

x y a b xb

Page 152: Лекция 1

• После несложных преобразований, получим следующую систему линейных уравнений для оценки параметров и

a b

2

;

.

a n b x y

a x b x x y

Page 153: Лекция 1

• Решая систему уравнений, найдем искомые оценки параметров и . Можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы

a b

a y b x

2

cov ,

x

x yb

Page 154: Лекция 1

• где используются следующие обозначения:

• выборочная ковариация признаков и

• – дисперсия признака x и

• , , ,

______

cov ,x y y x y x x y

____2 2 2x x x

1x xn

1y yn

______ 1y x y x

n

____2 21x x

n

Page 155: Лекция 1

• Насколько хорошо точки корреляционного поля ложатся на построенную линию регрессии?

• Качество «подгонки» модели можно оценить по остаточной дисперсии:

22ост

1xy y

n

Page 156: Лекция 1

• Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным .

Page 157: Лекция 1

• Уравнение линейной регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции , который можно рассчитать по следующим формулам:

xyr

cov , x

xyy x y

x yr b

Page 158: Лекция 1

• Линейный коэффициент корреляции находится в пределах: . 1 1xyr

Page 159: Лекция 1

• Для оценки качества подбора линейной функции регрессии часто используется квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации .

Page 160: Лекция 1

• Коэффициент детерминации характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака:

• = , где 2R

22 ост

21xy

y

r

2

2ост

1xy y

n

22 2 21y y y y yn

Page 161: Лекция 1

• Чем ближе коэффициент детерминации к единице, тем лучше точки на регрессионном поле укладываются на линию регрессии, т.е. тем выше уровень «подгонки» модели.

Page 162: Лекция 1

• Представление о качестве модели можно получить также из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации:

• Средняя ошибка аппроксимации не должна превышать 8–10%.

1100%xy y

An y

Page 163: Лекция 1

Стандартные нелинейные модели

• Может оказаться так, что искать функцию регрессии в виде линейной функции будет неразумно.

• В этом случае можно использовать одну из моделей, которая сводится к линейной:

Page 164: Лекция 1

xy a b x 2

xy a b x c x

Page 165: Лекция 1

xy a b x 2 3

xy a b x c x d x

Page 166: Лекция 1

bxy a x x

xy a b

Page 167: Лекция 1

• Набор таких стандартных нелинейностей в пакете StatGraphics (особенно в новой версии) довольно велик.

Page 168: Лекция 1

Полезно запомнить:

• Считается, что при построении регрессионной модели число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной .

Page 169: Лекция 1

Значимость регрессионной модели в целом

• Оценка значимости уравнения регрессии в целом производится на основе -критерия Фишера, которому предшествует дисперсионный анализ.

Page 170: Лекция 1

• Величина - критерия связана с коэффициентом детерминации , и ее можно рассчитать по следующей формуле:

F2xyr

2

22

1xy

xy

rF n

r

Page 171: Лекция 1

• Из этой формулы видно, что чем ближе коэффициент детерминации к единице, тем больше , т.е. критерий Фишера позволяет оценить, достаточно ли близок коэффициент детерминации к единице, чтобы модель можно было признать удовлетворительной по качеству «подгонки».

F

Page 172: Лекция 1

• Следует заметить, что даже если «подгонка» идеальна и точки корреляционного поля в точности лежат на линии регрессии ( например - если мы построим интерполяционный многочлен), модель еще не может считаться качественной, поскольку важна значимость не только уравнения в целом, но и отдельных его параметров.

Page 173: Лекция 1

Значимость коэффициентов регрессии

• Для проверки значимости найденых коэффициентов регрессии в Statgaphics для каждого коэффициента проверяется своя пара гипотез, например 0

1

: 0

: 0

Н

H

Page 174: Лекция 1

• Если Pval мало, то найденный выборочный коэффициент значимо отличается от нуля иего можно использовать для анализа и прогноза.

• Детали такой проверки мы обсудим в следующих лекциях – и в курсе эконометрики.

Page 175: Лекция 1

• Рассмотрим пример. По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи.

Page 176: Лекция 1

Расходы на продукты питания, тыс. руб.

0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8

Доходы семьи, ,

Тыс. руб

1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

y

x

Page 177: Лекция 1

Рис. 1.4.

По графику видно, что точки выстраиваются в некоторую прямую линию.

Page 178: Лекция 1

• Рассчитаем параметры линейного уравнения парной регрессии . Для этого воспользуемся формулами

xy a b x

2 2 2

cov , 26,09 8,95 2,340,168

30,56x

x y x y x yb

x x

2,34 0,168 8,95 0,836a y b x

Page 179: Лекция 1

• Получили уравнение: . т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб.

0,836 0,168xy x

Page 180: Лекция 1

• Выпишем показатель тесноты связи – выборочный коэффициент корреляции

• :

• Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками.

xyr 5,530,168 0,994

0,935x

xyy

r b

Page 181: Лекция 1

• Коэффициент детерминации = (примерно тот же результат получим, если найти по определению из формулы (1.7))

2R2 0,987xyr

Page 182: Лекция 1

• Оценим качество уравнения регрессии в целом с помощью -критерия Фишера. Сосчитаем фактическое значение -критерия:

F

F

2

2

0,9872 6 455,54

1 1 0,987xy

xy

rF n

r

Page 183: Лекция 1

• Табличное значение

• ( , , ):

• Так как , то признается статистическая значимость уравнения в целом.

1 1k 2 2 6k n 0,05 табл 5,99F

факт таблF F

Page 184: Лекция 1

• Табличное значение -критерия Стьюдента при и числе степеней свободы есть . Так как , , то признаем статистическую значимость параметров регрессии .

t0,05

2 6n табл 2,447t

таблbt t таблat t

Page 185: Лекция 1

• Средняя ошибка аппроксимации

в нашем примере равна говорит о хорошем качестве уравнения регрессии, т.е. свидетельствует о хорошем подборе модели к исходным данным.

100%ii x

ii

y yA

y

6,52%A

Page 186: Лекция 1

Построение регрессии в StatGraphics

Page 187: Лекция 1

Лекция 10

Методы многомерного статистического анализа.

Page 188: Лекция 1

• Многомерный статистический анализ. Его цель: построение упрощенного укрупненного ряда объектов

Page 189: Лекция 1

1. Кластерный анализ. Понятие об

иерархическом методе. • Кластерный анализ – объединение

объектов в группу с единой целью (признаков много).

Page 190: Лекция 1

Способы кластерного анализа:

Page 191: Лекция 1

иерархический (дерево иерархического анализа):

• основная идея иерархического метода заключается в последовательном объединении группируемых объектов - сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

Page 192: Лекция 1

2) метод К-средних.

• Требует заранее заданных классов (кластеров). Подчеркивает внутриклассовую дисперсию. основан на гипотезе о наиболее вероятном количестве классов. Задачей метода является построение заданного числа кластеров, которые должны максимально отличаться друг от друга.

Page 193: Лекция 1

• Процедура классификации начинается с построения заданного числа кластеров, полученных путем случайной группировки объектов. Каждый кластер должен состоять из максимально "похожих" объектов, причем сами кластеры должны быть максимально "непохожими" друг на друга.

Page 194: Лекция 1

• Результаты этого метода позволяют получить центры всех классов (а также и другие параметры дескриптивной статистики) по каждому из исходных признаков, а также увидеть графическое представление о том, насколько и по каким параметрам различаются полученные классы.

Page 195: Лекция 1

• Если результаты классификаций, полученные разными методами совпадают, то это подтверждает реальное существование групп (надежность, достоверность).

Page 196: Лекция 1

Факторный анализ, цели его использования

• В основе факторного анализа лежит идея о том, что за сложными взаимосвязями явно заданных признаков стоит относительно более простая структура, отражающая наиболее существенные черты изучаемого явления, а "внешние" признаки являются функциями скрытых общих факторов, определяющих эту структуру. Цель: переход от большего числа признаков к небольшому числу факторов

Page 197: Лекция 1

• в факторном анализе все величины, входящие в факторную модель, стандартизированы, т.е. являются безразмерными величинами со средним арифметическим значением 0 и средним квадратическим отклонением 1.

Page 198: Лекция 1

• Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой данного признака по данному общему фактору. Это число в интервале от -1 до 1. Чем дальше от 0, тем более сильная связь. Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет

Page 199: Лекция 1

• Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором.

Page 200: Лекция 1

• Факторы являются стандартизованными величинами, не могут быть = нулю. Факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. что она ниже средней.

Page 201: Лекция 1

• Таблица факторных весов имеет n строк по числу объектов и k столбцов по числу общих факторов. Положение объектов на оси каждого фактора показывает, с одной стороны, тот порядок, в котором они ранжированы по этому фактору, а с другой стороны, равномерность или же неравномерность в их расположении, наличие скоплений точек, изображающих объекты, что дает возможность визуально выделять более или менее однородные группы.

Page 202: Лекция 1
Page 203: Лекция 1
Page 204: Лекция 1
Page 205: Лекция 1