Статистические гипотезы

16
{ статистическая гипотеза - критерии принятия гипотез - критерий согласия Пирсона - критерий проверки – пример - критерии согласия Колмогорова и Смирнова }

Upload: woods

Post on 08-Jan-2016

46 views

Category:

Documents


1 download

DESCRIPTION

Статистические гипотезы. { статистическая гипотеза - критерии принятия гипотез - критерий согласия Пирсона - критерий проверки – пример - критерии согласия Колмогорова и Смирнова }. Статистическая гипотеза. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Статистические гипотезы

{ статистическая гипотеза - критерии принятия гипотез - критерий согласия Пирсона - критерий проверки – пример - критерии согласия Колмогорова и Смирнова }

Page 2: Статистические гипотезы

В математической статистике считается, что данные, получаемые в результате наблюдений, подчинены некоторому неизвестному вероятностному распределению, и задача состоит в том, чтобы извлечь из эмпирических данных правдоподобную информацию об этом неизвестном распределении. Один из подходов к этой общей задаче, состоит в проверке гипотез.

Статистической гипотезой называют предположение о распределении вероятностей, которое необходимо проверить по имеющимся данным. Пусть X ( x1, x2,…, xn ) - независимая выборка, соответствующая неизвестной функции распределения  F(t) . Простой гипотезой называют предположение, состоящее в том, что неизвестная функция  F(t)   отвечает некоторому совершенно конкретному вероятностному распределению.

Пример простой гипотезы: H - данные являются выборкой из равномерного распределения на отрезке  [-1,1] .

Сложной гипотезой называют предположение о том, что неизвестная функция  F(t)  принадлежит некоторому множеству распределений.

Page 3: Статистические гипотезы

Для этого используется подход, основанный на выборе так называемого критического множества S . Если данные наблюдений X (x1, x2, …, xn ) попадают в критическое множество, то гипотеза H отвергается, если они находятся вне этого множества, то гипотеза H – принимается.

Проверить статистическую гипотезу  H    - это значит на основе имеющихся данных X (x1, x2, …, xn ) принять или отвергнуть сделанное предположение.

Это правило называется критерием, основанным на критическом множестве S .

Если X (x1, x2, …, xn ) гипотеза H отвергается. S H Если X (x1, x2, …, xn ) гипотеза H принимается. S H

Page 4: Статистические гипотезы

В силу случайной природы наблюдаемых данных возможна первая

ситуация, в то время, когда гипотеза H  справедлива. В силу нашего

правила мы отвергнем гипотезу H и, тем самым, допустим ошибку. В

случае простой гипотезы вероятность такой ошибки равна

Эту вероятность называют также уровнем значимости статистического критерия.

H 1 2 nP ( X (x ,x ,...,x ) S )

На практике уровень значимости критерия задается изначально, исходя из реальных приложений и последствий возможных ошибок.

Page 5: Статистические гипотезы

, (t)F: F(t)H oo

Рассмотрим независимую выборку X ( x1, x2, …, xn ) . Предположим

неизвестную функцию распределения F(t) . Нас интересует вопрос о том,

согласуются ли данные наблюдений ( x1, x2, …, xn ) с простой гипотезой

где Fo (t) – некоторая конкретная функция распределения.

Разобьем множество R на конечное множество непересекающихся подмножеств D1, …, Dr . Po – вероятность, соответствующую функции

распределения Fo(t) , обозначим poi = Po ( Di ) , i = 1, …, r.

Их сумма равна единице (правило нормировки): 1pr

1i

0i

Page 6: Статистические гипотезы

Группируем выборочные данные по разрядам Di

и определяем эмпирические частоты mi / n . В силу случайных колебаний они будут отличаться от теоретических вероятностей po

i .

r...,,2,1 , iDx:j m iji } {

Чтобы контролировать это различие, следует подобрать хорошую меру расхождения между экспериментальными данными и гипотетическим теоретическим распределением.

По аналогии с идеей метода наименьших квадратов в качестве такой меры расхождения можно взять, например

где ci – достаточно произвольные числа .

r

1i

20i

ii p

nm

c

Page 7: Статистические гипотезы

К. Пирсон показал, что если выбрать Ci = n / poi , то полученная величина

будет обладать рядом замечательных свойств.

0 2r r2 0 2i i i

i0 0i 1 i 1i i

m (m np )nX ( p )

np np

r

1i

20i

ii p

nm

c

Она называется статистикой Пирсона .2

Page 8: Статистические гипотезы

2 2r 1n

limP{X t} P{ t} t R

Теорема К. Пирсона

Предположим, что гипотеза H0 верна. Тогда при неограниченном росте

объема выборки распределение величины X 2 сходится к распределению

хи-квадрат с ( r – 1 ) степенями свободы, где r – число параметров

теоретического закона выборки, то есть

Смысл теоремы: при большом объеме выборки распределение  X 2 можно считать распределением хи-квадрат с ( r - 1 ) степенью свободы.

Если гипотеза H0 неверна, то величина X 2 стремится в бесконечность.

Page 9: Статистические гипотезы

)(h F10, h χ r)1(

χ

)1(r22

То обстоятельство, что поведение распределения X 2 различно в зависимости от того верна или не верна гипотеза H0 , дает возможность построить критерий для её проверки. Зададимся уровнем значимости (допустимой вероятностью ошибки ) и возьмем квантиль распределения X 2 , определяемый формулой ниже

)( sh

2Xf ( x )

x

(x)dx f(s) Fs

0χχ 22

Определим критическое множество

ε }h P{ )1(rε1

21r

2 (r 1)1 2 1 ε

S {(χ ,....,x ) : X h }

Page 10: Статистические гипотезы

Действия: определим X 2 и сравниваем её с квантилем . )( 1r

1h

Если неравенство справедливо

гипотеза H0 отвергается

(выборка обнаруживает значимое отклонение от гипотезы),

если нет то гипотеза H0 принимается

(выборка совместима с гипотезой H0 ).

)1(r1

2 h χ

)1(r1

2 h χ

При таком решающем правиле мы может допустить ошибку, отвергнув верную гипотезу H 0 .

Из теоремы Пирсона вытекает, что при больших n величина вероятности этой ошибки близка к  .

Page 11: Статистические гипотезы

Утверждения теоремы Пирсона относятся к выборкам с пределу при . На практике мы имеем дело лишь с выборками ограниченного объема . Поэтому, применяя вышеописанный критерий, необходимо проявлять осторожность .

n

Согласно рекомендациям, применение критерия дает хорошие результаты, когда все ожидаемые частоты . Если какие-то из этих чисел малы, то рекомендуется, укрупняя некоторые группы, перегруппировать данные таким образом, чтобы ожидаемые частоты всех групп были не меньше десяти .

10np0i

Если число r достаточно велико, то порог для ожидаемых частот может быть понижен до 5 или даже до 3 , если r имеет порядок нескольких десятков .

Практически считается достаточным, чтобы n > 50 – 60 и mi > 5 – 8

Page 12: Статистические гипотезы

@ Радиоактивное вещество наблюдалось в течение 2680 равных интервалов времени (по 7.5 секунд каждый). В каждом из интервалов регистрировалось число частиц, попавших в счетчик. В таблице приведены числа mi интервалов времени, в течении которых в счетчик попадало ровно i частиц.

ii mmii ii mmii

00 5757 66 273273

11 203203 77 139139

22 383383 88 4545

33 525525 99 2727

44 532532 >10>10 1616

55 408408 ИтогоИтого : : n = mn = m1 1 +.. + m+.. + m>10 >10 = = 26802680

Page 13: Статистические гипотезы

@ Проверить, используя критерий хи - квадрат, гипотезу о согласии наблюденных данных с законом распределения Пуассона. Уровень значимости принять равным 5 %

Вычислим оценку параметра

распределения

Вычисляем теоретические вероятности Pi попадания в счетчик i частиц при наличии закона Пуассона

i!e

P(i,i

)

87.32680

16102794581397273640852680

5324525338322031570n

im10

0ii

~

!.

).,()~

,(.

i873e

873iPiPi873

Page 14: Статистические гипотезы

ii ppii npnpii mmii-np-npii (m(mii-np-npi)i)))22 (m(mii-np-npi)i)))22/np/npi)i)

00 0.0210.021 54.854.8 2.22.2 4.844.84 0.0880.088

11 0.0810.081 211.2211.2 -8.2-8.2 67.2467.24 0.3180.318

22 0.1560.156 406.8406.8 -23.8-23.8 566.44566.44 1.3921.392

33 0.2010.201 524.2524.2 0.80.8 0.640.64 0.0010.001

44 0.1950.195 508.6508.6 23.423.4 547.56547.56 1.0071.007

55 0.1510.151 393.8393.8 14.214.2 201.64201.64 0.5120.512

66 0.0970.097 253.0253.0 20.020.0 400.00400.00 1.5811.581

77 0.0540.054 140.8140.8 -1.8-1.8 3.243.24 0.0230.023

88 0.0260.026 67.867.8 -22.8-22.8 519.84519.84 7.6677.667

99 0.0110.011 28.728.7 -1.7-1.7 2.892.89 0.1010.101

>10>10 0.0070.007 18.318.3 -2.3-2.3 5.295.29 0.2890.289

1.0001.000 = 13.049= 13.049

10

0i0i

20ii2

k np)np(m

X

Page 15: Статистические гипотезы

Число степеней свободы: k = l – r -1 = 11 – 1 - 1 = 9

В таблице для статистики Пирсона для k = 9 и 2 = 13.05 находим вероятность того, что величина 2 превзойдет значение, полученное по выборке

Так как то отклонения от закона Пуассона незначимы.

0513np

)np(mχ

10

0i i

2ii2

k .

166.0)χP(ε 2n

2k

,05.0εεk

Page 16: Статистические гипотезы

Критерий согласия Колмогорова применим в том случае, когда параметры теоретического закона распределения определяются не по данным исследуемой выборки. За меру расхождения принимается наибольшее значение статистики D : абсолютной величины разности статистической и теоретической функций :

11

xxF(x)F(x)

F*n (x)F*n (x)

F(x)|(x)|FD nRx

n

sup

При неограниченном росте объема выборки величинанезависимо от вида закона распределения СВ X стремится к закону распределения Колмогорова.

Статистика Смирнова:

Dn

)) K(1P()DP(Dε nn

)(tdFF(t))(t)(Fω 2n

2n