Статистические гипотезы
DESCRIPTION
Статистические гипотезы. { статистическая гипотеза - критерии принятия гипотез - критерий согласия Пирсона - критерий проверки – пример - критерии согласия Колмогорова и Смирнова }. Статистическая гипотеза. - PowerPoint PPT PresentationTRANSCRIPT
{ статистическая гипотеза - критерии принятия гипотез - критерий согласия Пирсона - критерий проверки – пример - критерии согласия Колмогорова и Смирнова }
В математической статистике считается, что данные, получаемые в результате наблюдений, подчинены некоторому неизвестному вероятностному распределению, и задача состоит в том, чтобы извлечь из эмпирических данных правдоподобную информацию об этом неизвестном распределении. Один из подходов к этой общей задаче, состоит в проверке гипотез.
Статистической гипотезой называют предположение о распределении вероятностей, которое необходимо проверить по имеющимся данным. Пусть X ( x1, x2,…, xn ) - независимая выборка, соответствующая неизвестной функции распределения F(t) . Простой гипотезой называют предположение, состоящее в том, что неизвестная функция F(t) отвечает некоторому совершенно конкретному вероятностному распределению.
Пример простой гипотезы: H - данные являются выборкой из равномерного распределения на отрезке [-1,1] .
Сложной гипотезой называют предположение о том, что неизвестная функция F(t) принадлежит некоторому множеству распределений.
Для этого используется подход, основанный на выборе так называемого критического множества S . Если данные наблюдений X (x1, x2, …, xn ) попадают в критическое множество, то гипотеза H отвергается, если они находятся вне этого множества, то гипотеза H – принимается.
Проверить статистическую гипотезу H - это значит на основе имеющихся данных X (x1, x2, …, xn ) принять или отвергнуть сделанное предположение.
Это правило называется критерием, основанным на критическом множестве S .
Если X (x1, x2, …, xn ) гипотеза H отвергается. S H Если X (x1, x2, …, xn ) гипотеза H принимается. S H
В силу случайной природы наблюдаемых данных возможна первая
ситуация, в то время, когда гипотеза H справедлива. В силу нашего
правила мы отвергнем гипотезу H и, тем самым, допустим ошибку. В
случае простой гипотезы вероятность такой ошибки равна
Эту вероятность называют также уровнем значимости статистического критерия.
H 1 2 nP ( X (x ,x ,...,x ) S )
На практике уровень значимости критерия задается изначально, исходя из реальных приложений и последствий возможных ошибок.
, (t)F: F(t)H oo
Рассмотрим независимую выборку X ( x1, x2, …, xn ) . Предположим
неизвестную функцию распределения F(t) . Нас интересует вопрос о том,
согласуются ли данные наблюдений ( x1, x2, …, xn ) с простой гипотезой
где Fo (t) – некоторая конкретная функция распределения.
Разобьем множество R на конечное множество непересекающихся подмножеств D1, …, Dr . Po – вероятность, соответствующую функции
распределения Fo(t) , обозначим poi = Po ( Di ) , i = 1, …, r.
Их сумма равна единице (правило нормировки): 1pr
1i
0i
Группируем выборочные данные по разрядам Di
и определяем эмпирические частоты mi / n . В силу случайных колебаний они будут отличаться от теоретических вероятностей po
i .
r...,,2,1 , iDx:j m iji } {
Чтобы контролировать это различие, следует подобрать хорошую меру расхождения между экспериментальными данными и гипотетическим теоретическим распределением.
По аналогии с идеей метода наименьших квадратов в качестве такой меры расхождения можно взять, например
где ci – достаточно произвольные числа .
r
1i
20i
ii p
nm
c
К. Пирсон показал, что если выбрать Ci = n / poi , то полученная величина
будет обладать рядом замечательных свойств.
0 2r r2 0 2i i i
i0 0i 1 i 1i i
m (m np )nX ( p )
np np
r
1i
20i
ii p
nm
c
Она называется статистикой Пирсона .2
2 2r 1n
limP{X t} P{ t} t R
Теорема К. Пирсона
Предположим, что гипотеза H0 верна. Тогда при неограниченном росте
объема выборки распределение величины X 2 сходится к распределению
хи-квадрат с ( r – 1 ) степенями свободы, где r – число параметров
теоретического закона выборки, то есть
Смысл теоремы: при большом объеме выборки распределение X 2 можно считать распределением хи-квадрат с ( r - 1 ) степенью свободы.
Если гипотеза H0 неверна, то величина X 2 стремится в бесконечность.
)(h F10, h χ r)1(
χ
)1(r22
То обстоятельство, что поведение распределения X 2 различно в зависимости от того верна или не верна гипотеза H0 , дает возможность построить критерий для её проверки. Зададимся уровнем значимости (допустимой вероятностью ошибки ) и возьмем квантиль распределения X 2 , определяемый формулой ниже
)( sh
2Xf ( x )
x
(x)dx f(s) Fs
0χχ 22
Определим критическое множество
ε }h P{ )1(rε1
21r
2 (r 1)1 2 1 ε
S {(χ ,....,x ) : X h }
Действия: определим X 2 и сравниваем её с квантилем . )( 1r
1h
Если неравенство справедливо
гипотеза H0 отвергается
(выборка обнаруживает значимое отклонение от гипотезы),
если нет то гипотеза H0 принимается
(выборка совместима с гипотезой H0 ).
)1(r1
2 h χ
)1(r1
2 h χ
При таком решающем правиле мы может допустить ошибку, отвергнув верную гипотезу H 0 .
Из теоремы Пирсона вытекает, что при больших n величина вероятности этой ошибки близка к .
Утверждения теоремы Пирсона относятся к выборкам с пределу при . На практике мы имеем дело лишь с выборками ограниченного объема . Поэтому, применяя вышеописанный критерий, необходимо проявлять осторожность .
n
Согласно рекомендациям, применение критерия дает хорошие результаты, когда все ожидаемые частоты . Если какие-то из этих чисел малы, то рекомендуется, укрупняя некоторые группы, перегруппировать данные таким образом, чтобы ожидаемые частоты всех групп были не меньше десяти .
10np0i
Если число r достаточно велико, то порог для ожидаемых частот может быть понижен до 5 или даже до 3 , если r имеет порядок нескольких десятков .
Практически считается достаточным, чтобы n > 50 – 60 и mi > 5 – 8
@ Радиоактивное вещество наблюдалось в течение 2680 равных интервалов времени (по 7.5 секунд каждый). В каждом из интервалов регистрировалось число частиц, попавших в счетчик. В таблице приведены числа mi интервалов времени, в течении которых в счетчик попадало ровно i частиц.
ii mmii ii mmii
00 5757 66 273273
11 203203 77 139139
22 383383 88 4545
33 525525 99 2727
44 532532 >10>10 1616
55 408408 ИтогоИтого : : n = mn = m1 1 +.. + m+.. + m>10 >10 = = 26802680
@ Проверить, используя критерий хи - квадрат, гипотезу о согласии наблюденных данных с законом распределения Пуассона. Уровень значимости принять равным 5 %
Вычислим оценку параметра
распределения
Вычисляем теоретические вероятности Pi попадания в счетчик i частиц при наличии закона Пуассона
i!e
P(i,i
)
87.32680
16102794581397273640852680
5324525338322031570n
im10
0ii
~
!.
).,()~
,(.
i873e
873iPiPi873
ii ppii npnpii mmii-np-npii (m(mii-np-npi)i)))22 (m(mii-np-npi)i)))22/np/npi)i)
00 0.0210.021 54.854.8 2.22.2 4.844.84 0.0880.088
11 0.0810.081 211.2211.2 -8.2-8.2 67.2467.24 0.3180.318
22 0.1560.156 406.8406.8 -23.8-23.8 566.44566.44 1.3921.392
33 0.2010.201 524.2524.2 0.80.8 0.640.64 0.0010.001
44 0.1950.195 508.6508.6 23.423.4 547.56547.56 1.0071.007
55 0.1510.151 393.8393.8 14.214.2 201.64201.64 0.5120.512
66 0.0970.097 253.0253.0 20.020.0 400.00400.00 1.5811.581
77 0.0540.054 140.8140.8 -1.8-1.8 3.243.24 0.0230.023
88 0.0260.026 67.867.8 -22.8-22.8 519.84519.84 7.6677.667
99 0.0110.011 28.728.7 -1.7-1.7 2.892.89 0.1010.101
>10>10 0.0070.007 18.318.3 -2.3-2.3 5.295.29 0.2890.289
1.0001.000 = 13.049= 13.049
10
0i0i
20ii2
k np)np(m
X
Число степеней свободы: k = l – r -1 = 11 – 1 - 1 = 9
В таблице для статистики Пирсона для k = 9 и 2 = 13.05 находим вероятность того, что величина 2 превзойдет значение, полученное по выборке
Так как то отклонения от закона Пуассона незначимы.
0513np
)np(mχ
10
0i i
2ii2
k .
166.0)χP(ε 2n
2k
,05.0εεk
Критерий согласия Колмогорова применим в том случае, когда параметры теоретического закона распределения определяются не по данным исследуемой выборки. За меру расхождения принимается наибольшее значение статистики D : абсолютной величины разности статистической и теоретической функций :
11
xxF(x)F(x)
F*n (x)F*n (x)
F(x)|(x)|FD nRx
n
sup
При неограниченном росте объема выборки величинанезависимо от вида закона распределения СВ X стремится к закону распределения Колмогорова.
Статистика Смирнова:
Dn
)) K(1P()DP(Dε nn
)(tdFF(t))(t)(Fω 2n
2n