第七章 非参数统计
DESCRIPTION
第七章 非参数统计. 非参数统计 (亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。. 主要特点. 不要求 总体分布已知或对总体分布作任何限制性假定; 不以 估计总体参数为目的; 能适用于 定性变量中的定类数据 或 定序数据 , 也能适用于定距数据和定比数据这种定量变量 方法直观,易于理解,运算比较简单。 缺点 是检验的功效不如参数检验方法。. χ 2 检验. 主要内容. 成对比较检验. 曼 — 惠特尼 U 检验. 游程检验. 等级相关检验. χ 2 检验. 一、什么是 χ 2 检验. - PowerPoint PPT PresentationTRANSCRIPT
第七章 非参数统计 第七章 非参数统计 非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。
主要特点不要求总体分布已知或对总体分布作任何限制性假定;不以估计总体参数为目的;能适用于定性变量中的定类数据或定序数据 , 也能适用于定距数据和定比数据这种定量变量 方法直观,易于理解,运算比较简单。缺点是检验的功效不如参数检验方法。
主要内容 χ2 检验
成对比较检验
曼—惠特尼 U 检验
游程检验
等级相关检验
χ2 检验一、什么是 χ2 检验
χ2 检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
设有 k ( K > 2 )个观察值, f0 为它们的实际频数,fe 为理论频数。构造一个统计量
k
i ei
eioi
f
ff
1
22 )(
其中, k-1 为自由度。
皮尔生定理表明,当样本容量充分大时,样本分成 K类,则 χ2 统计量服从 χ2 分布。自由度为 k-1
1 、拟合优度检验二、应用利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布(如二项分布、均匀分布或正态分布等)。 检验步骤
抽样并对样本资料编成频数分布,形成 k 个互斥的类型组。 ( f0 )
对总体分布建立假设H0 :总体服从某种理论分布H1 :总体不服从该理论分布
以“原假设 H0 为真”导出一组期望频数( fe )
计算检验统计量
k
i ei
eioi
f
ff
1
22 )(
比较 χ2 值与临界值作出检验判断
)12
mk (2
自由度( df )= k-1-m 。
其中 k 为组数。(各组理论频数不得小于 5 ,如不足 5,可合并相邻的组,如需合并,则 k 为合并后的组数)
m 为计算理论频数时所估计参数的个数。(未指定总体的参数,需要观察值计算相应的统计量,作为未参数的估计值) 。
2 、独立性检验二、应用用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响,就称为独立,所以这类检验也称为独立性检验。 检验步骤对总体的两个变量建立假设H0 :两变量独立H1 :两变量关联
将样本资料编成 r×c 列联表,并列出实际频数 Oij
计算理论频数计算检验统计量
比较 χ2 值与临界值作出检验判断
2
11
2 )(
ij
ijijc
j
r
i E
EO
n
nnE jiij
))1)(1((2
cr
2
要点说明•列联表形式( r×c )
O11
O21
O31
.
.
.Or1
O12
O22
O32
.
.
.Or2
O13
O23
O33
.
.
.Or3
………...…
O1c
O2c
O3c
.
.
.Orc
O1
O2
O3
.
.
.Or
123...r
行
( r )
列( c )1 2 3 … c
xy 合计
n.1 n.2 n.3 … n.c n合计
X 的边缘频数
y 的边缘频数
•理论频数 Eij 的计算
先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积, P ( A·B ) =P( A ) ·P ( B )。因此,某一行某一列的联合概率:
n
n
n
njiP ji ),( 的概率第
n
nn
n
n
n
nnEn jiji
ij )(, 理论频数总频数为
•自由度( df )的确定 df=(r-1)(c-1)
•r·c=2×2 的列联表资料, χ2 值简算公式x
y 1 2
12
a b
c d
a+c b+d
a+bc+d
合计
合计
n
))()()((
)( 22
dcbadbca
bcadnx
成对比较检验 是对两个相关样本的比较分析。有符号检验和威尔科克森带符号的等级检验两种方法。
符号检验 也称正负号检验,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差异的一种检验方法。
检验步骤 1. 确定配对样本,分别计算差异正与负的数目,无差异则记为 0,将它从样本中剔除,并相应地减少样本容量 n,把正负号数目之和视为样本总个数 (n) 。
2. 建立假设: H0 : p=0.5 ; H1 : p≠0.5
3. 观察样本容量,如果 n≤25 ,则作为二项分布处理 如果 n> 25 ,则作为正态近似处理。
n
PZ
5.05.0
5.0ˆ
4. 设定显著性水平α,并查表确定临界值,进行比较和作出判断。
例 1 :随机抽取 12 个单位,放映一部描述吸烟有害健康的影片, 并调查得到观看电影前后各单位职工认为吸烟有害的人 数的百分比。检验该电影宣传是否有效果( α=0.05 )。
解: H0 : P=0.5 H1 : P > 0.5
)5.0,12(查二项分,域05.0 Pn布表确定拒绝由
P ( 0 ) =0.0002 , P ( 1 ) =0.0030 , P ( 2 ) =0.0161 , P ( 3 ) =0.0537
P ( 0 ) +P ( 1 ) +P(2)=0.0193< 0.05P ( 3 ) +0.0193 = 0.0537+
0.0193=0.073>0.05
单位编号 1 2 3 4 5 6 7 8 9 10 11 12
(1)放映前(%) (2)放映后(%) (3)差异(2)-(1)
63 68 +
41 49 +
54 53 -
71 75 +
39 49 +
44 41 -
67 75 +
56 58 +
46 52 +
37 49 +
61 55 -
68 69 +
0 1 2 3 4 5 6
可见,拒绝域应为 0 , 1 , 2 。
7 8 9 10 11 12
拒绝域
现检验统计量( - ) =3 (即 3 个负号), 0.073 > 0.05 所以,原假设 H0 : P=0.5 在 5% 显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著提高。
例 2 :随机抽取 60名消费者对甲、乙两种品牌的饮料评 分,甲 、乙得分之差为“ +” 号者 35 个,“ -” 号 15 个,“ 0”号 10 个。以显著性水平 α=0.05 检验两种饮料是否同等受欢迎。解: H0 : P=0.5 , H1 : P≠0.5
∵n > 25 ,∴按正态分布近似处理该成数抽样分布的均值和标准差分别为
071.050
5.05.0)1(,5.0
n
PPSP pp
82.2071.0
5.07.0ˆ
7.050/35ˆ)(
pS
PPZ
P
检验统计量
号的成数样本
2.82 > 1.96 ,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。
96.1||,05.02
Z双侧检验临界值
威尔科克森带符号的等级检验这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。
1 、应用条件和检验内容与符号检验相同。2 、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号( + )的秩和(记为 T+ )与负号( - )的秩和(记为 T- )也应该大致相等。其中之较小者也应趋近于总秩和的平均数( )。若正秩和( T+ )与负秩和( T- )相差太大,其中较小者偏离总秩和的平均( )较远,以致超过给定显著性水平 α 所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
4
)1(
nnT
T
检验步骤将样本数据配对并计算各对正负差值
将差数取绝对值按从小到大顺序排列并编上等级,即确定顺序号 1 、 2、 3等。对于相等的值,则取其位序的平均数为等级
建立假设: H0 : T+= T- ; H1 : T+ ≠T-(双侧 )
H1 : T+ > T- 或 T+< T-( 单侧 )
24/)12)(1(
4/)1(
nnn
nnTZ
计算检验统计量 : 当 n>25 时
当 n≤25 时,取 T+ 、 T- 中之小者
设定 α ,并查表确定临界值 Tα( 或 Zα/2)
比较检验值与临界值作出判断,对于 n≤25 , T≤Tα , 拒绝 H0 ; T > Tα , 接受 H0
接受区域
拒绝区域拒绝区域 Tα=5 Tα=40 =22.5 T
曼—惠特尼 U检验曼—惠特尼 U 检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。 检验步骤:
从总体 A 、 B 中分别独立抽取样本 nA 和 nB ,将( nA
+nB )个观察值从小到大编序
分别计算两个样本,的秩和 TA 和 TB
建立假设 H0 :两总体 A 和 B 相对次数分布相同
H1 :两总体相对次数分布不同
计算检验统计量
①nA 、 nB< 10 时,取 UA 、 UB 中小者
UA= nAnB+ nA ( nA +1 ) /2-TA
UB= nAnB+ nB ( nB +1 ) /2-TB
②nA 、 nB > 10 时 12/)1(
)2/(
BABA
BA
nnnn
nnUZ
设定显著性水平 α ,查 U 表或 Z 表得到临界值
比较统计量与临界值,作出判断,
对于 nA 、 nB< 20 U≤Uα ,拒绝 H0 , U > Uα ,接受 H0
游程检验一、什么是游程检验
游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
设某样本 n=12人的标志表现为男、女,有以下三种排列。 (i) 男,男,女,女,女,男,女,女,男,男,男,男
(ii) 男,男,男,男,男,男,男,女,女,女,女,女 (iii) 男,女,男,女,男,女,男,女,男,女,男,男
连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以 r 表示序列中游程的个数:
(i) r=5, (ii) r=2, (iii) r=11
( i )是随机性序列;( ii )( iii )是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。二、游程检验方法 1.检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
3.检验规则(小样本, n1 与 n2都小于 20 ) 应用表 La 和 Lb ,( α=0.05 , r 为临界值)
( 1 )单侧检验: 观察到的游程个数
ro≤ 临界值( La 表) 或 ro≥ 临界值( Lb 表)
反之,接受 Ho 。
( 2 )双侧检验: 观察到的游程个数 ro
r(La)< ro< r(Lb) 接受 Ho
下限 上限反之,拒绝 Ho
否定 Ho
4.大样本( n1 或 n2 大于 20 ),游程个数 r 近似正态分布
检验统计量r
rErZ
)(
)1()(
)2(2
12
)(
212
21
212121
21
21
nnnn
nnnnnn
nn
nnrE
r
其中:
等级相关检验
将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
等级相关系数的计算公式)1(
61
2
2
nn
dr is
其中 di 为两变量每一对样本的等级之差, n 为样本容量。等级相关系数与相关系数一样,取值 -1到 +1 之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
一、等级相关检验的基本原理
二、等级相关系数的应用利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。
(一)检验的假设( 1 ) H0 : rs=0 , Xi 和 Yi 相互独立;
H1 : Xi 和 Yi 不独立。(此为双侧检验)
( 2 ) H0 : rs=0 , Xi 和 Yi 相互独立; H1 : Xi 和 Yi 是正相关。 (即 Xi 的大值与 Yi 的
大值相配对 )( 3 ) H0 : rs=0 , Xi 和 Yi 相互独立;
H1 : Xi 和 Yi 是负相关。 (即 Xi 的大值与 Yi
的小值相配对 )
(二)检验统计量:1,30 nrZn s
的临界值相关系数查附表 srn :,30