第 5 章 参数估计
DESCRIPTION
第 5 章 参数估计. 5.1 参数估计的一般问题 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本容量的确定. 总体. 总体均值、比率、方差等. 样本统计量 如:样本均值、比率、方差. 样本. 统计推断的过程. 5.1 参数估计的一般问题. 一、估计量与估计值 二、点估计与区间估计 三、评价估计量的标准. 估计量与估计值. 估计量:用于估计总体参数的随机变量 如样本均值,样本比率、样本方差等 例如 : 样本均值就是总体均值 的一个估计量 参数用 表示,估计量 用 表示 - PowerPoint PPT PresentationTRANSCRIPT
第 第 5 5 章 参数估计章 参数估计
• 5.15.1 参数估计的一般问题 参数估计的一般问题
• 5.2 5.2 一个总体参数的区间估计一个总体参数的区间估计
• 5.3 5.3 两个总体参数的区间估计两个总体参数的区间估计
• 5.4 5.4 样本容量的确定样本容量的确定
统计推断的过程统计推断的过程
样样本本
总体总体
样本统计量样本统计量
如:样本均值如:样本均值、比率、方差、比率、方差
样本统计量样本统计量
如:样本均值如:样本均值、比率、方差、比率、方差
总体均值、比
率、方差等
5.1 5.1 参数估计的一般问题参数估计的一般问题
一、估计量与估计值一、估计量与估计值二、点估计与区间估计二、点估计与区间估计三、评价估计量的标准三、评价估计量的标准
1.1.估计量:用于估计总体参数的随机变量估计量:用于估计总体参数的随机变量– 如样本均值,样本比率、样本方差等如样本均值,样本比率、样本方差等– 例如例如 : : 样本均值就是总体均值样本均值就是总体均值的一个估计量的一个估计量
2.2.参数用参数用 表示,估计量用 表示表示,估计量用 表示3.3.估计值:估计参数时计算出来的统计量的估计值:估计参数时计算出来的统计量的
具体值具体值– 如果样本均值 如果样本均值 xx =80=80 ,则,则 8080 就是就是的估计值的估计值
估计量与估计值估计量与估计值
点估计点估计1.1. 用样本的估计量直接作用样本的估计量直接作
为总体参数的估计值为总体参数的估计值– 例如:用样本均值直接例如:用样本均值直接作作
作作总体均值的估计总体均值的估计– 例如:用两个样本均值例如:用两个样本均值
之差直接之差直接作作作作总体均值之总体均值之差的估计差的估计
2.2. 没有给出估计值接近总没有给出估计值接近总体参数程度的信息体参数程度的信息
3.3. 点估计的方法有矩估计点估计的方法有矩估计法、顺序统计量法、最法、顺序统计量法、最大似然法、最小二乘法大似然法、最小二乘法等等
1
2
22
n
XXs
Pp
X
点估计完全正确的概率通常为 0 。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。
区间估计区间估计• 含义:在点估计的基础上,估计总体参数的区间范围,并含义:在点估计的基础上,估计总体参数的区间范围,并
给出区间估计成立的概率值。给出区间估计成立的概率值。
• 其中: 其中: 1-1-αα(0<(0<αα<1)<1) 称为置信水平称为置信水平• αα 是区间估计的显著性水平;是区间估计的显著性水平;• 常用的置信水平值有 常用的置信水平值有 99%, 95%, 90%99%, 95%, 90%
– 作作作作作作为为 0.010.01 ,, 0.050.05 ,, 0.100.10
1 2( ) 1p
注意对上式的理解:
例如抽取了 1000 个样本,根据每一个样本均构造了一个置信区间,,这样,由 1000 个样本构造的总体参数的 1000 个置信区间中,有 95%的区间包含了总体参数的真值,而 5% 的置信区间则没有包含。这里,95% 这个值被称为置信水平(或置信度)。
一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
样本统计量 样本统计量 (( 点估计点估计 ))置信区间置信区间
置信下限置信下限 置信上限置信上限
• 由样本统计量所构造的总体参数的估计区间称为置信区间由样本统计量所构造的总体参数的估计区间称为置信区间• 统计学家在某种程度上确信这个区间会包含真正的总体参数,统计学家在某种程度上确信这个区间会包含真正的总体参数,
所以给它取名为置信区间 所以给它取名为置信区间 • 用一个具体的样本所构造的区间是一个特定的区间,我们无用一个具体的样本所构造的区间是一个特定的区间,我们无
法知道这个样本所产生的区间是否包含总体参数的真值法知道这个样本所产生的区间是否包含总体参数的真值– 我们只能是希望这个区间是大量包含总体参数真值的我们只能是希望这个区间是大量包含总体参数真值的
区间中的一个,但它也可能是少数几个不包含参数真区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个值的区间中的一个
置信区间置信区间我们用 95% 的置信水平得到某班学生考试成绩的置信区间为 60-80 分,如何理解?
错误的理解: 60-80 区间以 95% 的概率包含全班同学平均成绩的真值;或以 95% 的概率保证全班同学平均成绩的真值落在 60-80 分之间。正确的理解:如果做了多次抽样(如 100 次),大概有 95 次找到的区间包含真值,有 5 次找到的区间不包括真值。
真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。
如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是 60-80 分,置信度为 95% 。
置信区间与置信水平 置信区间与置信水平 样本均值的抽样分布样本均值的抽样分布
(1 - (1 - ) % ) % 区间包含了区间包含了 % % 的区间未包含的区间未包含
x x
1 – 1 – //22//22x x
xx
区间估计的图示区间估计的图示
xx
95% 95% 的样本的样本
-1.96-1.96xx +1.96+1.96xx
99% 99% 的样本的样本
- 2.58- 2.58xx +2.58+2.58xx
90%90% 的样本的样本
-1.65 -1.65 xx +1.65+1.65xx
x xxzx 2 xzx 2
评价估计量的标准——评价估计量的标准——无偏性无偏性
•无偏性:无偏性:估计量抽样分布的数学期望等于估计量抽样分布的数学期望等于被估计的总体参数 被估计的总体参数
PP(( ) )
BBBBAAAA
无偏无偏无偏无偏 有偏有偏有偏有偏
评价估计量的标准——评价估计量的标准——有效性有效性有效性:有效性:对同一总体参数的两个无偏点估计对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效量,有更小标准差的估计量更有效
AA
BB
的抽样分布的抽样分布
的抽样分布的抽样分布11
22
PP(( ))
评价估计量的标准——评价估计量的标准——一致性一致性
•一致性:一致性:随着样本容量的增大,估计量随着样本容量的增大,估计量的值越来越接近被估计的总体参数的值越来越接近被估计的总体参数
AA
BB
较小的样本容量较小的样本容量
较大的样本容量较大的样本容量PP(( ) )
5.2 5.2 一个总体一个总体参数的区间估计参数的区间估计
一、总体均值的区间估计一、总体均值的区间估计二、总体比率的区间估计二、总体比率的区间估计三、总体方差的区间估计三、总体方差的区间估计
一个总体参数的区间估计一个总体参数的区间估计
总体参数总体参数 符号表示符号表示 样本统计量样本统计量
均值均值
比率比率
方差方差 2 2
xx
pp
2s2s
• 当当 σσ 已知时,根据相关的抽样分布定理, 服从标准正态分布已知时,根据相关的抽样分布定理, 服从标准正态分布
N(0,1)N(0,1) 。查正态分布概率表,。查正态分布概率表,
可得 (可得 (一般记为一般记为 ),则 ,根据重复抽样与不重 ),则 ,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间:复抽样的 求法的不同,进一步可得总体平均数的估计区间:
– 重复抽样时,区间的上下限为:重复抽样时,区间的上下限为:
– 不重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:
总体均值的区间估计总体均值的区间估计( ) 1p X ( ) 1
X X
Xp
X
X
/X
( / ) 1X
F
/ 2 Xz
X
nzX
2
12
N
nN
nzX
/ 2z
[ , ]X X 的估计区间是
0
0. 05
0. 1
0. 15
0. 2
0. 25
0. 3
0. 35
0. 4
0. 45
-2. 5 -2 -1. 5 -1 -0. 5 0 0. 5 1 1. 5 2 2. 5
12/2/
X/
2)(
X
zp
α1)σ
Δp(z
α1)σ
Δ
σ
μXp(
X
XX
X z / 2/ ?为什么记 为
总体均值的区间估计总体均值的区间估计
• 若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时 若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时
• 服从自由度为服从自由度为 n-1n-1 的的 tt 分布。查分布。查 tt 分布表可得 ,并分布表可得 ,并记为记为
• 于是:于是:– 重复抽样时,区间的上下限为:重复抽样时,区间的上下限为:
– 不重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:
X
X
X
/X
, 12 nt
, 12 n
SX t
n
, 12 1n
S N nX t
Nn
( ) 1X X
Xp
大样本时, t 分布与标准正态分布非常接近,可直接从标准正态分布表查临界值 , 12 n
t
总体均值的区间估计总体均值的区间估计 (( 大样本大样本 ))
1.1. 假定条件假定条件– 总体服从正态分布总体服从正态分布 ,, 且方差且方差 (( 22 ) ) 未知未知– 如果不是正态分布,可由正态分布来近似 如果不是正态分布,可由正态分布来近似 ((nn 30) 30)
2.2.使用正态分布统计量 使用正态分布统计量 zz
3.3. 总体均值 总体均值 在在 1-1- 置信水平下的置信区间置信水平下的置信区间为为
)1,0(~ Nn
xz
)1,0(~ Nn
xz
)(22 未知或
n
szx
nzx )(22 未知或
n
szx
nzx
总体均值的区间估计总体均值的区间估计 (( 小样本小样本 ))
1.1. 假定条件假定条件– 总体服从正态分布总体服从正态分布 ,, 且方差且方差 (( 22 ) ) 未知未知– 小样本 小样本 ((nn < 30) < 30)
2.2.使用 使用 tt 分布统计量分布统计量
3.3. 总体均值 总体均值 在在 1-1- 置信水平下的置信区间置信水平下的置信区间为为
)1(~
ntns
xt
)1(~
nt
ns
xt
n
stx 2
n
stx 2
t t 分布分布• t t 分布是类似正态分布的一种对称分布,它通常要分布是类似正态分布的一种对称分布,它通常要
比正态分布平坦和分散。一个特定的分布依赖于称比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 渐趋于正态分布
xxxxtt 分布与标准正态分布的比较分布与标准正态分布的比较
t t 分布分布
标准正态分布标准正态分布
tt不同自由度的不同自由度的 tt 分分
布布
标准正态分布标准正态分布
t t ((dfdf = 13) = 13)
tt ( (dfdf = 5) = 5)
zz
总体比率的区间估计总体比率的区间估计
1.1. 假定条件假定条件– 总体服从二项分布总体服从二项分布– 可以由正态分布来近似可以由正态分布来近似
2. 2. 使用正态分布统计量 使用正态分布统计量 zz)1,0(~
)1(N
n
pp
pz
)1,0(~)1(
N
n
pp
pz
3.3. 总体比率总体比率在在 1-1- 置信水平下的置信区间为置信水平下的置信区间为3.3. 总体比率总体比率在在 1-1- 置信水平下的置信区间为置信水平下的置信区间为
)()-1()1(
22 未知时或 n
ppzp
nzp
)(
)-1()1(22 未知时或
n
ppzp
nzp
总体方差的区间估计总体方差的区间估计
1.1. 估计一个总体的方差或标准差估计一个总体的方差或标准差2.2. 假设总体服从正态分布假设总体服从正态分布3.3. 总体方差 总体方差 22 的点估计量为的点估计量为 ss22,, 且且
4. 4. 总体方差在总体方差在 1-1- 置信水平下的置信区间为置信水平下的置信区间为
1~1 22
2
nsn
1~
1 22
2
nsn
1
1
1
12
21
22
22
2
n
sn
n
sn
1
1
1
12
21
22
22
2
n
sn
n
sn
总体方差的区间估计总体方差的区间估计(( 图示图示 ))
作作作作作作作作 作作作作作作作作作作
作作作作作作作作 作作作作作作作作作作
自由度为自由度为 nn-1-1 的的作作作作
5.5.33 两个总体两个总体参数的区间估计参数的区间估计
一、两个总体均值之差的区间估计一、两个总体均值之差的区间估计二、两个总体比率之差的区间估计二、两个总体比率之差的区间估计三、两个总体方差比的区间估计三、两个总体方差比的区间估计
两个总体参数的区间估计两个总体参数的区间估计
总体参数总体参数 符号表示符号表示 样本统计量样本统计量
均值之差均值之差
比率之差比率之差
方差比方差比
21 21
21 21
22
21 2
221
21 xx 21 xx
21 pp 21 pp
22
21 ss 2
221 ss
两个总体均值之差的估计两个总体均值之差的估计(( 大样本大样本 ))
1.1. 假定条件假定条件– 两个总体都服从正态分布,两个总体都服从正态分布, 11
22 、 、 2222 已已
知知– 若不是正态分布若不是正态分布 , , 可以用正态分布来近似可以用正态分布来近似
((nn113030 和和 nn2230)30)– 两个样本是独立的随机样本两个样本是独立的随机样本
2.2. 使用正态分布统计量 使用正态分布统计量 zz )1,0(~)()(
2
22
1
21
2121 N
nn
xxz
)1,0(~
)()(
2
22
1
21
2121 N
nn
xxz
两个总体均值之差的估计两个总体均值之差的估计 (( 大样本大样本 ))
1.1. 1122 , , 22
22 已知时,两个总体均值之差已知时,两个总体均值之差 11--22
在在 1-1- 置信水平下的置信区间为置信水平下的置信区间为
2
22
1
21
221 )(nn
zxx
2
22
1
21
221 )(nn
zxx
2
22
1
21
221 )(n
s
n
szxx
2
22
1
21
221 )(n
s
n
szxx
.. 1122、、 22
22未知时,两个总体均值之差未知时,两个总体均值之差 11--22 在在 11
-- 置信水平下的置信区间为置信水平下的置信区间为
两个总体均值之差的估计两个总体均值之差的估计(( 小样本小样本 : :
))
1.1. 假定条件假定条件– 两个总体都服从正态分布两个总体都服从正态分布– 两个总体方差未知但相等:两个总体方差未知但相等: 11
22 ==2222
– 两个独立的小样本两个独立的小样本 ((nn11<30<30 和和 nn22<30)<30)
2.2. 总体方差的合并估计量总体方差的合并估计量
2
)1()1(
21
222
2112
nn
snsns p 2
)1()1(
21
222
2112
nn
snsns p
3.3. 估计估计量量 xx11--xx22 的抽样标准差的抽样标准差
212
2
1
211
nns
n
s
n
sp
pp 212
2
1
211
nns
n
s
n
sp
pp
两个总体均值之差的估计两个总体均值之差的估计(( 小样本小样本 : :
))
1.1. 两个样本均值之差的标准化两个样本均值之差的标准化)2(~
11
)()(21
21
2121
nnt
nns
xxt
p
)2(~
11
)()(21
21
2121
nnt
nns
xxt
p
2.2. 两个总体均值之差两个总体均值之差 11--22 在在 1-1- 置信水平下置信水平下的置信区间为的置信区间为
21
221221
112
nnsnntxx p
21
221221
112
nnsnntxx p
两个总体均值之差的估计两个总体均值之差的估计(( 小样本小样本 : :
))
1.1. 假定条件假定条件– 两个总体都服从正态分布两个总体都服从正态分布– 两个总体方差未知且不相等:两个总体方差未知且不相等: 11
22 2222
– 两个独立的小样本两个独立的小样本 ((nn11<30<30 和和 nn22<30)<30)
2.2. 使用统计量使用统计量
)(~)()(
2
22
1
21
2121 vt
n
s
n
s
xxt
)(~
)()(
2
22
1
21
2121 vt
n
s
n
s
xxt
两个总体均值之差的估计两个总体均值之差的估计(( 小样本小样本 : :
))
• 两个总体均值之差两个总体均值之差 11--22 在在 1-1- 置信水平置信水平下的置信区间为下的置信区间为
2
22
1
21
221 )(n
s
n
svtxx
2
22
1
21
221 )(n
s
n
svtxx
12
2
222
11
2
121
2
2
22
1
21
n
ns
n
ns
n
s
n
s
v
12
2
222
11
2
121
2
2
22
1
21
n
ns
n
ns
n
s
n
s
v自由度自由度
两个总体均值之差的估计两个总体均值之差的估计(( 匹配大样本匹配大样本 ))
1.1. 假定条件假定条件– 两个匹配的大样本两个匹配的大样本 ((nn11 30 30 和和 nn2 2 30) 30)– 两个总体各观察值的配对差服从正态分布两个总体各观察值的配对差服从正态分布
2.2. 两个总体均值之差两个总体均值之差 d d ==11--22 在在 1-1- 置信置信水平下的置信区间为水平下的置信区间为
nzd d
2n
zd d 2
对应差值的均值对应差值的均值对应差值的标准差对应差值的标准差
两个总体均值之差的估计两个总体均值之差的估计(( 匹配小样本匹配小样本 ))
1.1. 假定条件假定条件– 两个匹配的大样本两个匹配的大样本 ((nn11< 30< 30 和和 nn2 2 < 30)< 30)– 两个总体各观察值的配对差服从正态分布两个总体各观察值的配对差服从正态分布
2.2. 两个总体均值之差两个总体均值之差 dd==11--22 在在 1-1- 置信置信水平下的置信区间为水平下的置信区间为
n
sntd d)1(2
n
sntd d)1(2
• 1.1. 假定条件假定条件– 两个总体服从二项分布两个总体服从二项分布– 可以用正态分布来近似可以用正态分布来近似– 两个样本是独立的两个样本是独立的
• 2.2. 两个总体比率之差两个总体比率之差 11-- 22 在在 1-1- 置信水置信水平下的置信区间为平下的置信区间为
两个总体比率之差的区间估计两个总体比率之差的区间估计
2
22
1
11221
)1()1(
n
pp
n
ppzpp
2
22
1
11221
)1()1(
n
pp
n
ppzpp
两个总体方差比的区间估计两个总体方差比的区间估计
1.1. 比较两个总体的方差比比较两个总体的方差比2.2.用两个样本的方差比来判断用两个样本的方差比来判断
– 如果如果 SS1122/ / SS22
22 接近于接近于 11,, 说明两个总体方差很接近说明两个总体方差很接近– 如果如果 SS11
22/ / SS2222 远离远离 11,, 说明两个总体方差之间存在差说明两个总体方差之间存在差
异异3.3.总体方差比在总体方差比在 1-1- 置信水平下的置信区间为置信水平下的置信区间为
21
22
21
22
21
2
22
21
F
ss
F
ss
21
22
21
22
21
2
22
21
F
ss
F
ss
),(
1),(
1222121 nnF
nnF
),(
1),(
1222121 nnF
nnF
两个总体方差比的区间估计两个总体方差比的区间估计(( 图示图示 ))
FFFFFFFF FFFF
作作作作作作作作作作 作作作作作作作作作作
作作作作作作作作作作 作作作作作作作作作作
方差比置信区间示意图方差比置信区间示意图
5.5.44 样本容量的确定样本容量的确定
一、估计总体均值时样本容量的确定一、估计总体均值时样本容量的确定二、估计总体比率时样本容量的确定二、估计总体比率时样本容量的确定三、估计总体均值之差时样本容量的确定三、估计总体均值之差时样本容量的确定四、估计总体比率之差时样本容量的确定四、估计总体比率之差时样本容量的确定
1.1. 估计总体均值时样本容量估计总体均值时样本容量 nn 为为
2.2. 样本容量样本容量 nn 与总体方差与总体方差 22 、允许误差、允许误差 EE 、、可靠性系数可靠性系数 ZZ或或 tt 之间的关系为之间的关系为– 与总体方差成正比与总体方差成正比– 与允许误差成反比与允许误差成反比– 与可靠性系数成正比与可靠性系数成正比
估计总体均值时样本容量的确定 估计总体均值时样本容量的确定
其中:其中:其中:其中:2
222 )(
E
zn
2
222 )(
E
zn
n
zE
2n
zE
2
1.1.根据比率区间估计公式可得样本容量根据比率区间估计公式可得样本容量 nn 为为
估计总体比率时样本容量的确定 估计总体比率时样本容量的确定
2.2. EE 的取值一般小于的取值一般小于 0.10.13.3. 未知时,可取最大值未知时,可取最大值 0.50.5
其中:其中:其中:其中:
2
22 )1()(
E
zn
2
22 )1()(
E
zn
nzE
)1(2
nzE
)1(2
1.1. 设设 nn11 和和 nn22 为来自两个总体的样本,并假定为来自两个总体的样本,并假定nn11==nn22
2.2. 根据均值之差的区间估计公式可得两个样本根据均值之差的区间估计公式可得两个样本的容量的容量 nn 为为
估计两个总体均值之差时样本容量的确定估计两个总体均值之差时样本容量的确定
其中:其中:其中:其中:
2
22
21
22
21
)()(
E
znnn
2
22
21
22
21
)()(
E
znnn
nzE 21
2
nzE 21
2
1.1. 设设 nn11 和和 nn22 为来自两个总体的样本,并假定为来自两个总体的样本,并假定 nn11==nn22
2.2. 根据比率之差的区间估计公式可得两个样本的根据比率之差的区间估计公式可得两个样本的容量容量 nn 为为
估计两个总体比率之差时样本容量的确定估计两个总体比率之差时样本容量的确定
其中:其中:其中:其中:n
zE)1()1( 2211
2
nzE
)1()1( 22112
2
22112
221
)1()1()(
E
znn
2
22112
221
)1()1()(
E
znn