第四章 概率、正态分布、常用统计分布

33
第第第 第第第 第第 第第第第第 第第 第第第 、、 第第 第第第第第 第第 第第第 、、

Upload: medge-gillespie

Post on 03-Jan-2016

105 views

Category:

Documents


7 download

DESCRIPTION

第四章 概率、正态分布、常用统计分布. 第一节 概率及概率分布. 1. 什么是随机现象? P64 具有非确定性、随机性的现象 2. 什么是概率? P65 随机现象发生可能性大小的数量表示 3. 概率的计算方法:频率法 P66 随机现象 E 出现的次数 /N. 4. 什么是概率分布? P90 概率分布要回答的是,随机现象一共有多少种结果,以及每种结果所伴随的概率是多少? 例如,家庭结构(核心家庭、主干家庭、联合家庭、 其他家庭(单亲家庭、残缺家庭等) )的概率分布。 5. 什么是概率分布图? P92 把概率分布画成 折线图 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第四章 概率、正态分布、常用统计分布

第四章第四章概率、正态分布、常用统计分布概率、正态分布、常用统计分布

Page 2: 第四章 概率、正态分布、常用统计分布

第一节第一节概率及概率分布概率及概率分布

Page 3: 第四章 概率、正态分布、常用统计分布

1. 什么是随机现象? P64

具有非确定性、随机性的现象2. 什么是概率? P65

随机现象发生可能性大小的数量表示3. 概率的计算方法:频率法 P66

随机现象 E 出现的次数 /N

Page 4: 第四章 概率、正态分布、常用统计分布

4. 什么是概率分布? P90

概率分布要回答的是,随机现象一共有多少种结果,以及每种结果所伴随的概率是多少?

例如,家庭结构(核心家庭、主干家庭、联合家庭、其他家庭(单亲家庭、残缺家庭等) )的概率分布。

5. 什么是概率分布图? P92 把概率分布画成折线图6. 什么是概率密度、概率密度分布图? P95 当△ x 趋近于 0 时,随 x 变化的概率分布图(曲线图)举例:北京大学居民的家庭规模? 1 、 2 、 3 、 4 、 5 、 6 、

7 、 8

北京大学居民的收入?

Page 5: 第四章 概率、正态分布、常用统计分布

多种概率密度分布图。 P41

偏态分布。 P106

其中有一种叫正态分布,

对统计推论特别重要。

Page 6: 第四章 概率、正态分布、常用统计分布

第二节第二节正态分布正态分布

Page 7: 第四章 概率、正态分布、常用统计分布

正态分布的重要性

1. 描述连续型随机变量的最重要的分布2. 社会科学领域很多变量是正态分布,或者可

以转化为正态分布3. 统计推断的基础

xx

((xx))

Page 8: 第四章 概率、正态分布、常用统计分布

正态分布的概率密度函数

(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828x = 随机变量的取值 (- < x < ) = 总体均值

xxx

,e2

1)(

222

1

Page 9: 第四章 概率、正态分布、常用统计分布

正态分布的概率

概率是曲线下的概率是曲线下的面积面积 !!

aa bbxx

((xx)) ?d)()(b

a xxfbxaP ?d)()(

b

a xxfbxaP

左右各一个标准差范围内的左右各一个标准差范围内的面积:面积: 68.27%;68.27%;

左右各一个标准差范围内的左右各一个标准差范围内的面积:面积: 95.45%; 95.45%; P148P148

左右各一个标准差范围内的左右各一个标准差范围内的面积:面积: 99.73%;99.73%;

Page 10: 第四章 概率、正态分布、常用统计分布

正态分布函数的性质

1. 概率密度函数在 x 的上方,即 (x)>0

2. 正态曲线的最高点在均值,它也是分布的中位数和众数

3. 正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。

正态分布曲线的位置,由决定: 当 不变,增大,图形右移; 正态分布曲线的“高矮胖瘦”由决定:当不变,越小,图形越尖

瘦。

4. 曲线 (x) 相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交

5. 正态曲线下的总面积等于 1

Page 11: 第四章 概率、正态分布、常用统计分布

正态分布函数的特征

一个高峰 一个对称轴 一个渐进线

P144

Page 12: 第四章 概率、正态分布、常用统计分布

和 对正态曲线的影响

x

((xx))

CA

B

使正态分布的峰度不同、位置不同(因为调查单位不同)。P151

因此,为了可以比较分析,必须对正态分布标准化。

Page 13: 第四章 概率、正态分布、常用统计分布

标准正态分布

Page 14: 第四章 概率、正态分布、常用统计分布

标准正态分布的重要性

1. 一般的正态分布取决于均值和标准差 2. 计算概率时 ,每一个正态分布都需要有

自己的正态概率分布表,这种表格是无穷多的

3. 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表( P485 )

Page 15: 第四章 概率、正态分布、常用统计分布

标准正态分布函数

2.2. 标准正态分布的概率密度函数标准正态分布的概率密度函数

1. 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

)1,0(~ NX

Z

)1,0(~ N

XZ

xxx

,e21

)(

2

2

Page 16: 第四章 概率、正态分布、常用统计分布

标准正态分布

xx

一般正态分布一般正态分布一般正态分布一般正态分布

X

Z

XZ

ZZ

标准正态分布标准正态分布标准正态分布标准正态分布

Page 17: 第四章 概率、正态分布、常用统计分布

标准正态分布表的使用

1. 计算概率时 ,先计算变量取值的标准分,2. 再查标准正态概率分布表 P485

3. 对于标准正态分布,即 X~N(0,1) ,有 指的概率 P

(-z) z P (a z b) b a P (| z | a) 2 a 1

Page 18: 第四章 概率、正态分布、常用统计分布

标准化的例子

怎么样查标准正态概率分布表?

P157-160

Page 19: 第四章 概率、正态分布、常用统计分布

第三节第三节其它几种常用的统计分布其它几种常用的统计分布

Page 20: 第四章 概率、正态分布、常用统计分布

样本方差的 22 分布

Page 21: 第四章 概率、正态分布、常用统计分布

样本方差的 22 分布

设总体服从正态分布设总体服从正态分布 N N ~ (~ (μμ,,σσ2 2 )) ,, XX11 ,, XX22 ,,……,, XXnn 为来自该正态总体的样本,则样本为来自该正态总体的样本,则样本方差 方差 ss22 的分布为的分布为

将将 22((nn – 1) – 1) 称为自由度为称为自由度为 ((nn-1)-1) 的的卡方分布卡方分布

P160P160

)1(~)1( 2

2

2

nsn

)1(~

)1( 22

2

nsn

Page 22: 第四章 概率、正态分布、常用统计分布

卡方 (2) 分布

选择容量为 n 的

简单随机样本

计算样本方差 S2

选择容量为 n 的

简单随机样本

计算样本方差 S2

计算卡方值

2 = (n-1)S2/σ2

计算卡方值

2 = (n-1)S2/σ2

计算出所有的

2 值

计算出所有的

2 值

不同容量样本的抽样分布不同容量样本的抽样分布

nn=1=1

nn=4=4nn=10=10

nn=20=20

总体

Page 23: 第四章 概率、正态分布、常用统计分布

小样本的 t 分布

Page 24: 第四章 概率、正态分布、常用统计分布

t 分布(小样本)

设设 XX11 ,, XX22 ,,……,, XXn1n1 是来自正态总体是来自正态总体 NN~(~(μμ11,,σσ112 2 )) 的的

一个样本, 称一个样本, 称

为统计量为统计量 ,, 它服从自由度为它服从自由度为 ((nn-1)-1) 的的 t t 分布分布

P163P163

S

XnT

)(

S

XnT

)(

tt标准正态分布与 不标准正态分布与 不同自由度的同自由度的 tt 分布分布

标准正态分布标准正态分布

t t ((dfdf = 13) = 13)

tt ( (dfdf = 5) = 5)

ZZ当自由度无限大时,当自由度无限大时, tt 分分布趋近于标准正态分布布趋近于标准正态分布

Page 25: 第四章 概率、正态分布、常用统计分布

方差分析的 F 分布

Page 26: 第四章 概率、正态分布、常用统计分布

方差分析的 F 分布

F F 分布分布

P164P164

FF((kk-1,-1,nn--kk))00

拒绝拒绝HH00

不能拒绝不能拒绝 HH00

FF

Page 27: 第四章 概率、正态分布、常用统计分布

定类变量的二项分布与泊松分布

Page 28: 第四章 概率、正态分布、常用统计分布

定类变量的二项分布; P122

当 n 很小时,定类变量将是超几何分布;

当 n 很大, p 又极小时,二项分布的极限分布是泊松分布; P137 ,比如交通事故率、公共电话的呼叫率等;

当 np≥5 时,二项分布近似于正态分布。

定类变量的二项分布与泊松分布

Page 29: 第四章 概率、正态分布、常用统计分布

第四节第四节大数定理与中心极限定理大数定理与中心极限定理

Page 30: 第四章 概率、正态分布、常用统计分布

大数定理少量的随机现象是没有稳定性规律的; 大量随机现象构成的总体,呈现的规律具有稳定性,有关这一系列的定理,称大数定理;大数定理有:贝努里大数定理、切贝谢夫大数定理;P168 大数定理说明了大量现象的稳定规律:频率值趋于概率值,平均值趋于期望值。

例如,一家一户,在自然的生育的情况下,生男生女纯属偶然,但统计成千上万户的结果后,其性别比约为 1/2 将是稳定的。

所以,大数定理是把偶然性因素消除掉,使共性表现出来

大数定理抽样调查的大样本( n≧50) 提供了理论基础

Page 31: 第四章 概率、正态分布、常用统计分布

中心极限定理

中心极限定理研究在什么条件下,随机变量之和的分布可以近似为正态分布。

中心极限定理表明,如果一个现实的量是由大量独立偶然因素的影响叠加而得,且其中每一个偶然因素的影响又是均匀地微小的话,则可以断定这个量将近似服从正态分布。

这就解释了为什么在社会科学领域大量存在着服从正态分布的随机变量,例如身高、体重、智商、婚龄等,因为影响它们的因素都是大量的。

中心极限定理告诉我们:在抽样调查中,只要样本容量足够大,样本均值的分布都将是已知的,都接近正态分布。

Page 32: 第四章 概率、正态分布、常用统计分布

样本均值的抽样分布与中心极限定理

= 50= 50 = 50= 50

=10=10 =10=10

XXXX

总体分布总体分布总体分布总体分布

nn = 4 = 4

抽样分布抽样分布抽样分布抽样分布X

nn =16 =165x 5x

50x 50x

5.2x 5.2x

当总体服从正态分布当总体服从正态分布 N N ~ (~ (μμ,,σσ2 2 )) 时,来自该总体的时,来自该总体的所 有 容 量 为所 有 容 量 为 nn 的 样 本 的 均 值的 样 本 的 均 值 XX 也 服 从 正 态 分也 服 从 正 态 分布,布, XX 的数学期望为的数学期望为 μμ ,方差为,方差为 σσ22//nn 。即。即 XX ~~NN((μμ,,σσ22//nn))

Page 33: 第四章 概率、正态分布、常用统计分布

中心极限定理(图示)

当样本容量足够当样本容量足够大时大时 ((nn 30 30) ) ,,样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布

x n

x n

中心极限定理:中心极限定理:设从均值为设从均值为,方差为,方差为 22 的一个任意总的一个任意总

体中抽取容量为体中抽取容量为 nn 的样本,当的样本,当 nn 充分大时,样本均值的充分大时,样本均值的抽样分布近似服从均值为抽样分布近似服从均值为 μμ 、方差为、方差为 σσ22//nn 的正态分布的正态分布

一个任意分一个任意分布的总体布的总体

x x XX