第五章 统计描述 参数估计与假设检验

166
1 第第第 第第第 第第第第第第第第第 第第 第第第第第第第第第第第第第第第第第第 第第第第第第第第第 第第第第第第第第 第第第第第第第第第第第第 ,, 第第第第第第第第第第第 第第第第 体.

Upload: ignatius-kerr

Post on 01-Jan-2016

152 views

Category:

Documents


3 download

DESCRIPTION

第五章 统计描述 参数估计与假设检验. 数理统计是从对随机现象的观测所得之资料出发,用概率论的理论与方法,来研究随机现象,其基本问题是随机抽样并根据所抽得的样本来推断总体的情况.. 所谓 总体 是指在研究目的之下所能确定的最大观察范围 . 按照随机性原则,即保证总体中每一观察单位都有同等的机会被抽取到的原则,从总体中抽取部分观察单位形成 样本 . 样本中所含样本点的个数称为 样本含量 .. 对样本的观察数据有三类: 计量数据 品质数据 等级数据. 计量数据 是指用定量的方法测定观察单位的某数量特征所得数据,如身高、体重等. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第五章  统计描述              参数估计与假设检验

1

第五章 统计描述 参数估计与假设检验

数理统计是从对随机现象的观测所得之

资料出发,用概率论的理论与方法,来研

究随机现象,其基本问题是随机抽样并根

据所抽得的样本来推断总体的情况.

Page 2: 第五章  统计描述              参数估计与假设检验

2

所谓总体是指在研究目的之下所能确定的最大观察范围 .

按照随机性原则,即保证总体中每一观察单位都有同等的机会被抽取到的原则,从总体中抽取部分观察单位形成样本 .

样本中所含样本点的个数称为样本含量.

Page 3: 第五章  统计描述              参数估计与假设检验

3

对样本的观察数据有三类:

计量数据

品质数据

等级数据

Page 4: 第五章  统计描述              参数估计与假设检验

4

计量数据是指用定量的方法测定观察单位的某数量特征所得数据,如身高、体重等.

品质数据是指观察单位属性描述之类的数据,如性别、血型、民族等.

等级数据是指观察单位某种属性描述存在不同程度与等级差别的数据,如职称、学历等.

本章主要内容是统计描述、参数估计与假设检验及其 R 软件操作.

Page 5: 第五章  统计描述              参数估计与假设检验

5

11-1 计量数据的统计描述11-1-1 统计软件 R 简述

R 软件具有开放的统计编程环境,它提供了若干统计程序包以及各种数学计算与统计计算的函数.用户还可根据自己的需要编写自己的 R 函数来扩展现有的 R 语言.

Page 6: 第五章  统计描述              参数估计与假设检验

6

更值得一提的是, R 是一种完全免费的共享的统计软件,目前由 R 核心开发小组维护,他们将全球优秀的统计应用软件打包提供给用户.用户可以通过 R 软件的网站 (http://www.r-project.org) 了解有关 R

软件的最新信息和使用说明,得到最新版本的 R 软件和基于 R 的应用统计软件包.

Page 7: 第五章  统计描述              参数估计与假设检验

7

R 软件可以在 UNIX , Windows

或 Macintosh 操作系统上运行,它自带

一个非常实用的帮助系统,并具有很强

的作图能力.

Page 8: 第五章  统计描述              参数估计与假设检验

8

R 软件中数据的组织方式常用的一般有

三种:向量、矩阵、数据框.

Page 9: 第五章  统计描述              参数估计与假设检验

9

建立向量的命令是 c ( ) ,如下述命令是将一列数据组成的数组存储在变量 x 中.

> x<-c (3, 2, 9,18,8,0,7,5)

Page 10: 第五章  统计描述              参数估计与假设检验

10

建立矩阵的常用命令是 matrix ( ) ,如下述命令是将向量 x 定义成 2 行 4 列矩阵,仍保存在变量 x 中,元素按行排列,即第一行的元素是 3, 2, 9,18 ,第二行的元素是8,0,7,5 .

> x<-matrix(x,nrow=2,ncol=4,byrow=TRUE)

Page 11: 第五章  统计描述              参数估计与假设检验

11

或者使用命令 dim( ) ,也可实现上述功

> dim(x)=c(2,4)

此时,变量 x 不再是一维向量,而是二维

矩阵.

Page 12: 第五章  统计描述              参数估计与假设检验

12

建立数据框的方法常见的有两种 :

第一种是使用命令 data.frame( )

第二种是使用命令 read.table ( )

现示例如后

Page 13: 第五章  统计描述              参数估计与假设检验

13

现有如下形式的记录单

name sex age height weight

Alice F 13 56.5 84.0

Becka F 14 64.3 90.0

Kathy F 12 59.8 84.5

Page 14: 第五章  统计描述              参数估计与假设检验

14

下述命令是将上述记录单数据读入内存并存储于数据框变量 rt 中

> rt<-data.frame(

name=c("Alice","Becka", "Kathy"),

sex=c("F","F", "F"),

age=c(13,14, 12),

height=c(56.5,64.3,59.8),

weight=c(80.0,90.0,84.5)

)

Page 15: 第五章  统计描述              参数估计与假设检验

15

上述数据框变量 rt 的另一种建立是主样的 :

首先利用编辑器,建立如前所示记单格式的文本文件,也可将 Excel工作表文件另存为制表符分隔的文本文件,不妨设文件名是“ example.txt” .

Page 16: 第五章  统计描述              参数估计与假设检验

16

然后通过下述命令将文本文件“ exa

mple.txt” 中所含的记录单,读入内存,以数据框的形式存储于变量 rt 中,其中文件名前可带路径.

> rt<-read.table("example.txt",head=TRUE)

Page 17: 第五章  统计描述              参数估计与假设检验

17

11-1-2 平均水平或集中趋势 1 .计量资料的频数分布 首先看一个实例 例1 现有某地某年 110名 7岁男童身高(厘米)资料如下 :

118.1 108.2 118.9 110.8 118.2 123.0 113.0 117.2 122.7 112.4120.0 119.6 113.2 119.7 114.8 116.2 114.7 118.3 120.3 123.5122.5 122.0 117.0 120.7 114.3 122.5 119.7 116.8 119.8 119.7112.7 129.3 121.8 117.7 124.1 121.5 126.1 122.9 128.0 119.8117.2 114.3 124.1 120.0 121.5 120.0 130.5 120.8 126.6 120.2120.4 113.2 116.0 129.1 118.4 117.1 114.9 116.4 119.0 124.4121.2 121.0 115.4 116.3 125.5 112.2 125.2 114.9 124.4 112.3114.8 113.0 120.8 112.4 118.5 122.8 120.1 120.1 118.4 117.9120.7 125.2 118.0 126.2 122.1 120.7 117.4 119.1 122.8 123.8111.5 119.3 125.0 122.4 110.3 114.3 123.1 125.1 120.5 116.3130.8 132.5 116.3 127.1 120.6 119.5 120.5 125.6 123.2 116.8

Page 18: 第五章  统计描述              参数估计与假设检验

18

这一组数据的最小值是 108.2 ,最大值是 132.5 ,在这一范围内, 110 个观察数据是如何分布的呢?是均匀分布还是非均匀分布;如果是非均匀分布,那么是靠近 108.

2 的数据较多还是靠近 132.5 的数据较多还是其它分布特征.

Page 19: 第五章  统计描述              参数估计与假设检验

19

为了解数据的分布特征,通常的做法是

将从 108.2 到 132.5 的区间平均分成若干个

小组段,计数每一个组段中观察值出现的

频数,并据此绘成直方图.

手工完成这一工作是一件十分繁锁的事

件 .

Page 20: 第五章  统计描述              参数估计与假设检验

20

下面用 R 操作如下:

用向量形式输入数据,并用绘制直方图

命令 hist ( ) 如下:

> x<-c (118.1,108.2,118.9,…,116.8)

> hist(x,nclass=10)

Page 21: 第五章  统计描述              参数估计与假设检验

21

Page 22: 第五章  统计描述              参数估计与假设检验

22

其中,参数 nclass=10 是指定分组个数,

一般实际分组个数比指个数略大,大多数

情况下,该参数可以省略而采用系统默认

分组个数.

Page 23: 第五章  统计描述              参数估计与假设检验

23

从输出的直方图可以看出,这 110 个数

据在从 108.2 到 132.5 的区间中并不是均匀

分布的,而是中间位置( 119.0)附近的数

据较多,两侧的数据较少,左右基本对称.

称这种分布类型为对称分布.

Page 24: 第五章  统计描述              参数估计与假设检验

24

同时增加观察数据个数(不是 110 而是1100 或 11000 或更多)与分组个数,则可以预见,所得到的直方图中的直条将逐渐变窄,其顶端将逐渐接近于后图所示的钟形曲线,两头低,中间高,左右对称,近似于数学上的正态分布.

Page 25: 第五章  统计描述              参数估计与假设检验

25

Page 26: 第五章  统计描述              参数估计与假设检验

26

如果频数分布的最高峰不在中间,左

右不对称,那么称这种分布类型为偏态分

布.另外,还会有多峰分布的情况,等等.

Page 27: 第五章  统计描述              参数估计与假设检验

27

2 .算术均数

平均数用来反映一组计量资料的平均水平或集中趋势,它常作为一组数据的代表值.常用平均数有算术均数、几何均数、中位数.

算术均数,简称均数,一个统计总体的均数常用字母 μ表示,从统计总体的抽样而得样本的样本均数常用 表示.x

Page 28: 第五章  统计描述              参数估计与假设检验

28

Page 29: 第五章  统计描述              参数估计与假设检验

29

该命令是将存在向量 x 中的观察数据求算术均数,并将计算结果存在在变量 m 中.针对例 1 的数据,上述命令得到的结果是 1

19.72cm .

均数适用于对称分布资料,尤其是正态分布资料.

Page 30: 第五章  统计描述              参数估计与假设检验

30

Page 31: 第五章  统计描述              参数估计与假设检验

31

例 2 中国从 1996年到 2006年 10年间的 GD

P年发展速度分别是1.110 1.069 1.062 1.106 1.105 1.097 1.129 1.177 1.150 1.147

它们的连乘积则是 2006年相对于 1996年的发展速度,因而这 10年的平均发展速度用它们的几何平均数来表示.

Page 32: 第五章  统计描述              参数估计与假设检验

32

R 软件操作如下:

> x<-c(1.110,1.069,1.062,1.106,1.105,1.097,1.129,1.177,1.150,1.147)

> lnx<-log(x)

> exp(mean(lnx))

运算结果是 1.1147 ,于是中国从 1996年到 200

6年 10年间的 GDP年年平均发展速度是 111.47

% ,平均增长速度是 11.47% .

Page 33: 第五章  统计描述              参数估计与假设检验

33

对同一组资料而言,算术均数的值不小

于几何均数的值.

Page 34: 第五章  统计描述              参数估计与假设检验

34

4 .中位数

根据一组资料所绘制的直方图如果不是中间高,两头低,左右对称时,而是高峰偏左或偏右或出现多峰等情形,分布类型不明,那么这一组资料的平均水平或集中趋势就应采用较为稳健、不收极端数据影响的中位数指标.

中位数是指将一组数据顺序排列后处于中间位置的数值,一般用 M 来表示.

Page 35: 第五章  统计描述              参数估计与假设检验

35

对于对称分布来说,算术均数与中位数理论上是相等的.

在例 1 中,算术均数是 119.72cm ,用下述命令所得到的中位数则是 119.9cm .

> x<-c (118.1,108.2,118.9,…,116.8)

> m<-median(x)

Page 36: 第五章  统计描述              参数估计与假设检验

36

如果数据总个数是奇数个,那么中位数

等于处于中间位置的数据,如果数据总个

数是偶数个,那么中位数等于处于中间两

个数据的和的一半.

Page 37: 第五章  统计描述              参数估计与假设检验

37

11-1-3 变异程度或离散趋势

对一组计量资料的完整刻画,不仅要指

出其平均水平或集中趋势,还要指出该组

资料的离中程度或离散趋势,离散趋势反

映了数据之间的变异程度.

Page 38: 第五章  统计描述              参数估计与假设检验

38

下面有两组数据:

甲: 10 , 20 , 30 , 40 , 50 , 60 , 70 , 80 , 90

乙: 30 , 35 , 40 , 45 , 50 , 55 , 60 , 65 , 70

这两组数据的平均水平一致,算术均数均是 5

0 ,但数据之间的变异程度不同,甲组数据较为离散,变异程序较大,而乙组数据则较为集中,变异程序较小.

Page 39: 第五章  统计描述              参数估计与假设检验

39

反映数据变异程度或离散趋势的指标有多种,这里主要介绍常用的几个.

• 极差

• 方差

• 标准差

• 变异系数

Page 40: 第五章  统计描述              参数估计与假设检验

40

1 .极差

极差,又称为全距,是指一组计量资料最大值与最小值的差,一般有 R表示.例 1 中 110 个数据的差计算过程如下:

> x<-c (118.1,108.2,118.9,…,116.8)

> R<-max(x)-min(x)

极差是一种最为粗略的离散程度描述,它只利用了最大值与最小值两个数值,而对其它所有数据置之不理,数据利用率最低.

Page 41: 第五章  统计描述              参数估计与假设检验

41

2 .方差、标准差与变异系数

Page 42: 第五章  统计描述              参数估计与假设检验

42

其中 n 是观察值个数.这里样本方差分

母上的是因为,如果用的话,那么算得的

样本方差总体上略小于总体方差.

Page 43: 第五章  统计描述              参数估计与假设检验

43

Page 44: 第五章  统计描述              参数估计与假设检验

44

Page 45: 第五章  统计描述              参数估计与假设检验

45

例 1 中的数据方差、标准差及变异系数求法如下:

> x<-c (118.1,108.2,118.9,…,116.8)

> m<-mean(x)

> v<-var(x)

> s<-sd(x)

> CV<-s/m

其中, var ( ) 是方差函数, sd ( ) 是标准差函数.

Page 46: 第五章  统计描述              参数估计与假设检验

46

11-1-4 正态分布

Page 47: 第五章  统计描述              参数估计与假设检验

47

Page 48: 第五章  统计描述              参数估计与假设检验

48

Page 49: 第五章  统计描述              参数估计与假设检验

49

Page 50: 第五章  统计描述              参数估计与假设检验

50

Page 51: 第五章  统计描述              参数估计与假设检验

51

Page 52: 第五章  统计描述              参数估计与假设检验

52

Page 53: 第五章  统计描述              参数估计与假设检验

53

Page 54: 第五章  统计描述              参数估计与假设检验

54

Page 55: 第五章  统计描述              参数估计与假设检验

55

Page 56: 第五章  统计描述              参数估计与假设检验

56

Page 57: 第五章  统计描述              参数估计与假设检验

57

Page 58: 第五章  统计描述              参数估计与假设检验

58

观察可知实际分布与理论分布非常接近.

在一个总休中,如果某计量属性的表现值受多种因素的影响,而每一因素的影响又是细微的,那么该属性的表现值呈正态分布,其理论依据就是数理统计中的中心极限定理.

人体的许多生理指标,偶然测量误差等服从正态分布.

Page 59: 第五章  统计描述              参数估计与假设检验

59

5-2 参数估计与假设检验5-2-1 总体均数的点估计与参数估计

Page 60: 第五章  统计描述              参数估计与假设检验

60

Page 61: 第五章  统计描述              参数估计与假设检验

61

简单的点估计并没有指出误差或误差的

范围,有必要对问题作进一步的分析.

Page 62: 第五章  统计描述              参数估计与假设检验

62

Page 63: 第五章  统计描述              参数估计与假设检验

63

Page 64: 第五章  统计描述              参数估计与假设检验

64

Page 65: 第五章  统计描述              参数估计与假设检验

65

Page 66: 第五章  统计描述              参数估计与假设检验

66

Page 67: 第五章  统计描述              参数估计与假设检验

67

Page 68: 第五章  统计描述              参数估计与假设检验

68

Page 69: 第五章  统计描述              参数估计与假设检验

69

Page 70: 第五章  统计描述              参数估计与假设检验

70

Page 71: 第五章  统计描述              参数估计与假设检验

71

Page 72: 第五章  统计描述              参数估计与假设检验

72

Page 73: 第五章  统计描述              参数估计与假设检验

73

其中,称 为 t 分布的自由度. t 分布的的概率密度函数较为复杂,这里不再涉及了.

1n

Page 74: 第五章  统计描述              参数估计与假设检验

74

Page 75: 第五章  统计描述              参数估计与假设检验

75

Page 76: 第五章  统计描述              参数估计与假设检验

76

Page 77: 第五章  统计描述              参数估计与假设检验

77

Page 78: 第五章  统计描述              参数估计与假设检验

78

Page 79: 第五章  统计描述              参数估计与假设检验

79

Page 80: 第五章  统计描述              参数估计与假设检验

80

Page 81: 第五章  统计描述              参数估计与假设检验

81

5-2-2 总体方差的点估计与参数估计

Page 82: 第五章  统计描述              参数估计与假设检验

82

Page 83: 第五章  统计描述              参数估计与假设检验

83

不同自由度的卡方分布的概率密度函数的图象如图

Page 84: 第五章  统计描述              参数估计与假设检验

84

Page 85: 第五章  统计描述              参数估计与假设检验

85

Page 86: 第五章  统计描述              参数估计与假设检验

86

Page 87: 第五章  统计描述              参数估计与假设检验

87

Page 88: 第五章  统计描述              参数估计与假设检验

88

Page 89: 第五章  统计描述              参数估计与假设检验

89

5-2-3 假设检验

1.假设检验的基本思想

某随机事件的概率如果较小,那么在一次观察中发生的可能性就较小,某随机事件的概率如果较大,那么在一次观察中发生的可能性就较大,于是有理由认为,如果某事件在一次观察中发生了,那么它的概率一般是较大的,至少不会很小.

Page 90: 第五章  统计描述              参数估计与假设检验

90

或者换一种说法,概率较小的事件在一

次观察中一般认为是不会发生的.这就是

所谓的小概率原理.

Page 91: 第五章  统计描述              参数估计与假设检验

91

Page 92: 第五章  统计描述              参数估计与假设检验

92

例 4 根据大量调查,已知成年健康男子每分钟的脉搏均数是 72次,在某山区随机抽查了 25名成年健康男子,计算得其每分钟脉搏的均数是 74.8次,标准差是 6.5次,能否认为该地区成年健康男子每分钟的脉搏数异于一般情况.

Page 93: 第五章  统计描述              参数估计与假设检验

93

Page 94: 第五章  统计描述              参数估计与假设检验

94

首先对总体作出无效假设,即认为差异

是由于抽样误差造成,也就是说均数是 74.

8 、标准差是 6.5 、样本含量是 25 的这个

样本是从总体均数为 72 的总体中随机抽取

得到的,而 72 与 74.8 之间的差异是由于

抽样造成的.

Page 95: 第五章  统计描述              参数估计与假设检验

95

与无效假设相对的是备择假设,这里的

备择假设是该地区成年健康男子每分钟的

脉搏数确实异于一般情况.

Page 96: 第五章  统计描述              参数估计与假设检验

96

当在无效假设的前提下,发生了小概率

事件,那么就拒绝无效假设,也就接受了

备择假设.

Page 97: 第五章  统计描述              参数估计与假设检验

97

Page 98: 第五章  统计描述              参数估计与假设检验

98

Page 99: 第五章  统计描述              参数估计与假设检验

99

Page 100: 第五章  统计描述              参数估计与假设检验

100

Page 101: 第五章  统计描述              参数估计与假设检验

101

Page 102: 第五章  统计描述              参数估计与假设检验

102

Page 103: 第五章  统计描述              参数估计与假设检验

103

2 .总体均数假设检验的 R 软件操作

总体均数的假设检验一般选择与例 4 类似

的 t 检验, R 软件中 t 检验函数是 t.test( ) ,

该命令的操作常见格式如下:

t.test(x , y , mu = 0 , var.equal = FALSE , conf.level = 0.9

5)

Page 104: 第五章  统计描述              参数估计与假设检验

104

其中, x 与 y 是存放样本数据的向量,如果只

有 x没有 y ,则作一个样本均数的 t 检验,否则

作两个样本均数差异的 t 检验, mu 是样本要与之

比较的总体均数,默认是 0 , var.equal 用以指明

两个样本方差是否齐,默认是不齐, conf.level 是

置信度,默认是 0.95 ,此时检验水平是 0.05余类

推.该命令还可作为总体均数的区间估计用.

Page 105: 第五章  统计描述              参数估计与假设检验

105

Page 106: 第五章  统计描述              参数估计与假设检验

106

Page 107: 第五章  统计描述              参数估计与假设检验

107

软件输出是:

One Sample t-test

data: x

t = -3.4783, df = 19, p-value = 0.002516

alternative hypothesis: true mean is not equal to 225

95 percent confidence interval:

172.3827 211.9173

sample estimates:

mean of x

192.15

Page 108: 第五章  统计描述              参数估计与假设检验

108

Page 109: 第五章  统计描述              参数估计与假设检验

109

例5 (配对资料的 t 检验)为研究某铁剂治疗和饮食治疗营养性缺铁性贫血的效果,将 16名患者按年龄、体重、病程和病情相近的原则配成 8 对,分别使用饮食疗法和补充铁剂治疗的方法, 3 个星期后测得两种患者血红蛋白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?

配对号 1 2 3 4 5 6 7 8

铁剂治疗 113 120 138 120 100 118 138 123

饮食治疗 138 116 125 136 110 132 130 110

Page 110: 第五章  统计描述              参数估计与假设检验

110

该题的 R 操作是 > x=c(113, 120, 138, 120, 100, 118, 138, 123)

> y=c(138, 116, 125, 136, 110, 132, 130, 110)

> d=x-y

> t.test(d)

或者 > t.test(x-y)

Page 111: 第五章  统计描述              参数估计与假设检验

111

软件输出是: One Sample t-test

data: d

t = -0.6513, df = 7, p-value = 0.5357

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

-15.62889 8.87889

sample estimates:

mean of x

-3.375

Page 112: 第五章  统计描述              参数估计与假设检验

112

结果表现,原假设即无效假设成立的条件下,发生了概率是 0. 5357 的事件,这不是一个小概率事件,于是,没有理由拒绝无效假设,不认为两种疗法治疗后的营养性缺铁性贫血患者的治疗后的血红蛋白有差异.

Page 113: 第五章  统计描述              参数估计与假设检验

113

例 6 ( 样本均数与样本均数差异的 t 检验 ) 某克山病区测得 11例急性克山病患者与 13名健康人的血磷值(mg%)如下,问该地区急性克山病患者与健康人的血磷值是否不同?

患者: 2.60, 3.24, 3.73, 3.73, 4.32, 4.73, 5.18, 5.58,

5.78, 6.40, 6.53

健康人: 1.67, 1.98, 1.98, 2.33, 2.34, 2.50, 3.60, 3.73,

4.14, 4.17, 4.57, 4.82, 5.78

Page 114: 第五章  统计描述              参数估计与假设检验

114

该题的 R 操作是

> x=c(2.60,3.24,……,6.40,6.53)

> y=c(1.67,1.98,……,4.82,5.78)

> t.test(x,y,var.equal = T)

Page 115: 第五章  统计描述              参数估计与假设检验

115

软件输出是: Two Sample t-test

data: x and y

t = 2.5394, df = 22, p-value = 0.01868

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.2486260 2.4639614

sample estimates:

mean of x mean of y

4.710909 3.354615

Page 116: 第五章  统计描述              参数估计与假设检验

116

结果表现,原假设即无效假设成立的条件下,发生了概率是 0.01893 的小概率事件,于是,拒绝无效假设,接受备择假设,认为该地区急性克山病患者与健康人的血磷值具有显著性差异,顺便说一句,该统计结论成立的概率是 1-0.01893 ,而错误的概率是 0.01893 .

Page 117: 第五章  统计描述              参数估计与假设检验

117

这里选择的是认为两个样本方差齐.两

个样本方差一个是 1.698 ,另一个是 1.701 ,

有差异,但它们的差异是由于抽样的原因

(方差齐),还是其它原因(方差不齐),

要通过方差齐性检验确定.

Page 118: 第五章  统计描述              参数估计与假设检验

118

5-2-4 两个样本的方差齐性检验

Page 119: 第五章  统计描述              参数估计与假设检验

119

Page 120: 第五章  统计描述              参数估计与假设检验

120

Page 121: 第五章  统计描述              参数估计与假设检验

121

Page 122: 第五章  统计描述              参数估计与假设检验

122

Page 123: 第五章  统计描述              参数估计与假设检验

123

Page 124: 第五章  统计描述              参数估计与假设检验

124

5-2-5 正态性检验

一组计量资料是否来源于一个正态总体,

从分布直方图中只能得到一个大概的映象,

更进一步的推断则需要进行假设检验.统

计学中正态性检验的方法很多,这里仅介

绍一种——正态性 W 检验方法.

Page 125: 第五章  统计描述              参数估计与假设检验

125

利用 Shapiro-Wilk(夏皮罗 -威尔克)W 统计量作的正态性检验,又称为 W

检验.命令函数是 shapiro.test( ) .

在上一个章节的例 1 中, 110名身高数据是否来自于一个正态总体,检验如下:

> x=c(118.1,108.2,118.9,……,116.8)

> shapiro.test(x)

Page 126: 第五章  统计描述              参数估计与假设检验

126

软件输出是

Shapiro-Wilk normality test

data: z

W = 0.9931, p-value = 0.8592

结果显示, W 统计量是 0.9931 ,概率 p 值是 0.8592>0.05 ,故认为数据来源于一个正态总体.

Page 127: 第五章  统计描述              参数估计与假设检验

127

再如: > x=c(1:100) ;x

[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 [14] 14 15 16 17 18 19 20 21 22 23 24 25 26 [27] 27 28 29 30 31 32 33 34 35 36 37 38 39 [40] 40 41 42 43 44 45 46 47 48 49 50 51 52 [53] 53 54 55 56 57 58 59 60 61 62 63 64 65 [66] 66 67 68 69 70 71 72 73 74 75 76 77 78 [79] 79 80 81 82 83 84 85 86 87 88 89 90 91 [92] 92 93 94 95 96 97 98 99 100

> shapiro.test(x)

Page 128: 第五章  统计描述              参数估计与假设检验

128

软件输出是: Shapiro-Wilk normality test

data: x

W = 0.9547, p-value = 0.001722

此时,概率值是 0.001722<0.05 .这里命令 x=c(1:100) 的功能是形成一个 1 到 100这 100 个自然数向量,显然是均匀分布,而不是正态分布.

Page 129: 第五章  统计描述              参数估计与假设检验

129

5-2-5 假设检验的两种错误

在假设检验的过程中,有时会犯两种类型的错误,一种错误是无效假设确实正确,但却拒绝了无效假设,这种错误称为失真,失真的概率失真的概率等于 R 软件输出的假设检验概率,一般小于检验标准;另一种错误是无效假设确实是错误的,却没有拒绝,这种错误称为存伪 .

Page 130: 第五章  统计描述              参数估计与假设检验

130

存伪的概率与失真的概率是相关联的.将检验标准取得很小,减小了失真的概率,但同时必然会增加存伪的概率,检验标准取得较大,可以减小存伪的概率,但同时又必然会增加失真的概率.同时减少两种错误的概率,只有一个方法,那就是增加样本含量.

Page 131: 第五章  统计描述              参数估计与假设检验

131

5-3 品质数据与等级数据的 统计描述与假设检验5-3-1 品质数据的统计描述

在某统计总体中,对观察单位诸如“性别”之类的品质属性的处理,往往是分类计数,即列举该品质属性的所有可能的表现值并归类计数,然后按下式计算某属性表现概率,简称为率.

Page 132: 第五章  统计描述              参数估计与假设检验

132

现概率总体中某品质属性的表

%100统计总体观察单位总数

察单位数具有某种属性表现的观

Page 133: 第五章  统计描述              参数估计与假设检验

133

比如,在研究新疆维吾尔族自治区人口

的民族组成时,该自治区的所有在籍人口

构成统计总体,品质属性标识是“民族”,

如果要考察新疆哈萨克族人群规模,那么

Page 134: 第五章  统计描述              参数估计与假设检验

134

%100”“

新疆总人口数

人口数哈萨克族新疆

的概率哈萨克族属性是民族新疆人 ”“”“

Page 135: 第五章  统计描述              参数估计与假设检验

135

如果统计总体的某品质属性只有两种表现值,那么针对该品质属性而言,该统计总体是一个二项总体.在统计总体总量非常大的情况下,对该总体的 n次随机观察(也就是从该总体随机抽取样本含量为 n

的样本),可看成 n 重贝努里试验.

Page 136: 第五章  统计描述              参数估计与假设检验

136

如果统计总体的某品质属性有不止两种表现值,那么针对该品质属性某一表现值,也可将该统计总体看成一个二项总体.如“户籍”属性的“北京”与“非北京”,“血型”属性的“ A 型”与“非 A 型”等等.

对于等级属性,也可针对某一等级的值,将问题归为二项分布问题.

Page 137: 第五章  统计描述              参数估计与假设检验

137

设有一个二项总体,某品质属性的表现

概率记为 π ,多数性况下,总体概率常常

是未知的,统计学的做法是从该总体中抽

取一个样本,算得样本率,记之为 p ,并

用样本率 p 作为总体概率的估计值,这就

是总体率的点估计.

Page 138: 第五章  统计描述              参数估计与假设检验

138

从一个样本所包含的信息中,除了能

得到总体率的点估计值外,能否得到总体

率的 95% 或 99% 的区间估计呢?同时能

否进行总体率与样本率之间差别的假设检

验呢?答案是肯定的,具体理论阐述不再

涉及,这里只介绍 R 软件的操作.

Page 139: 第五章  统计描述              参数估计与假设检验

139

5-3-2 总体率的区间估计与假设检验

二总体率的区间估计与假设检验函数是binom.test( ) ,具体格式如下:

binom.test(x, n, p = 0.5,conf.level = 0.95)

其中 x 是表现次数, n 是观察次数, p 是原假设的概率,默认是 0.5 , conf.level 是置信度默认是 0.95 .

Page 140: 第五章  统计描述              参数估计与假设检验

140

例 1 有一批蔬菜种子的平均发芽率是 0.8

5 ,现随机抽取 500粒,用某种试剂作浸种处理,结果有 445粒发芽,试问这种处理方法对发芽率有无影响?

在 R 软件中执行命令

> binom.test(445,500,p=0.85)

Page 141: 第五章  统计描述              参数估计与假设检验

141

软件输出是 Exact binomial test

data: 445 and 500

number of successes = 445, number of trials = 500, p_value = 0.01207

alternative hypothesis: true probability of success is not equal to 0.85

95 percent confidence interval:

0.8592342 0.9160509

sample estimates:

probability of success

0.89

Page 142: 第五章  统计描述              参数估计与假设检验

142

结果显示,假设检验概率值是 0.01207 ,

按 0.05 的检验水准,拒绝无效假设,接受

备择假设,认为这种处理方法对发芽率有

影响,点估计值是 0.89 ,大于 0.85 ,可认

为使用该试剂作浸种处理可提高了发芽率.

Page 143: 第五章  统计描述              参数估计与假设检验

143

例 2 如何估计某一鱼塘中的鱼有多少尾?

一般的做法是:首先从鱼塘中打一网鱼,假设计数有 100尾,做上记号,放回鱼塘,再打一网鱼,假设计数 120尾,其中有 8尾是有记号的,则使用 R 软件作全塘鱼记号表现率的区间估计如下:

> binom.test(8,120)

Page 144: 第五章  统计描述              参数估计与假设检验

144

结果显示: Exact binomial test

data: 8 and 120

number of successes = 8, number of trials = 120, p_value < 2.2e-16

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.02921918 0.12713675

sample estimates:

probability of success

0.06666667

Page 145: 第五章  统计描述              参数估计与假设检验

145

在结果显示中,其它数据没有价值,用

记号表现计数 100除以 95% 的区间估计端

点 0.02921918 与 0.12713675 ,得到该鱼塘

中总尾数 95% 的区间估计,计算结果是 78

7至 3422 .

Page 146: 第五章  统计描述              参数估计与假设检验

146

5-3-3 四格表资料的假设检验 假设有两个计数样本,其具体数据形式如下表格所示

阴性 阳性 合计 阳性率

样本一 a b a+b p1=b/(a+b)

样本二 c d c+d p2=d/(c+d)

合计 a+c b+d a+b+c+d —

Page 147: 第五章  统计描述              参数估计与假设检验

147

试问,这两个样本是来源于同一个总体,

还是来源于不同的总体.换言之,这两个

样本率之间的差别有无统计意义?

Page 148: 第五章  统计描述              参数估计与假设检验

148

上述形式的数据,其原始数据就是图中

所示的两行两列的四个数据,所以,称这

种资料为四格表资料.四格表资料假设检

验的 R 操作可使用命令函数 chisq.test( )

(卡方检验),也可使用命令函数 fisher.te

st( )(费舍尔检验).

Page 149: 第五章  统计描述              参数估计与假设检验

149

chisq.test( ) 常用格式如下:

chisq.test(x, correct = TRUE)

其中, x 是存在四格表原始数据的 2 行

2 列矩阵,参数 correct 用于指明是否校正,

默认做法是校正.何时校正,何时不校正,

理论上迄今仍然没有一个统一的说法 .

Page 150: 第五章  统计描述              参数估计与假设检验

150

一般认为 n= a+b+c+d >40且所有格子理论频数(某格的理论频数下面在例 3 中解释)均大于 1 时,才可选择命令函数 chis

q.test( ) .当所有格子的理论频数均大于 5

时不需校正,如果有某格的理论频数处于 1

与 5 之间,则应选择校正.

Page 151: 第五章  统计描述              参数估计与假设检验

151

当条件 n= a+b+c+d >40 与所有格子理论频数均大于 1这两个条件有一个不满足时,应该使用命令函数 fisher.test( ) , fishe

r.test( ) 的常用格式如下:fisher.test(x, conf.level = 0.95)

其中, x 是存在四格表原始数据的 2 行2 列矩阵,参数 conf.level 用以指定置信水平,默认是 0.95 .

Page 152: 第五章  统计描述              参数估计与假设检验

152

例 3 为研究吸烟人群与不吸人群的肺癌患病率是否不同,调查了 63名肺癌患者与 43名非肺癌患者是否吸烟的情况,资料如下表

患肺癌 未患肺癌 合计

吸烟 60( 54.68) 32( 37.32) 92

不吸烟 3( 8.32) 11( 5.68) 14

合计 63 43 106

Page 153: 第五章  统计描述              参数估计与假设检验

153

无效假设认为吸烟人群与不吸人群的

肺癌患病率没有不同,因而可计算受调查

的 106人的合计阳性是 63/106=59.43% ,

故 92名吸烟者中患肺癌的理论频数是 92×

59.43%=54.68 ,余类推.

Page 154: 第五章  统计描述              参数估计与假设检验

154

观察可知,四个格子的理论频数均大于 5 ,故采用未校正的卡方检验如下:

> x=c(60,3,32,11)

> dim(x)=c(2,2)

> chisq.test(x,correct=FALSE)

其中命令 dim(x)=c(2,2) 的作用是将 x 变成按列排列的 2 行 2 列矩阵 .

Page 155: 第五章  统计描述              参数估计与假设检验

155

显示结果: Pearson's Chi-squared test

data: x

x-squared = 9.6636, df = 1, p-value = 0.001880

结果表明,概率值是 0.001880 ,按 0.0

5 检验水平,拒绝无效假设,认为吸烟人群与不吸人群的肺癌患病率不同,或者说,吸烟与患肺癌有关.

Page 156: 第五章  统计描述              参数估计与假设检验

156

例 4 为比较两种工艺对产品质量是否有影响,对其产品进行抽样检查,其结果如下表所示,试进行分析.

合格 不合格 合计

工艺一 3 4 7

工艺二 6 4 10

合计 9 8 17

Page 157: 第五章  统计描述              参数估计与假设检验

157

这是一个小样本的情况,总例数 17<40 ,

故采用费舍尔精确检验如下:

> x=c(3,6,4,4)

> dim(x)=c(2,2)

> fisher.test(x)

Page 158: 第五章  统计描述              参数估计与假设检验

158

显示结果是: Fisher's Exact Test for Count Data data: x p-value = 0.6372 alternative hypothesis: true odds ratio is not equal

to 1 95 percent confidence interval: 0.04624382 5.13272210 sample estimates: odds ratio 0.521271

Page 159: 第五章  统计描述              参数估计与假设检验

159

结果表明,假设检验概率是 0.6372 ,不拒绝无效假设,不能认为两种工艺对产品质量有影响.最后指出:如果对不符合卡方检验的资料用卡方检验或者应该使用校正的卡方检验时而使用了未校正的卡方检验,那么 R 软件将在输出结果的同时给出一个警告.

Page 160: 第五章  统计描述              参数估计与假设检验

160

5-3-4 列联表资料的假设检验

四格表资料只有 2 行 2 列,如果原始数据的行数或列数大于 2 时,那么称之为行 ×

列表或列联表资料.列联表资料的假设检验与四格表资料的假设检验完全类似,用于多个样本率的比较.

Page 161: 第五章  统计描述              参数估计与假设检验

161

例5 在一次社会调查中,以问卷的方式调查了

总共 901人的年收入及对工作的满意程度,其中

年收入(记该因素为 A)分为小于 12000 元、 12

000~30000 元、 30000 元 ~50000 元及超过 50000

元共 4档.对工作的满意程度(记该因素为 B)

分为很不满意、较不满意、基本满意、很满意共

4档.调查结果用 4×4 列联表表示如后

Page 162: 第五章  统计描述              参数估计与假设检验

162

收入分组 很不满意 较不满意 基本满意 很满意 合计

<12000 20 24 80 82 206

12000~30000 22 38 104 125 289

30000~50000 13 28 81 113 235

>50000 7 18 54 92 171

合计 62 108 319 412 901

Page 163: 第五章  统计描述              参数估计与假设检验

163

> x=c(20,22,13,7,24,38,28,18,80,104,81,54,82,125,113,92)

> dim(x)=c(4,4)

> chisq.test(x)

Pearson's Chi-squared test

data: x

X-squared = 11.9886, df = 9, p-value = 0.2140

假设检验概率是 0.2140 ,大于 0.05 ,不拒绝无效假设,

不能认为年收入与工作满意度有关.

Page 164: 第五章  统计描述              参数估计与假设检验

164

例 6 在某中学高中一年级男生中抽取 300

名考察其两个属性:一个是 1500米长跑,

另一个是平均每天锻炼时间,得到如下的 4

×3 列联表资料,试问,平均每天锻炼时间

与 1500米长跑成绩是否有关.

Page 165: 第五章  统计描述              参数估计与假设检验

165

1500米长跑成绩

每天锻炼时间合计

2小时以上 1~2小时 1小时以下

5’00’’~ 45 12 10 67

5’30’’~ 46 20 28 94

6’00’’~ 28 23 30 81

6’30’’~ 11 12 35 58

合计 130 67 103 300

Page 166: 第五章  统计描述              参数估计与假设检验

166

> x=c(45,46,28,11,12,20,23,12,10,28,30,35)

> dim(x)=c(4,3)

> chisq.test(x)

Pearson's Chi-squared test

data: x

X-squared = 40.401, df = 6, p-value = 3.799e-07

结果显示,假设检验概率值是 3.799×4-7 ,远小于 0.05 ,故认为平均每天锻炼时间与 1500

米长跑成绩有关.