第四章 基本统计分析

105
第第第 第第 第第第

Upload: shafira-sears

Post on 02-Jan-2016

58 views

Category:

Documents


4 download

DESCRIPTION

第四章 基本统计分析. 频数分析. 描述统计过程. 互联表统计分析. 比率分析. 探索性统计过程. 4.1 频数分析 Frequencies. 频数分析的基本任务:编制频数分布表和绘制统计图。 频数分析的扩展功能:计算分位数和计算其它基本的描述统计量(包括:集中趋势、离散程度、分布形态 ) 注意:这里计算基本统计量的功能在 Descriptive 也可以实现。故不作重点讲解。. 显示频数分布表. 主对话框. 集中趋势指标. 百分位数. 采用组中值计算. 离散趋势指标. 分布形态指标. 计算基本统计量 Statistics …. 四分位数. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第四章 基本统计分析

第四章 基本统计分析

Page 2: 第四章 基本统计分析

2

频数分析描述统计过程

互联表统计分析

比率分析探索性统计过程

Page 3: 第四章 基本统计分析

3

4.1 频数分析 Frequencies

频数分析的基本任务:编制频数分布表和绘制统计图。

频数分析的扩展功能:计算分位数和计算其它基本的描述统计量(包括:集中趋势、离散程度、分布形态 )

注意:这里计算基本统计量的功能在 Descriptive也可以实现。故不作重点讲解。

Page 4: 第四章 基本统计分析

4

主对话框

显示频数分布表

Page 5: 第四章 基本统计分析

5

百分位数

离散趋势指标

集中趋势指标

采用组中值计算

分布形态指标

计算基本统计量 Statistics…

四分位数每隔指定百分位数直接指定某个百分位数

Page 6: 第四章 基本统计分析

6

带正态曲线的直方图

绘制统计图 Charts…

饼状图条形图

频数 频率

针对Bar/Pie Charts而言,纵轴表示的数值

Page 7: 第四章 基本统计分析

7

按变量值

按频数

频数分布表输出格式 Format…

当频数表的分组数大于下面指定数值时禁止它在结果中输出,这样可以避免产生巨型表格。

当选择两个以上变量作频数表时, C 可以将结果输出在同一频数表过程的 output ; O可以将结果输出在不同的output 。

Page 8: 第四章 基本统计分析

8

按变量值升序排列

这里是定类变量,计算累计百分比

是无意义的

Page 9: 第四章 基本统计分析

9

Page 10: 第四章 基本统计分析

10

年龄

21.50

21.00

20.50

20.00

19.50

19.00

18.50

18.00

17.50

17.00

16.50

年龄

Freq

uenc

y10

8

6

4

2

0

Std. Dev = 1.24

Mean = 18.91

N = 50.00

Page 11: 第四章 基本统计分析

11

统计学

推断统计学

描述统计学

常用分析指标:算术平均数、调和平均数、几何平均数;众数、中位数、分位数等

常用分析指标:全距、内距、平均差、方差、标准差等;

4.2 计算描述统计量 Descriptive

集中趋势分析

离散程度分析

刻画分布形态

Page 12: 第四章 基本统计分析

12

偏度与峰度

分布形态主要是指数据分布是否对称,偏斜程度如何,分布陡缓程度如何。

偏度( Skewness):反映数据分布对称性的统计量。 当数据为对称分布时偏度为零;当数据为正偏态分布(右

偏)时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。

峰度( Kurtosis):以标准正态分布为标准描述该分布密度的形状为陡缓程度的统计量。

当数据为标准正态分布时,峰度为零;数据分布为尖峰分布时峰度大于零;数据分布为平峰分布时峰度小于零。

Page 13: 第四章 基本统计分析

13

标准化 Z 分数问题

标准化 Z 分数问题:通过标准化过程可得到一系列新变量值,通常称为标准化值或 Z 分数。

标准化过程:

标准化变量的作用:可以发现变量中的极大值和极小值,以便发现分布是否均衡的问题。

描述统计分析的结果指标与频数分析过程基本相同,区别在于: Descriptive 只计算几个主要的描述指标,不同时输出频数分布图表。

xZ

x

Z

ii

x xZ

s

Page 14: 第四章 基本统计分析

14

主对话框

对当前变量的数据进行标准化,产生的新变量名为原变量名前加“ Z”,并显示在最后一列。

选择统计量

Page 15: 第四章 基本统计分析

15

Page 16: 第四章 基本统计分析

16

Page 17: 第四章 基本统计分析

重抽样自举法( Bootstrap ,拔靴法)所谓的自举法就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。

设一个样本具有变量 y1 , y2 , y3,…,yn ,用某种方法得到其对总体参数 a 的估计值.则在抽样时,每一轮都要从这 n 个变量中抽取一个容量也是 n 的随机样本,并保证每一变量在每轮每次抽样中的被抽取概率都是 1/n( 相当于经典方法的复置抽样 ) 。

17

Page 18: 第四章 基本统计分析

实现方法:此过程一般可用随机数表或由计算机输出n 个 0 ~ 1 之间的随机数实现。即:先将样本变量编码为 1 , 2 ,⋯, n ;然后取分组距离 1/n 将区间

[0,1] 分成 n 个互斥的分隔: 0~1/n , 1/n~2/n , 2/n~3/n , ... , (n-1)/n ;出现的随机数,凡在 0≤R<1/n 之间的取编码“ 1” 变量,凡在 1/n≤R<2/n

之间的取编码“ 2” 变量,⋯,凡在 (n-1)/n ≤R<1

之间的取编码“ n” 变量,这就称为自举抽样,

18

Page 19: 第四章 基本统计分析

由这 n 个“新”变量组成的样本则称为自举样(bootstrap sample) 。当对原始样本变量重复进行 m轮自举抽样,就得到 m 个容量均为 n 的自举样本。再对每一样本都按照在原始样本中所用的方法求出参数a 的估计值,会得到关于参数的 m 个估计值,这些估计值的方差称为自举方差。重抽样自举法的意义:自举方差是对估计量抽样方差较好近似。

19

Page 20: 第四章 基本统计分析

20

4.3 交叉分组下的频数分析 Crosstabs

统计中常常会探讨变量间的关系,如两变量间是否有关联、进一步研究两变量间是否是因果关联。如性别和大学专业的选择,学习兴趣和学习效果等等。

列联表分析的目的:分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。

两大基本任务:一,产生两维或多维交叉列联表; 二,对两两变量间是否存在一定的相关性进行卡方检验和其它相关性检验。

分析对象:两个或多个定类或定序的变量。

Page 21: 第四章 基本统计分析

21

交叉列联表行列变量间关系的分析

所有观测频数都出现在主对角线上,则两变量存在正相关。

所有观测频数都出现在负对角线上,则两变量存在负相关。

工资收入低 中 高

年龄段

青 400 0 0

中 0 500 0

老 0 0 600

工资收入低 中 高

年龄段

青 0 0 500

中 0 600 0

老 400 0 0

Page 22: 第四章 基本统计分析

在绝大多数情况下,观测频数的分布是分散在列联表的各个单元格中的,此时就不容易直接发现行列变量之间的关系和他们关系的强弱关系。为此,需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行分析。

22

Page 23: 第四章 基本统计分析

23

主对话框行变量

列变量

层变量绘制频数分布柱形图

不输出列联表

指定哪种方法分析行列变量间的关系

指定列联表单元格中的输出内容

指定列联表单元的输出排列顺序

当涉及到两个以上的变量讨论时需要通过层变量来实现

Page 24: 第四章 基本统计分析

24

观测频数期望频数

行百分比列百分比总百分比

非标准化残差

Cells & Format

标准化残差调节的标准化残差

Page 25: 第四章 基本统计分析

25

层变量行变量

列变量

Page 26: 第四章 基本统计分析

注:未标准化残差定义为:观测频数 -期望频数

26

Page 27: 第四章 基本统计分析

27

注意: Crosstabs 过程不能产生一维频数表(单变量频数表),该功能由 Frequencies过程实现。

Page 28: 第四章 基本统计分析

28

卡方检验

卡方检验的作用:可用于探讨列联表行变量和列变量之间是否有关联的推断性分析。若无关联,则认为两变量独立。 H0 :行变量与列变量独立。

卡方检验的统计量( Pearson 卡方统计量):

决策方法:若卡方观测值的概率 p 小于等于 a ,则判定行列变量间存在存在依存关系;反之,如果卡方观测值的概率 p 大于 a ,则判定行列变量间相互独立。这里 a = 0.05 或 0.01 。

0 22

1 1

( ),

er cij ij e

ijei j ij

f f RT CTf

f n

Page 29: 第四章 基本统计分析

29

Page 30: 第四章 基本统计分析

30

1Pearson卡方检验2 连续性校正

3 似然比卡方检验4Fish精确检验

5 线性相关卡方检验

Page 31: 第四章 基本统计分析

卡方检验注意事项

一,列联表的单元格不应太少,例如 2×2 的列联表需要进行连续型修正和采用 Fisher精确检验进行校对。

二,各单元格中的期望频数,不应有期望频数小于1 的单元格,或大量的期望频数小于 5 的单元格。若列联表中有 20%以上的单元格的期望频数小于 5 ,则一般不宜用卡方检验。此时,可以采用合并相邻单元格或采用似然率比卡方检验。

31

Page 32: 第四章 基本统计分析

32

三,总频数 n应较大,一般至少大于 50 ,大于100更好。在小样本是可主要参考连续性校正和Fisher 的精确检验。

四、卡方值的大小会受到样本量的影响,若各个单元格中的样本数均等比例扩大 10倍,于是卡方值也会随之扩大 10倍。但由于自由度和显著水平没有改变,卡方的临界值不变,进而使拒绝零假设的可能性增高。即在样本量很大时,容易得到“两变量有关联”的结论,即便两变量的关联性很微弱时。

Page 33: 第四章 基本统计分析

五、当行列变量都是定序型变量,可以参考线性相关卡方检验,该检验是检验两个定序的行列变量间是否具有线性相关性。

33

Page 34: 第四章 基本统计分析

例:

结论:户籍状况和房屋情况有关联。

34

Page 35: 第四章 基本统计分析

例:

结论:该列联表本身不适合做卡方检验,一定程度上可以参考似然比卡方检验结果。但可以考虑其他相关性检验。

35

Page 36: 第四章 基本统计分析

关联分析

在关联分析中,对于关联指标的选择需要视变量的测量尺度和变量间的对称关系而定,而相关的检验则可以辅助了解两变数间的相关程度是否已经达到统计上的显著性。

关联分析应从相关研究或专业判断来建立理论基础,再辅以统计分析加以验证,不宜从数据分析的结果遂下结论,产生倒果为因的谬误。

36

Page 37: 第四章 基本统计分析

关联分析的四大属性

对称性:自变量会影响因变量而因变量不会影响自变量的情形称为不对称关系,如教育程度和个人收入;两个变量会相互影响或不确定影响方向的情况称为对称关系,如工作满足感和工作绩效。

方向:指变量关联的变动方向,可以分为正负两个方向。只有两变量皆为定序以上时才会讨论关联方向。若有一变量为定类时,则无关联方向,其关联方向一律以正向表示。

37

Page 38: 第四章 基本统计分析

关联强度:关联强度的侧度通常根据用自变量来预测因变量的准确程度来判断,若正确程度高表示两变项间的关联程度高,反之,则低。对于有关联方向的两变数,关联系数的值介于 -1 和 1 之间,关联系数的绝对值越接近 1 ,关联性越强;对于无关联方向的两变量,关联系数的值介于 0 和 1 之间,关联系数的值越接近 1 ,关联性越强。

38

Page 39: 第四章 基本统计分析

关联形态:指变量之间共同变化会呈现何种规则变化的状态,常见的关联形态有直线、抛物线、 U型, J型等。只有两变量皆为定序以上时才会讨论关联形态,一般所讨论的关联形态大多属于直线关联。

39

Page 40: 第四章 基本统计分析

关联量数的种类

一类为以卡方统计量为基础的关联量数:卡方统计量不可以测量关联强度,其他以卡方统计量为基础的关联量数虽然能够表示关系的强弱,但不易解释。

另一类是可反映误差缩减比例( Proportional reduction in error ; PRE )的关联量数: PRE 值指“使用辅助变量能减少的预测错误所占的比例”,即若 E2 和 E1 分别代表有无使用辅助变数时的预测误差,则 PRE= ( E1-E2 ) /E1 。

40

Page 41: 第四章 基本统计分析

因此, PRE介于 0 ~ 1 ,其值越 大表示辅助变数可以减少越多的预测误差,代表两变数间的关联越强。因此, PRE 在解释上比较有意义。实务中,若 PRE的值小于 10% ,则认为变量间关联程度不强。

41

Page 42: 第四章 基本统计分析

度量变量间相关程度的统计量

除上述卡方检验法之外, SPSS还提供了其他度量变量间相关关系的检验方法,帮助人们了解变量间相互依赖的强弱程度,量化交叉分类变量间的关系。

四大类相关分析的检验方法。判断方法 : 系数的绝对值越接近于 1 ,则变量的相关性越强;越接近于0 ,则变量间相互独立。正负号代表相关方向。

变量的测量尺度大致分为:定类、定序、定距。常规上变量类型在使用上只允许降级使用,不许用升级使用。当定序变量的类别数较多时,可以近似将定序视为定距。

42

Page 43: 第四章 基本统计分析

43

卡方检验

1 两定类

2 一定类一定距

3 两定序

医学分析中

常用指标

4 两定距或两定序

Statistics

Page 44: 第四章 基本统计分析

适用于两定类变量的方法

检验的统计量有列联系数、 Phi 系数、 Cramer ’V系数、 Lambda 、不确定系数等。这些方法除Lambda 、不确定系数,其余三个是从 Pearson 卡方统计量派生出来的,试图将样本量、行列数对卡方的影响减少到最小。

Phi 系数是很粗糙的关联指标,一般适用于 2×2 的列联表。

44

Page 45: 第四章 基本统计分析

列联系数适用任意行列数的列联表,但注意到列联系数的最大值会随行列数的增大而增大。因此,在比较两两变量间的相关性时,注意应在行列数均相同的前提下才有可比性。

Cramer ’V 适用于任意行列数的列联表,在 2×2 的列联表中, V 系数和 Phi 系数是相等的。

Lamdba 是一种以众数作为预测基准的关联量数,是属于可以反映误差缩减比例的关联量数。主要用于对称的关系,但也可以用于不对称的关系。其系数介于 0 ~ 1 之间。

45

Page 46: 第四章 基本统计分析

关于 Lambda

若利用血型辅助预测个性: E1=60-30=30

E2= ( 24-20 ) + ( 17-10 ) + ( 9-4 ) + ( 10-5 ) =21

Pre=(E1-E2)/E1=(30-21)/30=0.3

即以血型预测个性会减少 30% 的预测误差。 46

Page 47: 第四章 基本统计分析

例:

结论:两变量的关联性显著但微弱。

47

Page 48: 第四章 基本统计分析

例:

结论:两变量关联关系显著但微弱,且具备一定的对称性。

48

Page 49: 第四章 基本统计分析

注:当自变量与因变量为对称关系时,将两者相互预测的误差数合并计算(即 E1 与 E2皆是 X预测Y 的误差加上 Y预测 X 的误差数)。

例如本例:E1= ( 20+10 ) + ( 18+11 ) =59

E2= ( 10+10+6 ) + ( 11+8+6 ) =51

Pre= ( 59-51 ) /59=0.136

49

Page 50: 第四章 基本统计分析

适用于两定序变量的方法

检验的统计量有 Gamma 系数、 Somers’d 系数Kendall’s Tau-b 系数、 Kendall’s Tau-c 系数等。

这些方法均是围绕“同序对数”和“异序对数”

展开的,它们是变量相关性检验的非参数方法中

的两个重要指标。

50

Page 51: 第四章 基本统计分析

同序对数和异序对数

所谓配对就是将所有观测值两两配成一对,样本总数为 n 的交叉表其配对数总共 T=n(n-1)/2 ,这些配对可以分为同序对 (P) ,异序对 (Q) ,自变量同分对 (Tx) ,因变量同分对 (Ty) ,完全同分对 (Txy) 。

即: T=P+Q+Tx+Ty+Txy

完全同分对:指在某观测值在 X 和 Y 的变量上等级完全相同。

51

Page 52: 第四章 基本统计分析

同序对:指某观测值在 X 变量和 Y 变量的相对等级一样,即某观测值在 X 和 Y上的等级皆比另一个观测值

在 X 和 Y上的等级都大或都小。

异序对:指某观测值在 X 变量和 Y 变量的相对等级不一样,即某观测值在 X上的等级比另一个观测值大(或小),而在 Y 变量上的顶级比另一观测值小(或大)。

52

Page 53: 第四章 基本统计分析

注:如果同序对数占多数,则认为两变量为正相关;如果异序对数较多,则认为两变量为负相关;如果同序对数和异序对数大致相等,则认为两变量无线性关系。

自变量同分对:指某观测值在 X 的等级上相同,在Y 的等级上不同。

因变量同分对:指某观测值在 Y 的等级上相同,在X 的等级上不同。

53

Page 54: 第四章 基本统计分析

五种配对类型的含义:假设有甲、乙、丙、丁、戊五个观测值在 X 和 Y 的变量值如下表 1 ,转换成交叉列联表后得表 2

这里:配对总数 T=10 ,同序对数 P=3 (每一点所有右下方的配对数的和)

54

Page 55: 第四章 基本统计分析

异序对数 Q=3 (每一点和所有左下方的配对数的和)自变量同分对数 Tx=1 (同行的配对数的和)因变量同分对数 Ty=2 (同列的配对数的和)完全同分对数 Txy=1 (同一个格子的频数和)

55

Page 56: 第四章 基本统计分析

关于 Gamma

P=20× ( 15+5+11+21 ) +6× ( 5+21 ) +10× (11+21 ) +15×21=1831

Q=4× ( 10+15+8+11 ) +6× ( 10+8 ) +5× ( 8+11 ) +15×8=499

V= ( P-Q ) / ( P+Q ) =0.572 表示:利用工作态度与服务品质的相对等级相互预测可以减少 57.2% 的预测误差。 56

Page 57: 第四章 基本统计分析

Gamma 系数适用于 2×2 的列联表,适用于分析对称型关系,只能测定直线关联形态,是可以反映误差缩减比例的列联系数。该系数取值在 -1 ~ 1 之间,绝对值越接近 1 ,变量的相关性越大。 SPSS 中用符号 V 表示。

Somers’d 系数适用于分析不对称型关系,可以反映误差缩减比例。该系数取值在 -1 ~ 1 之间,绝对值越接近 1 ,变量的相关性越大。 SPSS 中用符号V 表示。

57

Page 58: 第四章 基本统计分析

Kendall’s Tau-b 系数适用于 n×n 的列联表。该系数取值在 -1 ~ 1 之间,正负号代表相关方向,绝对值越接近 1 ,变量的相关性越强。

Kendall’s Tau-c 系数适用于任意列联表,该系数取值在 -1 ~ 1 之间,正负号代表相关方向,绝对值越接近1 ,变量的相关性越强。

Kendall’s Tau-b 和 Kendall’s Tau-c 都适用于对称型关系,其原理类似 Gamma ,但无法反映误差缩减

比例,只能判断关联方向及粗略的关联强度,应用 上不如 Gamma 和 Somers’d 。

58

Page 59: 第四章 基本统计分析

例:

结论:两变量的关联关系显著,两变量的关联方向为正方向,关联强度为中等,且利用工作态度与服务品质的相对等级相互预测可以减少 57.2% 的预测误差。

59

Page 60: 第四章 基本统计分析

例:

60

Page 61: 第四章 基本统计分析

适用于两定距或两定序变量的方法

检验的统计量有 Pearson 相关系数(参数方法)和Spearson 相关系数(非参数方法)。他们的取值在 -1 ~ 1 之间,绝对值越大,相关性越强,且是表明线性相关性越强。

由于列联表分析中,定距型变量通常不作为行列变量,因此在交叉列联表的分析一般是针对变量值较多的定序变量使用。

关于两定距变量的相关性分析在相关分析的模块中可以实现。

61

Page 62: 第四章 基本统计分析

例:

结论:两变量的关联显著,且关联程度较强,关联方向为正方向。

62

Page 63: 第四章 基本统计分析

适用于一定类变量、一定距变量的方法

其相关性检验方法是 Eta 系数(相关比)。该方法的核心思想类似于单因素方差分析。它将定类变量作为“控制变量”( Independent ,解释变量),将定距变量当作观测变量( Dependent ,被解释变量)。然后分析观测变量的变差中有多少比例是可以由控制变量解释的。

Eta 系数的取值在 0 ~ 1 之间,越接近 1 ,表示两变量的相关性越强。由此可知, Eta 是属于 PRE类的关联量数,基本上用于不对称的关系,但对称关系也可以使用。

63

Page 64: 第四章 基本统计分析

Eta 相关比也可以用来测量两个连续变量之间的非直线关系。其做法是将其中的一个变量转换成类别变量,再用 Eta来测量关联情形,若 Eta 值与相关系数之绝对值相差越大,显示两变量之间的关系越是非直线关系。

64

Page 65: 第四章 基本统计分析

例:

结论:两变量无显著关联性。

65

Page 66: 第四章 基本统计分析

66

4.4 多选项分析

多选项分析主要是针对问卷调查的多选项问题的。本节主要讨论多选项问题结果的保存 ( 多选项问题的分解 ) ,以及多选项问题的频数分析。

多选项问题分解的两种办法:第一,多选项二分法;第二,多选项分类法。

频数分析的两步骤:第一,定义多选项变量集;第二,作多选项频数分析或交叉分组下的频数分析。

Page 67: 第四章 基本统计分析

67

Define Sets

指定变量集中的变量是按哪种方法分解的

为变量集命名

表示选中的数值

Page 68: 第四章 基本统计分析

68

Frequencies

注意: Spss规定只要样本在多选项变量集中的某一个变量上取缺失值,分析时就将该样本剔出。

Page 69: 第四章 基本统计分析

69279×3 =837

Page 70: 第四章 基本统计分析

70

Crosstabs

行变量

列变量

定义变量的取值范围

Page 71: 第四章 基本统计分析

71

分母为样本数

分母为多选项应答数

Page 72: 第四章 基本统计分析

72

4.5 比率分析 Ratio

比率分析用于对两变量间变量值比率变化的描述分析,适用于定距变量。当研究者特别关心该比率在不同组间的变动情况时,该过程非常有用。

描述分析基本包括两大类:一类是集中趋势的描述指标,另一类是离散程度描述指标。

Page 73: 第四章 基本统计分析

73

相对比分母的变量

分组变量

要求在结果窗口中输出分析结果

要求将分析结果存为外部数据

将数据按照分组变量值排序

相对比分子的变量

Page 74: 第四章 基本统计分析

74

中位数均数

加权均数区间估计

平均绝对离差离散系数相关价格微分

基于中位数的变异系数基于均数的变异系数

用于描述相比值落入某一区间所占的比例

自定义具体区间的上、下界 自定义距离中位数的百分比

Page 75: 第四章 基本统计分析

集中趋势的描述

75

加权均数的算法为组内分子的均数除以分母的均数

Page 76: 第四章 基本统计分析

离散程度的描述

平均数绝对值偏差:基于中位数的平均绝对离差 价格相关微分 =比率均值 /加权比率均值 离散系数 = 基于均值的平均绝对离差 / 中位数 方差系数 = 标准差 / 均值

76

Page 77: 第四章 基本统计分析

注:集中系数的最后两列的意思是落在某个闭区间的范围内的个数百分比

[(1-x%)× 中位数, (1+x%)× 中位数 ], 例如x=20 , 40

77

Page 78: 第四章 基本统计分析

4.6 探索性分析 Explore

数据探索的必要性: 如果研究的目的并不在于做因果的推断,则不必做验证式的数据分析,但是有必要对数据做一番探索。

如果研究的目的在于做因果性的推断,那么在选择适当的方法之前,要对数据做剖析以及探索。

78

Page 79: 第四章 基本统计分析

探索式数据分析:是对数据的频率、分布、趋势、形态等做描述。

验证式数据分析:是利用检验方法,对所建立的研究假设进行检验,看看是否应该拒绝这些假设。

二者区别与联系: 有人将探索式数据分析比喻成“警察、侦探”,将验证式数据分析比喻成“法官、司法制度”。前者在寻找线索及证据,后者是在评估、验证所收集的线索及证据。

79

Page 80: 第四章 基本统计分析

探索式数据分析是数据分析的第一步,验证式数据分析是数据分析的第二步,如果没有证据,验证式数据分析就没有评估对象。

80

Page 81: 第四章 基本统计分析

探索分析的任务

对变量做描述性统计:集中趋势的测量、离散程度的测量、分布形态的测量。

用统计图来展示数据的分布:直方图、箱式图、茎叶图。

正态性检验、方差齐性检验。 检查数据的错误,辨认异常值。

81

Page 82: 第四章 基本统计分析

描述性统计量

“探索”过程可以计算分组或不分组的描述统计量

82

分析变量

分组变量

Page 83: 第四章 基本统计分析

83

描述性统计量

M- 估计量异常值

分位点数

Page 84: 第四章 基本统计分析

注:常规的描述性统计量这里都有。解决了变量的集中趋势、离散程度、形状等问题。

注:由此表可以看出城乡居民存取款金额的差别。84

Page 85: 第四章 基本统计分析

注: M 估计的 4 种不同权重下的关于均值的最大似然估计值, 4 种估计值有一定的差距,与上表中的均值估计值差距较大。但是对于偏态分布的数据,最大似然的估计量比样本均值有更好的稳定性,可以参考。

85

Page 86: 第四章 基本统计分析

注:发现存取款金额中的异常值。某些分析需要先对异常值进行处理。

86

Page 87: 第四章 基本统计分析

统计图:一图胜千文

87

箱式图 茎叶图直方图

正态性检验及图示

方差齐性检验

Page 88: 第四章 基本统计分析

箱式图

箱式图:用于多组数据平均水平和变异程度的直观比较。

88

Page 89: 第四章 基本统计分析

注:由此可见,在上、下四分位差的范围内城镇户口的变异程度大于农村户口。城镇户口比农村户口有更多的异常值,和极端异常值。

89

Page 90: 第四章 基本统计分析

茎叶图

茎叶图:又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以看清楚每个主干后面的几个数,每个数具体是多少。

茎叶图的优点:数据的所有信息都可以展现在茎叶图上。

缺点:分析比较粗略,对差异不大的两组数据不易分析,表示三位数以上的数据时不够方便。

90

Page 91: 第四章 基本统计分析

由此可以看出该组数据的中位数是 36 ,众数是 31和 36 ,且数值大多落在 20 ~ 40 的范围内,数据分布比较对称、比较集中。

91

Page 92: 第四章 基本统计分析

注:如果某一个茎上的叶子特别多,会考虑多设几个相同的茎。

注:通过上图可以看出两组数据有一定的右偏。92

Page 93: 第四章 基本统计分析

直方图

注:软件自动做组距分组,并给出组距数据的频数分布的直方图。从直方图可以明显看出城镇户口的变异程度小于农村户口。

93

Page 94: 第四章 基本统计分析

方差齐性检验

注:该检验的原假设是两总体的方差相等。该检验的目的是为了判定两总体的方差是否相等。这个条件是一些检验的前提条件。

注:由表知,各种检验的统计量认为两总体的方差无显著差异。

94

Page 95: 第四章 基本统计分析

正态性检验及图示

注:提供了两个正态性检验的,包括 Kolmogorov –Smirnov 检验和 Shapiro-Wilk 检验。当样本值小于2000 ,最好参考后者。

注:检验表明存取款金额在不同组中均可以认为服从正态分布。

95

Page 96: 第四章 基本统计分析

正态分布的 Q-Q 图

正态分布的 Q-Q 图是一种散点图,该图的纵坐标是标准正态分布的分位数,横坐标是样本形成的分位数。要利用该图鉴别样本数据是否近似于正态分布,只需要看图上的点是否近似的在一条直线附近。

96

Page 97: 第四章 基本统计分析

97

Page 98: 第四章 基本统计分析

注:看图仍显得比较粗糙。

98

Page 99: 第四章 基本统计分析

正态分布的趋降标准 Q-Q 图

正态分布的趋降标准 Q-Q 图反映的是正态分布的理论值与实际观测值之差的散点图。若数据较均匀的分布在直线 Y=0上、下,则说明原数据的分布呈正态分布。同时,通过该图可以更细致、更精确的观察原数据是否具备异常值点。

99

Page 100: 第四章 基本统计分析

100

Page 101: 第四章 基本统计分析

Q-Q Plots

SPSS 中在描述统计的菜单中有专门处理 Q-Q 图的模块。这里的 Q-Q 图不仅可以鉴别数据是否服从正态分布,还可以鉴别数据是否服从其他常见分布,如指数分布,同时这里还可以对数据进行某种变换后再判断数据是否服从某种分布。但是,鉴别的原理与正态 Q-Q 图是一致的。

101

Page 102: 第四章 基本统计分析

102

Page 103: 第四章 基本统计分析

P-P Plots

P-P 图是以样本的累积概率为横轴,以指定理论分布累积概率为纵轴描绘的散点图。如果待检验样本来自理论分布,则所有的点分布在一条直线附近。

P-P 图的作用是用于检验样本是否来自某个指定的理论分布总体。

如果 P-P 图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。

P-P 图和 Q-Q 图的作用完全相同,只是检验方法存在差异。

103

Page 104: 第四章 基本统计分析

104

Page 105: 第四章 基本统计分析

选项设定

注:第三个选项表示“缺失值作为一个组别输出”。

105