第 1 章 数据的描述性分析

36
第1第 第第第第第第第第 1.1 第第第第第第第 第第第第第第第第第第第第 第第第第 第第第第 ,一 第第第第第第第第第第 第第第第第第第第第第 第第第第第 第第第第第第第第 ,、、 第第第第 第第第第第第第 第第第第第第第第第第第第第第第 。, . 1.1.1 第第 第第第第第第第 1. 第第 2. 第第 第第第 第第第第 n n x x x , , , 2 1 n i i x n x 1 1 n i i x x n S 1 2 2 ) ( 1 1 2 S S (%) 100 x S CV

Upload: octavius-buchanan

Post on 03-Jan-2016

122 views

Category:

Documents


4 download

DESCRIPTION

第 1 章 数据的描述性分析. 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1. 均值 2. 方差 标准差 变异系数. 阶原点矩 阶中心矩 偏度 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 1 章  数据的描述性分析

第 1 章 数据的描述性分析1.1 数据的数字特征

数据分析研究的对象是数据,一元数据是 个观测值

要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 .

1.1.1 均值、方差等数字特征 1. 均值

2. 方差 标准差 变异系数

n

nxxx ,,, 21

n

iixn

x1

1

n

ii xx

nS

1

22 )(1

1

2SS

(%)100x

SCV

Page 2: 第 1 章  数据的描述性分析

3. 阶原点矩

阶中心矩

偏度

偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为 0.

峰度

当总体分布为正态时,峰度近似为 0 ;当分布较正态分布的尾部更分散,峰度为 正,否则峰度为负 .

k

k

n

i

kik x

nv

1

1

n

i

kik xx

nu

1

)(1

33

2

1

331 )2)(1(

)()2)(1( Snn

unxx

Snn

ng

n

ii

)3)(2(

)1(3)(

)3)(2)(1(

)1( 2

1

442

nn

nxx

Snnn

nng

n

ii

)3)(2(

)1(3

)3)(2)(1(

)1( 2

44

2

nn

n

Snnn

unn

Page 3: 第 1 章  数据的描述性分析

当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征 . 与样本数字特征对应的是总体的数字特征 . 样本数字特征是相应的总体数字特征的矩估计 .

例 1.2 某单位对 100 名女学生测定血清总蛋白含量 (g/L), 数据如下:

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0

70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3

73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7

67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7

75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3

73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

Page 4: 第 1 章  数据的描述性分析

计算均值、方差、标准差、变异系数、偏度、峰度解 用 SAS 系统 PROC UNIVARRIATE 过程计算,得

偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本 .

1.1.2 中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据 . 设

是 个观测值,将它们按由小到大排为:

称为次序统计量 . 最小次序统计量 与最大次序统计量 分别为

940.3524.15660.73 2 SSx

034.0061.0349.5 21 ggCV

,, 21 xx

nnx, )()2()1( ,,, nxxx

)1(x )(nx

ii

nii

xxxx maxmin )()1(

Page 5: 第 1 章  数据的描述性分析

1. 中位数与极差

中位数

中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小 .

极差

2. 分位数 对 , 分位数

其中 是 的整数部分,当 定义 .

分位数又称第 100 百分数 . 大体上有 100 % 的观测值不超过 分位数 .

即中位数 .

为偶数

为奇数

nxx

nx

Mnn

n

)(2

1)1

2()

2(

)2

1(

)1()( xxR n

10 p p

为整数

为分位数

npxx

nxM

npnp

np

p )(2

1)1()(

)1]([

][np np 1p )(1 nxM

p p pp

5.0M

Page 6: 第 1 章  数据的描述性分析

上四分位数

下四分位数

下列分位数经常用到:

四分位极差

四分位标准差 总体标准差 的稳健估计

三均值

描述数据集中位置的稳健估计

下截断点 小于下截断点的数据为特小值

上截断点 大于上截断点的数据为特大值

特小值、特大值合称异常值 .

用 PROC UNIVARIATE 过程计算分位数、四分位极差;用

PROC IML 过程计算三均值、四分位标准差,下、上截断点 .

75.03 MQ

25.01 MQ

01.005.010.090.095.099.099.0 ,,,,,, MMMMMMM

131 QQR

349.1ˆ 1R

31 4

1

2

1

4

1ˆ QMQM

11 5.1 RQ

13 5.1 RQ

Page 7: 第 1 章  数据的描述性分析

例 1.8 (续例 1.2 )

用 PROC UNIVARIATE 过程, PROC IML 过程计算得到:

下、上截断点分别为 64.3 和 82.7 ,故数据 84.3 是异常值(特大值) .

将异常值 84.3 剔除,在进行计算分析,得

可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为 3.940 ,现为 3.810 说明 对异常值无稳健性 .

95.82,2.71,8.75,5.73 99.013 MQQM

3.674.68,15.79,5.80 05.010.090.095.0 MMMM

,41.3ˆ,6.4,20,65.64 101.0 RRM

4.73ˆ M

810.3,55.73 Sx8.75,5.73 3 QM

6.4,2.71 11 RQ

Mx、 13 QQM 、、 1RS S

Page 8: 第 1 章  数据的描述性分析

1.2 数据的分布 对数据的总体情况作全面描述要研究数据的分布。

1.2.1 直方图、经验分布函数与 QQ 图1. 直方图

数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率 / 组距,每一矩形的面积是数据落入区间的频率 .SAS 系统根据样本容量和样本取值范围自动确定合适的分组方式 .PROC CAPABILITY 过程可以做出直方图 .

直方图可以对总体概率密度 的估计,这就是拟合分布曲线 .SAS 系统用 PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线 .

)(xf

Page 9: 第 1 章  数据的描述性分析

SAS 系统中分布类型:

1 )正态分布;

2 ) 对数正态分布;

3 )指数分布;

4 ) 分布( Gamma 分布);

5 ) Weibull 分布;

6 ) Bata 分布 .

2. 经验分布函数

设来自总体分布 的样本是 ,其次序统计量是 . 经验分布函数是

是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ) . 是充分大时, .

)(xF nxxx ,,, 21 )()2()1( ,,, nxxx

)(

)1()1(

)1(

111,,/

;0)(

n

in

xxnixxxni

xxxF

)(xFn)()( xFxF n

)(ix )(ixn

1 k

n

k n

Page 10: 第 1 章  数据的描述性分析

3. QQ 图

设总体分布为正态分布 ,标准正态分布函数

,其反函数 .QQ 图是由以下的点构成的散点图:

若样本数据近似于正态分布,在 QQ 图上这些点近似地在直线

附近 .

例 1.10 (续例 1.2 ) 利用例 1.2 的数据

( 1 )作直方图,并拟合正态分布曲线;

( 2 )做经验分布函数图,并拟合正态分布函数曲线;

( 3 )作正态 QQ 图,并在直观上鉴别样本数据来自正态总体 .

解 利用 PROC CAPABILITY 过程可解决上述问题 .

nixn

ii

1),,25.0

375.0(( )(

1

),( 2N

)(x )(1 x

xy

Page 11: 第 1 章  数据的描述性分析

直方图

Page 12: 第 1 章  数据的描述性分析

经验分布函数图

Page 13: 第 1 章  数据的描述性分析

QQ 图

Page 14: 第 1 章  数据的描述性分析

1.2.2 茎叶图、箱线图及五数总括1. 茎叶图 例 1.11 某班有 31 个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84

84 84 85 86 86 86 87 89 89 89 90 91 91 92 100

作出茎叶图 .

解 第一个数 25十位数为 2 ,个位数为 5. 以个位数为单位,将 25 用“|”分开: 25 → 2 | 5. 这样,得茎叶图 .

频数 2 | 5 1 3 | 4 | 5 1 5 | 0 4 5 3 6 | 1 4 8 3 7 | 2 5 5 8 9 5 8 | 1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 | 0 1 1 2 4 10| 0 1

Page 15: 第 1 章  数据的描述性分析

特点:

1 )直观看出数据分布情况,绝大部分数据在 70~ 95之间,在 80~ 89之间形成一个高峰,数据没有 30余分,数据有间隙 .

2 )自然显出数据排序 . 可看出原数据次序统计量 .

例 1.12 铅压铸件硬度数据如下:

53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3

69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4

69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5

作出茎叶图 .

解 利用 PROC UNIVARIATE 过程,可作茎叶图 . 为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取 0 , 1 , 2 , 3 , 4 ,另一行取 5 ,6 , 7 , 8 , 9. 计算结果数据从大到小排列 .

Page 16: 第 1 章  数据的描述性分析

频数 9 | 5 1 9 | 8 | 6 8 2 8 | 2 3 4 3 7 | 8 8 2 7 | 0 0 0 1 2 3 4 7 6 | 7 9 2 6 | 0 4 4 3 5 | 5 6 6 3 5 | 1 1 2 3 3 4 4 7

2. 箱线图

画一个矩形,两个端边分别是 ,中间两道线,处于

位置 .两端向外各画一道直线,分别到上截断点 ,下截断点 . 异常值用“ ×”号表示 .

31,QQ Mx,

13 5.1 RQ

11 5.1 RQ

Page 17: 第 1 章  数据的描述性分析

例 1.15 作例 1.11 的箱线图 .

下、上截断点: 36.5 , 120.5. 异常值 25.

3.五数总括

2171.76,84,68,89 113 RxMQQ

MaxMin

QQ

M

31

10025

8968

84

31

MaxMin

QQ

M

Page 18: 第 1 章  数据的描述性分析

1.2.3 正态性检验与分布拟合检验

检验的 值方法 设检验问题的显著水平为 .检验统计量为 . 当假设 成立时,有样本算得的检验统计量的值为 .

设 (双侧检验),则当 , 拒

绝 ;当 ,接受 .

1. 检验法

——样本容量 ——分组数

——落入第 i 组频数, ——落入第 组理论频数

——待估参数数 充分大

p T 0H

0T

|}||{| 0TTPp p

0H p0H

2

l

i i

iil

i i

ii

E

EO

np

npm

1

2

1

22 )()(

n

)1(~ 22 kl

l

ii mO ii npE

k n

i

Page 19: 第 1 章  数据的描述性分析

假设检验问题

不是

其中 为指定的总体分布

值方法:

则对给定的显著水平 ,当 ,拒绝 ,当 ,接受

2. Kolmogorov-Smirnov检验法

假设检验问题仍如上, — 经验分布函数

设由样本 算得的 值为 ,又

则对给定显著水平 , 当 , 拒绝 , 当 , 接受 .

用 PROC CAPABILITY 过程可进行 检验与 Kolmogorov-Smirnov检验 .

)(:)()(: 100 xFHxFxFH

)(0 xFp }{ 2

02 Pp

p 0H p 0H

)(xFn

|)()(|sup 0 xFxFD nx

nxxx ,, 21 D 0D

0DDPp p

0H 0Hp2

)(0 xF

Page 20: 第 1 章  数据的描述性分析

3. 正态性 W检验方法

设样本观测值为 ,其次续统计量为

当 n偶, 当 n奇 ,

( 系数)

:总体为正态分布 总体非正态分布

总有 , 成立时, W 值接近于 1.

当 ;拒绝 ;当 ,接受 .

用 PROC UNIVARIATE 过程可得 W 值与 p 值,从而完成正态性 W检验 .

2

1)()2()1( )(,,,, xxCSSxxx i

n

in

nxxx ,,, 21

21

nki

2

11

n

ki

CSS

bWdab ii

k

i

2

1

,

ia

0H 1H

10 W 0H

0WWPp

p0H0H p

Page 21: 第 1 章  数据的描述性分析

例 1.19 (续例 1.2 ) 对例 1.2 数据,作

( 1 ) 正态性 W检验;

( 2 ) 关于正态分布假设的 检验;

( 3 ) 关于正态分布假设的 Kolmogorov-Smirnov检验

解 ( 1 ) 由 PROC UNIVARIATE 过程,算得

W=0.9827 p=p{W≤0.9827}=0.6709

取 ,因 p=0.5382 > ,接受正态性假设 .

( 2 )由 PROC UNIVARIATE 过程,算得

=4.0784 p=P{ ≥0.4784}=0.5382

取 ,因 p=0.5328> ,接受正态性假设 .

( 3 )由 PROC UNIVARIATE 过程,算得

D=0.0655 , p= {D≥0.0655}=0.15

取 ,因 p=0.15> ,接受正态性假设

05.0 05.0

2

05.0

05.0

05.0

05.0

2

2

Page 22: 第 1 章  数据的描述性分析

1.3 多元数据的数字特征与相关分析1.3.1 二元数据的数字特征及相关系数 ——二元总体,观测数据

观测矩阵 ——均值向量

的协方差 的协方差 的协方差 ——协方差矩阵

相关系数

T),( YX,),(,),(,),( TT

22T

11 nn yxyxyx

n

n

y

x

yy

xxX

21

21i

n

ii

n

i

yn

yxn

x

11

11

y

xyx T),(

2

1

2

1

)(1

1)(

1

1yy

nSxx

nS i

n

iyyi

n

ixx

))((1

111

1

yyxxn

Sn

ixy

yyyx

xyxx

SS

SSS

XSxx — YS yy — YXSxy ,—

)( xyyx SS

1, rSS

Sr

yyxx

xy

Page 23: 第 1 章  数据的描述性分析

① , 正相关 ② , 负相关

③ ,完全线性相关 ④ , 不相关

二元总体 分布函数 协方差

总体相关系数 当 大,

假设检验 成立时, ~

值, 设显著水平

当 ,拒绝 ; 接受

上述定义的相关系数成为 Pearson 相关系数

设 ,则其次序统计量 ,

若 ,则称是 在样本中的秩,记为 .秩统计量 .

10 xyr 01 xyr

0xyr1xyrT),( YX ),( yxF ),( yxCov

xy

xy

r

nrt

1

2

0:0: 10 xyxy HH

)2( nt0H

)var()var(

),(

YX

YXCovxy

xyxy rn

0H 0H

0ttPp p

p p

)()2()1( ,,, nxxx nxxx ,,, 21

)(ki xx

nRRR ,,2,1

iRix

Page 24: 第 1 章  数据的描述性分析

例 -0.8 -3.1 1.1 -5.2 4.2

次序统计量 -5.2 -3.1 -0.8 1.1 4.2

秩统计量 3 2 4 1 5 例 -0.8 -3.1 0.8秩统计量 2 1 3 或 3 1 2对相同观测值 取值为秩平均值: 2.5 1 2.5 样本, 秩统计量 秩统计量 Spearman 相关系数定义为两组秩统计量的相关系数,记为 ,可证

TT22

T11 ),(,,),(,),( nn yxyxyx T),( YX

nxxx ,, 21 nRRR ,, 21

nyyy ,, 21 nSSS ,, 21

niSRddnn

q iiii

n

ixy ,,2,1,,

)1(

61 2

12

xyq

Page 25: 第 1 章  数据的描述性分析

例 1.21 某种矿石成分 A,B , A 的含量百分数 x ( % ),B 的含量百分数 y ( % ):

( 1 )计算 Pearson 相关系数,作假设检验

( 2 )计算 Spearman 相关系数,作上述检验

解 由 PROC CORR 过程,得

( 1 ) , 值为 ,取

拒绝 ,认为 有实际意义

(2) 取

拒绝 ,认为 有实际意义

x 67 54 72 64 39 22 58 43 46 34

y 24 15 23 19 16 11 20 16 17 13

0:0: 10 xyxy HH

3920.0xyr 2000.0p p01.0p

0H xyr

p01.0

0H

4000.0,90.0 pqxy

xyq

Page 26: 第 1 章  数据的描述性分析

1.3.2 多元数据数字特征及相关矩阵 是 元总体,样本数据

第 i 个观测数据 ,称样品观测矩阵

第 i 行构成的量

1 ) 第 行 的均值 2 ) 第 行 的方差

T21

T22221

T11211 ),,(,,),,(,),,( npnnpp xxxxxxxxx

T21 ),,,( PXXX P

nnppp

n

n

xxx

xxx

xxx

xxxX ,,, 21

21

22212

12111

nixxx ipiii ,,2,1,),,,( T21 x

pjxxxx njjji ,,2,1,),,,( T21)(

T)(

T)2(

T)1(

Px

x

x

X

i T)( jx

i

pjxn

x ij

n

ij ,,2,1,

1

1

pjxxn

S jij

n

ij ,,2,1,)(

1

1 2

1

2

T)( jx

Page 27: 第 1 章  数据的描述性分析

的 Spearman 相关系数 ,

Spearman 相关矩阵

Spearman 相关矩阵具有稳健性

数据观测矩阵 数据的标准化处理

样品 ,变量观测数据

的协方差阵即 的相关阵 .

)()( , kj xxjkq

kjjk

pp

p

p

qq

qq

qq

qq

1

1

1

21

221

112

Q

X

pjmis

xxx

j

jijij ,,2,1;,2,1,

nppp

n

n

xxx

xxx

xxx

21

22212

12111

X

nxxx ,, 21

)()2()1( ,, pxxx

T)(

T)2(

T)1(

21 ),,(

p

n

x

x

x

xxxX

X X

Page 28: 第 1 章  数据的描述性分析

( 3 ) 的协方差

均值向量

协方差矩阵

( 4 ) 的相关系数

相关矩阵 非负定矩阵

刻画变量之间线性联系的密切程度 .

pjSS

pkjxxxxn

S

jjj

kikjij

n

ijR

,,2,1,

,,2,1,),)((1

1

2

1

)()( ji x、x

kjjk

pppp

p

p

SS

SSS

SSS

SSS

21

22221

11211

S

T21 )( pxxx x

)()( kj x、x

kjjkjjjkkj

jkjk rrrrpkj

SS

Sr ,1,1,,2,1,,

1

1

1

21

221

112

pp

p

p

rr

rr

rr

RR

R

Page 29: 第 1 章  数据的描述性分析

1.3.3 总体的数字特征及相关矩阵 元总体 .

总体分布函数 总体概率密度 总体均值向量 总体 的协方差矩阵

设 的相关系数为 总体 的相关矩阵

T21 ),,,( PXXX X p

),()( ,2,1 pxxxFF x

),()( ,2,1 pxxXff x

piXE ii ,,2,1)( T

21 ),,,( PMMM

X

pxpjk

pppp

p

p

XCovXXE )()())((

21

22221

11211

T

kj XX ,

)(),( 2jjjjkjjk XVarXXCov

X

pxpjk

pp

p

p

)(

1

1

1

21

221

112

jk

Page 30: 第 1 章  数据的描述性分析

1 )

特别

2 )

特别

分别是 的相合估计,当 充分大时,

简单随机样本

① 与总体 有相同分布;

② 是相互独立的 元随机向量 .

T21

T21 ),,,(,),,,( qP YYYXXX YX

TT)()(

)()(

AAAXACovAXCov

AXAEAXEprA

ccXcVar

cXEcXcEcccc p

TT

TTTT21

)(

)()(,),,,(

T)()(),( YEYXEXEYXCovqsB

dYXCovcYdXcCov

ddddcccc qp

),(),(

),,,(,),,,(TTT

T21

T21

RSx 、、 ρμ 、、

RρSxμ

n

nxxx ,,, 21

p

X

nxxx ,,, 21

Page 31: 第 1 章  数据的描述性分析

的无偏估计分别是 :

对于随机向量 , 总有

故,

可证(自证) 故

从而

是 的相合估计:

S、xμ、 Sx EE

μμxxx

nn

Enn

EE i

n

ii

n

i

1)(

11

11

TT

1

T

1

xxxxxxxx nU ii

n

iii

n

i

zz ZCovZEZ )(,)(, μ TTzzzZZE μμ

TTTT , μμxxxμμxx CovEE zzzii

n

Cov1

x TT 1μμxx

nE

)1(1

)( TT nn

nnUE μμμμ

)(SE

x

01

limlim n

Covnn

x

Page 32: 第 1 章  数据的描述性分析

元正态分布

其中

性质:

1) 元常向量

2) 划分

作相应划分

3 ) 相互独立

p )( μ,pN

)()(2

1exp

2

1

),,,(~,,,

1T

2

1

2

21T

21

μμ

XXXX

xx

xxxf

p

pP

)(),( XX CovEM

pbbN p :),,(~ AXYμX lArankA pl )(,

),6(~ TAAAμY lN

pppp

p

21

2

1

)2(

)1(

,X

XX)(~ μ,X PN

2

22221

1211

2)2(

)1(

1

1

1

ppp

p

p

p

μ

μμ,

),(~),,(~ 12)2(

2)2(

11)1(

1)1( μXμX pp NN

)2()1(

2

1

)2(

)1(

, XXX

XX

p

p

012

Page 33: 第 1 章  数据的描述性分析

的最大似然估计 设 是来自正态总体 的简单随机样本,其联合概率密度 .

称似然函数,它是 的函数,若

满足 ,则 称 的最大似然估计 定理:

各为 的最大似然估计 (证略) . 注: 的最大似然估计为 . 大时, 因 是 的无偏估计,仍以 作为 的估计 .

μ,nxxx ,,, 21 ),( pN

)()(2

1exp)2()( 1T

1

22 μxμxμ, ii

n

i

nnp

L

),,,(ˆˆ),,,(ˆˆ 2121 nn xxxxxx )(max)ˆˆ(

μ,,μ

μ,LL

T1

ˆ

xxxx

ii

n

in

Sn

n 1ˆ Sn

S

nxxx ,,, 21

μ, μ,

S

μ,

Page 34: 第 1 章  数据的描述性分析

例 1.23 对某少数民族的 21 位同袍测量血液中四种成份,的含量,结果如下:

求 的无偏估计 .

解 由 PROC CORR

过程,计算得到

x1 x2 x3 x4

1 18.8 28.1 5.1 35.1

2 17.4 25.6 4.9 33.9

3 16 27.4 5 32.2

4 19.3 29.5 1.7 29.1

5 17.4 27.4 4.5 35.6

6 15.3 25.3 3.6 32.3

7 16.7 25.8 4.4 33

8 17.4 26.7 4.4 33

9 16.2 25.7 2.3 33.9

10 16.7 26.7 6.4 35

11 18.2 28 3.2 29.7

12 16.7 26.7 2.1 34.9

13 18.1 26.7 4.3 31.5

14 16.7 26 3 32.7

15 18.1 30.2 7 34.9

16 20.2 30.5 4.8 34.4

17 20.2 29.5 5.5 36.2

18 21.5 31.5 5.8 36.5

19 18.8 30.6 5.4 35.4

20 21.6 27.8 4.8 34.1

21 21.3 29.5 5.8 35.8

μ,

3032.47729.13289.17265.1

7729.19961.17140.10918.0

3289.17140.13559.32707.2

7265.10918.02707.26508.3

77.33,48.4,87.27,27.18 T

S

x

Page 35: 第 1 章  数据的描述性分析

例 1.24 (续例 1.23 ) 对例 1.23 数据,计算中位数向量 相关矩阵及 Spearman 相关矩阵并进行分析 .

解 由 PROC CORR 过程,算得

及对应 p 值如下:

若取,

其 值 ,认为 与 , 与 , 与 相关,其相关系数无明显统计意义 .

TM )10.34,80.4,40.27,10.18(

M

Q

R

1.000 00

0.0

0.766 06

0.000 1

0.349 88

0.120 0

0.336 49

0.135 8

0.7660 6

0.000 1

1.000 00

0.0

0.431 65

0.050 7

0.340 33

0.1312

0.349 88

0.1200

0.431 65

0.050 7

1.000 00

0.0

0.614 96

0.003 0

0.336 49

0.135 8

0.340 33

0.131 2

0.614 96

0.003 0

1.000 00

0.0

1X 2X 3X 4X

1X

2X

3X

4X

2131.0,8135.0,0120.0,10.0 241413 ppp

10.0p1X 1X3X 4X4X 2X

Page 36: 第 1 章  数据的描述性分析

Spearman 相关矩阵 及对应 值

取 , 的元素 对应 值皆小于 ,故认为 具有统计意义 .

Q p

1.000 00

0.0

0.789 70

0.000 1

0.37844

0.090 7

0.430 54

0.051 4

0.789 70 0.000 1

1.000 00

0.0

0.508 50

0.018 6

0.488 41

0.024 7

0.378 44

0.090 7

0.508 50

0.018 6

1.000 00

0.0

0.691 83

0.0005

0.430 54

0.0514

0.488 41

0.024 7

0.691 83

0.000 5

1.000 00

0.0

1X

1X

2X

2X

3X

3X

4X

4X

Q

Qpjkq10.0 10.0