第 1 章数据的描述性分析

第 1 章数据的描述性分析1.1 数据的数字特征

数据分析研究的对象是数据，一元数据是个观测值

要研究数据的数字特征，分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据，要分析数据各个分量的相关性等等 .

1.1.1 均值、方差等数字特征 1. 均值

2. 方差标准差变异系数

n

nxxx ,,, 21

n

iixn

x1

1

n

ii xx

nS

1

22 )(1

1

2SS

(%)100x

SCV

3. 阶原点矩

阶中心矩

偏度

偏度是刻画数据对称性的指标，右侧更分散的数据偏度为正，左侧更分散的数据偏度为负，关于均值对称的数据偏度为 0.

峰度

当总体分布为正态时，峰度近似为 0 ；当分布较正态分布的尾部更分散，峰度为正，否则峰度为负 .

k

k

n

i

kik x

nv

1

1

n

i

kik xx

nu

1

)(1

33

2

1

331 )2)(1(

)()2)(1( Snn

unxx

Snn

ng

n

ii

)3)(2(

)1(3)(

)3)(2)(1(

)1( 2

1

442

nn

nxx

Snnn

nng

n

ii

)3)(2(

)1(3

)3)(2)(1(

)1( 2

44

2

nn

n

Snnn

unn

当数据是某些总体随机取出的样本时，数据数字特征即是样本的数字特征 . 与样本数字特征对应的是总体的数字特征 . 样本数字特征是相应的总体数字特征的矩估计 .

例 1.2 某单位对 100 名女学生测定血清总蛋白含量 (g/L), 数据如下：

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0

70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3

73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7

67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7

75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3

73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

计算均值、方差、标准差、变异系数、偏度、峰度解用 SAS 系统 PROC UNIVARRIATE 过程计算，得

偏度、峰度的绝对值皆较小，可以认为数据是来自正态总体的样本 .

1.1.2 中位数、分位数、三均值与极差这些数字特征适合总体分布未知或有偏态的数据 . 设

是个观测值，将它们按由小到大排为：

称为次序统计量 . 最小次序统计量与最大次序统计量分别为

940.3524.15660.73 2 SSx

034.0061.0349.5 21 ggCV

,, 21 xx

nnx, )()2()1( ,,, nxxx

)1(x )(nx

ii

nii

xxxx maxmin )()1(

1. 中位数与极差

中位数

中位数位于数据中心位置，中位数具有稳健性，受异常值影响较小 .

极差

2. 分位数对，分位数

其中是的整数部分，当定义 .

分位数又称第 100 百分数 . 大体上有 100 % 的观测值不超过分位数 .

即中位数 .

为偶数

为奇数

nxx

nx

Mnn

n

)(2

1)1

2()

2(

)2

1(

)1()( xxR n

10 p p

为整数

为分位数

npxx

nxM

npnp

np

p )(2

1)1()(

)1]([

][np np 1p )(1 nxM

p p pp

5.0M

上四分位数

下四分位数

下列分位数经常用到：

四分位极差

四分位标准差总体标准差的稳健估计

三均值

描述数据集中位置的稳健估计

下截断点小于下截断点的数据为特小值

上截断点大于上截断点的数据为特大值

特小值、特大值合称异常值 .

用 PROC UNIVARIATE 过程计算分位数、四分位极差；用

PROC IML 过程计算三均值、四分位标准差，下、上截断点 .

75.03 MQ

25.01 MQ

01.005.010.090.095.099.099.0 ,,,,,, MMMMMMM

131 QQR

349.1ˆ 1R

31 4

1

2

1

4

1ˆ QMQM

11 5.1 RQ

13 5.1 RQ

例 1.8 （续例 1.2 ）

用 PROC UNIVARIATE 过程， PROC IML 过程计算得到：

下、上截断点分别为 64.3 和 82.7 ，故数据 84.3 是异常值（特大值） .

将异常值 84.3 剔除，在进行计算分析，得

可见，更为接近，与与原数值相等，说明有稳健性，而原数据的值为 3.940 ，现为 3.810 说明对异常值无稳健性 .

95.82,2.71,8.75,5.73 99.013 MQQM

3.674.68,15.79,5.80 05.010.090.095.0 MMMM

,41.3ˆ,6.4,20,65.64 101.0 RRM

4.73ˆ M

810.3,55.73 Sx8.75,5.73 3 QM

6.4,2.71 11 RQ

Mx、 13 QQM 、、 1RS S

1.2 数据的分布对数据的总体情况作全面描述要研究数据的分布。

1.2.1 直方图、经验分布函数与 QQ 图1. 直方图

数据取值范围分成若干区间，区间长度称为组距，每个区间上画一矩形，宽度是组距，高度是频率 / 组距，每一矩形的面积是数据落入区间的频率 .SAS 系统根据样本容量和样本取值范围自动确定合适的分组方式 .PROC CAPABILITY 过程可以做出直方图 .

直方图可以对总体概率密度的估计，这就是拟合分布曲线 .SAS 系统用 PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线 .

)(xf

SAS 系统中分布类型：

1 ）正态分布；

2 ）对数正态分布；

3 ）指数分布；

4 ）分布（ Gamma 分布）；

5 ） Weibull 分布；

6 ） Bata 分布 .

2. 经验分布函数

设来自总体分布的样本是，其次序统计量是 . 经验分布函数是

是非降阶梯函数，处跃度是（若重复取值次，则跃度为） . 是充分大时， .

)(xF nxxx ,,, 21 )()2()1( ,,, nxxx

)(

)1()1(

)1(

111,,/

;0)(

n

in

xxnixxxni

xxxF

)(xFn)()( xFxF n

)(ix )(ixn

1 k

n

k n

3. QQ 图

设总体分布为正态分布，标准正态分布函数

，其反函数 .QQ 图是由以下的点构成的散点图：

若样本数据近似于正态分布，在 QQ 图上这些点近似地在直线

附近 .

例 1.10 （续例 1.2 ）利用例 1.2 的数据

（ 1 ）作直方图，并拟合正态分布曲线；

（ 2 ）做经验分布函数图，并拟合正态分布函数曲线；

（ 3 ）作正态 QQ 图，并在直观上鉴别样本数据来自正态总体 .

解利用 PROC CAPABILITY 过程可解决上述问题 .

nixn

ii

1),,25.0

375.0(( )(

1

),( 2N

)(x )(1 x

xy

直方图

经验分布函数图

QQ 图

1.2.2 茎叶图、箱线图及五数总括1. 茎叶图例 1.11 某班有 31 个学生，某门课程考试成绩如下： 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84

84 84 85 86 86 86 87 89 89 89 90 91 91 92 100

作出茎叶图 .

解第一个数 25十位数为 2 ，个位数为 5. 以个位数为单位，将 25 用“｜”分开： 25 → 2 | 5. 这样，得茎叶图 .

频数 2 ｜ 5 1 3 ｜ 4 ｜ 5 1 5 ｜ 0 4 5 3 6 ｜ 1 4 8 3 7 ｜ 2 5 5 8 9 5 8 ｜ 1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 ｜ 0 1 1 2 4 10｜ 0 1

特点：

1 ）直观看出数据分布情况，绝大部分数据在 70～ 95之间，在 80～ 89之间形成一个高峰，数据没有 30余分，数据有间隙 .

2 ）自然显出数据排序 . 可看出原数据次序统计量 .

例 1.12 铅压铸件硬度数据如下：

53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3

69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4

69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5

作出茎叶图 .

解利用 PROC UNIVARIATE 过程，可作茎叶图 . 为简化，将小数点后数据四舍五入，以十位数为茎，个位数为叶，并把每茎分裂成两行：一行的叶取 0 ， 1 ， 2 ， 3 ， 4 ，另一行取 5 ，6 ， 7 ， 8 ， 9. 计算结果数据从大到小排列 .

频数 9 ｜ 5 1 9 ｜ 8 ｜ 6 8 2 8 ｜ 2 3 4 3 7 ｜ 8 8 2 7 ｜ 0 0 0 1 2 3 4 7 6 ｜ 7 9 2 6 ｜ 0 4 4 3 5 ｜ 5 6 6 3 5 ｜ 1 1 2 3 3 4 4 7

2. 箱线图

画一个矩形，两个端边分别是，中间两道线，处于

位置 .两端向外各画一道直线，分别到上截断点，下截断点 . 异常值用“ ×”号表示 .

31,QQ Mx,

13 5.1 RQ

11 5.1 RQ

例 1.15 作例 1.11 的箱线图 .

解

下、上截断点： 36.5 ， 120.5. 异常值 25.

3.五数总括

2171.76,84,68,89 113 RxMQQ

MaxMin

QQ

M

31

10025

8968

84

31

MaxMin

QQ

M

1.2.3 正态性检验与分布拟合检验

检验的值方法设检验问题的显著水平为 .检验统计量为 . 当假设成立时，有样本算得的检验统计量的值为 .

设（双侧检验），则当，拒

绝；当，接受 .

1. 检验法

——样本容量 ——分组数

——落入第 i 组频数， ——落入第组理论频数

——待估参数数充分大

p T 0H

0T

|}||{| 0TTPp p

0H p0H

2

l

i i

iil

i i

ii

E

EO

np

npm

1

2

1

22 )()(

n

)1(~ 22 kl

l

ii mO ii npE

k n

i

假设检验问题

不是

其中为指定的总体分布

值方法：

则对给定的显著水平，当，拒绝，当，接受

2. Kolmogorov-Smirnov检验法

假设检验问题仍如上， — 经验分布函数

设由样本算得的值为，又

则对给定显著水平 , 当 , 拒绝 , 当 , 接受 .

用 PROC CAPABILITY 过程可进行检验与 Kolmogorov-Smirnov检验 .

)(:)()(: 100 xFHxFxFH

)(0 xFp }{ 2

02 Pp

p 0H p 0H

)(xFn

|)()(|sup 0 xFxFD nx

nxxx ,, 21 D 0D

0DDPp p

0H 0Hp2

)(0 xF

3. 正态性 W检验方法

设样本观测值为，其次续统计量为

当 n偶，当 n奇，

（系数）

：总体为正态分布总体非正态分布

总有，成立时， W 值接近于 1.

当；拒绝；当，接受 .

用 PROC UNIVARIATE 过程可得 W 值与 p 值，从而完成正态性 W检验 .

2

1)()2()1( )(,,,, xxCSSxxx i

n

in

nxxx ,,, 21

21

nki

2

11

n

ki

CSS

bWdab ii

k

i

2

1

,

ia

0H 1H

10 W 0H

0WWPp

p0H0H p

例 1.19 （续例 1.2 ）对例 1.2 数据，作

（ 1 ）正态性 W检验；

（ 2 ）关于正态分布假设的检验；

（ 3 ）关于正态分布假设的 Kolmogorov-Smirnov检验

解（ 1 ）由 PROC UNIVARIATE 过程，算得

W=0.9827 p=p{W≤0.9827}=0.6709

取，因 p=0.5382 ＞，接受正态性假设 .

（ 2 ）由 PROC UNIVARIATE 过程，算得

=4.0784 p=P{ ≥0.4784}=0.5382

取，因 p=0.5328＞，接受正态性假设 .

（ 3 ）由 PROC UNIVARIATE 过程，算得

D=0.0655 , p= {D≥0.0655}=0.15

取 ,因 p=0.15＞，接受正态性假设

05.0 05.0

2

05.0

05.0

05.0

05.0

2

2

1.3 多元数据的数字特征与相关分析1.3.1 二元数据的数字特征及相关系数 ——二元总体，观测数据

观测矩阵 ——均值向量

的协方差的协方差的协方差 ——协方差矩阵

相关系数

T),( YX,),(,),(,),( TT

22T

11 nn yxyxyx

n

n

y

x

yy

xxX

21

21i

n

ii

n

i

yn

yxn

x

11

11

y

xyx T),(

2

1

2

1

)(1

1)(

1

1yy

nSxx

nS i

n

iyyi

n

ixx

))((1

111

1

yyxxn

Sn

ixy

yyyx

xyxx

SS

SSS

XSxx — YS yy — YXSxy ,—

)( xyyx SS

1, rSS

Sr

yyxx

xy

① , 正相关 ② , 负相关

③ ,完全线性相关 ④ , 不相关

二元总体分布函数协方差

总体相关系数当大，

假设检验成立时，～

值，设显著水平

当，拒绝；接受

上述定义的相关系数成为 Pearson 相关系数

设，则其次序统计量，

若，则称是在样本中的秩，记为 .秩统计量 .

10 xyr 01 xyr

0xyr1xyrT),( YX ),( yxF ),( yxCov

xy

xy

r

nrt

1

2

0:0: 10 xyxy HH

)2( nt0H

)var()var(

),(

YX

YXCovxy

xyxy rn

0H 0H

0ttPp p

p p

)()2()1( ,,, nxxx nxxx ,,, 21

)(ki xx

nRRR ,,2,1

iRix

例 -0.8 -3.1 1.1 -5.2 4.2

次序统计量 -5.2 -3.1 -0.8 1.1 4.2

秩统计量 3 2 4 1 5 例 -0.8 -3.1 0.8秩统计量 2 1 3 或 3 1 2对相同观测值取值为秩平均值： 2.5 1 2.5 样本，秩统计量秩统计量 Spearman 相关系数定义为两组秩统计量的相关系数，记为，可证

TT22

T11 ),(,,),(,),( nn yxyxyx T),( YX

nxxx ,, 21 nRRR ,, 21

nyyy ,, 21 nSSS ,, 21

niSRddnn

q iiii

n

ixy ,,2,1,,

)1(

61 2

12

xyq

例 1.21 某种矿石成分 A,B ， A 的含量百分数 x （ % ），B 的含量百分数 y （ % ）：

（ 1 ）计算 Pearson 相关系数，作假设检验

（ 2 ）计算 Spearman 相关系数，作上述检验

解由 PROC CORR 过程，得

（ 1 ） , 值为，取

拒绝，认为有实际意义

(2) 取

拒绝，认为有实际意义

x 67 54 72 64 39 22 58 43 46 34

y 24 15 23 19 16 11 20 16 17 13

0:0: 10 xyxy HH

3920.0xyr 2000.0p p01.0p

0H xyr

p01.0

0H

4000.0,90.0 pqxy

xyq

1.3.2 多元数据数字特征及相关矩阵是元总体，样本数据

第 i 个观测数据，称样品观测矩阵

第 i 行构成的量

有

1 ）第行的均值 2 ）第行的方差

T21

T22221

T11211 ),,(,,),,(,),,( npnnpp xxxxxxxxx

T21 ),,,( PXXX P

nnppp

n

n

xxx

xxx

xxx

xxxX ,,, 21

21

22212

12111

nixxx ipiii ,,2,1,),,,( T21 x

pjxxxx njjji ,,2,1,),,,( T21)(

T)(

T)2(

T)1(

Px

x

x

X

i T)( jx

i

pjxn

x ij

n

ij ,,2,1,

1

1

pjxxn

S jij

n

ij ,,2,1,)(

1

1 2

1

2

T)( jx

的 Spearman 相关系数，

Spearman 相关矩阵

Spearman 相关矩阵具有稳健性

数据观测矩阵数据的标准化处理

样品，变量观测数据

的协方差阵即的相关阵 .

)()( , kj xxjkq

kjjk

pp

p

p

qq

qq

qq

qq

1

1

1

21

221

112

Q

X

pjmis

xxx

j

jijij ,,2,1;,2,1,

nppp

n

n

xxx

xxx

xxx

21

22212

12111

X

nxxx ,, 21

)()2()1( ,, pxxx

T)(

T)2(

T)1(

21 ),,(

p

n

x

x

x

xxxX

X X

（ 3 ）的协方差

均值向量

协方差矩阵

（ 4 ）的相关系数

相关矩阵非负定矩阵

刻画变量之间线性联系的密切程度 .

pjSS

pkjxxxxn

S

jjj

kikjij

n

ijR

,,2,1,

,,2,1,),)((1

1

2

1

)()( ji x、x

kjjk

pppp

p

p

SS

SSS

SSS

SSS

21

22221

11211

S

T21 )( pxxx x

)()( kj x、x

kjjkjjjkkj

jkjk rrrrpkj

SS

Sr ,1,1,,2,1,,

1

1

1

21

221

112

pp

p

p

rr

rr

rr

RR

R

1.3.3 总体的数字特征及相关矩阵元总体 .

总体分布函数总体概率密度总体均值向量总体的协方差矩阵

设的相关系数为总体的相关矩阵

T21 ),,,( PXXX X p

),()( ,2,1 pxxxFF x

),()( ,2,1 pxxXff x

piXE ii ,,2,1)( T

21 ),,,( PMMM

X

pxpjk

pppp

p

p

XCovXXE )()())((

21

22221

11211

T

kj XX ,

)(),( 2jjjjkjjk XVarXXCov

X

pxpjk

pp

p

p

)(

1

1

1

21

221

112

jk

设

1 ）

特别

2 ）

特别

分别是的相合估计，当充分大时，

简单随机样本

① 与总体有相同分布；

② 是相互独立的元随机向量 .

T21

T21 ),,,(,),,,( qP YYYXXX YX

TT)()(

)()(

AAAXACovAXCov

AXAEAXEprA

ccXcVar

cXEcXcEcccc p

TT

TTTT21

)(

)()(,),,,(

T)()(),( YEYXEXEYXCovqsB

dYXCovcYdXcCov

ddddcccc qp

),(),(

),,,(,),,,(TTT

T21

T21

RSx 、、 ρμ 、、

RρSxμ

n

nxxx ,,, 21

p

X

nxxx ,,, 21

的无偏估计分别是：

证

记

对于随机向量 , 总有

故，

可证（自证）故

得

从而

是的相合估计：

S、xμ、 Sx EE

μμxxx

nn

Enn

EE i

n

ii

n

i

1)(

11

11

TT

1

T

1

xxxxxxxx nU ii

n

iii

n

i

zz ZCovZEZ )(,)(, μ TTzzzZZE μμ

TTTT , μμxxxμμxx CovEE zzzii

n

Cov1

x TT 1μμxx

nE

)1(1

)( TT nn

nnUE μμμμ

)(SE

x

01

limlim n

Covnn

x

元正态分布

其中

性质：

1) 元常向量

则

2) 划分

作相应划分

则

3 ）相互独立

p )( μ,pN

)()(2

1exp

2

1

),,,(~,,,

1T

2

1

2

21T

21

μμ

XXXX

xx

xxxf

p

pP

)(),( XX CovEM

pbbN p :),,(~ AXYμX lArankA pl )(,

),6(~ TAAAμY lN

pppp

p

21

2

1

)2(

)1(

,X

XX)(~ μ,X PN

2

22221

1211

2)2(

)1(

1

1

1

ppp

p

p

p

μ

μμ,

),(~),,(~ 12)2(

2)2(

11)1(

1)1( μXμX pp NN

)2()1(

2

1

)2(

)1(

, XXX

XX

p

p

012

的最大似然估计设是来自正态总体的简单随机样本，其联合概率密度 .

称似然函数，它是的函数，若

满足，则称的最大似然估计定理：

各为的最大似然估计（证略） . 注：的最大似然估计为 . 大时，因是的无偏估计，仍以作为的估计 .

μ,nxxx ,,, 21 ),( pN

)()(2

1exp)2()( 1T

1

22 μxμxμ, ii

n

i

nnp

L

),,,(ˆˆ),,,(ˆˆ 2121 nn xxxxxx )(max)ˆˆ(

μ,,μ

μ,LL

T1

1ˆ

ˆ

xxxx

xμ

ii

n

in

Sn

n 1ˆ Sn

S

nxxx ,,, 21

μ, μ,

S

μ,

例 1.23 对某少数民族的 21 位同袍测量血液中四种成份，的含量，结果如下：

求的无偏估计 .

解由 PROC CORR

过程，计算得到

x1 x2 x3 x4

1 18.8 28.1 5.1 35.1

2 17.4 25.6 4.9 33.9

3 16 27.4 5 32.2

4 19.3 29.5 1.7 29.1

5 17.4 27.4 4.5 35.6

6 15.3 25.3 3.6 32.3

7 16.7 25.8 4.4 33

8 17.4 26.7 4.4 33

9 16.2 25.7 2.3 33.9

10 16.7 26.7 6.4 35

11 18.2 28 3.2 29.7

12 16.7 26.7 2.1 34.9

13 18.1 26.7 4.3 31.5

14 16.7 26 3 32.7

15 18.1 30.2 7 34.9

16 20.2 30.5 4.8 34.4

17 20.2 29.5 5.5 36.2

18 21.5 31.5 5.8 36.5

19 18.8 30.6 5.4 35.4

20 21.6 27.8 4.8 34.1

21 21.3 29.5 5.8 35.8

μ,

3032.47729.13289.17265.1

7729.19961.17140.10918.0

3289.17140.13559.32707.2

7265.10918.02707.26508.3

77.33,48.4,87.27,27.18 T

S

x

例 1.24 （续例 1.23 ）对例 1.23 数据，计算中位数向量相关矩阵及 Spearman 相关矩阵并进行分析 .

解由 PROC CORR 过程，算得

及对应 p 值如下：

若取，

其值，认为与，与，与相关，其相关系数无明显统计意义 .

TM )10.34,80.4,40.27,10.18(

M

Q

R

1.000 00

0.0

0.766 06

0.000 1

0.349 88

0.120 0

0.336 49

0.135 8

0.7660 6

0.000 1

1.000 00

0.0

0.431 65

0.050 7

0.340 33

0.1312

0.349 88

0.1200

0.431 65

0.050 7

1.000 00

0.0

0.614 96

0.003 0

0.336 49

0.135 8

0.340 33

0.131 2

0.614 96

0.003 0

1.000 00

0.0

1X 2X 3X 4X

1X

2X

3X

4X

2131.0,8135.0,0120.0,10.0 241413 ppp

10.0p1X 1X3X 4X4X 2X

Spearman 相关矩阵及对应值

取 , 的元素对应值皆小于，故认为具有统计意义 .

Q p

1.000 00

0.0

0.789 70

0.000 1

0.37844

0.090 7

0.430 54

0.051 4

0.789 70 0.000 1

1.000 00

0.0

0.508 50

0.018 6

0.488 41

0.024 7

0.378 44

0.090 7

0.508 50

0.018 6

1.000 00

0.0

0.691 83

0.0005

0.430 54

0.0514

0.488 41

0.024 7

0.691 83

0.000 5

1.000 00

0.0

1X

1X

2X

2X

3X

3X

4X

4X

Q

Qpjkq10.0 10.0

第 1 章 数据的描述性分析

Documents

第 1 章数据的描述性分析