第 1 章 数据的描述性分析
DESCRIPTION
第 1 章 数据的描述性分析. 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1. 均值 2. 方差 标准差 变异系数. 阶原点矩 阶中心矩 偏度 - PowerPoint PPT PresentationTRANSCRIPT
第 1 章 数据的描述性分析1.1 数据的数字特征
数据分析研究的对象是数据,一元数据是 个观测值
要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 .
1.1.1 均值、方差等数字特征 1. 均值
2. 方差 标准差 变异系数
n
nxxx ,,, 21
n
iixn
x1
1
n
ii xx
nS
1
22 )(1
1
2SS
(%)100x
SCV
3. 阶原点矩
阶中心矩
偏度
偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为 0.
峰度
当总体分布为正态时,峰度近似为 0 ;当分布较正态分布的尾部更分散,峰度为 正,否则峰度为负 .
k
k
n
i
kik x
nv
1
1
n
i
kik xx
nu
1
)(1
33
2
1
331 )2)(1(
)()2)(1( Snn
unxx
Snn
ng
n
ii
)3)(2(
)1(3)(
)3)(2)(1(
)1( 2
1
442
nn
nxx
Snnn
nng
n
ii
)3)(2(
)1(3
)3)(2)(1(
)1( 2
44
2
nn
n
Snnn
unn
当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征 . 与样本数字特征对应的是总体的数字特征 . 样本数字特征是相应的总体数字特征的矩估计 .
例 1.2 某单位对 100 名女学生测定血清总蛋白含量 (g/L), 数据如下:
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0
70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3
73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7
67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7
75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3
73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4
计算均值、方差、标准差、变异系数、偏度、峰度解 用 SAS 系统 PROC UNIVARRIATE 过程计算,得
偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本 .
1.1.2 中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据 . 设
是 个观测值,将它们按由小到大排为:
称为次序统计量 . 最小次序统计量 与最大次序统计量 分别为
940.3524.15660.73 2 SSx
034.0061.0349.5 21 ggCV
,, 21 xx
nnx, )()2()1( ,,, nxxx
)1(x )(nx
ii
nii
xxxx maxmin )()1(
1. 中位数与极差
中位数
中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小 .
极差
2. 分位数 对 , 分位数
其中 是 的整数部分,当 定义 .
分位数又称第 100 百分数 . 大体上有 100 % 的观测值不超过 分位数 .
即中位数 .
为偶数
为奇数
nxx
nx
Mnn
n
)(2
1)1
2()
2(
)2
1(
)1()( xxR n
10 p p
为整数
为分位数
npxx
nxM
npnp
np
p )(2
1)1()(
)1]([
][np np 1p )(1 nxM
p p pp
5.0M
上四分位数
下四分位数
下列分位数经常用到:
四分位极差
四分位标准差 总体标准差 的稳健估计
三均值
描述数据集中位置的稳健估计
下截断点 小于下截断点的数据为特小值
上截断点 大于上截断点的数据为特大值
特小值、特大值合称异常值 .
用 PROC UNIVARIATE 过程计算分位数、四分位极差;用
PROC IML 过程计算三均值、四分位标准差,下、上截断点 .
75.03 MQ
25.01 MQ
01.005.010.090.095.099.099.0 ,,,,,, MMMMMMM
131 QQR
349.1ˆ 1R
31 4
1
2
1
4
1ˆ QMQM
11 5.1 RQ
13 5.1 RQ
例 1.8 (续例 1.2 )
用 PROC UNIVARIATE 过程, PROC IML 过程计算得到:
下、上截断点分别为 64.3 和 82.7 ,故数据 84.3 是异常值(特大值) .
将异常值 84.3 剔除,在进行计算分析,得
可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为 3.940 ,现为 3.810 说明 对异常值无稳健性 .
95.82,2.71,8.75,5.73 99.013 MQQM
3.674.68,15.79,5.80 05.010.090.095.0 MMMM
,41.3ˆ,6.4,20,65.64 101.0 RRM
4.73ˆ M
810.3,55.73 Sx8.75,5.73 3 QM
6.4,2.71 11 RQ
Mx、 13 QQM 、、 1RS S
1.2 数据的分布 对数据的总体情况作全面描述要研究数据的分布。
1.2.1 直方图、经验分布函数与 QQ 图1. 直方图
数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率 / 组距,每一矩形的面积是数据落入区间的频率 .SAS 系统根据样本容量和样本取值范围自动确定合适的分组方式 .PROC CAPABILITY 过程可以做出直方图 .
直方图可以对总体概率密度 的估计,这就是拟合分布曲线 .SAS 系统用 PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线 .
)(xf
SAS 系统中分布类型:
1 )正态分布;
2 ) 对数正态分布;
3 )指数分布;
4 ) 分布( Gamma 分布);
5 ) Weibull 分布;
6 ) Bata 分布 .
2. 经验分布函数
设来自总体分布 的样本是 ,其次序统计量是 . 经验分布函数是
是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ) . 是充分大时, .
)(xF nxxx ,,, 21 )()2()1( ,,, nxxx
)(
)1()1(
)1(
111,,/
;0)(
n
in
xxnixxxni
xxxF
)(xFn)()( xFxF n
)(ix )(ixn
1 k
n
k n
3. QQ 图
设总体分布为正态分布 ,标准正态分布函数
,其反函数 .QQ 图是由以下的点构成的散点图:
若样本数据近似于正态分布,在 QQ 图上这些点近似地在直线
附近 .
例 1.10 (续例 1.2 ) 利用例 1.2 的数据
( 1 )作直方图,并拟合正态分布曲线;
( 2 )做经验分布函数图,并拟合正态分布函数曲线;
( 3 )作正态 QQ 图,并在直观上鉴别样本数据来自正态总体 .
解 利用 PROC CAPABILITY 过程可解决上述问题 .
nixn
ii
1),,25.0
375.0(( )(
1
),( 2N
)(x )(1 x
xy
直方图
经验分布函数图
QQ 图
1.2.2 茎叶图、箱线图及五数总括1. 茎叶图 例 1.11 某班有 31 个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84
84 84 85 86 86 86 87 89 89 89 90 91 91 92 100
作出茎叶图 .
解 第一个数 25十位数为 2 ,个位数为 5. 以个位数为单位,将 25 用“|”分开: 25 → 2 | 5. 这样,得茎叶图 .
频数 2 | 5 1 3 | 4 | 5 1 5 | 0 4 5 3 6 | 1 4 8 3 7 | 2 5 5 8 9 5 8 | 1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 | 0 1 1 2 4 10| 0 1
特点:
1 )直观看出数据分布情况,绝大部分数据在 70~ 95之间,在 80~ 89之间形成一个高峰,数据没有 30余分,数据有间隙 .
2 )自然显出数据排序 . 可看出原数据次序统计量 .
例 1.12 铅压铸件硬度数据如下:
53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3
69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4
69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5
作出茎叶图 .
解 利用 PROC UNIVARIATE 过程,可作茎叶图 . 为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取 0 , 1 , 2 , 3 , 4 ,另一行取 5 ,6 , 7 , 8 , 9. 计算结果数据从大到小排列 .
频数 9 | 5 1 9 | 8 | 6 8 2 8 | 2 3 4 3 7 | 8 8 2 7 | 0 0 0 1 2 3 4 7 6 | 7 9 2 6 | 0 4 4 3 5 | 5 6 6 3 5 | 1 1 2 3 3 4 4 7
2. 箱线图
画一个矩形,两个端边分别是 ,中间两道线,处于
位置 .两端向外各画一道直线,分别到上截断点 ,下截断点 . 异常值用“ ×”号表示 .
31,QQ Mx,
13 5.1 RQ
11 5.1 RQ
例 1.15 作例 1.11 的箱线图 .
解
下、上截断点: 36.5 , 120.5. 异常值 25.
3.五数总括
2171.76,84,68,89 113 RxMQQ
MaxMin
M
31
10025
8968
84
31
MaxMin
M
1.2.3 正态性检验与分布拟合检验
检验的 值方法 设检验问题的显著水平为 .检验统计量为 . 当假设 成立时,有样本算得的检验统计量的值为 .
设 (双侧检验),则当 , 拒
绝 ;当 ,接受 .
1. 检验法
——样本容量 ——分组数
——落入第 i 组频数, ——落入第 组理论频数
——待估参数数 充分大
p T 0H
0T
|}||{| 0TTPp p
0H p0H
2
l
i i
iil
i i
ii
E
EO
np
npm
1
2
1
22 )()(
n
)1(~ 22 kl
l
ii mO ii npE
k n
i
假设检验问题
不是
其中 为指定的总体分布
值方法:
则对给定的显著水平 ,当 ,拒绝 ,当 ,接受
2. Kolmogorov-Smirnov检验法
假设检验问题仍如上, — 经验分布函数
设由样本 算得的 值为 ,又
则对给定显著水平 , 当 , 拒绝 , 当 , 接受 .
用 PROC CAPABILITY 过程可进行 检验与 Kolmogorov-Smirnov检验 .
)(:)()(: 100 xFHxFxFH
)(0 xFp }{ 2
02 Pp
p 0H p 0H
)(xFn
|)()(|sup 0 xFxFD nx
nxxx ,, 21 D 0D
0DDPp p
0H 0Hp2
)(0 xF
3. 正态性 W检验方法
设样本观测值为 ,其次续统计量为
当 n偶, 当 n奇 ,
( 系数)
:总体为正态分布 总体非正态分布
总有 , 成立时, W 值接近于 1.
当 ;拒绝 ;当 ,接受 .
用 PROC UNIVARIATE 过程可得 W 值与 p 值,从而完成正态性 W检验 .
2
1)()2()1( )(,,,, xxCSSxxx i
n
in
nxxx ,,, 21
21
nki
2
11
n
ki
CSS
bWdab ii
k
i
2
1
,
ia
0H 1H
10 W 0H
0WWPp
p0H0H p
例 1.19 (续例 1.2 ) 对例 1.2 数据,作
( 1 ) 正态性 W检验;
( 2 ) 关于正态分布假设的 检验;
( 3 ) 关于正态分布假设的 Kolmogorov-Smirnov检验
解 ( 1 ) 由 PROC UNIVARIATE 过程,算得
W=0.9827 p=p{W≤0.9827}=0.6709
取 ,因 p=0.5382 > ,接受正态性假设 .
( 2 )由 PROC UNIVARIATE 过程,算得
=4.0784 p=P{ ≥0.4784}=0.5382
取 ,因 p=0.5328> ,接受正态性假设 .
( 3 )由 PROC UNIVARIATE 过程,算得
D=0.0655 , p= {D≥0.0655}=0.15
取 ,因 p=0.15> ,接受正态性假设
05.0 05.0
2
05.0
05.0
05.0
05.0
2
2
1.3 多元数据的数字特征与相关分析1.3.1 二元数据的数字特征及相关系数 ——二元总体,观测数据
观测矩阵 ——均值向量
的协方差 的协方差 的协方差 ——协方差矩阵
相关系数
T),( YX,),(,),(,),( TT
22T
11 nn yxyxyx
n
n
y
x
yy
xxX
21
21i
n
ii
n
i
yn
yxn
x
11
11
y
xyx T),(
2
1
2
1
)(1
1)(
1
1yy
nSxx
nS i
n
iyyi
n
ixx
))((1
111
1
yyxxn
Sn
ixy
yyyx
xyxx
SS
SSS
XSxx — YS yy — YXSxy ,—
)( xyyx SS
1, rSS
Sr
yyxx
xy
① , 正相关 ② , 负相关
③ ,完全线性相关 ④ , 不相关
二元总体 分布函数 协方差
总体相关系数 当 大,
假设检验 成立时, ~
值, 设显著水平
当 ,拒绝 ; 接受
上述定义的相关系数成为 Pearson 相关系数
设 ,则其次序统计量 ,
若 ,则称是 在样本中的秩,记为 .秩统计量 .
10 xyr 01 xyr
0xyr1xyrT),( YX ),( yxF ),( yxCov
xy
xy
r
nrt
1
2
0:0: 10 xyxy HH
)2( nt0H
)var()var(
),(
YX
YXCovxy
xyxy rn
0H 0H
0ttPp p
p p
)()2()1( ,,, nxxx nxxx ,,, 21
)(ki xx
nRRR ,,2,1
iRix
例 -0.8 -3.1 1.1 -5.2 4.2
次序统计量 -5.2 -3.1 -0.8 1.1 4.2
秩统计量 3 2 4 1 5 例 -0.8 -3.1 0.8秩统计量 2 1 3 或 3 1 2对相同观测值 取值为秩平均值: 2.5 1 2.5 样本, 秩统计量 秩统计量 Spearman 相关系数定义为两组秩统计量的相关系数,记为 ,可证
TT22
T11 ),(,,),(,),( nn yxyxyx T),( YX
nxxx ,, 21 nRRR ,, 21
nyyy ,, 21 nSSS ,, 21
niSRddnn
q iiii
n
ixy ,,2,1,,
)1(
61 2
12
xyq
例 1.21 某种矿石成分 A,B , A 的含量百分数 x ( % ),B 的含量百分数 y ( % ):
( 1 )计算 Pearson 相关系数,作假设检验
( 2 )计算 Spearman 相关系数,作上述检验
解 由 PROC CORR 过程,得
( 1 ) , 值为 ,取
拒绝 ,认为 有实际意义
(2) 取
拒绝 ,认为 有实际意义
x 67 54 72 64 39 22 58 43 46 34
y 24 15 23 19 16 11 20 16 17 13
0:0: 10 xyxy HH
3920.0xyr 2000.0p p01.0p
0H xyr
p01.0
0H
4000.0,90.0 pqxy
xyq
1.3.2 多元数据数字特征及相关矩阵 是 元总体,样本数据
第 i 个观测数据 ,称样品观测矩阵
第 i 行构成的量
有
1 ) 第 行 的均值 2 ) 第 行 的方差
T21
T22221
T11211 ),,(,,),,(,),,( npnnpp xxxxxxxxx
T21 ),,,( PXXX P
nnppp
n
n
xxx
xxx
xxx
xxxX ,,, 21
21
22212
12111
nixxx ipiii ,,2,1,),,,( T21 x
pjxxxx njjji ,,2,1,),,,( T21)(
T)(
T)2(
T)1(
Px
x
x
X
i T)( jx
i
pjxn
x ij
n
ij ,,2,1,
1
1
pjxxn
S jij
n
ij ,,2,1,)(
1
1 2
1
2
T)( jx
的 Spearman 相关系数 ,
Spearman 相关矩阵
Spearman 相关矩阵具有稳健性
数据观测矩阵 数据的标准化处理
样品 ,变量观测数据
的协方差阵即 的相关阵 .
)()( , kj xxjkq
kjjk
pp
p
p
1
1
1
21
221
112
Q
X
pjmis
xxx
j
jijij ,,2,1;,2,1,
nppp
n
n
xxx
xxx
xxx
21
22212
12111
X
nxxx ,, 21
)()2()1( ,, pxxx
T)(
T)2(
T)1(
21 ),,(
p
n
x
x
x
xxxX
X X
( 3 ) 的协方差
均值向量
协方差矩阵
( 4 ) 的相关系数
相关矩阵 非负定矩阵
刻画变量之间线性联系的密切程度 .
pjSS
pkjxxxxn
S
jjj
kikjij
n
ijR
,,2,1,
,,2,1,),)((1
1
2
1
)()( ji x、x
kjjk
pppp
p
p
SS
SSS
SSS
SSS
21
22221
11211
S
T21 )( pxxx x
)()( kj x、x
kjjkjjjkkj
jkjk rrrrpkj
SS
Sr ,1,1,,2,1,,
1
1
1
21
221
112
pp
p
p
rr
rr
rr
RR
R
1.3.3 总体的数字特征及相关矩阵 元总体 .
总体分布函数 总体概率密度 总体均值向量 总体 的协方差矩阵
设 的相关系数为 总体 的相关矩阵
T21 ),,,( PXXX X p
),()( ,2,1 pxxxFF x
),()( ,2,1 pxxXff x
piXE ii ,,2,1)( T
21 ),,,( PMMM
X
pxpjk
pppp
p
p
XCovXXE )()())((
21
22221
11211
T
kj XX ,
)(),( 2jjjjkjjk XVarXXCov
X
pxpjk
pp
p
p
)(
1
1
1
21
221
112
jk
设
1 )
特别
2 )
特别
分别是 的相合估计,当 充分大时,
简单随机样本
① 与总体 有相同分布;
② 是相互独立的 元随机向量 .
T21
T21 ),,,(,),,,( qP YYYXXX YX
TT)()(
)()(
AAAXACovAXCov
AXAEAXEprA
ccXcVar
cXEcXcEcccc p
TT
TTTT21
)(
)()(,),,,(
T)()(),( YEYXEXEYXCovqsB
dYXCovcYdXcCov
ddddcccc qp
),(),(
),,,(,),,,(TTT
T21
T21
RSx 、、 ρμ 、、
RρSxμ
n
nxxx ,,, 21
p
X
nxxx ,,, 21
的无偏估计分别是 :
证
记
对于随机向量 , 总有
故,
可证(自证) 故
得
从而
是 的相合估计:
S、xμ、 Sx EE
μμxxx
nn
Enn
EE i
n
ii
n
i
1)(
11
11
TT
1
T
1
xxxxxxxx nU ii
n
iii
n
i
zz ZCovZEZ )(,)(, μ TTzzzZZE μμ
TTTT , μμxxxμμxx CovEE zzzii
n
Cov1
x TT 1μμxx
nE
)1(1
)( TT nn
nnUE μμμμ
)(SE
x
01
limlim n
Covnn
x
元正态分布
其中
性质:
1) 元常向量
则
2) 划分
作相应划分
则
3 ) 相互独立
p )( μ,pN
)()(2
1exp
2
1
),,,(~,,,
1T
2
1
2
21T
21
μμ
XXXX
xx
xxxf
p
pP
)(),( XX CovEM
pbbN p :),,(~ AXYμX lArankA pl )(,
),6(~ TAAAμY lN
pppp
p
21
2
1
)2(
)1(
,X
XX)(~ μ,X PN
2
22221
1211
2)2(
)1(
1
1
1
ppp
p
p
p
μ
μμ,
),(~),,(~ 12)2(
2)2(
11)1(
1)1( μXμX pp NN
)2()1(
2
1
)2(
)1(
, XXX
XX
p
p
012
的最大似然估计 设 是来自正态总体 的简单随机样本,其联合概率密度 .
称似然函数,它是 的函数,若
满足 ,则 称 的最大似然估计 定理:
各为 的最大似然估计 (证略) . 注: 的最大似然估计为 . 大时, 因 是 的无偏估计,仍以 作为 的估计 .
μ,nxxx ,,, 21 ),( pN
)()(2
1exp)2()( 1T
1
22 μxμxμ, ii
n
i
nnp
L
),,,(ˆˆ),,,(ˆˆ 2121 nn xxxxxx )(max)ˆˆ(
μ,,μ
μ,LL
T1
1ˆ
ˆ
xxxx
xμ
ii
n
in
Sn
n 1ˆ Sn
S
nxxx ,,, 21
μ, μ,
S
μ,
例 1.23 对某少数民族的 21 位同袍测量血液中四种成份,的含量,结果如下:
求 的无偏估计 .
解 由 PROC CORR
过程,计算得到
x1 x2 x3 x4
1 18.8 28.1 5.1 35.1
2 17.4 25.6 4.9 33.9
3 16 27.4 5 32.2
4 19.3 29.5 1.7 29.1
5 17.4 27.4 4.5 35.6
6 15.3 25.3 3.6 32.3
7 16.7 25.8 4.4 33
8 17.4 26.7 4.4 33
9 16.2 25.7 2.3 33.9
10 16.7 26.7 6.4 35
11 18.2 28 3.2 29.7
12 16.7 26.7 2.1 34.9
13 18.1 26.7 4.3 31.5
14 16.7 26 3 32.7
15 18.1 30.2 7 34.9
16 20.2 30.5 4.8 34.4
17 20.2 29.5 5.5 36.2
18 21.5 31.5 5.8 36.5
19 18.8 30.6 5.4 35.4
20 21.6 27.8 4.8 34.1
21 21.3 29.5 5.8 35.8
μ,
3032.47729.13289.17265.1
7729.19961.17140.10918.0
3289.17140.13559.32707.2
7265.10918.02707.26508.3
77.33,48.4,87.27,27.18 T
S
x
例 1.24 (续例 1.23 ) 对例 1.23 数据,计算中位数向量 相关矩阵及 Spearman 相关矩阵并进行分析 .
解 由 PROC CORR 过程,算得
及对应 p 值如下:
若取,
其 值 ,认为 与 , 与 , 与 相关,其相关系数无明显统计意义 .
TM )10.34,80.4,40.27,10.18(
M
Q
R
1.000 00
0.0
0.766 06
0.000 1
0.349 88
0.120 0
0.336 49
0.135 8
0.7660 6
0.000 1
1.000 00
0.0
0.431 65
0.050 7
0.340 33
0.1312
0.349 88
0.1200
0.431 65
0.050 7
1.000 00
0.0
0.614 96
0.003 0
0.336 49
0.135 8
0.340 33
0.131 2
0.614 96
0.003 0
1.000 00
0.0
1X 2X 3X 4X
1X
2X
3X
4X
2131.0,8135.0,0120.0,10.0 241413 ppp
10.0p1X 1X3X 4X4X 2X
Spearman 相关矩阵 及对应 值
取 , 的元素 对应 值皆小于 ,故认为 具有统计意义 .
Q p
1.000 00
0.0
0.789 70
0.000 1
0.37844
0.090 7
0.430 54
0.051 4
0.789 70 0.000 1
1.000 00
0.0
0.508 50
0.018 6
0.488 41
0.024 7
0.378 44
0.090 7
0.508 50
0.018 6
1.000 00
0.0
0.691 83
0.0005
0.430 54
0.0514
0.488 41
0.024 7
0.691 83
0.000 5
1.000 00
0.0
1X
1X
2X
2X
3X
3X
4X
4X
Q
Qpjkq10.0 10.0