第十一章 两变量关联性分析

34
第第 第第第第第第第第

Upload: odysseus-soto

Post on 30-Dec-2015

85 views

Category:

Documents


0 download

DESCRIPTION

第十一章 两变量关联性分析. 本章内容. 第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析. 第一节 线性相关. 一 线性相关的概念 线性相关 (linear correlation) 又称 简单相关 (simple correlation) ,用于 双变量正态分布 (bivariate normal distribution) 资料。其性质可由 图 11-2 散点图直观的说明。. 目的 : 研究 两个变量 X,Y 数量上的依存(或相关) 关系。 特点: 统计关系. 二、相关系数的意义与计算. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第十一章 两变量关联性分析

第十一章 两变量关联性分析

Page 2: 第十一章 两变量关联性分析

本章内容

第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析

Page 3: 第十一章 两变量关联性分析

第一节 线性相关

一 线性相关的概念

线性相关 (linear correlation) 又称简单相关 (si

mple correlation) ,用于双变量正态分布 (biva

riate normal distribution) 资料。其性质可由图

11-2 散点图直观的说明。

Page 4: 第十一章 两变量关联性分析

• 目的:研究 两个变量 X,Y 数量上的依存(或相关) 关系。

• 特点:统计关系

Page 5: 第十一章 两变量关联性分析
Page 6: 第十一章 两变量关联性分析

二、相关系数的意义与计算

1. 意义:相关( correlation coefficient )又称 Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。

2. 计算:样本相关系数的计算公式为

2 2

( )( )

( ) ( )XY

XX YY

X X Y Y lr

l lX X Y Y

( 11-3 )

Page 7: 第十一章 两变量关联性分析

• 例 11-2 计算例 11-1 中凝血酶浓度 X 与凝血酶时间 Y 之间样本相关系数。

由例 11-1 得 , , 由公式 11-3 得

15

1

14.7ii

x

15

2

1

14.81ii

x

15n

15

1

224ii

y

15

2

1

3368ii

y

15

1

216.7i ii

x y

2 2

216.7 (14.7)(224) /150.926

14.81 (14.7) /15 3368 (224) /15

Page 8: 第十一章 两变量关联性分析

相关系数的特点

1. 相关系数 r 是一个无量纲的数值 , 且 -1<r<1;

2.r>0 为正相关 ,r<0 为负相关 ;

3./r/ 越接近于 1, 说明相关性越好 ./r/ 越接近于 0, 说明相关性越差 .

Page 9: 第十一章 两变量关联性分析

相关系数的统计推断 (一)相关系数的假设检验

(11-5)

(11-6)

0r

r

rt

s

21

2r

rs

n

Page 10: 第十一章 两变量关联性分析

例 11-3 继例 11-2 中算得 r=-0926 后 , 试检验相关是否具有统计学意义

Page 11: 第十一章 两变量关联性分析

检验步骤

0H: 0,1H: 0,=0.05 本例 n=15 , r=-0.926 ,由公式( 11-4 )和公式( 11-5 )得

2

0.9268.874

1 ( 0.926)15 2

rt

13 t 0.001p 0H

1H 本例 ,查 界值表得 ,故拒绝 接

受 ,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。

Page 12: 第十一章 两变量关联性分析

线性相关中应注意的问题• 1. 样本的相关系数接近零并不意味着两变

量间一定无相关性 .

• 2. 一个变量的数值人为选定时莫作相关 .

• 3. 出现异常值时甚用相关 .

• 4. 相关未必真有内在联系 .

• 5. 分层资料盲目合并易出假象 .

Page 13: 第十一章 两变量关联性分析

第二节 秩相关

Page 14: 第十一章 两变量关联性分析

适用条件 :

① 资料不服从双变量正态分布而不宜作积差

相关分析;

② 总体分布型未知,一端或两端是不确定数

值(如< 10 岁,≥ 65 岁)的资料;

③ 原始数据用等级表示的资料。

Page 15: 第十一章 两变量关联性分析

一、 Spearman 秩相关1. 意义:等级相关系数 rs 用来说明两个变量间直线

相关关系的密切程度与相关方向。

2. 计算公式

)1(

61

2

2

nn

drs

3. 确定 P值---查表 当 50n£ 时,查附表 14的 rs界值表; 当 50n> 时,计算检验统计量 u,查 t界值表。

Page 16: 第十一章 两变量关联性分析

• 例 11-4 某地研究 2~7 岁急性白血病患儿的血小板数与出血症状程度之间的相关性 ,结果见表 11-2, 试用秩相关进行分析

Page 17: 第十一章 两变量关联性分析

表 11-2 急性白血病患儿的血小板 (109/L) 和出血症状

病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq

X p Y q

(1) (2) (3) (4) (5) (6) (7) (8)=(3).(6)

1 121 1 1 +++ 11.5 132.25 11.5

2 138 2 4 ++ 9.0 81 18

3 165 3 9 + 7.0 49 21

4 310 4 16 - 3.5 12.25 14

5 426 5 25 ++ 9.0 81 45

6 540 6 36 ++ 9.0 81 54

7 740 7 49 - 3.5 2.25 24.5

8 1060 8 64 - 3.5 12.25 28

9 1260 9 81 - 3.5 12.25 31.5

10 1290 10 100 - 3.5 12.25 35

11 1438 11 121 +++ 11.5 132.25 126.25

12 2004 12 144 - 3.5 12.25 42

合计 — 78 650 - 78 630 451

Page 18: 第十一章 两变量关联性分析

• 利用表 11-2 中的数据容易算得

秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验

143ppl

123qql

56pql 56

0.422143 123

pqs

pp qq

lr

l l

Page 19: 第十一章 两变量关联性分析

贰 秩相关系数的统计推断

• 检验步骤 假设检验

统计推断 当 时,可查书后的 临界值表,若秩相关系

数超过临界值,则拒绝 ;当 时,也可采用公式( 11-5 )或( 11-6 )式做 检验

1 : 0sH 0 : 0,sH

0.05

0H50n sr

50n t

Page 20: 第十一章 两变量关联性分析

例 11-5 对例 1-4 的秩相关系数作假设检验

• 例 11-4 中算得 查 临界值表, ,按 的水准,不能拒绝 ,

可以认为急性白血病患儿的出血症状与血小板数之间无相关关系

0.442sr sr12,0.1 0.503sr r 0.05

0H

Page 21: 第十一章 两变量关联性分析

第三节 分类变量的关联性分析

Page 22: 第十一章 两变量关联性分析

• 适用条件对定性变量之间的联系通用的方法是根据两

个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验

计算公式2

2 ( )A T

T

Page 23: 第十一章 两变量关联性分析

交叉分类 2×2 表的关联分析• 例 11-6 为观察婴儿腹泻是否与喂养方式

有关,某医院儿科随机收集了消化不良的婴儿 82 例,对每个个体分别观察腹泻与否和喂养方式两种属性, 2×2 种结果分类记述如表 11-3 所示,试分析两种属性的关联性。

Page 24: 第十一章 两变量关联性分析

表 11-3 婴儿腹泻与喂养方式的关系

喂养方式 腹泻 合计 有 无

人工 30 10 40

母乳 17 25 42

合计 47 35 82

Page 25: 第十一章 两变量关联性分析

• 假设检验 : 喂养方式与婴儿腹泻之间相互独立 : 喂养方式与婴儿腹泻之间有关联

将表中各数据代入公式 (7-7) 得

, 拒绝原假设 , 说明婴儿腹泻与喂养方式之间存在关联性 .

0H

1H

0.05

2 9.98

2 20.005,1 7.78, 0.005p

Page 26: 第十一章 两变量关联性分析

表 11-3 婴儿腹泻与喂养方式的关系

喂养方式

腹泻

合计

有 无

人工 30 10 40

母乳 17 25 42

合计 47 35 82

Page 27: 第十一章 两变量关联性分析

二 2×2 配对资料的关联性分析• 例 11-7 有 56 份咽喉涂抹标本,把每份标

本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表 11-5 ,问两种培养基的结果有无关联?

Page 28: 第十一章 两变量关联性分析

表 11-5 两种白喉杆菌培养结果甲培养基 乙培养基 合计

+ -

+ 22 18 40

- 2 14 16

合计 24 32 56

Page 29: 第十一章 两变量关联性分析

• 假设检验 : 两种培养基的结果之间互相独立 : 两种培养基的结果之间有关联

将本例数据代入公式 (7-7) 得

有理由拒绝零假设 , 可以认为甲、乙两种培养基之间存在关联性

0H

1H

0.05

2 9.98 3.84, 0.05p

Page 30: 第十一章 两变量关联性分析

三 R×C 表分类资料的关联性分析

Page 31: 第十一章 两变量关联性分析

• 例 11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表 11-6 的资料。问甲状腺肿类型与祖籍见有否关联?

Page 32: 第十一章 两变量关联性分析

表 11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表

祖籍 甲状腺肿类型 合计

弥漫型 结节型 混合型

甲 486 2 4 492

乙 133 260 51 444

丙 100 315 85 500

合计 719 577 140 1436

Page 33: 第十一章 两变量关联性分析

• 假设检验 : 甲状腺类型与祖籍无关 : 甲状腺类型与祖籍有关联

同样作检验得

由 查 界值表 , , 拒绝零假设 , 说明甲状腺肿类型与祖籍之间有关联性

计算列联系数

0H

1H0.05

2 9.98 (3 1)(3 1) 4, 2 2 2

0.005,4 18.55, 0.005p

2

2

723.7830.579

723.783 1436r

n

Page 34: 第十一章 两变量关联性分析