第十章 分类变量资料的统计分析
DESCRIPTION
第十章 分类变量资料的统计分析. 公共卫生学院 王文军 [email protected] QQ:59389706. 第一节 分类变量资料的统计描述. 常用相对数:率、构成比、相对比. 常用的相对数. 率:说明某现象发生的频率或强度。 构成比:说明某一事物内部各组成部分所占的比重。 相对比:说明一个指标是另一个指标的几倍或百分之几。. (一)率. 定义:率又称频率指标。是指在一定观察时间内,某现象实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度。. 实际发生某现象的观察数. - PowerPoint PPT PresentationTRANSCRIPT
第十章 分类变量资料的统计分析
公共卫生学院 王文军公共卫生学院 王文军[email protected]@163.comQQ:59389706QQ:59389706
第一节 分类变量资料的统计描述
常用相对数:率、构成比、相对比
常用的相对数
率:说明某现象发生的频率或强度。构成比:说明某一事物内部各组成部分所占的比重。
相对比:说明一个指标是另一个指标的几倍或百分之几。
(一)率(一)率
定义:率又称频率指标。是指在一定观察时间内,某现象实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度。
实际发生某现象的观察数率 = ×K 可能发生某现象的观察单位总数
又称频率指标或强度指标
例:某学者对肿瘤诊断的新指标细胞内端粒酶活性表达情况进行研究,资料如下表,试计算端粒酶在不同肺癌病理组织中活性表达的阳性率。
腺癌中端粒酶表达的阳性率 =72/84×100%=85.7%
鳞癌中端粒酶表达的阳性率 =68/82×100%=82.9%
肺癌组织分类 例数 阳性例数腺 癌 84 72
鳞 癌 82 68
端粒酶在肺癌病理组织中的活性表达
实际运用中遇到的特殊情况
分母是难以确定的数: 例:年发病率
– 年中人口数目– 年平均人口数
分子是难以确定的数: 例:慢性疾病或肿瘤的发病率
往往以确诊日期作为发病日期
医学中常用的率
发病率:表示一定时期内,在可能发生某病的一定人群中新发生某病的强度。
患病率:又称为现患率,指某时点上受检人数中现患某种疾病的频率,患病率分为时点患病率和期间患病率。
治愈率:表示受治病人中治愈的频率。
医学中常用的率
有效率:表示受治病人中治疗有效的频率。生存率:指病人能活到某一时点的概率。死亡率:某疾病的死亡人数与观察人数之比病死率:某疾病的死亡人数与该病的患病人数之比。
练习:请问下面哪个指标能最好反映疾病对人群的威胁程度?
发病率病死率患病率死亡率现患率
(二)构成比(二)构成比
定义:构成比又称构成指标,表示事物内部某一部分的观察数与事物内部各部分的观察单位数总和之比,常以百分数表示。用以说明事物内部各部分所占的比重或分布。
构成比 = ×100%事物内部某一部分的观察单位数
事物内部各部分的观察单位数总和
构成比的特征构成比的特征
40%
10%
20%
30%
第一季度
第二季度
第三季度
第四季度
45%
15%
15%
25%
各部分构成比的合计等于 100% 或 1事物内部某部分的构成比发生变化,其他部分的构成比也相应地发生变化
某医院某年门诊病人构成情况
某医院 2000 年与 2002 年各科病床情况
科别 2000 年 2002 年
病床数 构成比 病床数 构成比
内科 200 50.0 300 60.0
外科 100 25.0 100 20.0
儿科 100 25.0 100 20.0
合计 400 100.0 500 100.0
例:某研究者于 2000 年对某校的初中生进行了近视患病情况的调查,结果见下表,试计算各年级初中生近视患病率及患病者中各年级的构成比。
年级 检查人数 患病人数 患病率(%) 构成比(%)
一年级 442 67
二年级 428 68
三年级 405 74
合 计 1275 209
2000 年某初中近视的患病率及构成比
例:某研究者于 2000 年对某校的初中生进行了近视患病情况的调查,结果见下表,试计算各年级初中生近视患病率及患病者中各年级的构成比。
年级 检查人数 患病人数 患病率(%) 构成比(%)
一年级 442 67 15.16 32.06
二年级 428 68 15.89 32.53
三年级 405 74 18.27 35.41
合 计 1275 209 16.39 100.00
2000 年某初中近视的患病率及构成比
(三)相对比(三)相对比
定义:相对比是两个有关指标之比,说明一个指标是另一个指标的几倍或百分之几。
相对比 = (或 ×100% )甲 指 标乙 指 标
两个指标可以是性质相同的,(如两病区病床数之比);也可以是性质不同 的(如小鼠肝重与体重之比);两个指标可以是绝对数,也可以是相对数或平均数。
例:某地区人口数为 2400 人,该地区所有医疗部门病床床位数为 760 张,试求该地区人均占有病床数?
人均占有病床数 =760/2400=0.317
二、应用相对数时的注意事项
计算相对数时,观察单位数应足够多 分析时构成比和率不能混淆 观察单位不等的几个率的平均率不等于这几个率
的算术平均值 相对数的相互比较应注意可比性 率的比较要进行标准化 样本率或构成比的比较应做假设检验
1 、计算相对数时,分母不宜过少
例如:某医生用组织埋藏法治疗了 2例视网膜炎患 者, 1例有效,即报道有效率为 50% 。这显
然是不可靠的,不能正确反映事实真相, 这时最好用绝对数表示。
2 、分析时不能以构成比代替率
年级 检查人数 患病人数 患病率(%) 构成比(%)
一年级 442 67 15.16 32.06
二年级 428 68 15.89 32.53
三年级 405 74 18.27 35.41
合 计 1275 209 16.39 100.00
2000 年某初中近视的患病率及构成比
强度性指标
构成性指标
以比代率
33 、平均率的计算、平均率的计算
观察单位不等的几个率的平均率,不能简单的相加后求平均值而得到,应该把所有实际发生某现象的观察数相加后,除以可能发生该现象的所有观察单位总数。
3321
3
3
3
2
2
2
1
1
1
pppP
na
Pna
Pna
P
321
321
nnnaaa
P
某医院各科的病死率 科别 患者数 死亡数 病死率( % ) 外 科 1500 180 12.0
内 科 500 20 4.0
传染科 400 24 6.0
合计 2400 224 7.3
( 12.0+4.0+6.0 ) /3×100%=7.3%
平均率 =224/2400×100%=9.3%
44 、对率和构成比进行比较时,应注意可比性、对率和构成比进行比较时,应注意可比性
除了研究因素外,其余的影响因素应尽可能相同或相近。
例如比较两地区慢性支气管炎的患病率是应主要考虑什么因素? 因慢性支气管炎好发于老年人,所以年龄可能为主要的混杂因素
55 、率的标准化、率的标准化
消除混杂因素,使其内部构成保持一致,便于比较。
66、两样本率比较时应进行假设检验、两样本率比较时应进行假设检验
遵循随机抽样:
假设检验:–抽样– 本质
三、率的标准化
标准化法的意义和基本思想– 意义意义:消除混杂因素的影响– 基本思想基本思想:采用统一的标准构成(例年龄、
性别、民族、病情等构成),以消除人口构成不同对研究因素的影响。将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其具有可比性。
年龄组(岁)
甲 县 乙 县
人口数人口构成
死亡人数 死亡率 人口数
人口构成
死亡人数 死亡率
0~ 1756879 0.6520 0 0 1725819 0.6580 0 0
30~ 244942 0.0909 12 4.9 289298 0.1103 25 8.6
40~ 251678 0.0934 91 36.2 250480 0.0955 125 49.9
50 ~ 206947 0.0768 307 148.3 191204 0.0729 344 179.9
60~ 143893 0.0534 460 319.7 114355 0.0436 371 324.4
70~ 90270 0.0335 292 323.5 51670 0.0197 170 329.0
合计 2694627 1.0000 1162 43.12 2622826 1.0000 10.5 39.46
甲乙两县各年龄组人口数及食管癌死亡率( 1/10万)
率的标准化率的标准化
率的标准化率的标准化
某市甲乙两院各科出院和治愈人数( 2007 年)
科室甲 院 乙 院
出院人数 治愈人数 治愈率(%)
出院人数 治愈人数 治愈率(%)
内 科 687 211 30.71 218 69 31.65
妇 科 456 398 87.28 486 412 84.77
小儿科 239 219 91.63 252 228 90.48
外 科 205 198 95.59 698 667 95.56
合 计 1587 1026 64.65 1654 1376 83.19
(一)方法选择(一)方法选择
直接法– 已知被标化组的年龄别率,以及已知标准组
的年龄别人口数或年龄别人口构成比时; 间接法
– 已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时;
资料齐全时,首选直接法
(二)标准选择(二)标准选择
选择一个具有代表性的、内部构成相对稳定的较大人群;
将相互比较的人群合并后,作为共同的标准;从要比较的两组中任选一组的内部构成作为标
准。
(三)标准化率的计算(三)标准化率的计算
符号识别
直接法直接法已知标准组各科室出院人数时: p’=(∑Nipi)/N
甲院标准化治愈率 p’=2413.19/3241=74.46%乙院标准化治愈率 p’=2392.13/3241=73.81%
直接法直接法
已知标准组各科室出院人数构成比: p’=∑(Ni/N)pi
p’=(∑Nipi)/N
间接法 间接法 p’=P. r/∑nipi ; SMR= r/∑nipi (标准化死亡 /治愈比)
SMR 甲 =1026/1046.7069=0.9802 ; SMR 乙 =1376/1431.7478=0.9611P’ 甲 =P× SMR 甲 =0.7058 ×0.9802=69.18%P’ 乙 =P× SMR 乙 =0.7058 ×0.9611=67.83%
标准化死亡比( SMR )
SMR>1 :表示被标化人群的死亡率高于标准组; SMR<1 :表示被标化人群的死亡率低于标准组;
iiPN
rSMR
预期死亡数被标化实际死亡数
标准的选择标准的选择
选择一个具有代表性的、内部构成相对稳定的较大人群;
将相互比较的人群合并后,作为共同的标准;从要比较的两组中任选一组的内部构成作为标
准。
练 习某市甲乙两院各科出院和治愈人数
科室甲 院 乙 院
出院人数 治愈人数 治愈率(%)
出院人数 治愈人数 治愈率(%)
内 科 687 211 30.71 218 69 31.65
妇 科 456 398 87.28 486 412 84.77
小儿科 239 219 91.63 252 228 90.48
外 科 205 198 95.59 698 667 95.56
合 计 1587 1026 64.65 1654 1376 83.19
已知标准组各科室出院人数 -------直接法 p’=(∑Nipi)/N
甲院标准化治愈率 p’=2413.19/3241=74.46%乙院标准化治愈率 p’=2392.13/3241=73.81%
选择甲院为标准人群
科室甲 院 乙 院
出院人数 治愈人数 治愈率(%)
出院人数 原治愈率(%)
预期治愈人数
内 科 687 211 30.71 218 31.65 217.44
妇 科 456 398 87.28 486 84.77 386.55
小儿科 239 219 91.63 252 90.48 216.25
外 科 205 198 95.59 698 95.56 195.90
合 计 1587 1026 64.65 1654 83.19 1016.14
选择甲院为标准人群对乙院进行标准化
乙院标准化率: p’=1016.14/1587=64.03%
科室甲 院 乙 院
出院人数
治愈人数
治愈率(%)
预期治愈人数
出院人数
治愈人数
治愈率(%)
内 科 687 211 30.71 66.95 218 69 31.65
妇 科 456 398 87.28 424.18 486 412 84.77
小儿科 239 219 91.63 230.91 252 228 90.48
外 科 205 198 95.59 667.22 698 667 95.56
合 计 1587 1026 64.65 1389.25 1654 1376 83.19
选择乙院为标准人群
甲院标准化率: p’=1389.25/1654=83.99%
选择乙院为标准人群对甲院进行标准化
不同标准选择结果对比
标准选择 甲医院 乙医院合并两医院 74.46 73.81
已甲医院 64.65 64.03
已乙医院 83.99 83.19
(四)率的标准化注意要点
标准化的目的在于消除混杂因素对结果的影响,使标准总率具有可比性;通常,直接法因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用间接法;
当比较几个标准化率时,应采用同一个标准人口。由于选定的标准人口不同,算得的标准化率也不同,但是比较时的结论不变。
各年龄组率间出现明显交叉时,宜比较年龄组死亡率,而不用标准化法;
两样本标准化率的比较应作假设检验。
小 结
分类资料的统计描述,先要编制分类资料的频数表,得到绝对数指标,再计算相应相对数;
相对数的计算法不同,说明的问题也不同,应用时需注意:分母一般不宜过小,不以构成比代替率,可比性,样本指标需遵循随机抽样,比较时应做假设检验。
标准化法目的在于消除混杂因素对结果的影响。
两地总死亡率比较
结合专业知识考虑有无混杂因素(如年龄)
年龄与死亡率有无关系 两地人口年龄构成是否相同无
有 不同
同
两地各年龄组死亡率 pi
(无明显交叉)
标准组各年龄组人数 Ni
或构成比 Ni/N
被标化组各年龄人数 ni
及死亡总数 r
标准组各年龄组死亡率 P
i 及总死亡率 P
直接法:标化率 p’=(∑Nipi)/N= ∑(Ni/N)pi
间接法: SMR= r/∑nipi
标化率 p’=P . SMR
已知条件
第二节 分类变量资料统计推断
公共卫生学院 王文军公共卫生学院 王文军[email protected]@163.comQQ:59389706QQ:59389706
率的抽样误差与标准误
(1 )
(1 )
p
p
n
p ps
n
(( 理论值理论值 ))
((估计值估计值 ))
例: 在某镇按人口的 1/20 随机抽取 329人,作血清登革热血凝抑制抗体反应检验,得到阳性率为8.81 %,试求此阳性率的抽样误差。
本例,已知: n=329, p=0.0881, 代入公式可得:
n
ppS p
)1(
%56.10156.0329
)0881.01(0881.0)1(
n
ppS p
二、参数估计 点估计: p π 区间估计
– 正态近似法:当样本含量 n 足够大,样本率 p 或 1-p 均不太小时 [ 如 np 和 n(1-p) 均大于 5] ,样本率的分布近似正态分布,总体率可信区间在( 1-a )可信度下,估计为:
P±uαSp
例:总体率 95% 的可信区间: P±1.96Sp
总体率 99% 的可信区间: P±2.58Sp
– 查表法:当 n 较小,如 n≤50 ,特别是 p接近与 0 或 1 时(小概率事件),按二项分布原则估计总体率的可信区间。使用百分率可信区间表。
P ( X ) =Cnx(1- π)n-x πx
例:在某镇按人口的 1/20 随机抽取 329人,作血清登革热血凝抑制抗体反应检验,得到阳性率为 8.81 %,求得阳性率的抽样误差为 0.0156,试求抗体阳性率的 95%及 99%的可信区间?
已知: n=329 , p=0.0881 , sp=0.0156
n.p=329×0.0881=28.98> 5 ,符合正态近似法的条件95% 可信区间: p±1.96 sp = 0.0881 ±1.96 ×0.0156=0.0575~0.1187
即: 5.75%~11.87%
99% 可信区间: p±2.58 sp = 0.0881 ±2.58 ×0.0156=0.0479~0.1283
即: 4.79%~12.83%
例:某校校医用仪器矫治 25名学生的近视眼,其中 3人近期有效,求该方法近期有效率的 95% 的可信区间。
n=25<50 ,采用查表法: 在 n=25横行,和 x=3 的纵列交叉处上行的
数值为 3~ 31 ,即该法近期有效率的 95% 可信区间为: 3% ~ 31%
注意:表中 X 值只列出 X≤n/2 部分,当 x>n/2 时,应以 n-X 值查表,然后用 100减去查得的数值,即为可信区间
百分率的可信区间上行: 95% 可信区间 下行: 99% 可信区间
nx
0 1 2 3 4 5 6 7 8
10-98
0-100
20-84
0-93
1-99
0-100
100-31
0-41
0-45
0-54
3-56
1-65
7-65
4-74
12-74
8-81
19-81
13-87
250-14
0-19
0-20
0-26
1-26
0-32
3-31
1-37
5-36
3-42
7-41
5-47
9-45
7-51
12-49
9-56
15-54
11-60
例:某县抽查了 10名献血员的 HBsAg携带情况,阴性者 8 人,求该县献血员 HBsAg阴性率的 95% 的可信区间。
本例 n=10 , X=8 , X>n/2 ,故以 X=10-8=2查表,得到 3~ 56 ,再用:
100-3=97
100-56=44
即该县献血员 HBsAg阴性率的 95% 的可信区间为 44%~ 97%
三、总体率的 u 检验
条件:当样本含量 n 足够大,样本率 p 或 1-p
均不太小时,即 np 和 n(1-p) 均大于 5 ,样本率的分布近似于正态分布
假设检验
1-α
总体率的总体率的 uu 检验检验
样本率与总体率的比较
两个样本率的比较
总体率的总体率的 uu 检验——步骤检验——步骤
步骤:建立检验假设 H0 和备择假设 H1
确定检验水准选定检验方法和计算检验统计量 确定 P 值和作出推断结论
总体率的总体率的 uu 检验检验
例:
故可认为该油田职工家属高血压患病率与一般人不同故可认为该油田职工家属高血压患病率与一般人不同
练 习( 1 ) 经长期临床观察 , 发现胃溃疡患者发生胃出血症状的占 20% 。现某医院观察了 304 例 65 岁以上的老年胃溃疡患者,有 96 例发生胃出血症状。问老年胃溃疡患者是否较一般患者更易发生胃出血?
65 岁以上老年胃溃疡患者胃出血率为 :P=96/304=31.58% ,样本 p 和 1-p 均不接近于零,且 np 与 n(1-p) 均大于 5 ,样本率的分布近似于正态分布。
( 1 )建立检验假设,确定检验水准 H0: = 0,即老年胃溃疡患者胃出血发生率与一般患者相同 H1: > 0,即老年胃溃疡患者胃出血发生率高于一般患者 = 0.05
( 2 ) 计算检验统计量 。
( 3 ) 确定 P 值 , 做出推断结论。查表得 , P<0.01, 按 = 0.05 水准拒绝 H0, 接受 H1, 认为老年胃溃疡患者较一般患者更易发生胃出血。
05.5
304)20.01(20.0
20.03158.0
)1( 00
0
n
pu
某研究者在某地区随机抽取 10岁儿童 100人, 20 岁青年 120 人,检查发现 10岁儿童中有70人患龋齿, 20岁青年中有 60人患龋齿,问该地区 10岁儿童与 20岁青年患龋齿率是否相等?
练 习( 2 )
( 1 )建立检验假设,确定检验水准 H0 : 1 = 2 ,即两组人群龋患率相同 H1 : 1 2 ,即两组人群龋患率不同 = 0.05 (2) 计算检验统计量 。 本例 , p1=70/100=0.70, p2=60/120=0.50
pc =(70+60 ) / ( 100+120)=0.5909
(3) 确定 P 值 , 做出推断结论。 查表得 P<0.01 ,按 = 0.05 水准拒绝 H0, 接受H1 ,认为该地 10 岁儿童与 20岁青年龋患率不同。
004.3
1201
1001
5909.015909.0
50.070.0
)11
)(1(21
21
nnpp
ppu
cc
第三节: χ2 检验
定义: 当需要进行两个或两个以上样本率比较,并试图从
样本率的差别来推断其所代表的总体率是否也存在差别时,为保证推断的科学性,必须做样本率的显著性检验,这种检验的方法叫做 χ2 检验。
χ2 检验的基本思想 假设两组资料率的差异来自抽样误差,用 χ2 值反映
实际频率和理论频数吻合的程度。
χχ22 检验的基本思想 检验的基本思想
处理方法 生 存 死 亡 合 计 生存率( % )
甲疗法 52 (46.09) 34 (39.91) 86 60.47
乙疗法 45 (50.91) 50 (44.09) 95 47.37
合计 97 84 181 53.59
甲乙两种疗法治疗前列腺癌的 3 年生存率比较
χ2 =∑————T
( A- T ) 2
TRC=————nR× nC
n
( A: 实际频数; T :理论频数)
ν= (行数- 1 ) × (列数 - 1 )
注意:计算自由度时使用的是格子数,而不是例数。
χχ22 检验的基本思想 检验的基本思想
χ2 值、 P 值和统计结论
χ2 值 P 值 统计结论
< χ2 0.05(ν) > 0.05 不拒绝 H0 ,差异无统计学意义
≥ χ2 0.05(ν) ≤0.05 拒绝 H0 ,接受 H1 ,差异有统计学意义
χ2 界值表( P330 )
χ2 界值表( P330 )
χ2 0.05 ( 1 ) =
χ2 0.01 ( 1 ) =
χ2 0.05 ( 7 ) =
χ2 0.01 ( 14 ) =
3.84
6.63
14.07
29.14
二、四格表资料的 χχ22 检验
1818497合计9550 (44.09)45 (50.91)乙疗法8634 (39.91)52 (46.09)甲疗法
合 计死 亡生 存处理
甲乙两种疗法治疗前列腺癌的 3 年生存率比较
四格表资料 χχ22 检验的基本步骤①建立假设: H0 : π1=π2 , H1 : π1≠π2 , α=0.05
②计算理论数和 χ2 统计量
③确定 P 值: ν= (行数- 1 ) × (列数 - 1 ) = ( 2-1 ) × ( 2-1 ) =1 , 根据自由度查界值表 χ2
0.05(1)=3.84 ,本例 χ2 =3.11< 3.84 , P 值> 0.05
④结论 按 α=0.05水准,不能拒绝 H0 ,故不能认为两种疗法治疗前列腺癌的 3
年生存率有所不同。
χ2 =∑————=T
( A- T ) 2
1818497合计9550 (44.09)45 (50.91)乙疗法8634 (39.91)52 (46.09)甲疗法
合 计死 亡生 存处理
甲乙两种疗法治疗前列腺癌的 3 年生存率比较
处理方法 生 存 死 亡 合 计 生存率( % )
甲疗法 52 (46.09) 34 (39.91) 86 60.47
乙疗法 45 (50.91) 50 (44.09) 95 47.37
合计 97 84 181 53.59
甲乙两种疗法治疗前列腺癌的 3 年生存率比较
536.0181
4552 c
p
764.1)
11)(1(
21
21
nnpp
ppu
cc
χχ22 检验与两样本率的 U 检验的联系
如果资料符合要求,两种检验结果是一致的:
ΧΧ22=u=u22
χ2 0.05 ( 1 ) =3.84
( u 0.05 ) 2= ( 1.96 ) 2 =3.84
四格表资料专用公式四格表资料专用公式
))()()((
)( 22
dcdbcaba
nbcad
四格表资料四格表资料 χχ22 检验的条件检验的条件
所有格子的理论频数都大于等于 5( T≥5),而且总的样本数大于等于 40,( n ≥ 40)
a b nR
c d
nC n nnn
T CR+ -
甲乙
四格表资料四格表资料 χχ22 检验的校正检验的校正
1≤T< 5 ,而 n≥40 时,需计算校正 χ2 值, T< 1 或 n< 40 时,需用确切概率法进行校正
– 校正校正 χχ22 值的公式:值的公式:
– 确切概率法的公式:确切概率法的公式:
P= —————————————a!b!c!d!n!
(a+b)!(c+d)!(a+c)!(b+d)!
a b a+b
c d c+d
a+c b+d n
))()()((
)2/( 22
dbcadcba
nnbcad
T
TA 2
2)5.0(
例:某医生用两种方法治疗心绞痛,结果如下表,试比较两种疗法的疗效有无差异?
疗法 有效 无效 合计 有效率 (%)
甲疗法 23 6 29 79.31
乙疗法 27 3 30 90.00
合计 50 9 59 84.75
用两种方法治疗心绞痛效果比较
T12=29×9/59=4.42< 5
③确定 P 值: ν= ( 2- 1 ) × ( 2- 1 ) =1 , 查界值表得 χ2
0.05(1)=3.84 , 本例 χ2 =0.61< 3.84 , P 值> 0.05 。
疗法 有效 无效 合计 有效率 (%)
甲疗法 23 6(4.42) 29 79.31
乙疗法 27 3 30 90.00
合计 50 9 59 84.75
用两种方法治疗心绞痛效果比较①建立假设:
H0 : π1=π2 ,
H1 : π1≠π2 , α=0.05②计算 χ2 值: T12=29×9/59=4.42< 5 , n=59> 40 ,故采用校正公式
④结论: 按 α=0.05水准,不拒绝 H0 ,故认为两种疗法治疗心绞痛无差别。
三、四格表配对资料的 χχ22 检验
配对四格表资料也叫 2×2列联表,是对配对设计研究所获得的计数资料进行比较。
配对设计:– 同一批样品用两种不同的处理方法。– 观察对象根据配对条件配成对子,同一对子内不
同的个体分别接受不同的处理。– 在病因和危险因素的研究中,将病人和对照按配
对条件配成对子,研究是否存在某种病因或危险因素。
例:某研究者用凝集试验和细菌培养两种方法,同时对 65 例慢性菌痢患者的粪便进行检查,结果如下表,问两种方法检出率是否有差别?
基本思想:基本思想:表中 a 与 d 为结果相同的部分,两种方法是否有差别可以不予考虑,主要比较结果不同部分 b 与 c 。如果两种方法检查效果相同,理论上应有总体 B=C ,故可以通过 b 、 c 的差别大小来判断两种方法的差别。
四格表配对资料的四格表配对资料的 χχ22 检验检验
凝集法培养法
合计+ -
+ 37(a) 5(b) 42
- 10(c) 13(d) 23
合计 47 18 65
两种方法检出结果
配对资料卡方检验公式的推导
cb
cbcb
cbc
cb
cbb
T
TAx
222
22 )(
2
)2
(
2
)2
()(
+ -+ a b
- c d
应用公式
b+c≥40
b+c< 40
+ -+ a b
- c d
四格表配对资料的四格表配对资料的 χχ22 检验检验
ν= (行数- 1 ) × (列数 - 1 ) =1
例:某研究者用凝集试验和细菌培养两种方法,同时对 65 例慢性菌痢患者的粪便进行检查,结果如下表,问两种方法检出率是否有差别?
凝集法培养法
合计- +
+ 5 37 42
- 13 10 23
合计 18 47 65
两种方法检出结果
检验步骤
①建立假设: H0 : B=C , H1 : B≠C , α=0.05②计算 χ2 值:b+c=15 < 40,故采用校正公式
③确定 P 值: ν= ( 2- 1 ) × ( 2- 1 ) =1 ,查界值表得 χ2
0.05(1)=3.84 , 本例 χ2 =1.07< 3.84 , P 值> 0.05 。④结论: 按 α=0.05水准,不拒绝 H0 ,故认为两种方法检查无差别
凝集法培养法
合计+ -
+ 37(a) 5(b) 42
- 10(c) 13(d) 23
合计 47 18 65
两种方法检出结果
四格表配对资料的四格表配对资料的 χχ22 检验检验
四、行 ×列表资料的 χχ22 检验
定义: 行 ×列表是指有两个或两个以上的比较组,记录的观
察结果也有两个或两个以上的结果。 用途: 用于多个样本率或构成比差异的比较 公式:
n 为总例数, A 为每个格子里的实际频数, nR 和 n
c 分别为与 A 值相对应行和列合计的例数
合计
A nc
合计 nR
)1(2
2 CRnn
Anx
ν= (行数- 1 ) × (列数 - 1 )
地区 未污染 污染 合计 污染率 (%)
甲 6 23 29 79.3
乙 30 14 44 31.8
丙 8 3 11 27.3
合计 44 40 84 47.6
三个地区花生的黄曲霉毒素 B1污染率的比较
练习:某研究者欲比较三个地区花生中黄曲霉毒素 B1 的污染情况,详见下表,试比较三个地区污染情况有何差别?
检验步骤
①建立假设: H0 :三个地区花生的黄曲霉毒素 B1污染率相等, π1=π2 = π3 , H1 :三个地区花生的黄曲霉毒素 B1污染率不相等或不全相等, α=0.05 ②计算 χ2 值:
③确定 P 值: ν= ( 3- 1 ) × ( 2- 1 ) =2 ,查界值表得 χ2
0.05(2)=5.99 , 本例 χ2 =17.91 > χ2
0.05(2) , P 值< 0.05 。④结论: 按 α=0.05水准,拒绝 H0 ,接受 H1 ,故认为三个地区花生的黄曲霉毒素
B1污染率不相等或不全相等,有地区差异。
地区 未污染 污染 合计 污染率(%)
甲 6 23 29 79.3
乙 30 14 44 31.8
丙 8 3 11 27.3
合计 44 40 84 47.6
三个地区花生的黄曲霉毒素 B1污染率的比较行行 ××列表资料的列表资料的 χχ22 检验检验
91.17)14411
3
4411
8
4044
14
4444
30
4029
23
4429
6(84)1(
22222222
CRnn
Anx
注意事项
如果假设检验的结果是拒绝无效假设( H0 ),只能认为各总体率或构成比之间总的来说有差别,但并不能说明他们彼此之间都有差别。
χχ22 检验要求理论频数不宜太小,否则将导致分析的偏性。一般要求不能有 1/5 以上的格子理论数小于 5 ,或者有一个格子的理论数小于 1 。– 最好增加样本例数,以增大理论频数– 删去上述理论频数太小的行和列– 将太小的理论频数所在行或列与性质相近的邻行或邻列种的实际频数合并,使重新计算的理论频数增大。
行行 ××列表资料的列表资料的 χχ22 检验检验
小结
率的抽样误差:总体率的参数估计:正态近似法、查表法率的假设检验
– U 检验–卡方检验
练 习 题1.已知 2006 年某医院住院患者中,胃癌患者占 5% ,该指标为: A 、发病率 B 、构成比 C 、相对比 D 、标准化率2. 某地男性男性肺癌发病率是女性的 10 倍,该指标为: A 、流行率 B 、构成比 C 、相对比 D 、标准化率3. 下列哪一指标为相对比 A 、均数 B 、中位数 C 、变异系数 D 、几何均数4. 假设对两个率差别的假设检验分别用 u 检验和 χ2 检验,则求出的 u 值和 χ2 值的关系有:
A 、 χ2 检验比 u 检验准确 B 、 u 检验比 χ2 检验准确 C 、 u= χ2 D 、 u2= χ2
5.四个样本率的比较,进行卡方检验,其自由度为: A 、 1 B 、 2 C 、 3 、 D 、 4
6.经调查得知甲乙两地的冠心病粗死亡率同为 40/万,按年龄构成标化后,甲地冠心病标化死亡率为 45/万,乙地为 38/万,因此可认为
A 、甲地年龄别人口构成较乙地年轻 B 、乙地年龄别人口构成较甲地年轻 C 、甲地冠心病的诊断较乙地准确 D 、乙地冠心病的诊断较甲地准确7. 本是配对四格表 χ2 检验的资料,误作一般四格表 χ2 检验,则 A 、本来差别有显著性,可能判为差别无显著性 B 、本来差别无显著性,可能判为差别有显著性 C 、可能加大第一类误差 D 、第一类误差和第二类误差不变8. 进行四个样本率比较的 χ2 检验,如 χ2> χ2
(0.01,3) A 、各样本率均不相同 B 、各总体率均不相同 C 、各总体率不同或不全相同 D 、各样本率不同或不全相同
9.若仅知道样本率,估计率的抽样误差时应用下列哪个指标表示 A 、 sp B 、 s C 、 σ D 、10 、某四格表资料用 χ2 检验的基本公式算得为 A ,用专用公式
算得为 B ,则 A 、 A> B B 、 A= B C 、 A< B D 、 A 比 B 准确11 、要比较甲乙两厂某工种工人中某职业病患病率的高低,采
用标准化法的原理是 A 、假设甲乙两厂该工种的工人数相同 B 、假设甲乙两厂患该职业病的工人数相同 C 、假设甲乙两厂工人的工龄构成比相同 D 、假设甲乙两厂该工种工人的工龄构成比相同12 、行 ×列表的 χ2 检验应注意 A 、任意格子的理论数若小于 5 ,则应该用校正公式 B 、若有五分之一以上格子的理论数小于 5 ,则要考虑合理并组 C 、任一格子的理论数小于 5 ,就应并组 D 、若有五分之一以上格子的理论数小于 5 ,则应该用校正公式
xs
13 、用两种方法治疗胆结石,用中药治疗 19 人,其中 15 人治愈;用西药治疗 18 人,治愈 12人。若比较两种方法的治疗效果,应该用
A 、 B 、 C 、 D 、确切概率法
T/TA 2 T/.TA2
50
T/TA2
1
判别下列公式各代表什么意义?
样本中 95%正常值的范围
总体均数 95%的可信区间
总体中 95%样本均数的范围
总体率 95%的可信区间