研究对象:总体和样本

56
研研研研 研研 研研研 :体 研研研研 研研 研研研 :体 研研研研研研研研研研 研研研 研研研研研研研研研研 研研研

Upload: ethan-young

Post on 01-Jan-2016

107 views

Category:

Documents


0 download

DESCRIPTION

研究对象:总体和样本. 上海交通大学护理学院 侯晓静. 教学目标. 掌握抽样原则、过程及方法 掌握基本概念:样本、总体、误差 熟悉样本含量估计的参数、方法及注意事项. 基本概念. 1. 抽样过程及方法. 2. 样本含量估计. 3. 总体和样本. 第一节 基本概念. 总体 (population) 根据研究目的确定具有相同性质的 个体所构成的全体,总体所包含的范围 随研究目的不同而改变。. 总体类型. 无限总体. 可得总体. 有限总体. 目标总体. 观察单位( observed unit ). - PowerPoint PPT Presentation

TRANSCRIPT

研究对象:总体和样本研究对象:总体和样本

上海交通大学护理学院 侯晓静上海交通大学护理学院 侯晓静

教学目标教学目标

掌握抽样原则、过程及方法掌握抽样原则、过程及方法

掌握基本概念:样本、总体、误差掌握基本概念:样本、总体、误差

熟悉样本含量估计的参数、方法及熟悉样本含量估计的参数、方法及

注意事项注意事项

总体和样本总体和样本

基本概念 1

抽样过程及方法 2

样本含量估计 3

第一节 基本概念第一节 基本概念

总体总体 (population)(population) 根据研究目的确定具有相同性质的根据研究目的确定具有相同性质的

个体所构成的全体,总体所包含的范围个体所构成的全体,总体所包含的范围

随研究目的不同而改变。随研究目的不同而改变。

总体类型总体类型

无限总体无限总体

有限总体

可得总体

目标总体

也称个体或研究单位。也称个体或研究单位。指研究总体的单位组成部指研究总体的单位组成部分,是科学研究中的最基分,是科学研究中的最基本单位。本单位。

观察单位可以是一个观察单位可以是一个人,也可以是特指的一群人,也可以是特指的一群人,甚至是一个器官或一人,甚至是一个器官或一个细胞等。个细胞等。

观察单位( observed unit )

从总体中抽取、进行研究的部分从总体中抽取、进行研究的部分

观察单位组成的集合称为样本。观察单位组成的集合称为样本。

抽样目的在于用样本信息推断总体抽样目的在于用样本信息推断总体

特征。特征。

样本必须对于其所属的总体具有代样本必须对于其所属的总体具有代 表性。表性。

样本( sample )

误差(误差( errorerror )) 护理研究中,研究者的观察结果与真实护理研究中,研究者的观察结果与真实值的偏离,称为误差。值的偏离,称为误差。

误差的常见类型误差的常见类型

系统误差系统误差 定义定义::由某些不能由某些不能

准确定量但较为恒定准确定量但较为恒定因素的所致,原因通因素的所致,原因通常可以把握。常可以把握。

来源来源 : :受试者、观察受试者、观察者、仪器、外环境等者、仪器、外环境等非试验因素非试验因素

控制控制::正确的实验设正确的实验设计、严格的技术措施计、严格的技术措施

抽样误差抽样误差 定义定义::随机抽样产随机抽样产

生的样本指标与总体生的样本指标与总体指标存在差异,是一指标存在差异,是一类无规律、不恒定的类无规律、不恒定的随机变化的误差。抽随机变化的误差。抽样误差不可避免样误差不可避免

来源来源::随机抽样引随机抽样引起起

控制控制::重复原则、重复原则、增加样本量、提高精增加样本量、提高精密度密度

系统误差与抽样误差区别系统误差与抽样误差区别

第二节 抽样过程及方法第二节 抽样过程及方法

抽样(抽样( samplingsampling )) 从总体抽取部分观察单位获得样本的过程。从总体抽取部分观察单位获得样本的过程。

总体 样本

明确总体明确总体 列出抽样标准列出抽样标准 选择合适的样本量和抽样方法选择合适的样本量和抽样方法 确定样本确定样本

抽样过程诊断标准纳入标准排除标准

保证样本的可靠性保证样本的可靠性 指样本中每一个观察单位来自同指样本中每一个观察单位来自同质总体,即研究对象的选择要有明确的诊质总体,即研究对象的选择要有明确的诊断标准、纳入标准、排除标准。断标准、纳入标准、排除标准。

选取有代表性的样本选取有代表性的样本 随机化原则、足够样本量。随机化原则、足够样本量。

抽样原则

随机化原则随机化原则

• 随机抽样随机抽样::总体中的每一个观察单位都有总体中的每一个观察单位都有同样的几率被选入样本同样的几率被选入样本

• 随机分配随机分配::每一个被选入样本的观察单位每一个被选入样本的观察单位都有同样的几率被分配入实验组和对照组都有同样的几率被分配入实验组和对照组

抽样方法抽样方法概率抽样概率抽样::使用随机的方法进行抽样,使用随机的方法进行抽样,使总体中的每一个观察单位都有同样的使总体中的每一个观察单位都有同样的几率被选入样本几率被选入样本

非概率抽样非概率抽样::抽样时未采取随机的方法,抽样时未采取随机的方法,总体中的每个个体并非由相同的几率进总体中的每个个体并非由相同的几率进入样本。入样本。

抽样方法抽样方法

概率抽样概率抽样 (( 随机随机 ))• 单纯随机抽样单纯随机抽样• 系统抽样系统抽样• 分层抽样分层抽样• 整群抽样整群抽样• 多级抽样多级抽样

非概率抽样非概率抽样 (( 非随非随机机 ))

• 方便抽样方便抽样• 配额抽样配额抽样• 目的抽样目的抽样• 网络抽样网络抽样

方法方法::将全体研究对象统一编号,再用将全体研究对象统一编号,再用随机随机数字表数字表、、计算机随机抽样计算机随机抽样、或、或抽签抽签的方法的方法随机抽取部分个体组成样本随机抽取部分个体组成样本

优点优点::研究个体进入样本完全随机,使概率研究个体进入样本完全随机,使概率抽样中最基本的方法。抽样中最基本的方法。

缺点缺点::研究对象较多时,将所有对象统一编研究对象较多时,将所有对象统一编号往往难以做到。号往往难以做到。

概率抽样 --单纯随机抽样

例例 :: 单纯随机抽样单纯随机抽样 ---- 抽签法抽签法 准备从某校 准备从某校 20002000 名学生中抽取名学生中抽取 100100 人人调查考试焦虑问题调查考试焦虑问题

对对 20002000 名学生编号并做成签号 名学生编号并做成签号 混匀签号 混匀签号

随机抽取随机抽取 100100 个签号个签号

签号对应签号对应 100100 名学生为调查对象名学生为调查对象

例:单纯随机抽样例:单纯随机抽样 ---- 随机数字表法随机数字表法

对对 20002000 名学生进行编号名学生进行编号

随机表中任意指定一数字,向任一方向随机表中任意指定一数字,向任一方向摘录四个数字为一组,共摘录四个数字为一组,共 100100 组。组。

小于或等于小于或等于 40004000 ,大于,大于 20002000 则减则减 20002000 ,, 小于或等于小于或等于 60006000 ,大于,大于 40004000 则减则减 40004000 ,, 余数相对应学生编号即为样本余数相对应学生编号即为样本

如随机数字为如随机数字为 20502050 、、 61126112 、、 11251125 ,则,则编号为编号为 5050 、、 112112 、、 11251125 的学生进入样本的学生进入样本

又称等距抽样又称等距抽样方法方法::先将总体的每个研究个体按某一特征先将总体的每个研究个体按某一特征顺序编号,并根据抽样比例(样本含量与顺序编号,并根据抽样比例(样本含量与总体含量之比)规定抽样间隔总体含量之比)规定抽样间隔 HH ,再随机,再随机确定一个小于确定一个小于 HH 的数字的数字 KK ,以,以 KK 为起点,为起点,每间隔每间隔 HH 抽取一个研究个体组成样本。抽取一个研究个体组成样本。

概率抽样 --系统抽样

例:系统抽样法例:系统抽样法

准备在某社区共准备在某社区共 12001200 户居民中抽取户居民中抽取 120120 户做家户做家庭功能调查庭功能调查

按门牌号对按门牌号对 12001200 户居民进行编号户居民进行编号 计算抽样间隔计算抽样间隔 H=H= 总体含量总体含量 // 样本含量 样本含量 =1200/120=10=1200/120=10

随机确定随机确定 KK (( K<HK<H ),如),如 K=6K=6 ,按门牌,按门牌号为号为 66 、、 1616 、、 26…119626…1196 ,共抽取,共抽取 120120 户户居民进入样本居民进入样本

优点优点::抽样方法简单易行;进入样本的个体抽样方法简单易行;进入样本的个体

在总体中的分布均匀,对总体的估计较准在总体中的分布均匀,对总体的估计较准

确。确。

缺点缺点::当编号呈递增递减或有一定的周期性当编号呈递增递减或有一定的周期性

趋势时,抽样误差较大。趋势时,抽样误差较大。

概率抽样概率抽样 ---- 分层抽样分层抽样

方法方法:: 按照与研究目的明显有关按照与研究目的明显有关的某种特征将总体分为若干层,然后的某种特征将总体分为若干层,然后从每一层内按比例随机抽取一定数量从每一层内按比例随机抽取一定数量的个体,组成该层的样本,各层样本的个体,组成该层的样本,各层样本之和代表总体。之和代表总体。

例:分层抽样法例:分层抽样法

为研究某医院护士心理应激水平,准备抽取为研究某医院护士心理应激水平,准备抽取200200 人作为样本人作为样本

该医院本科学历护士该医院本科学历护士 10%10% ,大专学历护,大专学历护士士 5050 %,中专学历护士%,中专学历护士 4040 %,样本按分层%,样本按分层抽样法抽样法(( 200x10%+200x50%+200x40%200x10%+200x50%+200x40% ))分别分别从本科、大专、中专学历护士中随机抽取从本科、大专、中专学历护士中随机抽取 2020 、、100100 、、 8080 人,合起来组成样本。人,合起来组成样本。

优点优点::层内具有均质性,样本对总体的代表层内具有均质性,样本对总体的代表性更好;各层可分别得到独立的样本进行性更好;各层可分别得到独立的样本进行分析研究 。分析研究 。

缺点缺点::当分层使各层个体含量不相等可导致当分层使各层个体含量不相等可导致各层样本比例失衡。各层样本比例失衡。

注意注意::分层指标的选择应能使层内差异较小,分层指标的选择应能使层内差异较小,层间差异较大。层间差异较大。

概率抽样概率抽样 ---- 整群抽样整群抽样方法方法:: 将总体中所有的个体按某种属将总体中所有的个体按某种属性分成若干个群体,再从所有的群体中性分成若干个群体,再从所有的群体中随机抽取一部分群体构成样本。随机抽取一部分群体构成样本。

适用情况适用情况:: 由于时间等原因不能进行简单随由于时间等原因不能进行简单随机和分层随机抽样;或组成总体的个体机和分层随机抽样;或组成总体的个体名单不明确。名单不明确。

类型类型• 单纯整群抽样单纯整群抽样• 两阶段抽样两阶段抽样

优点优点::易组织实施,节省人力物力, 易组织实施,节省人力物力, 适用于大规模调查适用于大规模调查缺点缺点::抽样误差较大抽样误差较大

抽样误差从抽样误差从低到高排序低到高排序

非概率抽样非概率抽样 ---- 方便抽样方便抽样

方法方法::用最容易找到的人为研究对象。用最容易找到的人为研究对象。如护士调查本病区的病人。如护士调查本病区的病人。

优点优点::方便易行方便易行

缺点缺点::代表性和准确性最差,分析结果代表性和准确性最差,分析结果时要慎重。时要慎重。

非概率抽样非概率抽样 ---- 配额抽样配额抽样

方法方法::研究者根据总体内分层的特性,利研究者根据总体内分层的特性,利用总体内各层的构成比抽取与总体相似用总体内各层的构成比抽取与总体相似的样本。的样本。方便方便 ++ 分层分层

优点优点::确保方便抽样中被排除在外的个体确保方便抽样中被排除在外的个体能进入样本。能进入样本。

缺点缺点::代表性和准确性差。代表性和准确性差。

非概率抽样非概率抽样 ---- 目的抽样目的抽样方法方法:: 研究者根据自己的专业知识和经验研究者根据自己的专业知识和经验以及对调查总体的了解,有意识的选择某些以及对调查总体的了解,有意识的选择某些研究对象。研究对象。

适用范围适用范围:: 适于某些新技术措施,在探索性、适于某些新技术措施,在探索性、前瞻性研究中常用;质性研究中常用。前瞻性研究中常用;质性研究中常用。缺点缺点:: 没有客观指标来判断样本的代表性。没有客观指标来判断样本的代表性。

非概率抽样非概率抽样 ---- 网络抽样网络抽样

方法方法:: 利用社会网络的优势和朋友间具 利用社会网络的优势和朋友间具 有共性的特点来进行抽样。也称滚雪球式有共性的特点来进行抽样。也称滚雪球式抽样。抽样。

适用范围适用范围:: 适用于寻找某些特殊总体中的个体,适用于寻找某些特殊总体中的个体,如药物滥用者、离婚者等。如药物滥用者、离婚者等。

第三节 样本含量估计第三节 样本含量估计

样本含量(样本含量( sample sizsample sizee ))

是按照总体客观存在的是按照总体客观存在的性质与特征和研究者所性质与特征和研究者所欲承担的误差风险而决欲承担的误差风险而决定的最小样本量。定的最小样本量。

样本含量样本含量

样本含量过小样本含量过小

指标不稳定指标不稳定

检验效能低检验效能低

样本含量过大样本含量过大

增加研究困难 增加研究困难 难于控制条件难于控制条件

浪费人力物力浪费人力物力

样本含量估计的参数样本含量估计的参数

TEXT TEXT TEXT TEXT

检 验 水 准

检验效能

总体标准差

容许误差

检验水准(检验水准( aa 值)值) 本次研究允许的第一类错误概率,本次研究允许的第一类错误概率,是统计学上的显著水平。是统计学上的显著水平。 aa 在假设检验前在假设检验前人为指定,一般为人为指定,一般为 0.050.05 或或 0.010.01 ,, aa 越小越小所需样本量越大,另外还应明确是单侧或所需样本量越大,另外还应明确是单侧或双侧检验。双侧检验。

第一类错误(用第一类错误(用 aa 表示):在统计学假设检验中,拒表示):在统计学假设检验中,拒绝了实际上成立的无效假设(绝了实际上成立的无效假设( HHOO),即假阳性错误。),即假阳性错误。

检验效能(检验效能( 1-β1-β )) 又称把握度,即在特定的又称把握度,即在特定的 αα 水准下,水准下,若总体间确实存在差异,该研究能发现此若总体间确实存在差异,该研究能发现此差异的概率。(差异的概率。( 1-β1-β)越大,所需样本含)越大,所需样本含量越大。一般取量越大。一般取 ββ 为为 0.20.2 ,此时,检验效,此时,检验效能为能为 0.80.8 。。 ββ 表示第二类错误的概率。表示第二类错误的概率。

第二类错误(用第二类错误(用 ββ表示):在统计学假设检验中为拒绝表示):在统计学假设检验中为拒绝实际上不成立的无效假设(实际上不成立的无效假设( HHOO),即假阴性错误。),即假阴性错误。

总体标准差总体标准差 σ σ

总体中各观察单位计量值的变异程度。总体中各观察单位计量值的变异程度。在其他条件相同的情况下,在其他条件相同的情况下, σσ 越大,所需越大,所需样本含量越大。样本含量越大。

容许误差容许误差 δδ

即预计样本统计量和相应总体即预计样本统计量和相应总体参数的最大相应误差控制在什么范参数的最大相应误差控制在什么范围,常取可信区间长度之半。在其围,常取可信区间长度之半。在其他条件确定的情况下,他条件确定的情况下, δδ 越小,所越小,所需样本含量越大。需样本含量越大。

样本含量估算的样本含量估算的 22 个用途:个用途:• 在实验组设计阶段,设差值在实验组设计阶段,设差值 δ=uδ=u11-u-u22,期望达到,期望达到

的预期的检验效能(如的预期的检验效能(如 power=1-power=1-ββ=1-0.01=0.90=1-0.01=0.90 ,,表示有表示有 1010 %的机会犯第二类错误)按规定检验%的机会犯第二类错误)按规定检验水准水准 a=0.05a=0.05 或或 0.010.01 ,计算样本量。,计算样本量。

• 在已知临床实验中(文献),根据样本含量、总在已知临床实验中(文献),根据样本含量、总体差值估算该试验检验效能是否够大。体差值估算该试验检验效能是否够大。

(一般检验效能(一般检验效能 power≥0.80power≥0.80 ))

估算样本含量的方法估算样本含量的方法

计算法

查表法经验法

公式各符号意义公式各符号意义

• n n 样本含量样本含量• 检验水准检验水准 aa 所对应所对应的的 uu 值,可查表值,可查表

• 第二类错误的概率第二类错误的概率ββ相对应相对应 uu 值,可值,可查表查表

• δδ 两总体均数之间两总体均数之间的差值的差值 uu11-u-u22

• 每对观察对数差每对观察对数差值的标准差值的标准差

• ππ 总体率总体率• ππ1 1 和和 ππ22 分别代表分别代表两组的总体率两组的总体率

• ππc c 代表两组的合并代表两组的合并率率

• бб总体标准差总体标准差

au

u

d

两样本均数比较(两样本均数比较( nn 相等)相等) -- 计算法计算法

估计样本含量公式估计样本含量公式 估计检验效能( )估计检验效能( )公式公式

u

2a

nu u

2

2 au un

配对试验两组均数比较配对试验两组均数比较 -- 计算法计算法

估计样本含量公式估计样本含量公式 估计检验效能( )估计检验效能( )公式公式

u

a

d

nu u

2

2 a du un

样本均数和总体均数的比较样本均数和总体均数的比较 -- 计算法计算法

估计样本含量公式估计样本含量公式 估计检验效能( )估计检验效能( )公式公式

an

u u

u

2

au un

两样本率的比较(两样本率的比较( nn 相等)相等) -- 计算法计算法

估计样本含量公式估计样本含量公式 估计检验效能( )估计检验效能( )公式公式

u

1 2

12a

c

nu u

1

2

2

4 1a c c

c

u un

估计总体均数样本含量估计总体均数样本含量 - - 计算法计算法,适用于调查性研究,适用于调查性研究

2au

n

估计总体率的样本含量估计总体率的样本含量 -- 计算法计算法,适用于调查性研究,适用于调查性研究

2

2

1aun

例例 11:: 用新药降低高血脂患者胆固醇,研用新药降低高血脂患者胆固醇,研究者规定试验组与对照组相比,血清胆究者规定试验组与对照组相比,血清胆固醇平均降低固醇平均降低 0.5mmol/L0.5mmol/L 以上,才有推以上,才有推广价值。广价值。

引用文献中胆固醇的标准差为引用文献中胆固醇的标准差为 0.8m0.8mmol/Lmol/L ,规定单侧,规定单侧 a=0.05a=0.05 ,, power=0.90power=0.90 ,,ββ=0.10=0.10 ,规定两组例数相等,请估计样,规定两组例数相等,请估计样本含量?本含量?

该资料属于两样本例数相等的均数比较,该资料属于两样本例数相等的均数比较,按照两样本均数比较公式:按照两样本均数比较公式:

22 1.64 1.28 0.8

87.5o

估计总例数为估计总例数为 8888 人,每组人,每组 4444 例。例。

2

2 au un

例例 22:: 欲调查某地高血压的患病率,并希望误欲调查某地高血压的患病率,并希望误差不超过差不超过 10%10% ,已知高血压患病率一般为,已知高血压患病率一般为 8%8% 。。问需要调查多少样本量?问需要调查多少样本量?

规定双侧规定双侧 a=0.05a=0.05 ,, μμ0.050.05 =1.96=1.96 ,, ββ=0.10=0.10 ,, power=0.90power=0.90 ; ; π= π= 0.08 0.08 ,, δδ=0.02 =0.02

该资料属于估计总体率,根据估计总体率的该资料属于估计总体率,根据估计总体率的计算公式:计算公式:

估计需要调查估计需要调查 707707 例例

2

2

1aun

22

1.96 (0.8)(1 0.8)707

(0.02)

调查性研究样本含量的估计方法调查性研究样本含量的估计方法-- 经验法经验法

SudmanSudman认为认为::• 初学者进行与前人相似的研究时,可参考初学者进行与前人相似的研究时,可参考别人样本数,作为参考别人样本数,作为参考

• 地区性的研究,平均样本人数地区性的研究,平均样本人数 500500 -- 10001000人;全国性研究,人;全国性研究, 15001500 -- 25002500 人人

• 描述性研究:样本最少占总体的描述性研究:样本最少占总体的 1010 %,如%,如果总体较小,则最少占总体果总体较小,则最少占总体 2020 %%

• 相关性研究:受试者至少相关性研究:受试者至少 3030 人以上人以上

样本含量估计的注意事项样本含量估计的注意事项

11、、根据研究目的严格选择估算样本根据研究目的严格选择估算样本含量的方法含量的方法

22、多组设计时,一般要求各组间的、多组设计时,一般要求各组间的样本含量相等。样本含量相等。

33、多种样本含量估计方法相结合。、多种样本含量估计方法相结合。

44 、、必须考虑样本的丢失情况,进行实必须考虑样本的丢失情况,进行实验时需增加验时需增加 1010%%~~ 1515 %的样本量。%的样本量。

55 、、提高实验研究效果的一般方法:提高实验研究效果的一般方法:①选择的总体单一,减少个体变异选择的总体单一,减少个体变异②选择客观指标选择客观指标③选择较优设计方案,严格控制试验条件选择较优设计方案,严格控制试验条件

教学目标回顾教学目标回顾

掌握抽样原则、过程及方法掌握抽样原则、过程及方法

掌握基本概念:样本、总体、误差掌握基本概念:样本、总体、误差

熟悉样本含量估计的参数、方法及熟悉样本含量估计的参数、方法及

注意事项注意事项