量性资料的分析(上) - fudan...
TRANSCRIPT
•变异• 个体之间的差异
• 生物医学数据最显著的特征
• 统计的任务就是从同质性与变异性出发,揭示事物规律
基本概念1
•总体与样本• 总体:根据研究目的而确定的同质观察单位的全体
• 样本:从总体中抽取的部分观察单位
• 调查或干预的对象是样本,而统计的目的是从样本来推测总体
基本概念1
•抽样误差• 由于抽样的偶然性而出现的样本指标与总体指标之间的差异
• 抽样误差无法避免
• 随机抽样、增加样本量可减少抽样误差
基本概念1
•概率• 描述随机事件发生可能性大小的一个估计
• 必然事件:p=1
• 不可能事件:p=0
• 小概率事件:p≤ 0.05
基本概念1
•假设检验/统计推断• 由样本的差异去推断样本所代表的总体之间是否存在差异
100名6岁农村男孩身高
100名6岁城市男孩身高<
6岁城市男孩身高
?
基本概念1
6岁农村男孩身高 <
总体思路2
•确认结局指标(因变量)的资料类型• 计量资料:年龄、工作年限、科研能力总分• 计数资料:性别、婚姻状况、所在医院、科研能力高/低• 等级资料:月收入、学历、职位、职称、科研能力高/中/低
•确认样本的组数和比较的形式• 两个独立样本比较?• 多个独立样本比较?• 两个配对样本比较?• 多个配对样本比较?• 两个变量之间的相关性分析?
计量资料
正态分布
偏态分布
样本统计描述:均数±标准差
由样本推断总体
分析变量间的关联
单样本与总体⽐比较:单样本t检验
两个独⽴立样本⽐比较:独⽴立样本t检验
两个配对样本⽐比较:配对t检验
多个独⽴立样本⽐比较:单因素⽅方差分析
样本统计描述:中位数、四分位数间距
由样本推断总体
分析两变量间的关联:Kendall相关分析
单样本与总体⽐比较:单样本秩和检验
两个独⽴立样本⽐比较:Mann-Whitney秩和检验
配对资料⽐比较:Wilcoxon符号秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
多个⾮非独⽴立样本⽐比较:重复测量⽅方差分析
计量资料的统计分析3
与另⼀一个计量资料的关系:Pearson相关分析
与多个变量之间的关系:回归分析
计量资料
正态分布
偏态分布
样本统计描述:均数±标准差
由样本推断总体
分析变量间的关联
单样本与总体⽐比较:单样本t检验
两个独⽴立样本⽐比较:独⽴立样本t检验
两个配对样本⽐比较:配对t检验
多个独⽴立样本⽐比较:单因素⽅方差分析
样本统计描述:中位数、四分位数间距
由样本推断总体
分析两变量间的关联:Kendall相关分析
单样本与总体⽐比较:单样本秩和检验
两个独⽴立样本⽐比较:Mann-Whitney秩和检验
配对资料⽐比较:Wilcoxon符号秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
多个⾮非独⽴立样本⽐比较:重复测量⽅方差分析
计量资料的统计分析3
与另⼀一个计量资料的关系:Pearson相关分析
与多个变量之间的关系:回归分析
1.判断资料是否符合正态分布
计量资料的统计分析3
Mean
1.判断资料是否符合正态分布:正态性检验
计量资料的统计分析3
•举例:534名护⼠士的科研能⼒力总分,是否符合正态分布?
� SPSS实现:分析→非参数检验→单样本K-S检验
图形→直⽅方图→绘制正态分布曲线
2.正态分布资料的统计描述:均数±标准差
计量资料的统计分析3
• 均数:表达资料的集中趋势
• 标准差:表达资料的离散趋势
• 534名护⼠士的科研能⼒力总体情况如何?• SPSS实现:分析→描述统计→描述→选择统计量
3.单个样本与总体比较:单样本t检验
计量资料的统计分析3
• 将样本均数与已知总体均数比较
• 样本分布须为正态分布
•举例:534名护⼠士的科研能⼒力处于何种⽔水平?(低于100分为良好)• SPSS实现:分析→比较均值→单样本t检验
4.两个独立样本比较:两独立样本t检验
计量资料的统计分析3
• 两个样本均为正态分布、且方差齐
• 常用于寻找影响结局的单个影响因素
• 或用于随机、非随机对照研究的结果分析
•举例:这534名护⼠士中,⾼高学历组与低学历组相比,科研能⼒力评分是否存在差异呢?• SPSS实现:分析→比较均值→独立样本t检验→选择检验变量(因变量)和分组变量(自变量)
5.两个非独立样本比较:配对样本t检验
计量资料的统计分析3
• 两个样本之间存在关系
• 样本分布均为正态分布
• 常用于自身前后对照试验的结果分析
•举例:534名护⼠士接受了在线课程学习,学习前后科研能⼒力是否提⾼高呢?• SPSS实现:分析→比较均值→配对样本t检验→成对选择检验变量(因变量)
6.多个独立样本比较:单因素方差分析
计量资料的统计分析3
• 三个及以上样本的比较
• 样本均为正态分布、且方差齐
• 常用于寻找影响结局的单个影响因素
• 或用于三组及以上的随机、非随机对照研究的结果分析
•举例:⼋八所的护⼠士相比,科研能⼒力评分是否存在差异呢?• SPSS实现:分析→比较均值→单因素ANOVA→选择检验变量(因变量)和因⼦子(自变量)→两两比较
7.因变量为计量资料的影响因素分析
计量资料的统计分析3
• 单因素分析• 自变量为二分类资料(如学历高、低):两独立样本t检验
• 自变量为无序多分类资料(如八所医院):单因素方差分析
• 自变量为有序多分类资料(如年资高、中、低):秩和检验
• 自变量为计量资料(如年龄):相关分析
• 多因素分析:线性回归分析
•举例:这534名护⼠士的⼯工作年限与科研能⼒力评分是否有关系呢?• SPSS实现:分析→相关→双变量→同时选⼊入两个变量→Pearson
计量资料
正态分布
偏态分布
样本统计描述:均数±标准差
由样本推断总体
分析变量间的关联
单样本与总体⽐比较:单样本t检验
两个独⽴立样本⽐比较:独⽴立样本t检验
两个配对样本⽐比较:配对t检验
多个独⽴立样本⽐比较:单因素⽅方差分析
样本统计描述:中位数、四分位数间距
由样本推断总体
分析两变量间的关联:Kendall相关分析
单样本与总体⽐比较:单样本秩和检验
两个独⽴立样本⽐比较:Mann-Whitney秩和检验
配对资料⽐比较:Wilcoxon符号秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
多个⾮非独⽴立样本⽐比较:重复测量⽅方差分析
计量资料的统计分析3
与另⼀一个计量资料的关系:Pearson相关分析
与多个变量之间的关系:回归分析
总体思路2
•确认结局指标(因变量)的资料类型• 计量资料:科研能力总分• 计数资料:科研能力合格率(合格/不合格)• 等级资料:完全做到、基本做到、尚能做到、较少做到、无法做到
•确认样本的组数和比较的形式• 两个独立样本比较?• 多个独立样本比较?• 两个配对样本比较?• 多个配对样本比较?• 两个变量之间的相关性分析?
计数资料
样本统计描述:率、构成⽐比
由样本推断总体
分析变量间的关联
两个样本率⽐比较:四格表卡⽅方检验
配对样本率⽐比较:配对卡⽅方检验
多个样本率或构成⽐比⽐比较:⾏行×列表卡⽅方检验
计数资料的统计分析4
与另⼀一计数资料的关系:关联性分析/卡⽅方检验
与多个变量的关系:Logistic回归
注:这⾥里的计数资料重点指⼆二分类变量
计数资料的统计分析4
1.计数资料的统计描述:率、构成比
• 率:某现象发生的频率,如534名护士的科研能力合格率
• 构成比:某事件内部各构成部分所占比重或分布
如534名护士的职称构成比
•举例:534名护⼠士的科研能⼒力合格率如何(分数≤100分)?• SPSS实现:转换→重新编码到不同变量
分析→描述统计→频率→选择变量
计数资料的统计分析4
• 自变量为二分类变量,因变量也是二分类变量
•举例:534名护⼠士中,低学历组和⾼高学历组相比,科研能⼒力合格率有⽆无差异?• SPSS实现:分析→描述统计→交叉表→选择⾏行、列变量→统计量→卡⽅方
2.两个样本率比较:四格表卡方检验
计数资料的统计分析4
• 常用于两种检验方法、诊断方法的比较
•举例:对534名护⼠士进⾏行科研能⼒力测评,分析科研能⼒力测评与护⼠士科研能⼒力自评的合格率是否⼀一致?• SPSS实现:分析→描述统计→交叉表→选择⾏行、列变量→统计量→Kappa值
3.配对样本率比较:配对卡方检验
计数资料的统计分析4
• 自变量为多分类变量,因变量也是二分类变量
•举例:534名护⼠士中,不同医院的护⼠士相比,科研能⼒力合格率有⽆无差异?• SPSS实现:分析→描述统计→交叉表→选择⾏行、列变量→统计量→卡⽅方
4.多个样本率比较:行×列表卡方检验
计数资料的统计分析4
5.因变量为二分类计数资料的影响因素分析
• 单因素分析• 自变量为二分类资料(如学历高、低):四格表卡方/关联性分析
• 自变量为多分类资料(如八所医院):行×列表卡方/关联性分析
• 自变量为连续性资料(如年龄):两独立样本t检验/判别分析
• 多因素分析:Logistic回归
•举例:这534名护⼠士的学历⾼高低与科研能⼒力合格率是否有关系呢?• SPSS实现:分析→描述统计→交叉表→选择⾏行、列变量→统计量→相关性
等级资料的统计分析5
•等级资料的处理
• 计量资料(连续性变量):科研能力评分(1~5分)
• 等级资料(有序分类变量):完全能做到、经常能做到、
尚能做到、较少做到、无法做到
• 计数资料(二分类变量):合格、不合格
等级资料
样本统计描述:率、构成⽐比
由样本推断总体
分析变量间的关联:
两个独⽴立样本⽐比较:Wilcoxon秩和检验/Mann-Whitney U检验
配对资料⽐比较:Wilcoxon秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
等级资料的统计分析5
Spearman相关分析
计量资料
正态分布
偏态分布
样本统计描述:均数±标准差
由样本推断总体
分析变量间的关联
单样本与总体⽐比较:单样本t检验
两个独⽴立样本⽐比较:独⽴立样本t检验
两个配对样本⽐比较:配对t检验
多个独⽴立样本⽐比较:单因素⽅方差分析
样本统计描述:中位数、四分位数间距
由样本推断总体
分析两变量间的关联:Kendall相关分析
单样本与总体⽐比较:单样本秩和检验
两个独⽴立样本⽐比较:Mann-Whitney秩和检验
配对资料⽐比较:Wilcoxon符号秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
多个⾮非独⽴立样本⽐比较:重复测量⽅方差分析
统计分析方法小结6
与另⼀一个计量资料的关系:Pearson相关分析
与多个变量之间的关系:回归分析
计数资料
样本统计描述:率、构成⽐比
由样本推断总体
分析变量间的关联
两个样本率⽐比较:四格表卡⽅方检验
配对样本率⽐比较:配对卡⽅方检验
多个样本率或构成⽐比⽐比较:⾏行×列表卡⽅方检验
统计分析方法小结6
与另⼀一计数资料的关系:关联性分析/卡⽅方检验
与多个变量的关系:Logistic回归
注:这⾥里的计数资料重点指⼆二分类变量
等级资料
样本统计描述:率、构成⽐比
由样本推断总体
分析变量间的关联:
两个独⽴立样本⽐比较:Wilcoxon秩和检验/Mann-Whitney U检验
配对资料⽐比较:Wilcoxon秩和检验
多个独⽴立样本⽐比较:Kruskal-Wallis秩和检验
统计分析方法小结6
Spearman相关分析
统计分析方法小结6
判断⾃自变量、因变量类型,正确选择统计推断⽅方法
因变量类型
⾃自变量类型
连续性变量(计量资料)
有序分类变量(等级资料)
⼆二分类变量(计数资料)
连续性变量(计量资料)有序分类变量(等级资料)⼆二分类变量(计数资料)⽆无序多分类变量(计数资料)
不同年龄的护⼠士科研能⼒力评分差异?
五种职称的护⼠士科研能⼒力评分差异?
不同性别的护⼠士科研能⼒力评分差异?
⼋八所医院的护⼠士科研能⼒力评分差异?
不同年龄的护⼠士科研能⼒力等级差异?五种职称的护⼠士科研能⼒力等级差异?不同性别的护⼠士科研能⼒力等级差异?⼋八所医院的护⼠士科研能⼒力等级差异?
不同年龄的护⼠士科研能⼒力合格率差异?五种职称的护⼠士科研能⼒力合格率差异?不同性别的护⼠士科研能⼒力合格率差异?⼋八所医院的护⼠士科研能⼒力合格率差异?
注:⾃自变量、因变量独⽴立,且满⾜足检验条件
统计分析方法小结6
判断⾃自变量、因变量类型,正确选择统计推断⽅方法
因变量类型
⾃自变量类型
连续性变量(计量资料)
有序分类变量(等级资料)
⼆二分类变量(计数资料)
连续性变量(计量资料)有序分类变量(等级资料)⼆二分类变量(计数资料)⽆无序多分类变量(计数资料)
不同年龄的护⼠士科研能⼒力评分差异?
五种职称的护⼠士科研能⼒力评分差异?
不同性别的护⼠士科研能⼒力评分差异?
⼋八所医院的护⼠士科研能⼒力评分差异?
不同年龄的护⼠士科研能⼒力等级差异?五种职称的护⼠士科研能⼒力等级差异?不同性别的护⼠士科研能⼒力等级差异?⼋八所医院的护⼠士科研能⼒力等级差异?
不同年龄的护⼠士科研能⼒力合格率差异?五种职称的护⼠士科研能⼒力合格率差异?不同性别的护⼠士科研能⼒力合格率差异?⼋八所医院的护⼠士科研能⼒力合格率差异?
注:⾃自变量、因变量独⽴立,且满⾜足检验条件
相关分析/回归模型
⽅方差分析
t检验
⽅方差分析
Logistic回归
Logistic回归
秩和检验
秩和检验
Logistic回归
卡⽅方检验
卡⽅方检验
卡⽅方检验
谢谢聆听
THANKS