第一章 spss概览--数据分析实例详解 · web view2012/12/19  ·...

234
第一章 SPSS 概览--数据分析实例详解 1.1 数据的输入和保存 1.1.1 SPSS 的界面 1.1.2 定义变量 1.1.3 输入数据 1.1.4 保存数据 1.2 数据的预分析 1.2.1 数据的简单描述 1.2.2 绘制直方图 1.3 按题目要求进行统计分析 1.4 保存和导出分析结果 1.4.1 保存文件 1.4.2 导出分析结果 希望了解 SPSS 10.0 版具体情况的朋友请参见本网站的 SPSS 10.0 版抢 鲜报道 1.1 某克山病区测得 11 例克山病患者与 13 名健康人的血磷值(mmol/L), 问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例 4.8)? 患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 解题流程如下:

Upload: others

Post on 25-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

第一章 SPSS 概览--数据分析实例详解1.1 数据的输入和保存

1.1.1 SPSS 的界面

1.1.2 定义变量

1.1.3 输入数据

1.1.4 保存数据

1.2 数据的预分析

1.2.1 数据的简单描述

1.2.2 绘制直方图

1.3 按题目要求进行统计分析

1.4 保存和导出分析结果

1.4.1 保存文件

1.4.2 导出分析结果  希望了解 SPSS 10.0 版具体情况的朋友请参见本网站的 SPSS 10.0 版抢

鲜报道。例 1.1 某克山病区测得 11 例克山病患者与 13 名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例 4.8)?患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87解题流程如下:

Page 2: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

1. 将数据输入 SPSS ,并存盘以防断电。 2. 进行必要的预分析(分布图、均数标准差的描述等),以确定应采 用的检验方法。

3. 按题目要求进行统计分析。

4. 保存和导出分析结果。

下面就按这几步依次讲解。

§1.1 数据的输入和保存1.1.1 SPSS 的界面

当打开 SPSS 后,展现在我们面前的界面如下:

请将鼠标在上图中的各处停留,很快就会弹出相应部位的名称。

Page 3: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

请注意窗口顶部显示为“SPSS for Windows Data Editor”,表明现在所看到的是 SPSS 的数据管理窗口。这是一个典型的 Windows 软件界面,有菜单栏、工具栏。特别的,工具栏下方的是数据栏,数据栏下方则是数据管理窗口的主界面。该界面和 EXCEL 极为相似,由若干行和列组成,每行对应了一条记录,每列则对应了一个变量。由于现在我们没有输入任何数据,所以行、列的标号都是灰色的。请注意第一行第一列的单元格边框为深色,表明该数据单元格为当前单元格。

有的 SPSS 系统打开时会出现一个导航对话框,请单击右下方的 Cancer

按钮,即可进入上面的主界面。

1.1.2 定义变量该资料是定量资料,设计为成组设计,因此我们需要建立两个变量,一个

变量代表血磷值,习惯上取名为 X,另一个变量代表观察对象是健康人还是克山病人,习惯上取名为 GROUP。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。选择菜单 Data==>Define Variable。系统弹出定义变量对话框如下:该变量定义对话框在 SPSS 10.0 版中已被取消,这里的操作只适合 9.0~

7.0 版的用户。

Page 4: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

对话框最上方为变量名,现在显示为“VAR00001”,这是系统的默认变量名;往下是变量情况描述,可以看到系统默认该变量为数值型,长度为 8,有两位小数位,尚无缺失值,显示对齐方式为右对齐;第三部分为四个设置更改按钮,分别可以设定变量类型、标签、缺失值和列显示格式;第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量,现在系统默认新变量为数值变量;最下方则依次是确定、取消和帮助按钮。好,先来建立分组变量 GROUP。请将变量名改为 GROUP,然后单击 OK

按钮。有没有搞错?!折腾了半天就改个名字!难道连变量格式、标签等都不改?

是这样的,在 SPSS 中所有的数据均以最大位数保存(好象是双精度),也就是说,上面虽然默认只有两位小数,但那指的是计算精度,实际保存的数据位数是非常长的(可以输入 Pi 值试一下)。在绝大多数情况下,SPSS给出的默认数据类型和数据精度完全可以满足需要,只是不太好看而已。至于标签等比较花

Page 5: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

哨的选项,反正我也很少用。现在我们才刚刚入门,一切从简。以后我会详细介绍各种设置的用法。

在第一列灰色的“var”上双击,同样会弹出定义变量对话框。现在 SPSS 的数据管理窗口如下所示:

第一列的名称已经改为了“group”,这就是我们所定义的新变量“group”。

现在我们来建立变量 X。单击第一行第二列的单元格,然后选择菜单Data==>Define Variable,同样,将变量名改为 X,然后确认。此时 SPSS

的数据管理窗口如下所示:

Page 6: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

现在,第一、第二列的名称均为深色显示,表明这两列已经被定义为变量,其余各列的名称仍为灰色的“var”,表示尚未使用。同样地,各行的标号也为灰色,表明现在还未输入过数据,即该数据集内没有记录。

1.1.3 输入数据我们先来输入变量 X 的值,请确认一行二列单元格为当前单元格,弃鼠标

而用键盘,输入第一个数据 0.84,此时界面显示如图 A 所示:

图 A 图 B

Page 7: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

请注意:在回车之前,你输入的数据在数据栏内显示,而不是在单元格内显示,现在回车,界面如图 B 所示:首先,当前单元格下移,变成了二行二列单元格,而一行二列单元格的内

容则被替换成了 0.84;其次,第一行的标号变黑,表明该行已输入了数据;第三,一行一列单元格因为没有输入过数据,显示为“.”,这代表该数据为缺失值。用类似的输入方式,我们将患者的血磷值输入完毕,并将相应的变量GROUP 均取值为 1,此时数据管理窗口如下所示:

从第 12 行开始输入健康人的数据,并将相应的 GROUP 变量取值为 2。最终该数据集应该有 24 条记录。

1.1.4 保存数据选择菜单 File==>Save,由于该数据从来没有被保存过,所以弹出 Save

as 对话框如下:

Page 8: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

单击保存类型列表框,可以看到 SPSS 所支持的各种数据类型,有DBF、FoxPro、EXCEL、ACCESS 等,这里我们仍然将其存为 SPSS自己的数据格式(*.sav 文件)。在文件名框内键入 Li1_1 并回车,可以看到数据管理窗口左上角由 Untitled 变为了现在的变量名 Li1_1。

为什么这里的对话框会出现汉字?是这样的,需要从编程的角度来解释:SPSS 在弹出该对话框时会调用 Windows 系统的公用函数,由于我们用的是中文 Windows 系统,所以调用出来的就是中文。

§1.2 数据的预分析1.2.1 数据的简单描述首先我们需要知道数据的基本情况,如均数、标准差等。选择

Analyze==>Descriptive Statistics==>Descriptives 菜单,系统弹出描述对话框如下:

Page 9: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

如果按 SPSS 标准的叫法,这里应该是调用了 Descriptives过程,为了避免太生硬,我们称为调用对话框,等大家熟悉 SPSS 了以后,在统计分析各章中可能两种称呼会混用。

该对话框可分为左右两大部分,左侧为所有可用的侯选变量列表,右侧为选入变量列表。我们只需要描述 X,用鼠标选中 X,单击中间的 ,变量 X 的标签就会移入右侧,注意这时 OK 按钮变黑,表明已经可以进行分析了,单击它,系统会弹出一个新的界面如下所示:

Page 10: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

该窗口上方的名称为 SPSS for Windows Viewer,即(结果)浏览窗口,整个的结构和资源管理器类似,左侧为导航栏,右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到,24 个数据总的均数为 1.2846,标准差为 0.4687。

我们以上的做法对吗?当然有问题!光看总的描述是不够的,还应当看看分组的描述情况。这里要用到文件分割功能,请切换回数据管理窗口,选择Data==>Split File 菜单,系统弹出文件分割对话框如下:

Page 11: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

选择单选按钮 Organize output by groups,将变量 GROUP 选入右侧的选入变量框,单击 OK 钮,此时界面不会有任何改变,但请再做一次数据描述,你就可以看到现在数据是分 Group=1 和 Group=2 两种情况在描述了!从描述可知两组的均数和标准差分别为 1.5209、1.0846 和 0.4218、0.4221。

如果定义了文件分割,则它会在以后的所有统计分析中起作用,直到你重新定义文件分割方式为止。

1.2.2 绘制直方图统计指标只能给出数据的大致情况,没有直方图那样直观,我们就来画个

直方图瞧瞧!选择 Graphs==>Histogram,系统会弹出绘制直方图对话框如下:

Page 12: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

将变量 X 选入 Variable 选择框内,单击 OK 按钮。此时结果浏览窗口内会绘制出如下两个直方图:

两组的数据没有特别偏的分布,也没有十分突出的离群值,因此无须变换,可以直接采用参数分析方法来分析。综合设计类型,最终确定采用成组设计两样本均数比较的 t检验来分析。最后,我们还要取消变量分割,免得它影响以后的统计分析,再次调出变

量分割对话框,选择单选按钮中的“Analyze all cases, do not creat

group”,单击 OK 按钮就可以了。

Page 13: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

§1.3 按题目要求进行统计分析下面我们要用 SPSS来做成组设计两样本均数比较的 t检验,选择

Analyze==>Compare Means==>Independent-Samples T test,系统弹出两样本 t 检验对话框如下:

  将变量 X 选入 test 框内,变量group 选入 grouping 框内,注意这时下面的 Define Groups 按钮变黑,表示该按钮可用,单击它,系统弹出比较组定义对话框如右图所示:

该对话框用于定义是哪两组相比,在两个 group 框内分别输入 1 和 2,表明是变量 group 取值为 1 和 2 的两组相比。然后单击 Continue 按钮,

Page 14: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

再单击 OK 按钮,系统经过计算后会弹出结果浏览窗口,首先给出的是两组的基本情况描述,如样本量、均数等(糟糕,刚才的半天工夫白费了),然后是 t检验的结果如下:

Independent Samples Test

 

Levene's Test for Equality of

Variancest-test for Equality of Means

F Sig. t dfSig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the

Difference

Lower Upper

X

Equal variances assumed

.032 .860 2.524 22 .019 .4363 .1729 7.777E-02 .7948

Equal variances not

assumed    2.524 21.353 .020 .4363 .1729 7.716E-02 .7954

可见该结果分为两大部分:第一部分为 Levene's 方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为 F = 0.032,p = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的 t

检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的 t检验结果,即上面一行列出的 t= 2.524,ν=22,p=0.019。从而最终

Page 15: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

的统计结论为按 α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。

§1.4 保存和导出分析结果1.4.1 保存结果文件

前面我们已经做出了分析结果,但是,可是,可但是,但可是呢?再好的结果只要一断电就会全部消失(废话),对于这一问题人们早已想出了三种解决办法,他们分别是:

需要结果的时候再运行一次分析程序。 用笔将结果抄在纸上。

直接保存结果文件。

显然,最方便快捷、最符合信息时代特征的就是第三种方法,在结果浏览窗口中(注意:一定要在结果浏览窗口中)选择菜单 File==>Save,由于该结果也从来没有被保存过,所以弹出和前面保存数据时极为相似的一个 Save as

对话框,和前面相比,他唯一的区别就是文件的保存类型只有 View

Files(*.spo)一种。好,闲言少叙,在文件名框中键入“Li1_1”并回车,该结果文件就会按文件名 Li1_1.spo 被存储。

不是文件保存类型还有一种“ALL Files(*.*)”吗?别费劲了,这种类型是SPSS公司放在那里哄人的,在该对话框里无论怎么折腾,都只能按 SPO 文件的格式来保存。

Page 16: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

1.4.2 导出分析结果文件倒是保存了,但问题还没有完全解决:我们从来写文章什么的都用的

是文字处理软件,尤其是 WORD,可 WORD 不能直接读取 SPO 格式的文件,怎么办呢?没关系,SPSS提供了将结果导出为纯文本格式或网页格式的功能,在结果浏览窗口中选择菜单 File==>Export,系统会弹出 Exprot Output 对话框如下:

最上方的 Export 下拉式列表可以选择输出的内容,可以为含图表的输出文档、无图表的输出文档和只有统计图表三种;中部的 Exprot File 对话框则填入输出的目标文件名;左下方的 Export What 单选框可以选择输出结果的哪些部分,可以是所有结果、所有可见结果或只输出选择的结果,一般选输出所有可见结果;右下方的输出文件类型下拉式列表已被我打开,可见里面有网页格式和纯文本格式两种,在一切按所需选择完毕后按 OK 钮,则结果文件就会输出为你想要的类型。好,到这里,就象我们刚开始所说的一样,你实际上已经完全掌握了 SPSS

的基本使用方法。我们以后将要做的工作就是“百尺竿头,更进一步”,将从下

Page 17: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

一章开始详细介绍 SPSS 各个模块的精确用法,使大家能尽快的从 SPSS新手向 SPSS高手过度。

第二章 数据文件的管理(上)2.1  建立与保存数据文件 -File 菜单

2.1.1  新建数据文件

2.1.2.1  直接打开

2.1.2.2  使用数据库查询打开

2.1.2.3  使用文本导入向导读入文本文件

2.1.2  打开其他格式的数据文件

2.1.3  保存数据文件

2.1.4   File 菜单中的其他条目

2.2  编辑数据文件

2.2.1  定义新变量

2.2.1.1  直接定义新变量

2.2.1.2 从原有变量计算新变量-Transform 菜单2.2.2 数据的录入2.2.2.1 直接录入2.2.2.2 数据录入技巧2.3 进一步整理数据文件-Data 菜单 

Page 18: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

不言而喻,一切统计分析都是以数据为基础的,因此统计软件的数据管理能力非常重要。SPSS 以其豪华的界面为依托,为用户提供的便捷的数据管理功能,下面我们就来具体看一下。

§2.1 建立与保存数据文件和大多数应用软件相同,SPSS 中数据文件的管理功能基本上都集中在了

File 菜单上,该菜单的组织结构和 WORD 等也极为相似,因此这里我们只介绍比较有特色的几个菜单项。

SPSS 10.0 有三个主要窗口界面:数据管理窗口、程序编辑窗口和结果浏览窗口;另有两个不常用的窗口:结果草稿浏览窗口和 VBs脚本语言编辑窗口。他们共享许多菜单项,如 File 菜单就大部分相同,这里介绍的许多内容在五个窗口中都是通用的。2.1.1 新建数据文件

如果你正从头开始进行一个新的课题,刚刚把数据收集上来,要做统计分析,自然需要新建一个数据库,然后将所有的数据从纸上请到计算机里。在SPSS 中,新建一个数据库容易的不得了--已经到了什么都不用做的地步!是这样,当你进入 SPSS 系统时,系统就已经生成了一个空数据文件,即你看到的空白的数据管理界面。你只要按自己的需要定义变量,输入数据然后存盘就是了(这些操作马上会讲到)。2.1.2  打开其他格式的数据文件凡是做过数据输入工作的人都知道:这活又费眼睛又累人,出错太多了还

要挨批评,非常影响个人的光辉形象。算了,还是在有限的经费里划几百美元出

Page 19: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

来雇个打字小姐吧(怎么用美元?因为我请了个老外!)。可是非常不幸,该同志只会用 EXCEL 2000(又是一个被微软成功洗脑的家伙),数据现已输好,怎么转成 SPSS 数据文件呢?没关系,SPSS提供了以下几种方法来打开其他格式的数据文件。2.1.2.1  直接打开

SPSS 现在可以直接读入许多格式的数据文件,其中就包括 EXCEL 各个版本的数据文件。选择菜单 File==>Open==>Data或直接单击快捷工具栏上的“ ”按钮,系统就会弹出 Open File 对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:

SPSS(*.sav) SPSS 数据文件(6.0~10.0 版)SPSS/PC+(*.sys) SPSS 4.0 版数据文件Systat(*.syd) *.syd 格式的 Systat 数据文件Systat(*.sys) *.sys 格式的 Systat 数据文件SPSS portable(*.por) SPSS便携格式的数据文件EXCEL(*.xls) EXCEL 数据文件(从 5.0 版~2000 版)Lotus(*.w*) Lotus 数据文件SYLK(*.slk) SYLK 数据文件dBase(*.dbf) dBase 系列数据文件,(从 dBase II~IV)Text(*.txt) 纯文本格式的数据文件data(*.dat) 纯文本格式的数据文件

选择所需的文件类型,然后选中需要打开的文件,SPSS 就会按你的要求打开你要使用的数据文件,并自动转换为数据 SPSS 格式。也许有视力好的朋友会注意到右下方除了“打开”和“取消”两个按钮外,

中间还有一个“Paste”按钮,该按钮在 SPSS 的大多数对话框中都存在,是用于自动生成 SPSS 程序的,我们以后会专门讲解该问题。

Page 20: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

2.1.2.2  使用数据库查询打开SPSS 可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类

型的数据文件(废话),比如 FoxPro 3.0 以上版本的*.dbf 文件就不能直接打开(有兴趣的话你可以试试)。为此,SPSS 还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询。实际上,SPSS 在这里使用的是一种叫ODBC(Open Database Capture)

的数据接口,该接口被大多数数据库软件和办公软件(如 MS Office)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。

由于 SPSS 10.0 可以直接打开 EXCEL 所有系列的数据文件,因此数据库查询接口的用处不是很大。但是,在 9.0及以前的版本中,该查询仍是直接打开EXCEL 95、97及 2000 数据文件的唯一办法。

ODBC 数据引擎是独立与各种应用软件,直接安装到 Windows 系统中的,因此你所用的系统中 ODBC 所支持的数据类型取决于所安装的 ODBC引擎的情况。还好,大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如 MS Office)。不过有一点要提醒大家,许多机器的 OBDC 数据引擎安装有问题(尤其是 D 版),在 SPSS 中使用它往往要死机。

选择菜单 File==>Open Database==>New Query,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入 SPSS。

Page 21: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

我原来准备举一个具体例子,但后来发现不同版本的 ODBC引擎所弹出的对话框并不相同!不仅如此,不同的数据驱动程序其对话框也各不相同!比如说,有的需要你的 LoginID 和 Password,有的又不需要,因此我这里就不再讲了。由于它使用上太专业(尤其在 10.0 版中,9.0 版还好些),如果确实要用,请找一个对数据库接口比较熟的人来帮你。2.1.2.3  使用文本导入向导读入文本文件

选择菜单 File==>Read Text Data,系统就会弹出 Open File 对话框,对!和前面的情况完全一样,只是文件类型自动跳到了 Text (*.txt)。实际上,该功能在 SPSS 中已被整合到了 Open File 对话框中之所以在菜单上保留该条目有两个原因:1. 读入纯文本的情况非常普遍,放在这里更加醒目;2. 为了和SPSS老版本的使用上保持兼容。

例 2.1 现有一数据文件以纯文本的形式存为“c:\Li2_1.txt”,且第一行为变量名,请将其读入 SPSS。

解:在 Open File 对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下:

Page 22: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

在 SPSS 10.0 中,该向导并没有重新设计,因此仍然有问题被截断无法显示完的情况出现。

可以看到该向导共分 6 步,这是第一步。中部为一对单选按钮,问题为“你的文本文件和预定义格式相一致吗?”,下方为按预定义格式读入的数据文件的预览。显然,SPSS 的预定义格式并没有正确识别该文件。因此选择“No”并单击“下一步”,系统弹出向导的下一个对话框如下:

Page 23: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最上方的问题是“你的变量是如何排列的?”,下面的选项分别为Delimite(用某种字符区分)和 Fixed Width(固定宽度),一般都是Delimite,第二个问题是“变量名包括在文件最前面了吗?”,我们当然选“Yes”,单击“下一步”,系统弹出第三个对话框:

Page 24: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最上方的句子意为“第一条记录从第几行开始?”,右侧可以输入行数。由于我们所用的数据 第一行为变量名,因此这里输入 2。下面的问题是“你的记录是怎样存储在文件中的?”。可以是“每一行代表一条记录”,或者“每**个变量代表一条记录”,数据一般都是第一种情况。下一个问题是“你想导入多少条记录?”,可以是“所有记录”、“前**条”或“随机导入**%的记录”。一般也选前者。单击“下一步”,第四个对话框如下:

我这里写的非常详细,但实际使用中你可以不管大多数问题,因为 SPSS

一般都能自动正确设置。

Page 25: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最上方的问题为“变量间用的是哪种分隔符?”,可选的有 Tab键、空格、逗号、分号或自行定义的其他符号。本数据采用的是空格,可见系统已经自动识别并选择了空格,而下方的数据预览窗口显示出了正确的数据读入情况。单击“下一步”,第五个对话框如下:

Page 26: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上方的提示为“定义在数据预览窗口中所选择的变量。”。顾名思义,在这个对话框中你可以在数据预览窗口中选择某一列变量,然后更改其变量名和类型。当然,在这里我们不用这样做,直接单击“下一步”,系统弹出文本导入向导的最后一个对话框如下:

Page 27: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最上面的问题为“你愿意保存这次的文件(读入)格式设置以备下次使用吗?”,第二个问题为“你是否愿意将以上操作粘贴为 SPSS语句?”,一般这两个问题我们都可以不管。单击“完成”,系统最终成功的读入了Li2_1.txt。

2.1.3 保存数据文件在对数据做了修改后,保存数据文件是必不可少的工作之一。选择菜单

File==>Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据;否则,就会弹出和选择 Save as 菜单时相同的 Save as 对话框。里面可以保存的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了。

  Save命令的快捷键为^S,如果你曾经领教过Windows死机的巨大潜力,那么你一定会同意习惯性的随手按^S至少不能算是一个坏习惯。

Page 28: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

如果你准备将数据存为 SPSS 以外的其他类型,要注意有些设置可能会丢失,如标签和缺失值等。尤其是缺失值,如果想存的数据格式不支持缺失值,那你的数据可能会变的面目全非。

2.1.4 File 菜单中的其他条目【Disp Data Info】

该菜单项用于显示数据的基本信息,选择它后会弹出非常类似于打开文件的一个对话框用于选择数据文件,选择好后按 OK,系统就会在结果窗口中列出所选数据的基本情况,如建立时间、标签设置、记录数、变量设置等。【Apply Data Dictionary】

即使用数据字典,该功能使你可以直接在新数据集中套用以前定义好的变量设置(格式、标签等,但不包括数据类型),举个例子吧:请打开 Li1_1.sav

文件,将变量 x 的长度从 8改为 4,标签删掉,然后选择菜单 File==>Apply

Data Dictionary,在文件对话框中选择 Li1_1.sav 并按 OK(即将 Li1_1.sav

的变量设置按相同变量名一一套用在现在的数据集上),怎么样?一切都变回去了吧。【Cache Data】

建立数据缓冲区。以前 SPSS 每执行一条命令都会重新读取所需的数据,如果是从远程用 SQL调用数据库,这会非常的费时。现在使用 Cache Data,可以将数据全部读入暂存盘,建立活动数据的缓冲区。大大加快处理速度。不过我特意试了一下,如果是处理本机数据的话,该命令对速度的提升不是非常明显:

(。

Page 29: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Print 和 Print Preview】这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来,其中

Print Preview 是新增加的,使用上和 WPS2000 的打印预览非常相似(其实用的是同样的程序),不过和 SPSS 结果的打印程序一样,用 SPSS 直接打印数据非常的浪费纸张,用不用你自己决定吧。【Stop Processor】

用于停止执行当前的 SPSS命令。由于 SPSS 处理速度非常的慢,如果你正在对一个大型的数据执行统计命令,等了半天都没有结束,此时你的另一半约你逛街的时间又要到了,可是你的结果还没有存,执行命令时又存不了,怎么办呢?试试这个命令吧。

  并非所有的命令都可以喊停的,许多数据库操作命令(计算变量,合并等)好象就停不了。

§2.2 编辑数据文件在 SPSS 中,数据文件的编辑、整理等功能被集中在了 Data 和 Transform

两个菜单项中,这两个菜单的内容如下所示:

Page 30: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Data 菜单项 Transform 菜单项下面我们将根据其功能来分别讲述。

2.2.1 定义新变量2.2.1.1 直接定义新变量大多数情况下我们需要从头定义变量,在 SPSS 10.0 中,定义变量的操作

界面和 FoxPro 等数据库非常相似,只需单击左下方的 Variable View 标签就可以切换到变量定义界面开始定义新变量。如 Li1_1.sav 的变量定义如下所示:

以变量 x 为例:变量名为 x,类型为 Numeric,宽度为 4,小数位数 2 位(因小数点还要占一位,故整数位只有一位),变量标签位为“血磷值”。右侧在图中未能看到的依次为 Values,用于定义具体变量值的标签;Missing,用于定义变量缺失值;Colomns,定义显示列宽;Align,定义显示对齐方式;Measure,定义变量类型是连续、有序分类还是无序分类。

Page 31: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

使用该窗口,我们可以一次定义许多新变量,不会象老版本那样一个一个的定义了。

由于 SPSS 是英文软件,变量名采用中文会有潜在的冲突(100%的兼容性是不存在的,典型的例子就是微软公司的产品)。

对于喜欢搞点花样的用户,这里有必要介绍一下 SPSS 中标签和缺失值的定义方法:

标签 和老版本不同,现在变量标签和变量值标签被分开设置,变量标签就在 Label 框中直接输入,变量值标签则在它右侧的 Value 框定义。以 group 为例,单击 Value 框右半部的省略号,会弹出变量值标签对话框如下:

上部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“1”和“克山病患者”,此时下方的 Add 钮变黑,单击它,该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“健康人”,最后按OK,变量值标签就设置完成。此时你做任何分析,在结果中都有相应的标签出现。如果你现在就想看效果,切换回Data View 界面,然后选择菜单View==>Value Labels,怎么样,看到了吗?缺失值 单击 missing 框右侧的省略号,会弹出缺失值对话框如下:

Page 32: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义 3 个值;最后一项为“缺失值范围加可选的一个缺失值”,文如其意,不用我多解释了吧。

第二章 数据文件的管理(下)2.1 建立与保存数据文件-File 菜单2.1.1 新建数据文件2.1.2.1 直接打开2.1.2.2 使用数据库查询打开2.1.2.3 使用文本导入向导读入文本文件2.1.2 打开其他格式的数据文件2.1.3 保存数据文件2.1.4 File 菜单中的其他条目2.2 编辑数据文件2.2.1 定义新变量2.2.1.1 直接定义新变量2.2.1.2  从原有变量计算新变量 -Transform 菜单

Page 33: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

2.2.2  数据的录入

2.2.2.1  直接录入

2.2.2.2  数据录入技巧

2.3  进一步整理数据文件 -Data 菜单

2.3.1  用于数据管理的菜单项

2.3.2  正交设计菜单项 2.2.1.2 从原有变量计算新变量从头定义变量的情况多数在建立数据集时出现。但是,当数据集已经建立,

需要整理、转换变量时,碰到的更多情况是需要根据某种条件从原有变量计算新变量。下面我们将按菜单条目的顺序依次讲解他们的功能。但是,首先我们需要了解一下所用的对话框界面的情况。【SPSS 对话框元素介绍】

下面是我们在第一章曾经见过的两样本 t检验对话框:

Page 34: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

这是一个非常典型的 SPSS 对话框。它包含了许多具有 SPSS 特色的对话框元素:

o 对话框左侧为候选变量列表框,里面列出了可被该对话框使用的变量;o 右上方为 Test Variables 框,可将变量选入其中;注意在两个框的中间用“ ”相连,这是变量移动按钮,其方向表明是将变量从那个框移动到哪个框,上图中我们选中了变量 group,两个移动按钮均变黑并向右指,表明变量 group 可以移动到他们右侧的两个框里去,改变当前框(在其他两个框里单击),移动按钮就会转向、变灰等以表明不同的意思(墙头草一个,可别小看这个功能,我想用 VB实现这个功能,也是费了些工夫才把它搞定了);

o 右侧为一排五个按钮,分别是确定、粘贴、重置、取消和帮助。这五个兄弟也是几乎永远一起出现的,另外四个大家都比较熟悉了,重置(Reset)按钮用于取消对话框内已做的选择,恢复到默认的状态;

o 最下方有个 Options 按钮,用于设置专门用于该对话框的选项;

o OK、Paste 两个按钮为灰色,表明所需条件尚未满足,该按钮暂不可用。同理,Grouping Variable 框下方的 Define Groups 按钮为灰色显示,也表明暂不可用。

【Compute Variable 对话框】

Page 35: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 3.2  在 li1_1.sav 中建立新变量 temp,令其值当血磷值大于 1 时为2,否则为 1。

解:这里需要用到 Compute Variable 对话框,外加一点技巧。首先给变量 temp 均赋值为 1,然后将血磷值大于 1 的记录其 temp 变量值改为 2 即可。选择菜单 Transform==>Compute,弹出 Compute Variable 对话框如下:

左上角为需要计算的变量名,在其中键入“temp”,此时“Type&Lable”

按钮就会变黑,喜欢精确的朋友可以在这里对 temp 进行详细的定义,但如果你和我一样非常懒,就可以对它视而不见(不要生气,聪明人大多都非常懒:));左下方为候选变量列表,现在还用不着;中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;软键盘右侧为函数窗口,可以在这里找到并使用所需的 SPSS函数;这次也用不到。好,现在“OK”按钮已经变黑,单击他,系统就会自动生成一个新变量 temp,并且取值均为 1。

Page 36: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

软键盘上几个奇奇怪怪的符号的含义如下:~= & | ** ~

不等号,等价于<> 逻辑符号 AND 逻辑符号 OR 乘方,相当于函数 EXP() 逻辑符号 NOT

在函数窗口中选中某个函数并单击右键,系统就会弹出该函数的用法说明。函数主要是和变量名组合起来使用的,比如说ABS(x)就是取变量 x 的绝

对值。好,现在开始进行第二步,再次选择菜单 Transform==>Compute,系

统也再次弹出这个对话框--等等!注意到了吗?该对话框自动记住了你上次输入的内容,几乎所有 SPSS 的对话框都有这个特性,这会大大方便我们的使用。好,将数值表达式窗口中的 1改为 2,然后单击中下部的“If”按钮,系统弹出记录选择对话框如下:

不需要太多解释,大部分内容都是前面见过的。由于我们这里不是对所有记录做变换,因此选中第二个单选钮“Include if case statisfies confition:”,此时下方的所有窗口变亮,表明现在可用;而“Continue”按钮变灰,表明当

Page 37: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

前还没有提供所需的信息,好,我们就来提供,在左侧选中血磷值(x),然后单击“ ”,x 就被引入了右侧的变量框,任你用键盘或者用鼠标,总之将下面这个算式补充完:x>1。现在可见“Continue”按钮再度变黑。在它又变灰之前赶快单击它(开个玩笑),系统回到 Compute Variable 对话框,请注意 If

按钮右侧的变化:x>2。如果你做的结果不一样,请重来一遍。现在单击“OK”按钮,由于我们要替换变量值,系统会弹出一个确认对话

框,确认替换,马上你就会看到,我们已经把这道题做完了。【Count 对话框】

Count 对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口),比如我们想看看有哪些记录的血磷值在 2~3之间,选择菜单Transform==>Count,系统弹出 Count 对话框如下:

Target Variable 框中用于指定记录变量值是否出现的变量名,在这里输入 temp2;选中血磷值(x),将其选入 Variables 窗口,此时“Define

Values”按钮变黑,单击它,系统弹出变量值定义窗口如下:

Page 38: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况:选择Range,在 through 两侧分别键入 2、3,然后单击已变黑的“Add”按钮,“2 thru 3”就会被加入“Values to Count”框内。然后单击“Continue”,再单击 Count 对话框的“OK”,可以看到系统自动生成变量 temp2,其中10、11 号记录因血磷值介于 2 和 3之间,temp2 取值为 1,其余的记录temp2 取值均为 0。

SOS,SOS,请大家千万注意,Count 对话框有一个潜在的 bugs,当你需要计算同时满足两个变量取值条件的记录数有多少时,直接用该对话框会得出完全错误的结果。这里有一点技巧,需要对对话框生成的指令加以修改,至于怎么修改嘛,我们将在 Syntax(语法)窗口使用详解一章中讲述 :)。【Recode 对话框】

Recode 对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。

Page 39: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 2.3  在 Li1_1.sav 中生成新变量 temp3,当血磷值小于 1 时取值为0,1~2 时取值为 10,大于 2 时取值为 20。

解:选择菜单 Transform==>Record==>Into Different

Variables,Recode 对话框如下:

将血磷值(x)选入 Input Variable->Output Variable 框,此时 Output

Variable 框变黑,在其中键入新变量名 temp3 并单击 Change,可见原来的x->?变成了 x->temp3。现在单击“Old and New Values”,系统弹出变量值定义对话框如下:

Page 40: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

许多东西和前面类似,不再重复。按照题目的要求,选择 Range:Lowest

through,在右侧框中键入 1,然后在右上方的 Value 右侧框中键入对应的新变量值 0,此时下方 Add键变黑,单击它,Old->New 框中就会加入 Lowest

thru 1->0,按照类似的方法依次加入另两条转换规则,最终Old->New 框中共有 Lowest thru 1->0、1 thru 2->10、Else->20 三条,现在单击Continue,再单击 OK,系统就会按要求生成新变量 temp3。

哎呀不得了,图片太多了,虽然这样非常直观,但下载速度太慢了。等大家对基本界面操作熟悉了后,我们将对比较简单的对话框试着对操作用文字的方式描述,比如上面的操作我们将用文字表达为:

1. Output Variable 框:选入 x

2. Output Variable Name 框:键入 temp3:单击 Change 钮

3. 选中 x->temp3:单击 Old and New Values 钮:

Page 41: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4.   Range:Lowest through 单选钮:键入 1:New Value

Value 单选钮:键入 0:单击 Add 钮

5.   Range: through 单选钮:两侧分别键入 1、2:New Value

Value 单选钮:键入 10:单击 Add 钮

6.   Range: All other values 单选钮:New Value Value 单选钮:键入 20:单击 Add 钮

7.   单击 Continue

8. 单击 OK

怎么样,还能理解吧。【Categorize Variables 对话框】

Categorize Variables 对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单,许多东西都是我们所熟悉的,唯一特别的是右下方的number of categories 框,用于输入变量的等级数,默认为 4,比如我们希望将血磷值按大小分成 5 个等级,先将血磷值选入 Create Categories 框,然后将下面的 4改为 5,单击 OK,就会看到系统产生了一个新变量 nx(即number of x之意),其取值就对应了血磷值相应的 5 个等级(1~5)。重复一下,具体操作步骤为:

1. Create Categories 框:选入 x 2. Number of categories 框:5 3. OK

Page 42: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Rank Cases 对话框】例 2.4  请分组计算血磷值的秩和。解:选择菜单 Transform==>Rank Cases,弹出 Rank Cases 对话框

如下:

将血磷值选入 Variable 框,分组变量选入 By 框,单击 OK 即可。系统会建立一个新变量 rx(即原变量名前加 r 表示 Rank之意),其取值为 x 分组的秩次。

解释一下 Rank Cases 对话框的其他几个零件:

o 左下角的 Assign Rank 1 to 框架用于选择将秩次 1赋给最小值还是最大值;o 中下部的 Display summary tables复选框用于确定是否在结果窗口内输出结果报表;

Page 43: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

o Rank Types 钮用于定义秩次类型,有 Rank(秩分数)、Savage

评分(新变量值按指数分布)、Fractional rank(新变量值是秩分数除以非缺失值观测量的权重之和)、Fractional rank %(新变量值是秩分数除以非缺失值观测量数乘 100)、Sum of case weights(新变量值是各观测量的权重之和)、Ntiles(新变量值是按所选变量的百分位数分组的组序号),默认值为 Rank。单击 More 按钮,还会有更多的设置,这里就不再讲了。

o Ties 钮用于定义对相同值观测量的处理方式,可以是取平均秩次、最小值、最大值或当作一个记录处理,默认值为取平均秩次。

【Automatic Record 对话框】该对话框用于按原变量值的大小生成新变量,变量值就是原值的大小次序,

功能和 Rank Cases 对话框重复(等价于相同值观测量当作一个记录处理的情况)。【Create Time Series 对话框】

用于自动生成时间序列变量,由于太专业,这里不做过多解释。【Replace Missing Value 对话框】

用于填充缺失值,结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延,默认值为序列的均数。

2.2.2  数据的录入2.2.2.1  直接录入

Page 44: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

我想直接录入的问题就不用多讲了吧,直接敲就是了!2.2.2.2  数据录入技巧

和其他常用统计软件相比,SPSS 数据界面最大的优势就是支持鼠标的拖放操作,以及拷贝粘贴等命令,下面的数据录入技巧就是对这些功能的利用。【连续多个相同值的输入】

如前面 group 变量有连续多个 1,如果直接输入,可以在第一格内输入 1

并回车,然后回到刚才的单元格并单击右键,选择 copy,最后用拖放方式选中所有应输入 1 的单元格,单击右键并选择 paste,所有选中的单元格就会都被刚才拷贝的 1填充。【将 EXCEL 数据直接引入 SPSS】

Excel 已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入 SPSS:先在 EXCEL 中选中所有的数据(不包括变量名),然后选择拷贝命令;然后切换到 SPSS,最好使行 1 列 1 单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入 SPSS,再定义相应的变量即可。

2.3  进一步整理数据文件--Data 菜单在许多情况下,我们需要先对数据进行一些整理(如分组、合并、加权等)

才能将其用于最终的统计分析。这些功能基本上都集中在 Data 菜单项中,下面我们就对这些对话框做逐一介绍。

2.3.1 用于数据管理的菜单项【Sort Cases 对话框】

Page 45: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 2.5  对数据集 li1_1.sav 按 group升序,x降序的次序排列。解:选择菜单 Data==>Sort Cases,系统弹出 Sort Cases 对话框,该

对话框并不复杂,其中比较特殊的是下方的 Sort Order 单选钮,有升序和降序两种选择。请注意,该单选钮是和上方的 Sort By 框一起使用的,具体方法如下:

1. 确认升序单选钮被选择,将 Group 选入 Sort By 框;2. 选择降序单选钮,将 x 选入 Sort By 框。

请注意:group 和 x 后面分别跟着Ascending 和 Descending,表明前者是按升序、后者按降序排列;由于 Group 在前,因此排序时以 Group优先。【Transepose 对话框】

该对话框用于对数据进行行列转置,可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为 case_lbl 的字符变量中。

该对话框也非常简单,左侧为候选变量框;右上方为 Variable 框,用于选入需要转置的变量,一般应选入除名称变量外的所有其他变量,如果有变量未

Page 46: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

选入,则转置时会被自动丢弃;右下方为 Name Variable 框,用于指定原数据文件中记录转置后变量名的字符变量,但不是必需的,此时系统会将新变量自动按 var001、var002...的顺序命名。【Merge Files 对话框】

用于合并数据文件,实际上包括了两个对话框,分别对应了两种合并方式:1. 从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用 Add

Cases 对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data==>Merge Files==>Add Cases,系统首先弹出打开数据文件对话框,选中需要添加的数据文件并按 OK,系统才弹出 Add Cases 对话框,左侧显示的是新、老数据文件中不匹配的变量名,右侧显示的是已经匹配的变量名。可以用 Rename 按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按 Ctrl

键选中匹配的两个变量再单击 Pair 钮)。右下方的 Indicate case source as

variable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击 OK,该操作就完成了。

实际上右侧显示的是将要包括在合并后数据集中的变量,如果有哪个你不需要,把它弄到左侧框中即可。

2. 从外部数据文件增加变量到当前数据文件,称为横向合并,用 Add

Variable 对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data==>Merge Files==>Add Variable 对话框,系统同样先弹出打开数据文件对话框,单击 OK 后弹出和前面相似的 Add Variable 对话框。按需选择即可。【Aggregate 对话框】

Page 47: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。

上图中各个零件的含义如下:

Break Variables 框:用于选择分组变量; Aggregate Variables 框:用于选择被汇总的变量;

Name&Label 钮:用于定义新产生的汇总变量的名称和标签;

Function 钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共 8 个;

Page 48: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Save Number of cases in break group as variable复选框:用于定义一个新变量以存储同组的记录数;

Create new data file 单选钮:定义一个新文件以存储汇总的结果,右侧的 File 钮用于具体文件名的定义,默认文件名为 AGGR.sav;

Replace working data file 单选钮:用汇总的结果替换原来的数据。

例 2.6  计算 Li1_1.sav 中两组的血磷值标准差。解:该题完全可以用更简单的方法完成,这里只是演示一下汇总对话框的

用法。1. Break Variables 框:Group 2. Aggregate Variables 框:x 3. Function 钮:(Standard deviation 单选钮:Continue 钮) 4. Replace working data file 单选钮:选中 5. OK

【Split File 对话框】用于将数据文件分组进行处理,该对话框我们在第一章时已经使用过了,

这里再介绍一下各个对话框元素的用途:

Analyze all cases 单选框:和下面的两个单选框为一组,选中本框不拆分文件; Compare groups 单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较;

Page 49: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Organize output by groups 单选框:按所选变量拆分文件,各组分析结果单独放置;

 Groups based on 框:用于选择拆分数据文件的变量;

Sort the file by grouping variables 单选框:将数据按所用的拆分变量排序;

File is already sorted 单选框:数据保持原状,不按所用的拆分变量排序。

【Select Cases 对话框】很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分

(比如只分析男性的身高、只对前 200 个数据进行分析以了解大概情况),这时使用 Select Cases 对话框可以大大简化工作。 该对话框界面如下所示:

Page 50: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

其中主要的对话框元素为:

All cases 单选钮:和下面的 4 个单选钮为一组,选中它则分析所有的记录; If condition is satisfied 单选钮:只分析满足条件的记录;

 If 按钮:和 If 单选钮一起使用,单击后弹出 If 对话框;

Random sample of cases 单选钮:从原数据中按某种条件抽样;

 Sample 按钮:和 Random 单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;

Page 51: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Based on time or case range 单选钮:基于记录序号来选择记录;

 Range 按钮:和 Based 单选钮一起使用,用于输入记录序号范围;

Use filter variable 单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非 0 的记录将被选中,进入以后的分析;

Filtered 单选钮:和下面的 Deleted 单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;

Deleted 单选钮:未被选中的记录将被删除,一般不要使用。

当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为 filter_$的筛选指示变量,被选中的记录该变量取值为 1,反之则为 0。【Weight Cases 对话框】

在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有 100 例,如果每一行就是一条记录,你就需要输入 100 条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到 Weight Cases 对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。【Data 菜单中的其余对话框】

Page 52: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Define dates 对话框:可以自动生成时间变量。 Insert Variable命令:在当前列插入新变量。

Insert cases命令:在当前行插入新记录。

Goto cases 对话框:到达指定记录号的记录,该命令在记录数极多时(1000 条以上)非常有用。

2.3.2  正交设计菜单项正交设计不包含在 SPSS/BASE模块中,因此由于解密范围的问题,有的

D 版中不含该菜单项,不过我用的 10.0 版里是有的:)。以前我以为 SPSS 不能作正交设计,感谢网友 edof@sh 的提醒,经研究,

在 SPSS 中可以直接进行正交设计,Orthogonal Design子菜单项就是专门用于完成该任务的,具体做法用下面的例子说明如下:

例 2.7 做A、B 两个因素的正交设计,A 因素有三个水平,B 因素有两个水平。

解:选择 Data-->Orthogonal Design-->generate,弹出的就是正交设计窗口,操作如下:

1. Factor name 框:输入 A; 2. 单击 ADD 钮; 3. 确定变量 A 被选中,单击 Define value 钮; 4.   Value 列:头三行分别输入 1、2 和 3,代表变量 A 的三个水平; 5.   单击 continue 钮; 6. Factor name 框:输入 B; 7. 单击 ADD 钮; 8. 确定变量 B 被选中,单击 Define value 钮; 9.   Value 列:头两行分别输入 1、2,代表变量 B 的两个水平; 10.   单击 continue 钮;

Page 53: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

11. 单击 OK

在第 10 步定义完后,对话框应如下图所示:

在其他没有用到的选择项中,各种 LABELS 当然适用于定义相应的各种标签的;Data Files 单选框组用来定义产生的数据文件是存为制定的文件名,还是直接替换当前工作文件;而Define Value 对话框中的 Auto fit 框可以自动填充从 1 到你输入的那个数值这么多个水平的定义,特别适合我这种懒人。

这里我们直接替换当前工作文件,在这个自动产生的正交设计数据集中,前两个变量就是要分析的 A 和 B,各个水平已经按正交设计的要求排列好了。后面的 status_和 card_变量是系统产生的 LOG 变量,可以不管它。现在你再建立一个结果变量,输入实验结果,就可以进行正交设计的分析了。

第三章:程序编辑窗口用法详解

Page 54: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

3.0.1  程序编辑窗口界面

3.0.2  邂逅 Paste 按钮

3.0.3  用程序编辑窗口加快我们的工作

3.0.4  用程序编辑窗口完成对话框无法完成的工作

3.0.5  再罗嗦几句

在某年某月的某一天,你和你的另一半正在街上为地球表面的平整而贡献自己的绵薄之力。突然(也许是必然),你觉得有些饿了。这是一个问题,当然,不用说大家也知道解决问题的方法就是--吃。不过就是吃也有讲究,可以随便找个面馆简单的填饱肚子;要求高的话还可以去几星级的地方享受一下;当然还有的人觉得自己回去做口味也合适,花费也不多;更有些超级美食家,星级水准也不满意,需要亲自给一级厨师露一手,指点他们一下,才会吃的满意。好,使用 SPSS 进行统计分析的方式就象上面填饱肚子的方法一样有几种选择,如果你烹饪工夫还欠火候,或者习惯了享受星级服务,那么直接使用 SPSS 为你提供的对话框进行操作就是了;而如果你习惯了 DIY,甚或对话框也无法满足你的统计分析要求(别瞪眼,下面你就会看到了),就请你在本章学习一下如何写 SPSS 程序吧。什么?SPSS 还有程序?!是的,如果大家以前用过 SPSS/PC+ 4.0,就一定不会对 SPSS 的程序感到陌生:在那个非常遥远的 DOS 时代(大约 15年前),学习 SPSS 程序的语法,掌握如何编写 SPSS 程序是熟练使用 SPSS 的必要条件(但还不充分)。随着Windows旋风的登陆,软件的易操作性被推进到了前所未有的高度,而 SPSS 显然是统计软件中做的最成功的一个。他的操作界面是如此的成功,让使用者可以完全无须了解 SPSS 的语法而使用其 99%的功能,

Page 55: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

使得 SPSS 程序被人逐渐忘记。其实,适当的使用 SPSS 程序可以大大提高我们的工作效率,并且 SPSS 在设计时也充分注意到了编程功能和使用界面的结合--还记得 Paste 按钮吗?下面我们就结合几个实例来学习如何使用程序编辑窗口。

请注意:我们不准备教大家那些枯燥的 SPSS语法,现在写 SPSS 程序就象在 WORD 中记录宏一样简单,所需要做的只是略加修改而已。

3.0.1 程序编辑窗口界面选择菜单 File==>new==>syntax,系统会开启一个新的程序编辑窗口如下:

Syntax从字面上应该翻译为句法、语法的意思,这里从实际用途出发,翻译为程序。和以前见过的数据管理窗口相比,这个窗口简单的不能再简单了。菜单项中的File、Edit、View、Analyze、Graphs 等菜单都是通用的,唯一特殊的是 Run 菜单,该窗口的特殊功能均在这里实现。

Page 56: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

3.0.2 邂逅 Paste 按钮Paste 按钮在几乎所有 SPSS 对话框中均存在,它是专门为编程准备的。以第一章的那个 t检验为例,如果最终选择完毕后不单击 OK而是单击 Paste,则程序编辑窗中会自动生成以下语句:T-TEST GROUPS=group(1 2) /MISSING=ANALYSIS /VARIABLES=x /CRITERIA=CIN(.95) .这就是你刚才想做的工作,如果运行它,就可以得到 t检验的结果!怎么运行?选择菜单 Run==>all,看到了吗?

Paste 按钮如何能生成程序?在 SPSS 中,操作界面实际上起的就是“操作界面”的作用。当你用对话框选定某项操作,单击 OK 后,SPSS 就将你的选择翻译成程序语句,然后提交系统执行。如果你单击 Paste 按钮,SPSS 就不将生成的程序语句提交执行,而是传送到程序编辑窗中供你折腾。说的再广一些,不光 SPSS,SAS 等其他统计软件也是这么做的。从上面的语句可以看到 SPSS 程序的基本结构:一条语句可占多行,最前

面为语句主体,具体的选项用斜杠和语句主体相连,最后用小数点结束语句。

3.0.3 用程序编辑窗口加快我们的工作如果程序编辑窗口只能带来“暂停”功能的话,我也就不用再往下写了。幸好,它的作用还远不止与此。当需要成批次的处理数据时,当你需要重复进行相同的统计分析时,当你要做许多统计分析,每一步均费时较长而你又不想等时...,

Page 57: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

使用 Paste 按钮是你的救命稻草。仍以第一章为例,如果从预分析一开始就连续使用 Paste 按钮,则到分析结束我们会得到如下程序:DESCRIPTIVES VARIABLES=x

 /STATISTICS=MEAN STDDEV MIN MAX .SORT CASES BY group .SPLIT FILE SEPARATE BY group .

 DESCRIPTIVES

 VARIABLES=x

 /STATISTICS=MEAN STDDEV MIN MAX .GRAPH /HISTOGRAM=x .T-TEST GROUPS=group(1 2)

 /MISSING=ANALYSIS

 /VARIABLES=x

 /CRITERIA=CIN(.95) .

现在你可以再次启用 Run 菜单来一次完成所需的统计分析。特别的,如果你的数据还会不断添加(试验尚未结束),就可以把该程序存为程序文件(*.sps),下次读入新数据后再运行一次就可以直接得到新的结果。

Run 菜单几个选项的含义分别为: ALL 运行全部程序。 SELECTION 运行所选择的程序语句。 CURRENT 运行当前光标所在行的语句。 TO END 从当前语句起一直运行到程序结束。

Page 58: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

3.0.4 用程序编辑窗口完成对话框无法完成的工作如果程序编辑窗口的本事只限于上面介绍的这一点,那么在 Windows 时代,它仍然不配我来专门写一章。还记得吗?上面我提到用 SPSS 的图形界面可以完成 99%的工作,可有时候你偏偏需要用另外那 1%的功能,请看下面的例子:例 3.1 请打开 SPSS提供的 cars.sav 数据,假设每条记录代表一辆车,现在将按下列条件挑选一些车出来:Year<=76、Cylinder<=4、Weight>=3000,并且要看看每辆车符合了以上三条要求中的几条。解:没有什么难的,从第二章的知识我们了解到 Count 对话框就是做这类事情的,好,在 Count 对话框进行操作如下:

1. Target variable 框:键入 G1(新变量名) 2. Numeric variable 框:选入 Year 3. 单击 Define values 钮: 4.  Range lowest through:键入 76:单击 ADD 钮 5.  单击 Continue 钮 6. Numeric variable 框:选入 cylinder 7. 单击 Define values 钮: 8.  Range lowest through:键入 4:单击 ADD 钮 9.  单击 Continue 钮 10. Numeric variable 框:选入 Weight 11. 单击 Define values 钮 12.  Range through higest:键入 3000:单击 ADD 钮 13.  单击 Continue 钮 14. 单击 OK

好了,做完了--不过好象不大对劲呀!怎么前面做的条件选择在后面定义的时候仍然出现?再看看结果,更不对了!看来有问题。毛病出在哪里呢?请再次开启Count 对话框,选择好的条件仍然在里面,单击 Paste 钮,可以看到这些选择产生的 SPSS语句如下:COUNT

Page 59: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 G1 = year cylinder weight (Lowest thru 76) year cylinder weight (Lowest thru 4) year cylinder weight (3000 thru Highest) .EXECUTE .仔细看看,这个语句不对呀!明明 Lowest thru 76 应该是对变量 Year 的限制,怎么 year、cylinder、weight 这三个变量都在它前面?再看另两个条件,一样“大家有份”,这还了得,改!将语句改为正确的格式如下:COUNT G1 = year (Lowest thru 76) cylinder (Lowest thru 4) weight (3000 thru Highest) .EXECUTE .再次运行该语句,可以看到各个记录 G1 分别被取值为 0~3,代表该车满足了0~3 条要求,最终满足全部三条要求的应为 3 条记录。

3.0.5 再罗嗦几句由于 SPSS 的大多数用户已经习惯了在图形对话框界面下操作,许多人不了解程序编辑窗口的用途,编写本章的目的主要是提醒大家:适当的时候,程序编辑窗口可以大大简化我们的工作。实际上,SPSS针对高级用户(需要编程做模拟抽样之类的事情)专门开发了 SPSS Production facility模块,确有编程需要(或狂热)的朋友可参考有关书籍。

第四章:SPSS 结果窗口用法详解4.1  结果窗口元素介绍

4.1.1  结果浏览窗口( Viewer )

4.1.2  结果草稿浏览窗口( Draft Viewer )

4.1.3  如何美化你的输出结果-- SPSS 选项设置

Page 60: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4.2  驾驭结果浏览窗口

4.2.1  结果窗口的的一般操作

4.2.2  结果的导出

4.2.3  如何在 WORD 等软件中使用输出结果 4.3  文本输出结果的编辑

4.4  表格编辑方法详解

4.4.1  基本操作

4.4.2  特色菜单内容详解

4.5  图片编辑方法详解

4.5.1  基本操作

4.5.2  特色菜单内容详解  

§4.1 结果窗口元素介绍SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个 RTF 格式文档,显示简单朴素,但节省资源。我们可以根据所用计算机的情况选择使用哪一种窗口。

结果草稿浏览窗口的内容虽然是 RTF 格式,但由于中、英文兼容性的问题,其中的表格读入 WORD 以后会变的面目全非,因此对我们不是很适用。

4.1.1 结果浏览窗口

Page 61: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

SPSS 的输出结果美观大方,是该软件的一大特色,下面是一个典型的结果浏览窗口。

相信 99%的人都用过资源管理器,SPSS 的结果浏览窗口和 Windows 资源管理器的结构完全相同,操作也几乎相同。除了上面的菜单栏、工具栏以外,绝大部分窗口被纵向一分为二!左侧是大纲视图(Outline view),又称结构视图,右侧则显示详细的统计结果(统计表、统计图和文本结果),两侧的元素是完全一一对应的,即选中一侧的某元素,在另一侧该元素也会被选中。例如左侧的Title 图标旁有一个红色的箭头,表明该内容为结果窗口当前所在位置,相应的,右侧的标题 Descriptives旁也出现一个红色三角,表明这就是 Title 图标所代表的内容。下面解释一下大纲视图的各个元素。大纲视图 顾名思义,大纲视图用于概略显示结果的结构,用于在宏观上对结果进行管理,如移动,删除等。里面采取和资源管理器类似的层次方式排列元素,每个元素用一个小图标来表示。常见的图标有:

Page 62: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

大纲图标,代表一段或整个输出结果,含下级元素,单击左侧的减号就可以将下级元素折叠,折叠后减号变为加号,图标则变为 。运行记录图标,代表系统操作产生的一段运行记录。警告图标,代表输出结果中的系统警告。注解图标,代表系统自动产生的注解,默认情况下注解内容在输出结果中是

隐藏的。标题图标,代表输出标题。页标题图标,代表输出标题,较少出现。表格图标,代表输出结果中的统计表(Pivot table,字面意思为数据透视

表)。统计图图标,代表统计图。

文本图标,代表文本输出结果。交互式统计图图标,代表交互式统计图。统计地图图标,代表统计地图。

单击图标会选中所代表的一块或一段输出结果,双击图标可以让对应输出在显示、隐藏间切换,选中后单击图标的名称则可以对图标改名。

4.1.2 结果草稿浏览窗口和它漂亮的兄弟相比,结果草稿浏览窗口就朴素的多了,什么花样也没有。当然系统资源也要少占用许多,前面的输出结果在结果草稿浏览窗口中的显示如下:

Page 63: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

由于是英文软件,里面会出现一些奇怪的字符,不用理会。由于该窗口用的非常少,也没有什么复杂的操作,下面的讲解将基本上以结果浏览窗口为主。

你可以在下面讲到的选项设置中设定 SPSS默认使用结果浏览窗口还是结果草稿浏览窗口。如果需要使用不同于选项设置的结果窗口,则关闭所有的结果窗口,然后用 File==>New 菜单新建一个所需类型的结果窗口,以后的结果会自动输出到该窗口中。

4.1.3 如何美化你的输出结果--SPSS 选项设置俗话说:爱美之心,人皆有之。当人们还在温饱线上挣扎时,美丽只能是一个遥远的梦;一旦远离贫困,没有人会不想把这个梦变为现实。用着 SPSS豪华的界面,我们已经小康了,难道你不想把输出结果弄的更漂亮一些吗?选择菜单Edit==>Options,弹出的 Options 对话框会帮你实现这个美丽的梦想。

Page 64: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Options 对话框可以设置 SPSS 的方方面面,让他处处打上你个人的印记,由于里面内容太多,下面分头叙述,并给出我推荐的设置方式(在 800*600 分辨率下)。

1. General 用于设置一些常规性选项,比如记录日志(Session Journal)的设定,变量列表(Variable lists)显示方式、临时文件夹(Temporary directory)的位置、结果窗口类型设置(Output type at start-up)、声音提示设置等。需要修改的内容如下:

o Variable lists:选中 Alphabetica,即在对话框中变量按字母顺序排列。 o Sound:System Beep,有新输出结果时系统发出“嘀”声警告。 o Output type at start-up:请根据所用计算机的性能自行设定。2. Viewer 用于设置结果浏览窗口的外观,这是对结果美观最重要的设置,左侧用于

设置各种结果元素是否显示及对齐方式,右侧设置标题、正文的文字格式,修改如下:

o Title Font:魏碑(或黑体),14 号,加粗,红色。 o Text Output Font:宋体(该字体可尽量保证中、英文混排时列对齐),12 号,蓝色。3. Draft Viewer 既然是草稿,也没有什么好排的,上面的内容和 Viewer 的一对应就明白了,多数不用动,只有 Font 可能小了点,改为 10 号。

4. Output Labels 用于设置在各处是否显示标签,不用做任何更改。 5. Charts 设置统计图的常规选项,请将 Frame:inner复选框去掉。 6. Interactive 设置交互式统计图的选项,一般不用更改。 7. Pivot Tables 设置统计表的格式,这里要做两处重要的修改:o Tablelook:选择 Academic (VGA).tlo 格式,它最符合统计学和美学要求。 o Default Editing Mode:选择 Edit small and medium tables in Viewer。

最后三个为 Data、Currency 和 Script,他们分别设置数据、货币和宏语言的格式,不用做修改即可。怎么样,改完了吗?请单击确定,然后退出 SPSS 并重新进入,随便打开个数据,做两个分析瞧瞧,不一样了吧!以后教程中的所有输出结果将多数采用这种优化过的格式。

§4.2 驾驭结果浏览窗口

Page 65: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4.2.1 结果窗口的一般操作【打开与保存】如果结果窗口是当前窗口,则可以直接用快捷工具栏进行操作;否则,可以用File 菜单操作。注意 SPSS提供了一项特殊的保存功能--Save with

password,即将输出结果加密保存,存盘时会让你提供 PASSWORD 和 OEM

CODE,后者随便输几个数字就行了。要小心,这东西可没有解密软件可用,因此请一定记住所设的口令。【移动、删除】记得在资源管理器中如何移动、删除目录和文件吗?对了,左、右侧均可操作,并且左、右键均有用处。这里的情况非常相似,但左侧大纲视图用起来显然更得心应手些:选中图标,将它拖到祖国最需要的地方去,或者轻按 Delete键,让它在你的眼前消失。再注明一下:左键默认是移动,右键和资源管理器类似,也会弹出确认菜单。

这里的大纲视图具有和 WORD 中大纲视图相似的功能,升、降级等功能均可用。

4.2.2 结果的导出在第一章中我们已经用过导出结果这项功能,实际上,SPSS 设计该功能的作用将结果发送到网上,而对我们而言,目的则是打印或用 WORD 进行再编辑,也算是拿来主义吧。由于该功能非常重要而又多为人所忽视,这里专门列为一节下面解释一下 Export 对话框的主要内容:

o Export 下拉列表 确定需要输出的内容,有全部结果、无统计图的文档和只输出统计

Page 66: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图三种选择。 o Export File 框 在这里输入输出目标文件名。 o Exprot what 单选钮组 确定输出的范围,有全部对象、全部可见对象和所选择的对象

三种选择,由于 SPSS 将 Note 等可有可无的输出内容隐藏了起来,因此一般选择全部可见对象,可以省近 1/3 的篇幅。

o Export Format 下拉列表 确定导出文件的格式,有 HTML 和文本格式两种,如果是用针式打印机输出,则文本最好;如果要用 WORD 进一步编辑,则 HTML更佳。

o Options 钮 设定导出的一些选项,在 10.0 版中这里需要设定的内容非常少,只有存储图片格式等几项。

选好后单击 OK,系统就会将结果按你的要求输出,其中的统计图会在相同的子目录中按 Image1.jpg、Image2.jpg...这样的默认名依次存储。

SPSS使用守则第一条:除非你的打印纸多的没处用了,永远不要直接打印SPSS 的结果,那样会多浪费近一倍的纸张。

4.2.3 如何在 WORD 等软件中使用输出结果现在,文字处理软件使用的越来越广,SPSS漂亮的输出结果如果无法在WORD 等中使用岂不可惜!直接用 WORD 打开?不行。那么就用拷贝粘贴的方法吧。问题恰恰就出在这里。SPSS 的表格和图均是专用增强格式,直接弄过去可能还不合适(尤其在 9.0 版以前)。在这里我要专门讲一下相关的问题。

由于版本的差异,各位在使用时可能和这里叙述的不太一样,我用的是SPSS10.0 和 WORD2000。【纯文本结果】包括标题等都是纯文本结果。对这种输出结果的操作没有什么特殊的,直接拷贝粘贴过去就行了,WORD 会自动转换相应的字体、格式等。【统计表格】

Page 67: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

选中需要的统计表,在拷贝时会有两种选择:拷贝或拷贝对象(Object),前者会将统计表按普通的 WORD 表格来拷贝,粘贴后格式大部分丢失,但可以做进一步修改;后者则将统计表拷贝为特殊的图片,格式和以前完全一样,但无法更改。本来选择哪一种都行,问题是 9.0 以前的版本和 WORD97 的兼容性不好,按普通表格粘贴过去的表格会变的七扭八歪。此种情况下用拷贝对象的方法较好。【统计图】和统计表的情况类似,这里也有拷贝或拷贝对象两种选择,但我们推荐一直使用后者!如果使用拷贝,则弄过去的是增强的图元文件,往往无法编辑,还会把WORD 文档撑的很大;如果拷贝对象,则粘贴过去的就是普通图片。当然,众所周知WORD 对图片的编辑能力简直就是一塌糊涂,因此请务必在 SPSS 中编辑满意了再拷贝。

§4.3 文本输出结果的编辑结果草稿浏览窗口里当然都是文本啦。至于结果浏览窗口嘛,简言之,在窗口中看起来象纯文本的都是纯文本(?)。双击它,就可以进行编辑了。根据设置的不同编辑时有可能打开一个新窗口,该窗口简直和 Windows自带的写字板一模一样,用法也一样;也可能只是在原窗口内更进一步,这时要注意:文本过长时自己也会带有滚动条,操作时要小心使用两个方向的共四个滚动条(含原窗口的两个),如果鼠标点错了地方,立刻就会退出编辑。具体的编辑方法就不写了,这些文本实际上是 RTF 格式,写字板里能用到的功能这里基本上都有。

Page 68: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

在大约 8.0及以前各版中,SPSS 输出结果窗对中文的支持不是很好,有时输出乱码。倒是有个技巧可以解决,但年代太久,我实在记不起来了(好象是将中文输入法打开),实在不行就不用中文。

§4.4 表格编辑方法详解在多数时候 SPSS默认的统计表格已经可以满足我们的需要,但有时我们还是不满足,想做进一步的修改。双击选中的表格,就会进入该表格的编辑模式。

此时进入的是表格的默认编辑模式,相当于右键菜单上的 SPSS Pivot

table 对象==>编辑。如果要强行让它在新窗口中编辑,请选择右键菜单上的SPSS Pivot table 对象==>open。4.4.1 基本操作在表格编辑模式中的基本单位为单元格,包括表格标题和脚注均被看成特殊的单元格来处理。单击可以选中单元格,双击则显示单元格内数据的确切值,并可以修改。

    单击选中某个单元格 双击编辑单元格内容 惨了,我把数值改坏了!

不仅可以选中某个单元格,还可以选中其中的一行或一列,但这要先选中最上侧或左侧的标题格,然后选择菜单 Edit==>select,有四个选项:table、Table body、Data cells 和 Data cells and label,分别会选中表格、表格主体(不含标题和脚注)、所在行、列的数据区和所在行列。

Page 69: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

选中所在行数据区

选中所在行(包括数据区和标题格)

选中所在列(包括数据区和标题格)选中这么多做什么?你可以对他们做删除、拷贝、更改格式等操作,显然会方便的多。

这些表格和 WORD 表格一样,都可以直接按住单元格边界拖放其大小。4.4.2 特色菜单内容详解用惯了 Windows 软件后,许多菜单项都会无师自通,因此这里只向大家列举其中非常有特色、或者非常有用的内容,其他的各位举一反三,会很快掌握的(其实这只是借口,真正原因是我不想打那么多字)。【Edit 菜单】1. Group、Ungroup 菜单项用于给标题单元格加顶帽子--加上、去掉亚组的标签,选中标题单元格这两个菜单项才可能变黑,结果如下图所示。用户可以将 Group Label改为自己想要的名字。

Page 70: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

2. Drag to copy 菜单项选中该选项会使对单元格的拖动成为拷贝操作,反之,则会弹出关联菜单,确认是和当前单元格交换还是插入。3. Create graph 菜单项图,总是比表要受欢迎的多。Create graph 菜单项可以将统计表中的内容以图形的方式立体的呈现在面前。共有七种图形可供选择,下面是我们用前面的统计表数据做出的条图。

这里所做的实际上是一个交互式统计图。【Pivot 菜单】1. Transpose Rows and Columns 菜单项该选项进行表格的行列转置操作。转置后表格的效果如下:

该操作在表格太宽时非常有用。2. Pivoting Trays 菜单项

Page 71: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

即数据透视表托盘,选中该菜单项会弹出数据表托盘。

数据表托盘 将原数据表的列转换为多层表后的情况托盘的右、下方分别代表了表格的列、行。左侧代表表格的层。图标 则用来进行拖放操作。将它在三处随意拖放,就可以进行将数据表变换成多层表、行列转置等操作。

这里可能涉及到了图象编辑中层(Layer)的概念,不用多想它,觉得好玩就是了。【Format 菜单】1. Tablelooks 菜单项可以在这里直接选用新的表格模板。2. Autofit 菜单项表格的行、列宽会自动按内容的多少调整为最小。

§4.5 图片编辑方法详解在 SPSS 中做出的统计图不是简单的图片格式,而是可以继续编辑的增强图片格式,双击统计图就可以打开图片编辑窗口。

Page 72: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4.5.1 基本操作所有命令都可以在菜单上找到,该窗口的特殊命令主要集中在Gallary、Chart、Format 三个菜单中,对于不同类型的统计图,这些菜单的内容会略有区别,但大部分相同。另外,菜单中还有和外面完全相同的Analyze、Graphs 菜单,可以直接在这里继续进行分析。

工具栏上的一排按钮基本上可以和 Format 菜单的内容一一对应,用惯了以后会觉得非常方便。一旦进入了图片编辑窗口,统计图就被有机的分成了若干个基本单位,如标题,图例、纵坐标、坐标刻度值等,单击可以选中这些基本单位,双击则弹出相应的设置窗口(等价于选择相应菜单命令)。在统计图中,用的最多的是格式的设置,他们全部集中在 Format 菜单内。下面以前面用到过的直方图为例介绍一下用法。例 4.1 将下面直方图的红色实心填充区域换为兰色斜线填充,标题换为“正常人”,删除右侧的文字图例。

变换前的统计图 一、更换填充类型 二、更改颜色

Page 73: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

三、更改标题 四、去掉图例解:操作步骤如下:选中红色填充区,选择菜单 Format==>Fill Pattern,弹出填充样式对话框,选中实心填充下方的斜线,单击 Apply 按钮,再单击 Close。确定红色填充区仍被选中,选择菜单 Format==>Color,选择兰色,单击Apply 按钮,再单击 Close。选中标题,双击,弹出标题对话框,删除已有的 subtitle,在 title 中输入正常人,单击 OK。选中文字图例,双击,将 Display Legend复选框去掉,单击 OK。最终的图形如上面所示。4.5.2 特色菜单内容详解【File 菜单】1. Save chart template 菜单项将现在的图片设置格式存为模板,便于以后再做图时直接套用。2. Export chart 菜单项将 SPSS 的统计图输出为常用格式的图形文件,如 BMP、JPG 等。【Gallery 菜单】

Page 74: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

有许多统计图可以互相变换,如线图和饼图、面积图等(当然是按某种对应关系)。选择该菜单,可变换的统计图类型为黑色可选,选中需要的类型,确定后图形就自动转换过去了。【Chart 菜单】1. Options 菜单项做各种统计图比较有自身特色的设置,因而每种统计图的内容均不相同。2. Axis 菜单项对两个坐标轴进行设置,如最大、最小值,刻度间距、坐标轴标题等。3. Reference line 菜单项在纵坐标或横坐标方向上按所给数值的位置加上参考线。【Format 菜单】1. Apply chart template 菜单项在已经做好的统计图中应用存储的统计图模板,和前面的 Save chart

template 菜单项相对应。2. Interpolation 菜单项在散点图中确定用某种连线将各点相连,可选择的有无连线、直线、锯齿线(step)、尖端直线(jump)、平滑线(spline)。3. 3D rotation 菜单项对三维图形做三维空间旋转。

第五章:SPSS 统计绘图功能详解5.1  常用统计图

Page 75: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

5.1.1  操作界面介绍(条图)

5.1.1.1  条图的通用界面

5.1.1.2  复式条图与分段条图的界面

5.1.2  其他常用统计图

5.1.2.1  散点图 5.1.2.2  线图 5.1.2.3  饼图 5.1.2.4  面积图 5.1.2.5  直方图

5.1.2.6  其他

5.1.3  常用统计图编辑方法详解

5.2  交互式统计图

5.3  统计地图

在常用的统计软件中,SAS 绘制的统计图不太美观;而 SPSS 绘制的统计图较为美观,可以满足大多数情况下的要求;STATA 绘制的统计图形最为精美,但由于它采用命令行方式操作,美观的图形需要添加大量选项,普通人不易掌握;而 S-PLUS、MATHLAB 等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大多数人所熟悉。因此,在各种统计软件中,以SPSS 制作的统计图应用最为广泛。

EXECL 的统计绘图功能非常的强,我们还有必要学习 SPSS 的绘图功能吗?这个问题我的看法是:EXCEL 由于它的纯中文界面和简单而强大的绘图功能,

Page 76: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

使得可以用它来直接绘制各种简单的统计图,但是,EXCEL 可以直接绘制的统计图种类有限,象误差条图、自回归图等它就无能为力,即是它支持的线图、条图等,如果过于复杂,如叠式条图、累计条图等也无法作出,而这些图在统计中是经常会碰到的,此时就只有采用统计软件来绘制,SPSS 就是其中的佼佼者。

§5.1 常用统计图在 SPSS 10.0 版中,除了生存分析所用的生存曲线图被整合到 ANALYZE

菜单中外,其他的统计绘图功能均放置在 graph 菜单中。该菜单具体分为以下几部分:

Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对 SPSS 的绘图能力有一个大致的了解。 Interactive:交互式统计图,这是 SPSS 9.0 版新增的内容。

Map:统计地图,这是 SPSS 10.0 版新增的内容。

市面上所能见到的 SPSS 10.0 D 版由于执照不全,并不能安装统计地图模块。

下方的其他菜单项是我们最为常用的普通统计图,具体来说有:

条图 散点图 线图

直方图 饼图 面积图

Page 77: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

箱式图 正态Q-Q 图 正态 P-P 图

质量控制图 Pareto 图 自回归曲线图

高低图 交互相关图 序列图

频谱图 误差线图 其中后面几种图形用于时间序列分析。我们的讲解将这些常规统计图为主

对交互式统计图和统计地图只举例介绍,就不再全面讲述了。我们所用的数据集为 SPSS自带的 anxiety.sav,本章的大多数例子都将

围绕该数据集展开。

5.1.1  操作界面介绍(条图)5.1.1.1  条图的通用界面

由于不同图形的绘图对话框有相当强的共性,下面我们通过一个简单的例子来看看绘图菜单的大致界面是怎么样的,通过这个例子大家可以举一反三。

例 5.1:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之和)绘制条图。

选择 graphs==>bar 后,系统首先会弹出一个简单的导航对话框如下所示:

绘制简单条图(单式条图)绘制复式条图

Page 78: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

绘制堆积条图(分段条图)定义统计图中数据的表达类型:

条图反映了同一变量若干条记录的分组汇总条图反映了不同变量的汇总

条图反映了个体观察值

在该对话框中,SPSS 将条图进行了大致的分类,对话框的上半部分用于选择条图类型,下半部分的 Data in Chart are 单选框组用于定义条图中数据的表达类型。这里根据我们所需绘制条图的类型,应该选择简单条图,在表达类型中则应选择"Summaries for groups of cases"。选好后单击 DEFINE 钮,系统开启正式的条图定义对话框如下:

Page 79: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

对话框左侧为通用的侯选变量列表框,右侧的对话框元素依次解释如下:【Bars Represent 单选框组】用于定义条图中直条所代表的含义,可以是样本例数、样本数所占的百分比

累计样本例数、累计样本数所占的百分比或其余汇总函数,在例 5.1 中我们要对变量 score 的值绘图,因此选择最后一项"Other summary function",系统开启 summary function 对话框如下所示:

Page 80: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

该对话框中列出了更多的统计汇总函数,可以满足绝大多数情况的需要。具体有:

上部:包括大多数常用统计汇总函数,如均数、标准差、中位数、方差、众数、最大、最小值、样本例数、变量值之和、累计变量值。 中部:可对各记录按大小进行筛选,如上侧百分之多少,或者只选择小于某个数值的记录。具体的数值在 value 框中输入。

下部:可按数值大小值选择取值在某个范围内的记录,具体的范围在low 和 high 框中输入。

注意上面的一些函数是和前面重复的,如样本例数。

Page 81: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

此外,对话框最下侧还有一个 Values are grouped midpoints复选框,当选中 median of values或 percentile 单选框时该框变为可选,选中则表明数据为频数表格式,所输入的数值为组中值。根据我们的目的,这里选择 sum of values 单选框,单击 continue 后系

统回到上一个对话框。【Category Axis 框】用于选择所需的分类变量,此处必选。这里根据要求,将 subject 选入,可

以见到此时 OK 已经变黑可用了。【Template 框】用于选择绘制条图的模板,一般较少用。【Titles 钮】用于输入统计图的标题和脚注,最多可以输入两行主标题,一行副标题,

两行脚注。【Options 钮】弹出 Options 对话框,用于定义相关的选项,有:

o Confidence Interval 框 输入需要计算的均数差值可信区间范围,默认为 95%。如果是和总体均数为 0 相比,则此处计算的就是样本所在总体均数的可信区间。o Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases

analysis by analysis),或只要相关变量有缺失值,则在所有分析中

Page 82: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

现在,我们已经完成了绘制该图所需的工作,单击 OK,系统绘出统计图如下:

至于 Data inChart Are 中的另两种情况 Summaries of separate

variables 和 Values of individual cases,其对话框界面极为简单,可以说是一目了然,这里不再多讲,只指出以下几点:

在 Summaries of separate variables 的对话框中,可以用 Change

summary 钮更改汇总函数。 在 Values of individual cases 的对话框中,下方 category labels

的选择并不影响做出直条的多少,只会影响X轴表示的内容,默认是记录号。

Page 83: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

5.1.1.2  复式条图与分段条图的界面复式条图与分段条图的界面并非全新的东西,只是在前面的简单界面上增

加了一些元素,让我们再通过一个例子来看看:例 5.2:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之

和)绘制条图,并且按变量 trial 的不同取值堆积(分段):由于要按变量 trial 的不同取值分段,因此在导航对话框中就不能选

simple,而应根据目的选择 stacked,单击 define 后系统开启的条图定义对话框和我们前面所用的略有不同,具体来说在 Category Axis 框附近不同,现在 Category Axis 框下面多了些东西如下所示:

选择 stacks 时的情况 选择 clusters 时的情况显然,当需要做复式条图时,将所需的分类变量选入 stacks 框中即可,做

分段条图的情况也与此类似。以例 5.2 为例,其操作步骤如下:

1. Graphs==>bar 2. Clustered:选中 3. Summarizes for groups of variables 单选框:选中 4. 单击 Define 5.   Bars repesent 框:选入 score。 6.   Other summary function 单选框:选中 7.   Variable 框:选入 subject 8.   Change summary 钮:单击 9.     Sum of values 单选框:单击 10.     单击 continue 钮 11.   Category Axis 框:选入 subject

Page 84: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

12.   Define stacks by 框:选入 trial 13.   单击 OK

绘出的条图如下所示:

但是,在 Values of individual cases 的对话框中情况有些不同,原先Bars repersent 框只能选入一个变量,做复式条图和分段条图时该框中可以选入多个变量了,其他的内容不变。

5.1.2  其他常用统计图5.1.2.1  散点图 散点图是各种统计图中比较简单的一种,共分为 simple、matrix(以矩阵

的形式显示多个变量间两两的散点图)、overlay(将多个变量间两两的散点图同时做在一张图上)和 3D(将 X、Y、Z 三个变量间的相关散点图做在一个立体空间中)四种,其中需要解释的比较特殊的内容有:

Page 85: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Set marks by 框:选入一个标记变量,根据该变量取致的不同对同一个散点图中的各点标以不同的颜色(或形状),例如在数据 cars 中我们以 horse 和 weight做图,如果用 orgion 的大小来做marks,则两次做出的图如下:

没有 mark 变量时的情况 用 orgion做mark 变量时的情况 Label cases 框:当编辑图形在图形选项中选择显示 labels 时,图形默认显示记录号,如果在这里选择了 label 变量,则显示该变量的取值。

做出的 3D 图形可以在编辑时进行三维旋转,从多个角度进行观察。

5.1.2.2  线图 线图实际上和条图是一回事,可以认为它就是条图的变形,条图是用直条

的高低表示多少,而线图是用点的高低来表示,然后又用直线将各点连接而成。5.1.2.3  饼图 饼图的做法简直太简单了,不值一提!

Page 86: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

5.1.2.4  面积图 面积图的做法是和线图、饼图类似的,比如堆积面积图是将各个指标值相加

而成,和分段式条图非常类似。5.1.2.5  直方图

直方图用于观察某个变量的分布情况,如果选择了 display normal curve

复选框,则会同时做出一条当前变量理想状况的正态分布曲线来,和该曲线相比,你就可以知道变量的实际分布究竟差了多远。

5.1.2.6  其他P-P 图和 Q-Q 图都是用来观察变量是否服从正态分布的;质量控制图则用

来观察个体值是否有超过正常值范围的情况出现;箱式图的作用和它类似,只是换了一种表达方式;其余的几种图几乎都是用与时间序列模型的。

5.1.3  常用统计图编辑方法详解该部分内容请参见 4.5节:图片编辑方法详解。

Page 87: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

§5.2 交互式统计图交互式统计图是 SPSS 8.0 版新增的绘图类型,包括了交互式条图、线图、

面积图、饼图、散点图、箱式图、误差限图和和直方图共七种类型,那么,这种新的统计图类型和普通的统计图相比有什么优越性,或者说,它的主要卖点--交互性都体现在哪里呢?

在我看来,“交互式”这三个字主要体现在以下几个方面:

对话框的交互。它的对话框全部采用拖方式操作,并且每一个元素的可操作性都大大强于普通对话框,以前需要两至三层对话框才能完成的工作,现在在一层对话框中就可以完成了。 图形内容的交互。在技术上,普通统计图存储的是图形元素,因此编辑时只能就图形元素的特征,如颜色、线型等加以修改;而现在的交互式统计图完全不同,它存储的是原始数据或者绘图用的中间结果(如均数、标准差等),因此当图形绘制完毕后仍能对图形进行彻底更改,如加入锌的变量(在散点图中加入标示变量,甚至二维变三维)、删除某一部分数据、甚至改变所会图形的基本类型,如将条图改绘为线图等,只要所需信息相同,随你如何转换!不但如此,由于这个存储特点,现在我们还可以绘出以前无法直接得到的图形,如将一个数据透视表的内容用图形来表示!

Page 88: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

哈哈,统计表,我们要拿你来做图!

这就是做出的交互式统计图 把它转成三维怎么样?增强的图形编辑能力。同样由于它的存储特点,现在交互式统计图的图形编辑能力达到了有恃无恐的地步!几乎任何东西都可以拿来改,也可以往里添加许多辅助线,如下面所示的一样:

Page 89: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

朴素的美 削尖脑袋的模样 墙上长满了爬山虎

太阳照在红墙内外 反客为主的蓝飘带 我没有放倒!请注意,最后一幅图是在三维实时旋转时截取的(三维实时旋转也是交互式

统计图新增的功能之一),因为如果我不这样做,它可能会那样一直旋转下去,我这样也算是挽救了他吧!

§5.3 统计地图

Page 90: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

统计地图是 SPSS 10.0 的新增功能,如果用时髦的说法就应该是“地球物理信息系统”,不过我喜欢用朴素的名称。该功能可以将收集到的数据和地图相联系,从而绘出统计地图来。该功能共分为区域值统计地图、渐近符号统计地图点密度统计地图、个体值统计地图、分类计数条图统计地图、饼图统计地图和多主题统计地图七种。但是,如同我在 SPSS 10.0 抢鲜报道 中提到过的一样,该地图集关于中国的部分简直就是一塌糊涂,所以对国内用户来说它更多的使用来玩,而不是工作。

统计地图在操作上和交互式统计图完全一致,实际上,它就是一类特殊的交互式统计图。它所用的数据集应该和所选的地图相对应,否则会给出错误信息并停止做图。这是用 SPSS附带的亚州数据集做出的亚洲国家人口点密度图:

SPSS 在根目录下的 MapData 目录中放有许多绘制统计地图用的数据集,有兴趣的朋友可以自己做几个图试试。

第六章:描述性统计分析--Descriptive Statistics 菜单详解

Page 91: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

6.1   Frequencies 过程

6.1.1  界面说明

6.1.2  分析实例

6.1.3  结果解释

6.2   Descriptives 过程

6.2.1  界面说明

6.2.2  结果解释

6.3   Explore 过程 6.3.1  界面说明

6.3.2  结果解释

6.4   Crosstabs 过程 6.4.1  界面说明

6.4.2  分析实例

6.4.3  结果解释  描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在 Descriptive Statistics 菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的 X2 检验也在其中完成。

Page 92: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

本章讲述的四个过程在 9.0及以前版本中被放置在 Summarize 菜单中。

§6.1 Frequencies 过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。

和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的 Recode过程产生一个新变量来代表所需的各组段。

6.1.1 界面说明Frequencies 对话框的界面如下所示:

该界面在 SPSS 中实在太普通了,无须多言,重点介绍一下各部分的功能如下:

Page 93: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Display frequency tables复选框】确定是否在结果中输出频数表。【Statistics 钮】单击后弹出 Statistics 对话框如下,用于定义需要计算的其他描述统计量。

现将各部分解释如下:o Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、

每隔指定百分位输出当前百分位数(Cut points for   equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出 P2.5 和 P97.5。

o Central tendency复选框组 用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。

o Dispersion复选框组 用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差 (Variance) 、全距 (Range) 、最小值 (Minimum) 、最大值 (Maximum) 、 标 准误(S.E.mean)。

o Distribution复选框组 用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。

o Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知 SPSS,免得它犯错误。

众数(Mode)指所有数值中出现频率最高的一个值,在国内用的非常少。【Charts 钮】

Page 94: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

弹出 Charts 对话框,用于设定所做的统计图。o Chart type 单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie

chart)、直方图 Histogram),其中直方图还可以选择是否加上正态曲线( With normal curve)。

o Chart Values 单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。

【Format 钮】弹出 Format 对话框,用于定义输出频数表的格式,不过用处不大,一般不管。

o Order by 单选钮组 定义频数表的排列次序,有四个选项:Ascending values 为根据数值大小按升序从小到大作频数分布;Descending values 为根据数值大小按降序从大到小作频数分布;Ascending counts 为根据频数多少按升序从少到多作频数分布;Descending counts 为根据频数多少按降序从多到少作频数分布。

o Multiple Variables 单 选 钮 组 如 果 选 择 了 两 个 以 上 变 量做频数 表 , 则 Compare variables 可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organize output by variables 则将结果在不同的频数表过程输出结果中显示。

o Suppress Tables more than...复选框 当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。

6.1.2 分析实例例 6.1 某地 101 例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数 CV、中位数 M、p2.5 和 p97.5(卫统第三版p233 1.1 题)。4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为 X,具体解法如下:

1. Analyze==>Descriptive Statistics==>Frequencies 2. Variables 框:选入 X

Page 95: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

3. 单击 Statistics 钮: 4.  选中 Mean、Std.deviation、Median复选框 5.  单击 Percentiles:输入 2.5:单击 Add:输入 97.5:单击 Add: 6.  单击 Continue 钮 7. 单击 Charts 钮: 8.  选中 Bar charts 9.  单击 Continue 钮 10. 单击 OK

得出结果后手工计算出 CV。上面做出的直方图分组太多,需要进一步编辑。

6.1.3 结果解释上题除直方图外的的输出结果如下:Frequencies

最上方为表格名称,左上方为分析变量名,可见样本量 N 为 101 例,缺失值 0

例,均数 Mean=4.69,中位数 Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。

Page 96: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

系统对变量 x 作频数分布表(此处只列出了开头部分),Vaild 右侧为原始值,Frequency 为频数,Percent 为各组频数占总例数的百分比(包括缺失记录在内),Valid percent 为各组频数占总例数的有效百分比,Cum Percent 为各组频数占总例数的累积百分比。

§6.2 Descriptives 过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。

6.2.1 界面说明【Save standardized values as variables复选框】确定是否将原始数据的标准正态评分存为新变量。【Options 钮】弹出 Options 对话框,大部分内容均在前面 Frequences过程的 Statistics 对话框中见过,只有最下方的 Display Order 单选钮组是新的,可以选择为变量列表顺序、字母顺序、均数升序或均数降序。

Page 97: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

6.2.2 结果解释下面是一个典型的 Descriptives过程结果统计表:

一望可知,这里的大部分内容都在上一节见过,因此就不再多解释了。讲了两个过程,也许大家已经发现了:结果中的统计专业单词多数在对话

框中就已经出现,因此我们以后会详细解释对话框的内容,结果中相同的单词不再重复解释。

§6.3 Explore 过程Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如枝叶图、箱图等显得更加详细、全面,有助于用户制定继续分析的方案。

6.3.1 界面说明【Display 单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List 框】用于选入需要分析的变量。【Factor List 框】

Page 98: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。【Label cases by 框】选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录 ID

号的变量。【Statistics 钮】弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项:

o Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。

o M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。

o Outliers复选框:输出五个最大值与五个最小值。 o Percentiles复选框:输出第 5%、10%、25%、50%、75%、90%、95%位数。

【Plot 钮】弹出 Plot 对话框,用于选择所需要的统计图。有如下选项:

o Boxplots 单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factor levels together),也可以不分组一起绘制(Depentends together),或者不绘制(None)。

o Descriptive复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。 o Normality plots with test复选框:绘制正态分布图并进行变量是否符合正态分布的

检验。 o Spread vs. Level with Levene Test 单选框组:当选择了分组变量时,绘制 spread-

versus-level 图(我还没有找到他的中文名字该叫什么),设置绘图时变量的转换方式,并进行组间方差齐性检验。

【Options 钮】用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。

6.3.2 结果解释

Page 99: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

以例 6.1 的数据为例,按默认方式下的选择,Explore过程的输出如下:Explore

首先是例行的处理记录缺失值情况报告,可见 101 例均为有效值。

上表详细列出了常用的描述统计量,如果有标准误也会列出(如偏度和峰度系数)。XX Stem-and-Leaf PlotFrequency Stem & Leaf     1.00        2 .  7     8.00        3 .  00123334     9.00        3 .  556689999    24.00        4 .  000001111222333333344444    25.00        4 .  5555556666677777777788899    17.00        5 .  01111111222333334     9.00        5 .  556778889     6.00        6 .  112333

Page 100: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

     1.00        6 .  5     1.00 Extremes    (>=7.2) Stem width:    1.0000 Each leaf:       1 case(s)以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。

以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。

§6.4 Crosstabs 过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至 n维列联表,并计算相应的百分数指标。统计推断则包括了我们常用的 X2 检验、Kappa 值,分层X2(X2M-H)。如果安装了相应模块,还可计算 n维列联表的确切概率(Fisher's Exact Test)值。

Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。

Page 101: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

6.4.1 界面说明【Rows 框】用于选择行*列表中的行变量。【Columns 框】用于选择行*列表中的列变量。【Layer 框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入 Layer 框,并用 Previous 和 Next 钮设为不同层 。Layer 在这里用的比较少,在多元回归中我们将进行详细的解释。【Display clustered bar charts复选框】显示重叠条图。【Suppress table复选框】禁止在结果中输出行*列表。【Exact 钮】针对 2*2 以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。蒙特卡罗模拟默认进行 10000 次模拟,给出 99%可信区间;确切计算默认计算时间限制在 5 分钟内。这些默认值均可更改。

如果你在安装 SPSS 时没有安装 EXACT模块,则此处对话框中不会出现Exact 钮。

Page 102: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

在 3*3及以上的行*列表中,确切概率的精确计算是极为漫长的过程。我曾经用 SAS 6.12 在 P133机上计算过一个 12 格表的确切概率,整整跑了两个小时后,SAS告诉我说机器内存不足:(。SPSS 的计算速度比 SAS 要慢许多倍,因此一般只需要选用蒙特卡罗模拟算出概率值的 99%可信区间就行了,精度完全可以满足需要,而速度极快(10000 次模拟一般耗时在 10秒左右)。【Statistics 钮】弹出 Statistics 对话框,用于定义所需计算的统计量。

o Chi-square复选框:计算X2 值。 o Correlations复选框:计算行、列两变量的 Pearson 相关系数和 Spearman 等级相关系

数。 o Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。

a. Contingency coefficient复选框:即列联系数,其值界于 0~1之间;

b. Phi and Cramer's V复选框:这两者也是基于 X2 值的,Phi 在四格表 X2 检验中界于-1~1之间,在 R*C 表 X2 检验中界于 0~1之间;Cramer's V 则界于 0~1之间;

c. Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1 时表明自变量预测应变量好,为 0 时表明自变量预测应变量差;

d. Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近 1 时表明后一变量的信息很大程度来自前一变量,其值接近 0 时表明后一变量的信息与前一变量无关。

o Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。

Page 103: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

a. Gamma复选框:界于 0~1之间,所有观察实际数集中于左上角和右下角时,其值为 1;

b. Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;

c. Kendall's tau-b复选框:界于-1~1之间;

d. Kendall's tau-c复选框:界于-1~1之间;o Eta复选框:计算 Eta 值,其平方值可认为是应变量受不同因素影响所致方差的比

例; o Kappa复选框:计算Kappa 值,即内部一致性系数; o Risk复选框:计算比数比OR 值; o McNemanr复选框:进行 McNemanr 检验(一种非参检验); o Cochran's and Mantel-Haenszel statistics复选框:计算 X2

M-H 统计量(分层 X2,也有写为 X2

CMH 的),可在下方输出 H0假设的 OR 值,默认为 1。

【Cells 钮】弹出 Cells 对话框,用于定义列联表单元格中需要计算的指标:

o Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected); o Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);

o Residuals 复选 框 组 : 选 择残差 的 显 示 方 式 , 可 以 是实际数 与 理论数 的 差 值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj. Standardized);

【Format 钮】用于选择行变量是升序还是降序排列。6.4.2 分析实例

Page 104: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 6.2 某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版 P37 例 3.10)?

处 理 愈 合未愈合合计

呋喃硝胺 54 8 62

甲氰咪胍 44 20 64

合 计 98 28 126

解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用 Weight Cases

对话框指定频数变量,最后调用 Crosstabs过程进行 X2 检验。假设三个变量分别名为 R、C 和 W,则数据集结构和命令如下:

R  C W

1.00  1.00

 54.00

1.00 2.00  44.00

2.00 1.00  8.00

2.00 2.00  20.00

1. Data==>Weight Cases 2. Weight Cases by 单选框:选中 3. Freqency Variable:选入 W 4. 单击 OK 钮 5. Analyze==>Descriptive Statistics==>Crosstabs 6. Rows 框:选入 R

Page 105: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

7. Columns 框:C 8. Statistics 钮:Chi-square复选框:选中:单击 Continue 钮 9. 单击 OK 钮

6.4.3 结果解释上题的结果如下:Crosstabs

首先是处理记录缺失值情况报告,可见 126 例均为有效值。

上面为列出的四格表,实际使用时可以在其中加入变量值标签,使看起来更清楚。

Page 106: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表给出了一堆检验结果,从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-sided);从上到下为:Pearson卡方(Pearson Chi-

Square 即常用的卡方检验)、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fisher's 确切概率法(Fisher's

Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。另外,Continuity Correction 和 Pearson卡方值处分别标注有 a 和 b,表格下方为相应的注解:a.只为 2*2 表计算。b.0%个格子的期望频数小于 5,最小的期望频数为 13.78。因此,这里无须校正,直接采用第一行的检验结果,即 X2=6.133,P=0.013。

如何选用上面众多的统计结果令许多初学者头痛,实际上我们只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可,其余的对我们而言用处不大,可以视而不见。

第七章 均数间的比较--Compare Means 菜单详解

7.1   Means 过程

7.1.1  界面说明

7.1.2  结果解释

7.2   One-Samples T Test 过程

7.2.1  界面说明

7.2.2  结果解释

Page 107: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

7.3   Independent-Samples T Test 过程

7.3.1  界面说明

7.3.2  结果解释

7.4   Paired-Samples T Test 过程

7.4.1  界面说明

7.4.2  分析实例

7.4.3  结果解释

7.5   One-Way ANOVA 过程

7.5.1  界面说明

7.5.2  分析实例

7.5.3  结果解释  知道吗?在计算机领域中有个著名的 80/20规则,也就是在奔腾及更早的 CPU

所采用的 CISC指令集中,有 80%的任务是被 20%的最常用指令所完成的;换言之,另外 80%的复杂指令只完成 20%的不常用任务。好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在 SPSS 的使用中同样有效!仅以 Analyze 菜单为例,其中最常用的子菜单为:

Discriptive Statistics Compare Means General Linear Model(第一项) Correlate Regression(前半截)

Page 108: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用 SPSS 解决 80%的统计学难题。如果不满足,你在召开新闻发布会的时候还可以对以上指标进行四舍五入:)。

此时课堂上有一美眉提问:老师,那我们是不是可以只学这几项功能就行了?我...我...气死我了...

好,言归更正传。在以上五个菜单中,Compare Means 是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧...(以下省略五十万字)。下面让我们大家一起踏上 Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:

Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。 One-Samples T Test过程 进行样本均数与已知总体均数的比较。 Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资

料的 t 检验。 Paired-Samples T Test过程 进行配对资料的显著性检验,即配对 t 检验。 One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,

还可进行随后的两两比较。

§7.1 Means 过程和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。7.1.1 界面说明【Dependent List 框】用于选入需要分析的变量。

Page 109: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Independent List 框】用于选入分组变量。【Options 钮】弹出 Options 对话框,选择需要计算的描述统计量和统计分析:

o Statistics 框 可选的描述统计量。它们是:

1. sum,number of cases 总和,记录数

2. mean, geometric mean, harmonic mean 均数,几何均数,修正均数

3. standard deviation,variance,standard error of the mean

标准差,均数的标准误, 方差

4. median, grouped median 中位数,频数表资料中位数(比如 30

岁组有 5 人,40岁组有 6 人,则在计算 grouped median 时均按组中值 35 和 45 进行计算)。

5. minimum,maximum,range 最小值,最大值,全距

6. kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误

7. skewness, standard error of skewness 偏度系数,偏度系数的标准误

Page 110: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

8. percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比

o Cell Statistics 框 选入的描述统计量。 o Statistics for First layer复选框组

1. Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的 eta 值。

2. Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。

7.1.2 结果解释有了上一章的基础,Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:Means

上表还是缺失值报告。

Page 111: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。

上表为单因素方差分析表。在选择了 Anova table and eta或 Test for

linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。

相关性度量指标,给出 Eta 值以及 Eta 值的平方根。

§7.2 One-Samples T Test 过程One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。7.2.1 界面说明【Test Variables 框】用于选入需要分析的变量。【Test Value 框】在此处输入已知的总体均数,默认值为 0。

Page 112: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Options 钮】弹出 Options 对话框,用于定义相关的选项,有:

o Confidence Interval 框 输入需要计算的均数差值可信区间范围,默认为 95%。如果是和总体均数为 0 相比,则此处计算的就是样本所在总体均数的可信区间。

o Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.2.2 结果解释One-Samples T Test过程的输出也是比较简单的,由描述统计表和 t 检验表组成,比如要检验数据 li1_1.sav 中血磷值的总体均数是否等于 1,则输出如下:T-Test

所分析变量的基本情况描述,有样本量、均数、标准差和标准误。

上表为单样本 t 检验表,第一行注明了用于比较的已知总体均数为 1,下面从左到右依次为 t 值(t)、自由度(df)、P 值(Sig.2-tailed)、两均数的差值(Mean

Difference)、差值的 95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于 1。

§7.3 Independent-Samples T Test 过程

Page 113: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Independent-Samples T Test过程用于进行两样本均数的比较,即常用的两样本 t 检验。该对话框的界面我们在第一章已经见过了,和上面的 One-

Samples T Test 对话框非常相似。7.3.1 界面说明【Test Variables 框】用于选入需要分析的变量。【Grouping Variable 框】用于选入分组变量。注意选入变量后还要定义需比较的组别。【Define Groups 框】用于定义需要相互比较的两组的分组变量值。

可以这样来理解:如果分组变量有 3 个取值(即有三组),而我们做 t 检验是比较其中的某两组,这时就可以用 Define Groups 框来指定需比较的两组。当然,如果分组变量只有 2 个取值时,我们仍然要再该框中进行定义,这也算是 SPSS 对话框存在的一个小缺陷吧。【Options 钮】和 One-Samples T Test 对话框的 Options 钮完全相同,此处不再重复。7.3.2 结果解释比如要检验数据 li1_1.sav 中克山病患者与健康人的血磷值是否相同,用Independent-Samples T Test过程的结果输出如下:T-Test

Page 114: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

两组需检验变量的基本情况描述。

可见该结果分为两大部分:第一部分为 Levene's 方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为 F = 0.032,P = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的 t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的 t

检验结果,即上面一行列出的 t= 2.524,ν=22,P=0.019。从而最终的统计结论为按 α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。上表的标题内容翻译如下:

 

Levene 方差齐性检验 两均数是否相等的 t 检验  

F 值 P 值 t 值 自由度 P 值(双侧) 均数差值 差值的标准误

差值的 95%可信区间下限 上限

血磷值

假设方差齐 .032 .860 2.524 22 .019 .4363 .1729 7.777E-02 .7948

假设方差不齐   2.524

21.353 .020 .4363 .1729 7.716E-02 .7954

Page 115: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

如果你觉得上表太宽,用第三章学过的行列转置功能可以使它变的紧凑许多。

§7.4 Paired-Samples T Test 过程该过程用于进行配对设计的差值均数与总体均数 0比较的 t 检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和 One-Samples T Test过程相重复的(等价于已知总体均数为 0 的情况),但 Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。7.4.1 界面说明整个界面上只有一个 Paired Variable 框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击 将其选入。如果只选中一个变量,则 按钮为灰色,不可用。

7.4.2 分析实例例 7.1 某单位研究饮食中缺乏维生素 E 与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共 8 对,并将每对中的两头动物随机分到正常饲料组和维生素 E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A 的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例 4.5)?

Page 116: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

大白鼠对号  正常饲料组  维生素 E缺乏1  3550  2450

2  2000  2400

3  3000  1800

4  3950  3200

5  3800  3250

6  3750  2700

7  3450  2500

8  3050  1750解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为 G1,维生素 E缺乏组变量名为 G2。操作如下:

1. 同时选中 G1、G2:选入 Paired Variables 框 2. 单击 OK 钮

7.4.3 结果解释以例 7.1 为例,其输出结果如下:T-Test

配对变量各自的统计描述,此处只有 1 对,故只有 Pair 1。

Page 117: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。

配对 t 检验表,给出最终的检验结果,由上表可见 P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素 E缺乏对大白鼠肝中维生素A含量有影响。上表的标题内容翻译如下:

 

对子间的差异  

差值均数 标准差 标准误均数的 95%可信区间

t 值自由度P 值(双侧)下限 上限

第一对 G1 - G2

812.5000

546.2535

193.1298

355.8207

1269.1793

4.207 7 .004

§7.5 One-Way ANOVA 过程One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。

对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课 : 论统计软件中的数据录入格式,会大有帮助的。

Page 118: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

7.5.1 界面说明【Dependent List 框】选入需要分析的变量,可选入多个结果变量(应变量)。【Factor 框】选入需要比较的分组因素,只能选入一个。【Contrast 钮】弹出 Contrast 对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。

o Polynomial复选框 定义是否在方差分析中进行趋势检验。 o Degree 下拉列表 和 Polynomial复选框配合使用,可选则从线性趋势一直到最高五

次方曲线来进行检验。 o Coefficients 框 定义精确两两比较的选项。这里按照分组变量升序给每组一个系数值,

注意最终所有系数值相加应为 0。如果不为 0仍可检验,只不过结果是错的。比如说在下面的例 7.2 中要对第一、三组进行单独比较,则在这里给三组分配系数为 1、0、-1,就会在结果中给出相应的检验内容。

【Post Hoc 钮】弹出 Post Hoc Multiple Comparisons 对话框,用于选择进行各组间两两比较的方法,有:

o Equar Variances Assumed复选框组 一组当各组方差齐时可用的两两比较方法,共有14 中种这里不一一列出了,其中最常用的为 LSD 和 S-N-K 法。

o Equar Variances Not Assumed复选框组 一组当各组方差不齐时可用的两两比较方法,共有 4种,其中以 Dunnetts's C 法较常用。

o Significance Level 框 定义两两比较时的显著性水平,默认为 0.05。

此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。【Options 钮】

Page 119: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

弹出 Options 对话框,用于定义相关的选项,有:o Statistics复选框组 选择一些附加的统计分析项目,有统计描述(Descriptive)和方

差齐性检验(Homogeneity-of-variance)。 o Means plot复选框 用各组均数做图,以直观的了解它们的差异。 o Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的

变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.5.2 分析实例例 7.2 某职业病防治院对 31 名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例 5.1)?

石棉肺患者 可疑患者非患者1.8 2.3 2.9

1.4 2.1 3.2

1.5 2.1 2.7

2.1 2.1 2.8

1.9 2.6 2.7

1.7 2.5 3.0

1.8 2.3 3.4

1.9 2.4 3.0

1.8 2.4 3.4

1.8 3.3

2.0 3.5

Page 120: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

解:设数据已经输好,分组变量为 group,三组取值分别为 1、2、3,结果变量为 X。此处先进行单因素方差分析,然后进行两两比较,这里选择 S-N-K 法进行两两比较。操作如下:

o Dependent List 框:选入 X o Factor 框:选入 group o Post Hoc 钮:选中 S-N-K复选框:单击 Continue 钮 o 单击 OK 钮

7.5.3 结果解释上题的输出结果如下:Oneway

上面实际上是一个典型的方差分析表。给出了单因素方差分析的结果,可见F=84.544,P<0.001。因此可认为三组矿工用力肺活量不同。上表的标题内容翻译如下:

  离均差平方和 SS 自由度 均方 MS F 值 P 值

组间变异 9.266 2 4.633 84.544

.000

组内变异 1.534 28 5.480E-02    

总变异 10.800 30      

Post Hoc Tests

Page 121: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Homogeneous Subsets

上表是用 S-N-K 法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的 P 值小于 0.05,而同一亚组内的各组均数比较的 P 值则大于 0.05。从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有 1 个组别进入,因此最下方的组内两两比较 P 值均为 1.000(自己和自己比较,当然绝对不会有差异了)。从上面的解释大家可以得知:SPSS 进行两两比较时,如果有差异,则只会

告诉你 P 值小于预定的界值(默认为 0.05),而不会给出具体的概率 P 有多大。

 SPSS 第八课:征服一般线性模型――General Linear Model 菜单详解(上)

8.1  两因素方差分析

8.1.1   univarate 对话框界面说明

8.1.2  结果解释

8.2  协方差分析

Page 122: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

8.2.1  分析步骤

8.2.2  结果解释

8.3  其他较简单的方差分析问题

8.4 多元方差分析8.4.1 分析步骤8.4.2 结果解释8.5 重复测量的方差分析8.5.1 Repeated measures 对话框界面说明8.5.2 结果解释请注意,本章的标题用了一些修辞手法,一般线性模型可不是用一章就可

以说清楚的,因为它包括的内容实在太多了。那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差

分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM 菜单的用法,会使大家的统计分析能力有极大地提高。

实际上一般线性模型包括的统计模型还不止这些,我这里举出来的只是从用 SPSS 作统计分析的角度而言的一些。

好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看:

Page 123: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。 Multivariate子菜单:当结果变量(应变量)不止一个时,当然要用他来分析啦!

Repeted Measures子菜单:顾名思义,重复测量的数据就要用他来分析,这一点我可能要强调一下,用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对(不能再讲了,再讲下去就会扯到多水平模型去了)。

Variance Components子菜单:用于作方差成份模型的,这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了。

出于模型复杂性、篇幅、应用范围及乱七八糟一系列的理由,当然主要是我懒得一一解释,我决定本章采用举例讲解的方式,及讲解一些常见的分析实例,通过这种方法来熟悉那些最为常用的分析方法。

对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课 : 论统计软件中的数据录入格式,会大有帮助的。

§8.1 两因素方差分析下面的这个例子来自《卫生统计学》第四版,书还没有出来,大家先尝尝鲜例 8.1 对小白鼠喂以 A、B、C 三种不同的营养素,目的是了解不同营养素

增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传

Page 124: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

因素对体重增长的影响。现将同品系同体重的 24只小白鼠分为 8 个区组,每个区组 3只小白鼠。三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?

区组号 A营养素B营养素 C营养素1 50.10 58.20 64.50

2 47.80 48.50 62.40

3 53.10 53.80 58.60

4 63.50 64.20 72.50

5 71.20 68.40 79.30

6 41.40 45.70 38.40

7 61.90 53.00 51.20

8 42.20 39.80 46.20 根据统计分析的要求,我们建立了三个变量来包括上述信息,即 group

表示区组,food 代表使用的营养素,weight 表示最终的重量,即:group

food

weight

1 1 50.01

1 2 58.20依此类推。

8.1.1 univarate 对话框界面说明这里只有一个结果变量 weight,要采用 univarate 对话框,如下所示:

Page 125: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

在上面的这些框框钮钮中,最常用的有:Dependent Variable 框 、Fixed Factors 框、Model 钮、Post Hoc 钮,下面我们来一一解释。

【Dependent Variable 框】选入需要分析的变量(应变量),只能选入一个。这里我们的应变量为

weight,将他选入即可。【Fixed Factors 框】即固定因素,说的通俗一些,就是--哎呀,我都不知道怎么解释好了,

这样,如果你搞不明白,那么绝大多数要分析的因素都应该往里面选。这里我们要分析的是 group 和 food 两个变量,把他们全都给我抓进去!

固定因素指的是在样本中它所有可能的取值都出现了,比如例中的 food,只可能有 1、2、3 这三个值,并且都出现了,就被称作固定效应;而相对应的随

Page 126: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

机效应的因素指的是所有可能的取值在样本中没有都出现,或不可能都出现,如本例中的 group,实际上总体中当然不可能只有这 8窝,因此要用样本中group 的情况来推论总体中 group未出现的那些取值的情况时就会存在误差,因此被称为随机因素。我这里让 group也选入固定框是基于下面的事实:这样做统计分析的结论是完全相同的。不同的只是推论的那部分。

【Random Factors 框】用于选入随机因素,如果你弄不明白,假装没看见他就是了。【Covariate 框】用于选入协方差分析时的协变量,现在还用不到,不过下一个例子我们就

要给他送礼了。【WLS Weight 框】即用于选入最小二乘法权重系数。别理他,根据我的理解,只有统计分析

的变态狂才会想起来用他(如有雷同,纯属巧合)!【Model 钮】单击后出现一个对话框,用于设置在模型中包含哪些主效应和交互因子,

默认情况为 Full factorial,即分析所有的主效应和交互作用。我们这里没有交互作用可分析,所以要改一下,否则将作不出结果来。将按钮切换到右侧的custum,这时中部的 Build Term 下拉列表框就变黑可用,该框用于选择进入模型的因素交互作用级别,即是分析主效应、两阶交互、三阶交互、还是全部分析。这里我们只能分析主效应:选择 main,再用黑色箭头将 group 和 food 选入右侧的 model 框中,如果对这段叙述不太清楚,请参考下面的动画。

Page 127: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

该对话框中还有两个元素:左下方的 Sum of squares 框用于选择方差分析模型类别,有 1 型到 4 型四种,如果你搞不清他们之间的区别,使用默认的3 型即可;中下部有个 Include intercept in model复选框,用于选择是否在模型中包括截距,不用改动,默认即可。

【Contrast 钮】弹出 Contrast 对话框,用于对精细趋势检验和精确两两比较的选项进行

定义,在这里,该对话框比单因素方差分析的时候还要专业,使用频率也更少,反正我都没用过,就干脆就不介绍了。

【Plots 钮】用于指定用模型的某些参数作图,比如用 food 和 group来作图,用的也

比较少(指国内,因为它主要是用来做模型诊断用的)。【Post Hoc 钮】

Page 128: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

该按钮弹出的两两比较对话框和第 7章单因素方差分析中的一模一样,不再重复。本题对 food 作两两比较,方法为 SNK 法。

【Save 钮】将模型拟合时产生的中间结果或参数保存为新变量供继续分析时用,可保

存的东东有预测值、残差、诊断用指标等。【Options 钮】当然是定义选项啦!可以定义输出哪些指标的估计均数、并做所选择的两

两比较,还有其他一些输出,如常用描述指标、方差齐性检验等。好了,都解释完了,再重复以下,我们所作的操作为:

1. Analyze==>General Lineal model==>Univariate 2. Dependent Variable 框:选入 weight 3. Fixed Factors 框:选入 group 和 food

4. Model 钮:单击

5.   Custom 单选钮:选中

6.   Model 框:选入 group 和 food

7.   单击 OK

8. Post Hoc 钮:单击

9.   Post Hoc test for 框:选入 food

10.   SNK复选框:选中

11.   单击 OK

Page 129: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

12. 单击 OK

8.1.2 结果解释按照上题的操作,结果输出如下:Univariate Analysis of Variance

 这是一个所分析因素的取值情况列表,没有什么不好懂的。

现在大家看到的是一个典型的方差分析表,只不过是两因素的而已,我来解释一下:首先是所用方差分析模型的检验,F 值为 00.517,P小于 0.05,

Page 130: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

因此所用的模型有统计学意义,可以用它来判断模型中系数有无统计学意义;第二行是截距,它在我们的分析中没有实际意义,忽略即可;第三行是变量GROUP,可见它也有统计学意义,不过我们关心的也不是他;第四行是我们真正要分析的 FOOD,非常遗憾,它的 P 值为 0.084,还没有统计学意义。尽管不太愿意,我们的结论也只能是:尚不能认为三种营养素喂养的小白鼠体重增量有差别。

上表的标题内容翻译如下:变异来源 III 型方差 SS自由度 均方 MS 统计量 F P 值

校正的模型 2521.294 9 280.144 11.517 .000

截距 74359.534 1 74359.534

3056.985

.000

GROUP 2376.376 7 339.482 13.956 .000

FOOD 144.917 2 72.459 2.979 .084

误差 340.543 14 24.324

合计 77221.370 24

校正的合计 2861.836 23

Post Hoc Tests

FOOD

Homogeneous Subsets

Page 131: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

现在是两两比较的结果,方法为 SNK 法,由于前面总的比较无差异,所以这里三种食物均在一个亚组内,检验无差异,P 值为 0.121。

前面方差分析 FOOD 的 P 值不是 0.084吗?这里又是 0.121,究竟哪个为准?两两比较只是近似的比较结果,应以前面方差分析的 P 为准,不过这两个P 值不会在检验结果上发生质的冲突,一般只是大小不同而已。

好了,上面是正确的结果,如果 model 选择是采用 Full factor又如何呢?会得出方差分析表如下:

Page 132: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

看到了吗?由于所谓的交互作用将自由度给全部“吃”掉了,没有误差可用于统计分析,什么结果也做不出来。

§8.2 协方差分析例 8.2 某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。

而胆固醇含量与年龄有关,资料见下表。正常组 超重组

年龄(X1)

胆固醇(Y1)

年龄(X2)

胆固醇(Y2)

48 3.5 58 7.3

33 4.6 41 4.7

51 5.8 71 8.4

43 5.8 76 8.8

44 4.9 49 5.1

63 8.7 33 4.9

49 3.6 54 6.7

42 5.5 65 6.4

40 4.9 39 6.0

47 5.1 52 7.5

41 4.1 45 6.4

41 4.6 58 6.8

56 5.1 67 9.2

Page 133: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

该题选自《医学统计学》第二版第七章。考虑到统计分析对数据格式的要求我们这里建立三个变量:GROUP 表示组别,AGE 代表年龄,CHOL 则表示胆固醇。

8.2.1 分析步骤由于协方差分析涉及到许多较深的统计理论,这里我只好采用照本宣科的

方法,告诉大家如何作,而不作过多解释,欲进一步了解原理的朋友请参考《医学统计学》原书。

首先应进行预分析,了解资料是否符合协方差分析的要求,最重要的一点就是看 age 的影响在两组中是否相同,这可以用 age 与 group 是否存在交互作用来表示。对该问题,粗糙的方法可以是作分组散点图,差不多就可以,也可以进行预分析,看交互作用有无统计学意义,这里用后一种方法中最为精确的步骤来讲解。

预分析步骤:1. Analyze==>General Lineal model==>Univariate 2. Dependent Variable 框:选入 chol 3. Fixed Factors 框:选入 group

4. Model 钮:单击

5.   Custom 单选钮:选中

6.   Model 框:选入 group、age 和 group*age(后者用 interaction 方法就可选入)

Page 134: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

7.   Sum of squares 列表框:改为 Model I

8.   单击 OK

9. 单击 OK

该步骤用于判断 group 和 age间是否存在交互作用,如存在,则协方差分析的条件不满足,分析不能继续。注意这里选择了 Model I,从而拟合结果和模型中变量的引入顺序有关,即侧重点在 group 对 chol 的影响大小和交互作用上。

8.2.2 结果解释预分析步骤的结果如下:Univariate Analysis of Variance

Page 135: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表显示交互作用无统计学意义,而且 P 值非常大,因此交换 group 和age多半交互作用也无统计学意义,因此可以不继续作预分析了,当然,严格的步骤应当交换两者的顺序继续进行预分析。

正式分析步骤:1. Analyze==>General Lineal model==>Univariate 2. Dependent Variable 框:选入 chol 3. Fixed Factors 框:选入 group

4. Model 钮:单击

5.   Custom 单选钮:选中

6.   Model 框:选入 group、age

7.   Sum of squares 列表框:改为 Model III

8.   单击 OK

9. Options 钮:单击

Page 136: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

10.  Displsy means for 框:选入 group

11.  Compare mean effects复选框:选中(下面的区间调整方法就用LSD(none)即可)

12.  单击 OK

13. 单击 OK

Univariate Analysis of Variance

这是正式的统计分析结果,显示 group 和 age 都对胆固醇含量有影响,P

值分别为 0.038 和小于 0.001。Estimated Marginal Means

Page 137: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 这是两组的修正均数及相应的可信区间,显然超重组的胆固醇均值较高。

下方的提示表明该修正均数是按年龄为 50.2308岁的情形计算的。

§8.3 其他较简单的方差分析问题其他各种不太复杂的方差分析,如交叉设计的方差分析、析因设计的方差

分析等的菜单选择和统计结果的解释我就不一一详细讲解了,大家举一反三,类似上面的方法就可以作出来。这里只是列举对于初学者来说可能有用的几个问题:

需要分析的影响因素可以都选入 fixed factor 框,如果不是复杂的模型,一般分析结果不会有误。 方差分析模型多数情况下要选 model III,但这在数据存在缺失值、设计不平衡等情况下要慎重考虑,因为此时往往会要求模型进行详细的设置。

model 的设置对分析是非常重要的,如果设置不正确,可能什么都做不出来,比如无重复数据的方差分析纳入了交互作用、析因设计的方差分析纳入了设计中不存在的因素,就会做不出结果。

Page 138: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

一般线性模型的复杂性是超出大家想象的,实际上这几个敲门就有误人子弟之嫌。千万不要以为读懂了以上内容就可以打遍天下了,一但有存在疑问的内容,一定要查阅有关统计书籍,并在必要时请教专业统计分析人员。

SPSS 第八课:征服一般线性模型――General Linear Model 菜单详解(下)

8.1 两因素方差分析8.1.1 univarate 对话框界面说明8.1.2 结果解释8.2 协方差分析8.2.1 分析步骤8.2.2 结果解释8.3 其他较简单的方差分析问题8.4  多元方差分析

8.4.1  分析步骤

8.4.2  结果解释

8.5  重复测量的方差分析

8.5.1   Repeated measures 对话框界面说明

8.5.2  结果解释  

§8.4 多元方差分析

Page 139: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

所谓的多元方差分析,就是说存在着不止一个应变量,而是两个以上的应变量共同反映了自变量的影响程度。比如要研究某些因素对儿童生长的影响程度则身高、体重等都可以作为生长程度的测量因子,即都应作为应变量。

8.4.1 分析步骤为了方便起见,我们这里直接利用 SPSS自带的数据集 plastic.sav,假设

tear_res、gloss 和 opacity 都使反应橡胶质量的指标(不要笑,是假设),现在要研究 extrusn 和 additive 对橡胶的质量影响如何,则应采用多元方差分析。

选择 Analyze==>General Linear Model==>Multivariate,则弹出Multivariate 对话框,请注意,除了没有 random effect外,它的所有元素都是和 univariate 对话框相同的,里面的内容也相同,因此我们这里就不再重复了。

按照我们的分析要求,对话框操作步骤如下:1. Analyze==>General Lineal model==>Multivariate 2. Dependent Variable 框:选入 tear_res、gloss 和 opacity 3. Fixed Factors 框:选入 extrusn 和 additive

4. 单击 OK

此处两个自变量均是二分类变量,故无需选择两两比较方法。

8.4.2 结果解释按上面的选择,分析结果如下:General Linear Model

Page 140: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

这是引入模型的自变量的取值情况列表。

上表是针对模型中的自变量间及其交互作用所做的检验,采用的是四种多元检验方法。一般他们的结果都是相同的,如果不同,一般以 Hotelling's

Trace 方法的结果为准。可见在所用的模型中,extrusn 和 additive 对结果变量是有统计学意义的,但交互作用无统计学意义。

Page 141: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表实际上是四个一元方差分析表的合并,即分别考虑四个应变量时的方差分析结果。上面的多元方差分析已经得知两自变量对应变量有影响,从现在的分析表就可以更清楚的知道是对那些自变量影响较大。对照可知,extrusn 和additive 对 tear resistance 和 gloss 都有较大影响,而他们的交互作用对gloss 有影响,他们(及交互作用)对 Opacity 都没有影响。

Page 142: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

§8.5 重复测量的方差分析重复测量的方差分析指的是一个应变量被重复测量好几次,从而同一个个

体的几次观察结果间存在相关,这样就不满足普通分析的要求,需要用重复测量的方差分析模型来解决。

8.5.1 Repeated measures 对话框界面说明实际上,如果对普通方差分析模型作出正确的设置,两者的分析结果是完

全相同的,即都正确,那么,重复测量的方差分析过程有何优势呢?我们通过下面的例子来看看:

例 8.3  在数据集 anxity2.sav 中判断:anxiety 和 tension 对实验结果(即 trial1~trial4)有无影响;四次试验间有无差异;试验次数和两个变量有无交互作用。

anxity2.sav 和 anxity.sav实际上是同一个数据,但根据不同的分析目的采用了不同的数据排列方式。如果采用 anxity.sav 进行分析,我们可以分析四次试验间有无差异的问题,但对另两个问题就无能为力了,因为用普通的方差分析模型,anxity 和 tension 的影响被合并到了 subject 中,根本就无法分解出来进行分析,这时,我们就只能求助于重复测量的方差分析模型。

在菜单中选择 Analyze==>General Lineal model==>Repeated

measures,系统首先会弹出一个重复测量因子定义对话框如下:

Page 143: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

因为是重复测量的模型,应变量被重复测量了几次,分别存放在几个变量中,所以我们这里要自行定义应变量。默认的名称为 factor1,我们将其改为trail,下面的因素等级数填入 4(因一共测量了四次)。单击 Add 钮,则该变量被加入,我们就完成了模型设置的第一步:应变量名称和测量次数定义。单击define,我们开始进行下一个步骤:具体重复测量变量定义及模型设置,对话框如下:

Page 144: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

这个对话框和我们以前看到的方差分析对话框不太一样:它没有应变量框,而是改为了组内效应框,实际上是一回事,上面我们定义了 trial 有四次测量,此处就给出了四个空让你填入相应代表四次测量的变量,选中 trial1~trial4,将其选入;然后要选择自变量了(这里又将其称为了 between subjects

factor),将剩下的三个都选入即可。最后,根据题意,不需要检验 anxity 与tension 的交互作用对试验次数有无交互作用,所以要在 model 中作相应设置,把那个东东拉出来。

详细的操作步骤如下:1. Analyze==>General Lineal model==>Repeated measures 2. Within-subject factor name 框:键选入 trial 3. number of levels 框:键入 4

Page 145: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4. 单击 ADD 钮

5. 单击 DEFINE 钮

6. Within-subject variables (trial)框:选入 trial1~trial4

7. between subjects factor 框:选入 subject、anxity 和 tension

8. 单击 MODEL 钮

9.   Custom 单选钮:选中

10.   Within-subject Model 框:选入 trial

11.   between subjects Model 框:选入 anxity 和 tension

12.   单击 CONTINUE

13. 单击 OK

请注意,这里没有选入变量 subject,因为它实际上在这里成为了一个记录 ID,要是将它选入,则什么都检验不了了。

8.5.2 结果解释本题的分析结果如下:

General Linear Model

Page 146: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表给出了所定义的 4 次测量的变量名,在模型中它们都代表一个应变量trial,只是测量的次数不同而已。

这是引入模型的其它自变量的情况列表。

Page 147: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表是针对所检验的结果变量 trial,以及他和另两个引入模型的自变量间的交互作用是否存在统计学意义,采用的是四种多元检验方法。一般他们的结果都是相同的,如果不同,我一般以 Hotelling's Trace 方法的结果为准。可见在所用的模型中,trial 的四次测量间的确是存在着统计学差异的,但它和另两个变量间的交互作用无统计学意义。

上表是球形检验,因为重复测量的方差分析模型要求所检验的应变量服从一种叫做球形分布的东东。上面可能有些内容不好懂,不过没关系,只要看到近似卡方为 9.383,自由度为 5,P 值为 0.097 就可以了。因此 trial 是勉强服从球形分布的,可以进行重复测量的方差分析。

Page 148: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上面又用方差分析的方法对组内因素进行了检验,注意第一种为球形分布假设成立时的结果,就是我们所要看的。如果该假设不成立,则根据不同的情况可能看下面三种检验结果之一,或放弃该检验方法。

Page 149: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表是非常重要的一部分:各次重复测量间变化趋势的模型分析,这里要求检验没有统计学意义,否则说明变化趋势不服从该曲线。以 trial 为例,对Linear 的检验 P 值小于千分之一,Quadratic 的 P 值略大于 0.05。只有 Cubic

的 P 值在 0.5附近,因此最佳的拟合曲线应为 Cubic(三次方曲线);但由于一共才四次测量,三次方曲线显然太奢侈了,因此如果没有任何其它提示或专业上的知识,最终的拟和曲线应为 Quadratic(二次方曲线)。

上表为最后一张,为组间效应的方差分析结果,可见 anxiety 和 tension

均无统计学意义。

Page 150: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最后,为了再确认一下几次测量间的变化趋势,我们另外用 plots子菜单作出模型估计的四次测量均数值如下图:

可见四次测量均数实际上还是近似于直线趋势的,因此前面的模型应为线性最佳。

第九章 相关分析――Correlate 菜单详解9.1   Bivariate 过程

9.1.1  界面说明

9.1.2  分析实例

9.1.3  结果解释

9.2   Partial 过程

9.2.1  界面说明

Page 151: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

9.2.2  结果解释

9.3   Distances 过程

在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。SPSS 的相关分析功能被集中在 Statistics 菜单的 Correlate子菜单中,他一般包括以下三个过程:

Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是 Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的 95%以上。下面的讲述也以该过程为主。

Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。

Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。

§9.1 Bivariate 过程9.1.1 界面说明【Variables 框】用于选入需要进行相关分析的变量,至少需要选入两个。【Correlation Coefficients复选框组】用于选择需要计算的相关分析指标,有:

Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析 Kendall's tau-b复选框 计算Kendall's 等级相关系数 Spearman复选框 计算 Spearman 相关系数,即最常用的非参数相关分析(秩相关)

Page 152: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Test of Significance 单选框组】用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。【Flag significant correlations】用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05 的系数值旁会标记一个星号,P<0.01 的则标记两个星号。【Options 钮】弹出 Options 对话框,选择需要计算的描述统计量和统计分析:

Statistics复选框组 可选的描述统计量。它们是:1. Means and standard deviations 每个变量的均数和标准差 2. Cross-product deviations and covariances 各对变量的交叉积和以及协方差阵 Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的

两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

9.1.2 分析实例例 9.1 请计算 SPSS自带的样本数据 judges.sav 中意大利(judge1)和韩国法官(judge2)得分的相关性。解:由于 judge1 和 judge2 的数据分布不太好,这里同时计算 Pearson 相关系数和 Spearman 相关系数。操作如下:

这种做法严格说来是有问题的,我这样做主要是想偷懒。 1. Variables 框:选入 judge1、judge2 2. Pearson复选框:选中 3. Spearman复选框:选中 4. 单击 OK 钮

Page 153: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

9.1.3 结果解释例 9.1 的输出结果如下所示:Correlations

在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P 值和样本数。由于这里只分析了两个变量,因此给出的是2*2 的方阵。由上表可见 judge1、judge2自身的相关系数均为 1(of

course),而 judge1 和 judge2 的相关系数为 0.91,P<0.001,有非常显著的统计学意义。

  如果需要得到具体的 P 值。请进入表格的编辑模式,双击 P 值所在的单元格,就可以看到精确的 P 值大小。上表的标题内容翻译如下:     Italy South Korea

ItalyPearson积距相关系数P 值(双侧)样本数

1.000.

300

.910

.000300

SouthKorea

Pearson积距相关系数P 值(双侧)样本数

.910

.000300

1.000.

300

Page 154: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Nonparametric Correlations

此处的表格内容和上面 Pearson 相关系数的结果非常相似,只是表格左侧注明为 Spearman 等级相关。可见 judge1 和 judge2 的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。

9.2 Partial 过程9.2.1 界面说明【Variables 框】用于选入需要进行偏相关分析的变量,至少需要选入两个。【Controlling for 框】用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。【Test of Significance 单选框组】意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-

tailed)检验,一般选双侧检验。【Display actual significince level复选框】

Page 155: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

用于确定是否在结果中给出确切的 P 值,一般选中。【Options 钮】弹出 Options 对话框,选择需要计算的描述统计量和统计分析:

Statistics复选框组 可选的描述统计量。它们是:1. Means and standard deviations 每个变量的均数和标准差 2. Zero-order correlations给出包括协变量在内所有变量的相关方阵 Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的

两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

9.2.2 结果解释偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量 judge3 的影响后计算变量 judge1 和 judge2 的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:Partial Corr- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -Controlling for.. JUDGE3 JUDGE1 JUDGE2JUDGE1 1.0000 .5632 ( 0) ( 297) P= . P= .000JUDGE2 .5632 1.0000 ( 297) ( 0) P= .000 P= .(Coefficient / (D.F.) / 2-tailed Significance)" . " is printed if a coefficient cannot be computed

这些结果一目了然,不用再解释了吧,可见当控制了变量 judge3 的影响后,judge1 和 judge2 的相关系数值大大降低,但仍然具有统计学意义。

Page 156: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。

9.3 Distances 过程Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。【Variables 框】用于选入需要进行距离相关分析的变量,至少需要选入两个。【Label cases by 框】选择一个变量用于给各个记录加上标签,可以不选。【Compute Distances 单选框组】其中有两个选择,Between cases 表示作变量内部观察值之间的距离相关分析,Between variables 表示作变量之间的距离相关分析。【Measure 单选框组】用于选择分析时采用的距离类型:Dissimilarities 为不相似性测距,Similarities 为相似性测距。【Measure 钮】和前面的 Measure 单选框组配合使用,单击后弹出 Distance:Dissimilarity

Measure 对话框,用户可根据数据特征选用测距方法:

Page 157: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

选择 Dissimilarities 时各种数据类型可用的测距方法有:1、计量资料

Euclidean distance:以两变量差值平方和的平方根为距离; Squared Euclidean distance:以两变量差值平方和为距离; Chebychev:以两变量绝对差值的最大值为距离; Block:以两变量绝对差值之和为距离; Minkowski:以两变量绝对差值 p 次幂之和的 p 次根为距离; Customized:以两变量绝对差值 p 次幂之和的 r 次根为距离。

2、计数资料 Chi-square measure:χ2 值测距; Phi-square measure:ψ2 值测距,即将 χ2 测距值除合计频数的平方根。

3、二分类变量 Euclidean distance:二分差平方和的平方根,最小为 0,最大无限; Squared Euclidean distance:二分差平方和,最小为 0,最大无限; Size difference:最小距离为 0,最大无限; Pattern difference:从 0至 1 的无级测距; Variance:以方差为距,最小为 0,最大无限; Lance and Williams:Bray-Curtis非等距系数,界于 0至 1之间。

选择 Similarities 时各种数据类型可用的测距方法有:1、计量资料

Pearson correlation:以 Pearson 相关系数为距离; Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。

2、二分类变量 Russell and Rao:以二分点乘积为配对系数; Simple matching:以配对数与总对数的比例为配对系数; Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重; Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配

对数,非配对数给予加倍的权重; Sokal and Sneath 1:Sokal and Sneath Ⅰ 型配对系数,分母为配对数,分子为非配对

数,配对数给予加倍的权重; Sokal and Sneath 2:Sokal and Sneath Ⅱ 型配对系数,分子与分母均为非配对数,但

分子给予加倍的权重;

Page 158: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Sokal and Sneath 3:Sokal and Sneath Ⅲ 型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;

Kulczynski 1:Kulczynski Ⅰ 型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;

Kulczynski 2:Kulczynski平均条件概率; Sokal and Sneath 4:Sokal and Sneath 条件概率; Hamann:Hamann概率; Lambda:Goodman-Kruskai 相似测量的 λ 值; Anderberg's D:以一个变量状态预测另一个变量状态; Yule's Y:Yule综合系数,属于 2×2四格表的列联比例函数; Yule's Q:Goodman-Kruskal γ 值,属于 2×2四格表的列联比例函数。

3、其他类型变量 Ochiai:Ochiai二分余弦测量; Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; Phi 4 point correlation:Pearson 相关系数的平方值; Dispersion:Dispersion 相似测量。 同时,还可以选择数据转换形式: None:不作数据转换; Z-Scores:作标准 Z 分值转换; Range -1 to 1:作-1至+1之间的标准化转换; Range 0 to 1:作 0至 1之间的标准化转换; Maximum magnitude of 1:作最大量值 1 的标准转换; Mean of 1:作均数单位转换; Standard deviation of 1:作标准差单位转换。

第十章:多元线性回归与曲线拟合――Regression 菜单详解(上)

10.1 Linear 过程

10.1.1 简单操作入门

10.1.1.1 界面详解

10.1.1.2 输出结果解释

10.1.2 复杂实例操作

10.1.2.1 分析实例

Page 159: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

10.1.2.2 结果解释

10.2 Curve Estimation 过程

10.2.1 界面详解

10.2.2 实例操作

10.3 Binary Logistic 过程10.3.1 界面详解与实例10.3.2 结果解释10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化10.3.3.2 模型的简单诊断 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领

域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。

§10.1 Linear 过程10.1.1 简单操作入门调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用

户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。

Page 160: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 10.1:请分析在数据集 Fat surfactant.sav 中变量 fat 对变量 spovl 的大小有无影响?

显然,在这里 spovl 是连续性变量,而 fat 是分类变量,我们可用用单因素方差分析来解决这个问题。但此处我们要采用和方差分析等价的分析方法--回归分析来解决它。回归分析和方差分析都可以被归入广义线性模型中,因此他们在模型的定

义、计算方法等许多方面都非常近似,下面大家很快就会看到。这里 spovl 是模型中的因变量,根据回归模型的要求,它必须是正态分布

的变量才可以,我们可以用直方图来大致看一下,可以看到基本服从正态,因此不再检验其正态性,继续往下做。10.1.1.1 界面详解

在菜单中选择 Regression==>liner,系统弹出线性回归对话框如下:

Page 161: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

除了大家熟悉的内容以外,里面还出现了一些特色菜,让我们来一一品尝。【Dependent 框】

用于选入回归分析的应变量。【Block 按钮组】

由 Previous 和 Next 两个按钮组成,用于将下面 Independent 框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下面的例子会讲解其用法。【Independent 框】

用于选入回归分析的自变量。【Method 下拉列表】

Page 162: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

用于选择对自变量的选入方法,有 Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前 Independent 框中的所有变量均有效。【Selection Variable 框】

选入一个筛选变量,并利用右侧的 Rules 钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。【Case Labels 框】

选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID 号的变量。【WLS>>钮】

可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现 WLS Weight 框,在该框内选入权重变量即可。【Statistics 钮】

弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项: o Regression Coefficients复选框组:定义回归系数的输出情况,选中 Estimates 可输出回归系数 B及其标准误,t 值和 p 值,还有标准化的回归系数 beta;选中 Confidence intervals 则输出每个回归系数的 95%可信区间;选中 covariance matrix 则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中 Estimates。

o Residuals复选框组:用于选择输出残差诊断的信息,可选的有 Durbin-Watson残差序列相关性检验、超出规定的 n倍标准误的残差列表。

o Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2 和调整的 R2, 标准误及方差分析表。

o R squared change复选框:显示模型拟合过程中 R2、F 值和 p 值的改变情况。 o Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给

出一个自变量间的相关矩阵。 o Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。 o Collinearity diagnostics 复选框:给出一些用于共线性诊断的统计量,如特征根

(Eigenvalues)、方差膨胀因子(VIF)等。

Page 163: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

以上各项在默认情况下只有 Estimates 和 Model fit复选框被选中。【Plot 钮】

弹出 Plot 对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。【Save 钮】许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值

等做进一步的分析,Save 钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的 SPSS 数据文件或XML 中。【Options 钮】

设置回归分析的一些选项,有:

o Stepping Method Criteria 单选钮组:设置纳入和排除标准,可按 P 值或 F 值来设置。o Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。

o Missing Values 单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失

Page 164: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。

10.1.1.2 输出结果解释根据题目的要求,我们只需要在 Dependent 框中选入

spovl,Independent 框中选入 fat 即可,其他的选项一律不管。单击 OK 后,系统很快给出如下结果:Regression

这里的表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一个自变量,所以只出现了一个模型 1(在多元回归中就会依次出现多个回归模型),该模型中 fat 为进入的变量,没有移出的变量,具体的进入/退出方法为enter。

上表为所拟合模型的情况简报,显示在模型 1 中相关系数 R 为 0.578,而决定系数 R2 为 0.334,校正的决定系数为 0.307。

Page 165: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的读者可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样外,其他的各个参数值都是相同的。从上表可见所用的回归模型 F 值为12.059,P 值为 0.002,因此我们用的这个回归模型是有统计学意义的,可以继续看下面系数分别检验的结果。

由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价与系数的检验,在多元回归中这两者是不同的。

上表给出了包括常数项在内的所有系数的检验结果,用的是 t 检验,同时还会给出标化/未标化系数。可见常数项和 fat 都是有统计学意义的,上表的内容如果翻译成中文则如下所示:

  未标准化系数 标准化系数  模型  系数 b 系数标准误 系数 β t 值 P 值

Page 166: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

1 常数 5.097 0.427   11.923

0.000

  fat 0.700 0.202 0.578 3.473 0.002

10.1.2 复杂实例操作10.1.2.1 分析实例

例 10.2:请分析在数据集 plastic.sav 中变量 extrusn、additive、gloss

和 opacity 对变量 tear_res 的大小有无影响?已知 extrusn 对 tear_res 的大小有影响。

显然,这里是一个多元回归,由于除了 extrusn 确有影响以外,我们不知道另三个变量有无影响,因此这里我们将 extrusn放在第一个 block,进入方法为 enter(我们有把握 extrusn 一定有统计学意义);另三个变量放在第二个 block,进入方法为 stepwise(让软件自动选择判断),操作如下:

1. Analyze==>Regression==>Liner2. Dependent 框:选入 tear_res

3. Independent 框:选入 extrusn;单击 next 钮

4. Independent 框:选入 additive、gloss 和 opacity;Method 列表框:选择 stepwise

5. 单击 OK 钮

10.1.2.2 结果解释

Page 167: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

最终的结果如下:Regression

上面的表格依次列出了模型的筛选过程,模型 1 用进入法引入了extrusn,然后模型 2 用 stepwise 法引入了 additive,另两个变量因没有达到进入标准,最终没有进入。上面的表格翻译出来如下:模型 进入的变量移出的变量 变量筛选方法1 extrusn   进入法

2 additive   stepwise 法(标准:进入概率小于 0.05,移出概率大于0.1)

上表是两个模型变异系数的改变情况,从调整的 R2 可见,从上到下随着新变量的引入,模型可解释的变异占总变异的比例越来越大。

Page 168: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表是所用两个模型的检验结果,用的方法是方差分析,可见二个模型都有统计学意义。

上表仍然为三个模型中各个系数的检验结果,用的是 t 检验,可见在模型 2

中所有的系数都有统计学意义,上表的内容翻译如下:    未标化的系数 标化的系数    

模型   B 标准误 Beta t 值 P 值

1 (常数)5.900 .265    22.278 .000

  extrusion .590 .167 .639 3.522 .000

Page 169: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

2 (常数)5.315 .314   16.92

6 .000

  extrusion .590 .144 .639 4.905 .000

  additive .390 .144 .422 2.707 .000

这是新出现的一个表格,反映的是没有进入模型的各个变量的检验结果,可见在模型 1 中,未引入模型的候选变量 additive 还有统计学意义,可能需要引入,而模型 2 中没有引入的两个变量其 P 值均大于 0.05,无需再进行分析了。

10.2 Curve Estimation 过程Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个

变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。10.2.1 界面详解

Page 170: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Curve Estimation过程中有特色的对话框界面内容如下:

下面我们分别解释一下它们的具体功能。【Dependent 框】用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量

分别拟合模型。【Independent 单选框组】用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也

可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。【Models复选框组】是该对话框的重点,用于选择所用的曲线模型,可用的有:

Linear:拟合直线方程,实际上与 Linear过程的二元直线回归相同; Quadratic:拟合二次方程 Y = b0+b1X+b2X2;

Compound:拟合复合曲线模型 Y = b0×b1X;

Page 171: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Growth:拟合等比级数曲线模型 Y = e(b0+b1X);

Logarithmic:拟合对数方程 Y = b0+b1lnX;

Cubic:拟合三次方程 Y = b0+b1X+b2X2+b3X3;

S:拟合 S形曲线 Y = e(b0+b1/X);

Exponential:拟合指数方程 Y = b0 eb1X;

Inverse:数据按 Y = b0+b1/X 进行变换;

Power:拟合乘幂曲线模型 Y = b0X b1;

Logistic:拟合 Logistic曲线模型 Y = 1/(1/u + b0×b1X),如选择该线型则要求输入上界。

上面的几种线型和其他的模块有重复,如 Logistic、Liner 等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。【Include constant in equation复选框】确定是否在方程中包含常数项。【Plot models复选框】要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。【save 钮】弹出 SAVE 对话框,用于定义想要存储的中间结果,如预测值、预测值可信

区间、残差等。

Page 172: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Display ANOVA table复选框】要求显示模型检验的方差分析表。

10.2.2 实例操作例 10.3:锡克试验阴性率(%)随着年龄的增长而增高,某地查得儿童年

龄(岁)X 与锡克试验阴性率 Y 的资料如下,试拟合曲线。

年龄(岁) 1 2 3 4 5 6 7

锡克试验阴性率(%) 57.1

76.0

90.9

93.0

96.7

95.6

96.2

首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做法如下:

1. Analyze==>Regression==>Curve estimation2. Dependant 框:选入阴性率

3. Independant 框:选入年龄

4. Models复选框组:选择 Quadratic、Curbe、Logarithmatic,取消对 Liner 的选择。

5. 单击 OK

结果如下:Curve Fit

MODEL: MOD_11.

Page 173: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Independent: 年龄

Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3

阴性率 LOG .913 5 52.32 .00

161.3259

20.6704

阴性率 QUA .970 4 65.20 .00

139.2714

21.8250

-2.0036

阴性率 CUB .994 3 165.3

7.001

25.5714

37.4278

-6.5702

.3806

上表给出了所拟合的三个模型的检验报告,包括拟合优度、模型的检验结果和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果还不好对它们两者作出判断,下面我们还要看看模型曲线的情况。

Page 174: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上图是三个模型曲线和实际值连线的情况,可见在 4岁以前,二次方和三次方曲线对模型的拟合相差不大,4岁以后三次方曲线则要明显优于二次方曲线,但我们的观察值只有 7 例,样本量太少,在曲线回归中,模型的简洁性和拟合优度的高低同样重要,拟合优度太高的模型往往对新样本的拟合度较差,我认为在这种情况下选择参数较少的模型为宜,因此最终选择二次方曲线模型。其实这里由于观察样本太少,无论选择哪种模型影响都不大,而且各人的

意见不会相同,往往是有多少条曲线,就会有多少种意见,最后还是要结合专业知识来决定,我这样写只是让大家明白,曲线拟和是非常复杂的问题,千万不能轻易下结论。

第十一章 分类资料的回归分析――Regression 菜单详解(下)

Page 175: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

10.1 Linear 过程10.1.1 简单操作入门10.1.1.1 界面详解10.1.1.2 输出结果解释10.1.2 复杂实例操作10.1.2.1 分析实例10.1.2.2 结果解释10.2 Curve Estimation 过程10.2.1 界面详解10.2.2 实例操作10.3 Binary Logistic 过程

10.3.1 界面详解与实例

10.3.2 结果解释

10.3.3 模型的进一步优化与简单诊断

10.3.3.1 模型的进一步优化

10.3.3.2 模型的简单诊断 在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,

我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...

我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在 10年前,国内的统计学应用上还是卡方检验横行,分层的 M-H卡方简直就是超级武器,在流行

Page 176: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

病学中称王称霸,更有那些 1:M 的配对卡方,N:M 的配对卡方,含失访数据的 N:M配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的 Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。

特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。

据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。

§10.3 Binary Logistic 过程所谓 Logistic模型,或者说 Logistic回归模型,就是人们想为两分类的应

变量作一个回归方程出来,可概率的取值在 0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现 0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个 Logit 变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了 Logistic回归。随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类

Logistic外,还有配对 Logistic模型,多分类 Logistic模型、随机效应的

Page 177: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Logistic模型等。由于 SPSS 的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。

10.3.1 界面详解与实例例 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集

了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取 26 例资料作为示例进行 logistic回归分析(本例来自《卫生统计学》第四版第 11章)。

i: 标本序号 x1:确诊时患者的年龄(岁)

x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共 3 个等级

x3:肾细胞癌组织内微血管数(MVC) 

x4:肾癌细胞核组织学分级,由低到高共 4级

x5:肾细胞癌分期,由低到高共 4期

y: 肾细胞癌转移情况(有转移 y=1; 无转移 y=0)。 i x1 x2 x3 x4 x5 y

1 59 2 43.4 2 1 0

2 36 1 57.2 1 1 0

3 61 2 190 2 1 0

4 58 3 128 4 3 1

5 55 3 80 3 4 1

Page 178: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

6 61 1 94.4 2 1 0

7 38 1 76 1 1 0

8 42 1 240 3 2 0

9 50 1 74 1 1 0

10 58 3 68.6 2 2 0

11 68 3 132.8 4 2 0

12 25 2 94.6 4 3 1

13 52 1 56 1 1 0

14 31 1 47.8 2 1 0

15 36 3 31.6 3 1 1

16 42 1 66.2 2 1 0

17 14 3 138.6 3 3 1

18 32 1 114 2 3 0

19 35 1 40.2 2 1 0

20 70 3 177.2 4 3 1

21 65 2 51.6 4 4 1

22 45 2 124 2 4 0

23 68 3 127.2 3 3 1

24 31 2 124.8 2 3 0

25 58 1 128 4 3 0

26 60 3 149.8 4 3 1

在菜单上选择 Analyze==》Regression==》Binary Logistic...,系统弹出 Logistic回归对话框如下:

Page 179: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的Covariates 框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。两框中间的是 BLOCK 系列按扭,我在上一课已经讲过了,不再重复。中下部的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么 SPSS偏在这里做得不同),下方的 Method 列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重要,请大家听我慢慢道来:

o Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的 Select 对话框的功能重复了。 o Categorical 钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个

Page 180: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

取值作为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用 Deviance做比较。

o Save 钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。

Page 181: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

o Options 钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots 中的 Classification plots 就是非常重要的模型预测工具,Correlations of estimates 则是重要的模型诊断工具,Iteration history 可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。

好,根据我们的目的,应变量为 Y,而X1~X5 为自变量,具体的分析操作如下:

1. Analyze==》Regression==》Binary Logistic...

2. Dependent 框:选入 Y

3. Covariates 框:选入 x1~x5

Page 182: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

4. OK 钮:单击

10.3.2 结果解释Logistic Regression

上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26 条记录均纳入了分析。

上表为应变量分类情况列表,没什么好解释的。Block 0: Beginning Block

此处已经开始了拟合,Block 0拟合的是只有常数的无效模型,上表为分类预测表,可见在 17 例观察值为 0 的记录中,共有 17 例被预测为 0,9 例 1也

Page 183: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

都被预测为 0,总预测准确率为 65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。

上表为 Block 0 时的变量系数,可见常数的系数值为-0.636。

上表为在 Block 0 处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance 值等)。可见如果将 X2 系列的哑变量纳入方程,则方程的改变是有显著意义的,X4 和 X5也是如此,由于 Stepwise 方法是一个一个的进入变量,下一步将会先纳入 P 值最小的变量 X2,然后再重新计算该表,再做选择。

Block 1: Method = Forward Stepwise (Conditional)

Page 184: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

此处开始了 Block 1 的拟合,根据我们的设定,采用的方法为 Forward

(我们只设定了一个 Block,所以后面不会再有 Block 2 了)。上表为全局检验对每一步都作了 Step、Block 和 Model 的检验,可见 6 个检验都是有意义的。

此处为模型概况汇总,可见从 STEP1 到 STEP2,DEVINCE从 18降到11,两种决定系数也都有上升。

此处为每一步的预测情况汇总,可见准确率由 Block 0 的 65%上升到了84%,最后达到 96%,效果不错,最终只出现了一例错判。

Page 185: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表为方程中变量检验情况列表,分别给出了 Step 1 和 Step 2 的拟合情况。注意 X4 的 P 值略大于 0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为 0.1),该变量可以留在方程中。以 Step 2 中的 X2 为例,可见其系数为 2.413,OR 值为 11。

上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。

最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在 Step 1 时,X4 还应该引入,而在Step 2 时,其它变量是否引入都无关了。

10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化

Page 186: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

前面我们将 X1~X5 直接引入了方程,实际上,其中 X2、X4、X5 这三个自变量为多分类变量,我们并无证据认为它们之间个各等级的 OR 值是成倍上升的,严格来说,这里应当采用哑变量来分析,即需要用 Categorical 钮将他们定义为分类变量。但本次分析不能这样做,原因是这里总例数只有 26 例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是每个例子都只有 26 例。

默认情况下定义分类变量非常容易,做到如上图所示就可以了,此时分析结果中的改变如下:

Page 187: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值,右侧为相应的哑变量名及编码情况:以 X5 为例,表中可见 X5=4 时,即取值最高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。而X5(1)代表的是 X5=1 的情况(X5 为 1 时取 1,否则取 0),X5(2)代表的是X5=2 的情况,依此类推。同时注意到许多等级值有几个记录,显然后面的分析结果不会太好。

相应的,分析结果中也以哑变量在进行分析,如下所示:

Page 188: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表出现了非常有趣的现象:所有的检验 P 值均远远大于 0.05,但是所有的变量均没有被移出方程,这是怎么回事?再看看下面的这个表格吧。

这个表格为方程的似然值改变情况的检验,可见在最后 Step 2生成的方程中,无论移出 X2 还是 X4 都会引起方程的显著性改变。也就是说,似然比检验的结果和上面的 Walds 检验结果冲突,以谁为准?此处应以似然比检验为准,因为它是全局性的检验,且Walds 检验本身就不太准,这一点大家记住就行了,实在要弄明白请去查阅相关文献。

请注意:上面的哑变量均是以最高水平为基线水平,这不符合我们的目的,我们希望将最低水平作为基线水平。比如以肾细胞癌第一期为基线水平,需要这

Page 189: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

样做只要在 Categoriacl 框中选中相应的变量,在 Reference Category 处选择 First,再单击 Change 即可,此时变量旁的标示会做出相应的改变如下:

分析结果中也会做出相应的改变,此处略。10.3.3.2 模型的简单诊断

SPSS 本身提供了几种用于模型诊断的工具,基本上都集中在 Options 对话框中,除了大家熟悉的残差分析外,这里这种介绍三种简单而有非常有用的工具:迭代记录、相关矩阵和分类图。

Page 190: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表为 Block 1 的迭代记录,可见无论是似然值,还是三个系数值,均是从迭代开始就向着一个方向发展,最终达到收敛,这说明整个迭代过程是健康的,问题不大;如果中途出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好研究。

上表为方程中变量的相关矩阵,可见 X2 和常数相关性较强,当引入 X4 后仍然如此,提示要关注这一现象,以防因自变量间的共线性导致方程系数不稳(此时迭代记录多半也会有波动)。当然,由于本例只有 26 条记录,这一问题是没有办法深入研究的。

Page 191: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上图是 Step 1 结束时,即只引入 X2 时的预测图,0 和 1 代表实际取值,当预测的概率值大于 0.5 时,则预测结果为 1,反之为 0,由上图可见,该模型对 0 的预测是比较好的,多数的概率都在 0附近,但对 1 的预测不准,即使正确的,计算出的概率也在 0.8左右,并且有好几个都判错了。

Page 192: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上图为 Step 2 结束后模型的预测状况,可见此时预测结果有了较大的改善,概率精度提高了许多,只有一例 0 被错判为了 1,并且从分布上看,这一例可能是极端情况,再引入其它变量也不见的能将预测效果改变多少。

第十二章 非参数检验――Nonparametric Tests 菜单详解

12.1   概论 12.2   One-Sample Kolmogorov-Smirnov Test 12.3   Two-Independent-Samples Tests  

§12.1  概论

Page 193: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

作为二十一世纪统计理论的三大发展方向之一,非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较,虽然已有好几种方法可资利用,但由于在理论上仍存在争议,几种权威的统计软件(如 SAS 和 SPSS)均没有提供这方面的方法。虽然这些洋统计软件没有提供两两比较的非参数方法,但国产的统计软件

大都是提供了的(国情不同嘛),因此建议大家:如果真的要做这方面的非参数分析,不如直接用 PEMS、SPLMWIN、NOSA 等国产软件,免得用 SPSS 等只能做一半。

在 SPSS 中,几乎所有的非参数分析方法都被放入了 Nonparametric

Tests 菜单中,具体来讲有以下几种:

Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是 25%),或者是否符合我们所给出的一个比例(如分别为 10%、30%、40%和 20%,我随便写的)。请注意该检验和我们一般所用的卡方不太一样,我们一般左的卡方要用 crosstable 菜单来完成,而不是这里。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。

Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该

Page 194: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

检验 P 值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。

One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission 分布和指数分布。

Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。

Tests for Several Independent Samples:成组设计的多个样本均数比较的非参数检验,此处不提供两两比较方法。

Two-Related-Samples Tests:配对设计两样本均数的非参数检验。

Tests for Several Related Samples:配伍设计多个样本均数的非参数检验,此处同样不提供两两比较。

难道两分类的变量还可能不服从二项分布?是的,比如极端的均一分布(取值都是 0或 1),负二项分布等。最常见的如传染病的发病,是否发病是绝对不服从二项分布的(因两个观察结果间会有关联)。

由于上述各种统计方法都比较简单,且对话框和结果都比较相似,可以举一反三,我就不准备一一介绍了,只介绍其中有代表性的两个--Kolmogorov-

Smirnov Test 和 Two-Independent-Samples Tests。

Page 195: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

其实我是想写详细点的,真正阻止我这样作的原因是我实在太忙了,真的真的太忙了。

§12.2  One-Sample Kolmogorov-Smirnov Test

例 12.1 请判断 SPSS自带数据集 anxity.sav 中 score 的分布是否服从正态分布。闲言少叙,操作如下:1. Analyze==>Nonparametic test==>1-sample K-S 2. Test variable list 框:选入 score

3. Test distribution复选框组:选中 normal复选框

4. 单击 OK 钮

系统给出的统计分析结果非常简单,具体如下:NPar Tests

Page 196: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表给出了所检验变量的常用正态描述指标(即均数、标准差),检验的中间结果和最终结果。从上可见 P 值为 0.652,即 score 是服从正态分布的。

上表翻译如下:    变量名 Score

样本量   48

正态分布参数 均数 10.00

  标准差 5.17

最极端的差异绝对值 .106

 正值 .088

 负值 -.106

K-S 检验的统计量 Z 值   .735

近似 P 值 (双侧)   .652

§12.3  Two-Independent-Samples Tests

例 12.2 请用非参数方法检验 anxity.sav 中第一次和第二次的评分结果是否有差异。

选择 Analyze==>Nonparametic test==>Two-Independent-

Samples,弹出的对话框和大家最初就接触的 t 检验对话框非常相似,只是在下面一共给出了四种检验方法,其中第一种Mann-Whitney U 检验实际上就是大家都学过的两样本均数比较的秩和检验,只是换了个名称而已。这里我们就用它。本例的具体操作如下:

Page 197: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

1. Analyze==>Nonparametic test==>Two-Independent-Samples

2. Test variable list 框:选入 score

3. grouping variables 框:选入 trial

4. 单击 Define groups 钮

5.   在 group1 框和 group2 框中分别输入 1 和 2

6.   单击 continue 钮

7. Test type 复选框组:选中 Mann-Whitney U复选框

8. 单击 OK 钮  前几天有位网友给我来信,问我在这个例子中只比较第一次和第二次的评

分结果有无差异,是不是意味着在做四组间的两两比较?即"成组设计多独立样本非参数检验"可用"两独立样本 Mann-Whitney U 检验"来作两两比较?我一看这封信就吓了一跳!不好意思,引起了如此大的误会!!在这里我严正声明:我在这里只是为了省事,胡乱拉了一个例子而已。在我看来,"成组设计多独立样本非参数检验"用"两独立样本 Mann-Whitney U 检验"来作两两比较完全等价于用 t 检验代替方差分析中的的两两比较,如果一定要做,就必须要对Alpha水准进行调整(具体方法在倪宗瓒老师主编的《医学统计学》第二版里有),否则自然会出问题。

程序给出的分析结果如下:

Page 198: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

NPar Tests

Mann-Whitney Test

上表为两组秩次情况的报告,可见第一次检查的智次和为 212.5,平均秩次为 17.71。第二次检查的则分别为 87.5 和 7.29,显然,差距较大。

上表为统计分析的结果,分别给出了 Mann-Whitney U 检验值、Wilcoxon

W 检验值和 Z 值,以及近似 P 值和确切概率值。可见 P 值远小于 0.05,因此刚才两组的平均秩次之差是有统计学意义的。

第十三章 活着--Survival 菜单详解(上)13.1 Life Tables 过程

13.1.1 界面说明

13.1.2   结果解释

13.2 Kaplan-Meier 过程

13.2.1 界面说明

Page 199: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

13.2.2 结果解释

13.3 Cox Regression 过程13.3.1 界面说明13.3.2 结果解释13.4 Cox w/Time-Dep Cov 过程13.4.1 界面说明13.4.2 结果解释

对于急性病的疗效考核,一般可以用治愈率、病死率等指标来评价,但对于肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,这时可以对病人进行长期随访,统计一定期限后的生存和死亡情况以判断疗效,这就是生存分析。生存分析是用于以处理生存时间(survival time)为反应变量、含有删失

数据一类资料的统计方法。所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡”为失效)。此类资料的生存时间变量多不符从正态分布,且常含有删失值,故不适于用传统的数据分析方法如 t 检验或线性回归进行分析。根据不同的研究目的和资料类型,可采用不同的分析方法,如寿命表、Kaplan-Meier 法 、Cox回归模型等分析方法进行分析。而这正是下面我将要给大家介绍的主要内容。

Page 200: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

“喂,你在这里说的都是些什么呀?又是删失、又是 Cox 的,搞的我一头雾水。”那位给我提意见了。列位看官切莫着急,且听在下慢漫道来。所谓删失值,就是因各种原因对随访对象的随访可能失访或终检(censoring),如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时随访对象还活着但尚未发生所规定的事件。这种数据就叫做删失值,也叫做截尾数据。能处理截尾数据是生存分析的一个优点。Cox回归是一种多变量的生存分析方法。这是本世纪 60~70年代发展起来的、应用于生存资料分析的比例分险模型(the proportional hazard

model)。1972年,英国统计学家D.R.Cox 的研究工作使得比例分险模型的理论和实用性更大地推进了一步。因此许多统计学者就把它称为 Cox比例风险或Cox回归。

§13.1  Life Tables 过程Life Tables过程用于:1、 制作寿命表。2、 绘制各种曲线如生存函数、风险函数曲线等。3、 对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对

研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间进行两两比较。

例 13.1 某临床试验对 20 名第Ⅲ或第Ⅳ期黑色素瘤患者进行随访研究,截至研究期结束,记录的生存资料见表 1。试计算 100周生存率。

Page 201: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

12.8 15.6 24.0+ 26.4  29.2  30.8+  39.2  42.0  58.4+  72.0+

77.2 82.4 87.2+ 94.4+ 97.2+ 106.0+ 114.8+ 117.2+ 140.0+ 168.0+

注:数据后跟符号“+”表示该数据为删失数据。

13.1.1     界面说明

图 1   寿命表主对话框【Time】框选入生存时间变量。【Display Time Intervals】框欲输出生存时间范围及组距。

Page 202: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

在 by 前面的框内填入生存时间上限,本例填入 200(此区间必须包括生存时间的最大值);在 by 后面的框内填入生存时间的组距,本例填入 20,以保证结果列出“100-”的组段。【Status】框选入生存状态变量,并定义终结事件的标记值。选入变量“Status”后,【Define Event】钮被激活变黑,击该按钮,弹出

定义终结事件标记值的对话框(图 1)。对二分类变量,一般以死亡、复发、恶化等表示终结事件。本例以死亡为终结事件,其标记值为 1,故在 Single value

框内填入 1。击 Continue 钮。若生存状态变量取值为一连续型变量,如反应变量为收缩压,则在下面的 Range of values 框中输入 140 through 400,此处上限输入 400 是我随便输入的一个上限,目的是为了定义高血压患者,实际上恐怕没有人的血压能达到 400,这样才能保证包括所有的高血压病例,具体情况具体分析。

图 2  定义终结事件标记值的对话框【Factor】框定义第 1层因素,即分组因素。【By Factor】框定义第 2层因素,即分层因素。

Page 203: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Options】选项击 Options 按钮,弹出选项对话框。(图 3)

图 3  寿命表选项对话框   Life Table(s):输出寿命表,系统默认。

Plot:统计图。       Survival:累积生存函数曲线。       Hazard:累积风险函数散点图。       One minus survival:生存函数被 1减后的曲线。       Log survival:对数累积生存函数曲线。       Density:密度函数散点图。Compare Levels of First Factor:对第 1层因素不同水平的比较,即主

对话框(图 1)中的 factor 框中所选入的因素。            None:不做比较。系统默认。            Overall:整体比较。            Pairwise:两两比较。

Page 204: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

            本例因没有分组因素,故Compare Levels of First Factor 选项均不可选。

13.1.2     结果解释1、 寿命表

This subfile contains:      20 observations Life TableSurvival Variable  TIME      survival time(week)

说明:20 例观察单位,生存变量为“Time”,变量标签为“survival time(week)”

  Number

Number

NumberNumbe

r    Cumul    

Intrvl Entrng Wdrawn

Exposd Of Propn Propn PropnProba- 

Start this During to Termnl Termi- Sur- Surv bility Hazard

Time Intrvl Intrvl RiskEvents nating viving at EndDensty Rate

------ ------ ------ ------ ------ ------ ------ ------ ------ ------

.0 20.0 .0 20.0 2.0 .1000 .9000 .9000 .0050 .0053

20.0 18.0 2.0 17.0 3.0 .1765 .8235 .7412 .0079 .0097

40.0 13.0 1.0 12.5 1.0 .0800 .9200 .6819 .0030 .0042

60.0 11.0 1.0 10.5 1.0 .0952 .9048 .6169 .0032 .0050

80.0 9.0 3.0 7.5 1.0 .1333 .8667 .5347 .0041 .0071

100.0 5.0 3.0 3.5 .0 .00001.0000 .5347 .0000 .0000

120.0 2.0 .0 2.0 .0 .00001.0000 .5347 .0000 .0000

140.0 2.0 1.0 1.5 .0 .00001.0000 .5347 .0000 .0000

Page 205: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

160.0 1.0 1.0 .5 .0 .00001.0000 .5347 .0000 .0000 The median survival time for these data is 160.00+ SE of SE of Intrvl Cumul Proba- SE of Start Sur- bility Hazard Time viving Densty Rate------- ------ ------ ------ .0 .0671 .0034 .0037 20.0 .0999 .0042 .0056 40.0 .1081 .0029 .0042 60.0 .1157 .0031 .0050 80.0 .1261 .0039 .0071 100.0 .1261 .0000 .0000 120.0 .1261 .0000 .0000 140.0 .1261 .0000 .0000 160.0 .1261 .0000 .0000

Intrvl Start Time:生存时间的组段下限。 Number Entrng this Intrvl:进入该组段的观察例数。

Number Wdrawn During Intrval:该组段的删失例数。

Number Exposed to Risk:暴露于危险因素的例数,即有效观察例数。

Number of Termnl Events:终结事件的例数,即死亡例数。

Propn Terminating:终结事件比例,即死亡比例。

Propn Surviving:生存比例。

Cumul Propn Surv at End:至本组段上限的累积生存率。

Page 206: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Probability Densty:概率密度。

Hazard Rate:风险率。

SE of Cumul Surviving:累积生存率的标准误。

SE of Probability Densty:概率密度的标准误。

SE of Hazard Rate:风险率的标准误。

The median survival time for these data is 160.00+:本例的中位生存时间为“160.00+”,从下图的累积生存函数曲线看,曲线与生存率等于 0.5 的横线不相交,故中位生存时间无法估计。

本例的 100周生存率为 53.47%。

2、累积生存函数曲线:图 4。

图 4    累积生存函数曲线

Page 207: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

§13.2    Kaplan-Meier 过程Kaplan-Meier 法用于:1、估计某研究因素不同水平的中位生存时间。2、 比较该研究因素不同水平的生存时间有无差异。3、 控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层

因素的不同水平对研究因素对生存时间的影响分别进行分析)。怎么样,有点拗口吧?

例 13.2 3种疗法治疗 66 例白血病患者的缓解时间(天)A 疗法4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269,

B疗法8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,245+

C疗法8,10,11,23,25,28,28,31,31,40,48,89,124,143,12+,159+,190+,196+,197+,205+,219+

注:数据后跟符号“+”表示该数据为删失数据。

13.2.1     界面说明

Page 208: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图 5   Kaplan-Meier 法主对话框【Time】框选入生存时间变量。【Status】框选入生存状态变量。【Factor】框选入分组变量。【Strata】框选入分层变量。【Lables Cases】框给个体标记。【Compare Factor】选项击 Compare Factor 按钮,弹出选项对话框。(图 6)

Page 209: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图 6    分组因素水平间比较对话框         Test Statistics:检验统计量。

   Log rank:检验生存分布是否相同,各时间点权重一样。 Breslow:检验生存分布是否相同,以各时间点的观察例数为权重。 Tarone-Ware:检验生存分布是否相同,以各时间点的观察例数的平方

根为权重。 Linear trend for factor levels:分组因素水平间的线性趋势检验。

      Pooled over strata:水平间的整体比较。系统默认。      For each stratum:按分层变量,对每一层进行分组因素各水平间的

整体比较。      Pairwise over strata:分组因素各水平间的两两比较。      Pairwise for each stratum:按分层变量,对每一层进行分组因素各

水平间的两两比较。【Save】 选项击 Save 按钮,弹出 Save New Variables(保存新变量)对话框(图

7)。

Page 210: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图 7      保存新变量对话框 Survival:累积生存率估计。 Standard error of survival:累积生存率估计的标准误。 Hazard:累积风险函数估计。 Cumulative events:终结事件的累积频数。在各水平内,按生存时间

和生存状态排序。【Options】选项击 Options 按钮,弹出选项对话框(图 8)。

图 8      K-M 法选项对话框         Statistics:统计量。

 Survival table(s):生存分析表。

Page 211: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 Mean and median survival:平均生存时间和中位生存时间及其标准误和可信区间。

 Quartiles:生存时间的第 25百分位数、中位生存时间、第 75百分位数。         Plot:统计图。

 Survival:累积生存函数曲线。 One minus survival:生存函数被 1减后的曲线。 Hazard:累积风险函数散点图。 Log survival:对数累积生存函数曲线。

操作如下:1.       Analyze==>Survival ==>Life Tables2.       Time 框:选入 remission time3.       Status 框:选入 status;击 define events 钮,在 single value 框右边的空格中

输入 14.       Factor 框:选入 group;5.       Compare factors 列表框:         Test Statistics:选择 Log rank、Breslow、Tarone-Ware         Linear trend for factor levels:选 Pooled over strata或 Pairwise over

strata6.       Option 列表框:         Statistics: 选 Survival table(s)、Mean and median、Survival         Plots: 选 Survival单击 OK 钮

13.2.2 结果说明1、生存分析表

Survival Analysis for TIME remission time(days)对生存时间变量 Time 进行分析,其变量标签是 remission time(days)。 Factor GROUP = A疗法 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 4 恶化 .9600 .0392 1 24 5 恶化 .9200 .0543 2 23

Page 212: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

9 恶化 .8800 .0650 3 22 10 恶化 .8400 .0733 4 21 11 恶化 .8000 .0800 5 20 12 恶化 .7600 .0854 6 19 13 恶化 .7200 .0898 7 18 20 删失 7 17 23 恶化 .6776 .0940 8 16 28 恶化 9 15 28 恶化 10 14 28 恶化 .5506 .1010 11 13 29 恶化 .5082 .1017 12 12 31 恶化 .4659 .1017 13 11 32 恶化 .4235 .1009 14 10 37 恶化 .3812 .0993 15 9 41 恶化 16 8 41 恶化 .2965 .0936 17 7 57 恶化 .2541 .0893 18 6 62 恶化 .2118 .0838 19 5 74 恶化 .1694 .0770 20 4 100 恶化 .1271 .0684 21 3 139 恶化 .0847 .0572 22 2 258 删失 22 1 269 删失 22 0 Number of Cases: 25 Censored: 3 ( 12.00%) Events: 22 Survival Time Standard Error 95% Confidence Interval Mean: 57 15 ( 28, 86 ) (Limited to 269 ) Median: 31 3 ( 25, 37 )

说明:  限于篇幅原因,此处仅列出 A治疗组的结果。 Time:观察时间。 Status:生存状态。  Cumulative Survival:累积生存率。  Standard Error: 累积生存率的标准差。  Cumulative Events:累计死亡数。  Number remaining: 组中剩余人数,即在时间 Time 的暴露人数。

Page 213: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 2、生存时间估计Survival Analysis for TIME remission time(days)Factor GROUP = A疗法Survival Time Standard Error 95% Confidence IntervalMean: 57 15 ( 28, 86 ) (Limited to 269 ) Median: 31 3 ( 25, 37 )

Factor GROUP = B疗法 Survival Time Standard Error 95% Confidence Interval Mean: 112 20 ( 72, 152 ) (Limited to 245 ) Median: 99 24 ( 52, 146 )Factor GROUP = C疗法 Survival Time Standard Error 95% Confidence Interval Mean: 95 19 ( 58, 132 ) (Limited to 219 ) Median: 40 11 ( 18, 62 ) Total Number Number Percent Events Censored Censored GROUP A疗法 25 22 3 12.00 GROUP B疗法 19 15 4 21.05 GROUP C疗法 22 15 7 31.82Overall 66 52 14 21.21

说明:

 Mean 是生存时间的算术均数。 “Limit to 269”表示 A疗法组的最长生存时间为 219天。

  Median 为中位生存时间,即生存率为 50%所对应的生存时间 。A 、B、C疗法的中位生存时间分别为 31、99、40。

A、B、C疗法组中位生存时间的 95%可信区间分别为(25,37)、(52,146)、(18,62)。

Page 214: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 A、B、C疗法的删失例数分别为 3、4、7,删失率分别为12%、21.05%、31.82%。

3、水平间的整体比较Test Statistics for Equality of Survival Distributions for GROUP Statistic df Significance Log Rank 4.31 2 .1158 Breslow 3.67 2 .1595 Tarone-Ware 4.35 2 .1137

说明:

  3种疗法的生存时间差异无显著性意义,3 个检验统计量的 P 值均大于0.1。在实际分析中,当各组的总体水平比较无统计学意义时,不宜再进行两两比较,此处仅是为了演示一下。

4、水平间的两两比较Log Rank Statistic and (Significance) Factor 1 2 2 3.65 ( .0561) 3 2.84 .03 ( .0917) ( .8677) Breslow Statistic and (Significance) Factor 1 2 2 3.23 ( .0722) 3 1.77 .07 ( .1832) ( .7967) Tarone-Ware Statistic and (Significance) Factor 1 2 2 3.85 ( .0498) 3 2.26 .07( .1324) ( .7981)

说明:

Page 215: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

 3种检验方法两两比较差异均无显著性意义。括号外数值为检验统计量,括号内数值为 P 值。

4、 生存曲线

第十四章 活着--Survival 菜单详解(下)13.1 Life Tables 过程13.1.1 界面说明13.1.2  结果解释13.2 Kaplan-Meier 过程13.2.1 界面说明13.2.2 结果解释13.3 Cox Regression 过程

Page 216: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

13.3.1 界面说明

13.3.2 结果解释

13.4 Cox w/Time-Dep Cov 过程

13.4.1 界面说明

13.4.2 结果解释

§13.3    Cox Regression 过程上面给大家介绍的是两种生存分析方法,但它们只能研究一至两个因素对生

存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,下面我给大家介绍Cox Regression过程,这是一种专门用于生存时间的多变量分析的统计方法。

Cox Regression过程主要用于:1、 用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考察

其他因素对生存时间的影响,及各因素之间的交互作用。例 13.3 40 名肺癌患者的生存资料(详见胡克震主编的《医学随访统计方

法》1993,77页)生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法癌症类别411 1 70 64 5 1 0 0 1 1.00

126 1 60 63 9 1 0 0 1 1.00

118 1 70 65 11 1 0 0 1 1.00

Page 217: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

注:原数据库是用亚变量定义肺癌分类:0,0,0 为其它癌;1,0,0 为鳞癌;0,1,0 为小细胞癌;0,0,1 为腺癌。表中的最后一个变量是我加上去的癌症类别,1 为鳞癌;2 为小细胞癌;3 为腺癌;4 为其它癌。实践表明结果与用亚变量计算一样。

13.3.1    界面说明

图 9    Cox回归主对话框【Time】框、【Status】框前文已经介绍过了,这里我就不再废话唠叨的了 。

Block 1 of 1 右边的 Next 钮被激活。这个按钮用于确定不同自变量进入回归方程的方法,详见 Method 框的内容。用同一种方法进入回归方程的自变量在同一个 Covariates 框内。【Covariates】框选入自/协变量,即选入你认为可能对生存时间有影响的变量。

Page 218: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

【Method】框选择自变量进入 Cox回归方程的方法,SPSS提供下面几种方法:

Enter: Covariates 框内的全部变量均进入回归模型。  Forward: Conditional: 基于条件参数估计的向前法。

Forward: LR: 基于偏最大似然估计的向前法。

 Forward: Wald: 基于 Wald 统计量的向前法。

 Backward: Conditional: 基于条件参数估计的后退法。

 Backward: LR: 基于偏最大似然估计的后退法。

 Backward: Wald: 基于 Wald 统计量的后退法。

【Strata】框定义分层因素,将生存时间按分层因素分别进行 Cox回归。【Categorical】选项用于告诉系统,Covariates 框内的变量中哪些是分类变量或字符型变量。

系统默认字符型变量为分类变量,数字型变量为连续型变量。选入自变量后,categorical 钮被激活。按 categorical 钮,进入确定分类

变量的对话框。见图 10。

Page 219: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图 10   确定分类变量对话框左边的 Covariates 框中列出了刚刚被选取的自变量,将分类变量选入

Categorical Covariates 框中。此时 Change Contrast 框被激活,请你选择比较方法,即计算参数 OR/βi 的方法。当选入分类变量后,Change Contrast

框被激活,此时可选择比较方法。SPSS提供下面几种比较方法。

Indicator:指示对比。用于指定某一分类变量的基线,即参照水平。这样计算出来的参数 OR/βi 是以该变量的第一个或最后一个水平为基准水平(取决于下面的 reference category 中你选择的是 last 还是 first)。在这里 SPSS自动创建亚变量,对照水平在对比分类矩阵中用 0 行代表。在这里我再多说两句,如本例中的肿瘤类型,若规定鳞癌为 1,小细胞癌为 2,腺癌为 3,其它癌为 4。若选 indicator及 last,则以其它癌为参照,计算出来的 OR及 βi 是以其它癌为基准,即其它癌的 OR 为 1,其他计算出来的 OR 值是与其它癌相比的结果。

Page 220: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Simple:差别对比。可计算该分类变量的各水平与参照水平相比的 OR

值。参照水平自己当然就不用跟自己相比了。对于本例来说,Simple 与Indicator 选项是一样的,前提是下面的 Reference Category 中你所选择的同是 last(或 first)。

Difference:差别对比。分类变量欲比较水平与其前面的各水平平均值进行比较,当然也不包括第一水平。与 Helmert 法相反,因此也叫反Helmert 法。如 3水平与 1、2水平的平均值相比,下同。

 Helmert:赫尔默特对比。分类变量欲比较水平与其后面各水平平均值进行比较,当然不包括最后一个水平。

 Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较(第一水平除外)。

 Polynomial:多项式对比。仅用于数字型的分类变量。无效假设是假设各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系)例如年龄每增加 10岁,死亡风险的增加值是一样的,但实际情况常常与此相反,如在 20岁与 60岁年龄段,年龄都增加 10岁,所增加的死亡风险肯定是不一样的,具体情况需根据各人的研究课题,专业而定。

 Deviation:离差对比。除了所规定的参照水平外,其余每个水平均与总体水平相比。

Page 221: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

Reference category:如果你选择了 Deviation, Simple, 或Indicator 三个选项,就必须选择 First或 Last 作为参照水平。

完成上述选择后,击 change 钮,确认选择。你若对上面写的一段不感兴趣的话,可跳过去,直接用系统默认的选项。【Plots】选项

图 11              Cox回归统计图对话框       Survival:累积生存函数曲线。       Hazard:累积风险函数曲线。       Log minus log:对数累积生存函数乘以-1 后再取对数。       One minus survival:生存函数被 1减后的曲线。

 Change Value:系统默认用各变量的均数进行作图,但对字符型变量如癌症类型取均值则没有实际意义。若用分类变量的其它水平进行作图

Page 222: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

则选定该变量,此时 Change Value 钮被激活,按 Value 钮,在其右边的框内输入你所想要用于作图的值。击 Change。  Separate Line for:输入分类变量的名称,此时可以用分类变量的不同水平进行作图,对于本例则可作出不同癌症的曲线。此分类变量必须包括在前面的自变量框中。

【Save】存为新变量

图 12      Cox回归存为新变量对话框         Survival:生存函数。

 Function:累积生存函数估计值。 Standard error:累积生存函数估计值的标准误。 Log minus log:对数累积生存函数乘以-1 后再取对数。

         Diagnostics:回归诊断。 Hazard function Cox-Snell:残差。 Partial residual:偏残差。 Dfbeta(s):剔除某一观察单位后的回归系数变化量。 X*Beta:线性预测得分。【Options】选项

Page 223: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

击 Options 按钮,弹出选项对话框。

图 13   Cox回归选项对话框         Model Statistics:模型统计量。

 CI for exp(ß) 95%:相对危险度的可信区间。系统默认 95%可信区间。 Correlation of estimates:回归系数的相关阵。

         Display model:输出模型方式。         At each step:输出每一步的模型。系统默认。         At last step:输出最后一步的模型。         Probability for Stepwise:模型保留变量的显著性水平。

 Entry:系统默认选入变量为 P≤0.05。 Removal:系统默认剔除变量为 P>0.10。 Maximum Iterations:最大迭代次数,系统默认 20 次。 Display baseline function:输出风险基准函数以及基于各协变量均值

的生存函数与风险函数。操作如下:1.       Analyze==>Survival ==>Cox regression2.       Time 框:选入 survival time

Page 224: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

3.       Status 框:选入 status;击 define events 钮,在 single value 框右边的空格中输入 1;

4.       Covariate 框:选入 x1,x2,x3,x7,x8;

5.       Categorical 列表框:选入 x8;

6.       Plots 列表框:         Plot Type:选 survival;

         Separate Line for:选入 x8;

7.       Option 列表框:         Model Statistics:

 选 CI for exp(ß):输出回归系数 ß 的 95%可信区间。 选 Correlation of estimate:输出自变量的相关矩阵。

单击 OK 钮

13.3.2 结果解释:Cox Regression

上表输出总例数、删失例数、失访例数。

Page 225: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

输出各种癌症的频数及系统所赋的亚变量 x81、x82、x83 值,当癌症类型是鳞癌时,x81 取值为 1,其它亚变量取值为 0,依此类推。

Block 0: Beginning Block

模型拟合迭代过程,可不管它。Block1: Method = Enter

描述模型参数(常数项除外)是否全为 0,本例,χ2=30.120,自由度υ=7,P=0.000。说明 βI 不全为 0。

Page 226: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

对回归方程各参数的估计,B 即 ß 值;SE,标准误;Wald,Wald卡方;df,自由度;sig,自由度;exp(B),OR 值;95%Ci for EXP(B),OR 值的95%可信区间。

自变量的相关矩阵。本例,X1 与 X2 的相关系数是 0.072,其它依此类推。

输出自变量的均数及其在不同模式下的取值,因 X1,X2,X3,X7四个变量没有生成亚变量,故在此输出它们的均数。

Page 227: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

输出在各自变量的均值水平时的累积生存函数曲线。

输出各种癌症的累积生存函数曲线。

§13.4  Cox w/Time-Dep Cov 过程Cox w/Time-Dep Cov过程应用于:

Page 228: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

1.         在建立 Cox回归方程时,风险比例可能会随时间变化而变化,即有些危险因素作用的强度随时间而变化,这样的资料是不适合前面所讲的一般的Cox回归模型的。此时,就应改为时间依存协变量模型,也称为非比例风险模型。你可把所怀疑的那个协变量及时间变量T_定义成时间依存协变量(多个协变量时就必须用编程来做了),常用的方法是把它们简单地进行相乘,然后通过对时间依存协变量系数的显著性检验来判断比例风险是否合理。

2.       用到 Cox w/Time-Dep Cov过程的另一种情况是:有些变量虽然在不同的时间点取不同的值但与时间并非系统地相关,在这种情况下,需用逻辑表达式定义一个分段时间依存协变量,逻辑表达式取值 1 时为真,取 0 时为假。用一系列的逻辑表达式,你可以从一系列观测记录中建立自己的时间依存变量。例如:对病人血压每周观察一次,共观察 4 次,(变量名为 BP1至BP4)。时间依存协变量可以这样定义:(T_ < 1) * BP1 + (T_ >= 1 & T_ < 2) * BP2

+ (T_ >= 2 & T_ < 3) * BP3 + (T_ >= 3 & T_ < 4) * BP4(&表示“逻辑与”,即一般编程语言中的“AND”)。请注意括号中的值只能有一个取 1,而其它的值只能取 0,也就是说,这个函数意味着当时间小于一周时(此时第一个括号内取值为 1,而其它括号内取值为 0)使用 BP1 的值,大于一周而小于两周时使用 BP2 的值,依次类推。

下面请大家跟我一起看例子。因我到处找不到例子,所以我自己编了一个(因此我在此仅列出 3 例)。

Page 229: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

例 13.4 27 名高血压病人共测了 4 次血压,计算高血压对生存时间的影响。编号 BP1 BP2 BP3 BP4生存时间状态1  93  97 102 133 55 0

2 111 164  91 149 36 1

3 111 173 129 123 7 1

13.4.1 界面说明

图 14      构造时间依存变量对话框【Expression for T_cov_】框:左边的框中列出了数据库中的所有变量,以供构造时间依存变量用,其中的

T_是系统提供的时间变量。可以用右边的各个键和 SPSS提供的各种函数构造时间依存变量;也可以在右边的 Expression for T_cov_框中直接输入时间依存变量的表达式。时间依存变量的表的是构造完以后,击 Model 钮,出现下面的对话框。

Page 230: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

图 15   定义模型对话框对话框左边是数据库中出现的变量名。在【Time】中输入生存时间变量

Time;【Status】中输入状态变量 status;【Covariates】中输入时间依存变量 T_COV_。因本例无其它协变量,如有别的不随时间变化的协变量,一并输入Covariates 框中。

对话框中的其他选项均在 Cox模型中介绍过,这里就不再罗嗦了。

13.4.2 结果解释Cox Regression

Page 231: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

上表输出总例数、删失例数、失访例数。Block 0: Beginning Block

模型拟合迭代过程,可不管它。Block1: Method = Enter

整个方程检验无统计学意义,χ2=1.702,υ=1,P=0.192。

输出方程中协变量的系数、标准误、Wald卡方值、自由度、P 值、OR 值。

Page 232: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

输出协变量均数。说明:1.         对于分段时间依存协变量,有缺失值的病例将不能被分析。因此,你必

须保证所有病例每个时间点均有协变量值。虽然这些值在分析中用不到,但它们能有效地防止这些病例被丢掉。例如,以上面规定的时间依存协变量为例,假使一个病例在第二周时终检,但它的 BP3及BP4 值仍必须有,可以取 0或其它值,这个无关紧要,因为它们在统计分析中并不用到。

2.         那位又说了,既然寿命表法和 Kaplan-Meier 法都可以计算累积生存函数和风险函数,那么它们之间有什么差别呢?区别就在于寿命表法是生存时间分为许多时间段进行分析计算的,适用于大样本资料;而 Kaplan-Meier 法是计算每一终止事件发生时的生存率,适用于小样本资料。

Q:想将 SPSS 的结果表格直接粘贴到 WORD 中使用,但一粘过去表格的格式

就乱了,如何保持原有的格式?

A:选中所需表格,单击右键,选择快捷菜单中的 copy object 即可,此时粘

贴过去的表格就会保持原有的格式(实际上粘贴过去的是一幅图片)。

Q:如何在 SPSS 中进行正交设计及正交分析?

Page 233: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

A:我以前以为 SPSS 不能作正交设计,感谢网友 edof@sh 的提醒,经研究,

做法如下:

设要做二因素的正交设计,A 因素有三个水平,B 因素有两个水平。则选择

Data-->Orthogonal Design-->generate,弹出的就是正交设计窗口:

Factor name 框:输入 A:单击 ADD 钮:单击 Define value 钮:分别在

Value 列的头三行输入 1、2 和 3,单击 continue 钮,这样就定义好了变量 A。

按类似的方法定义好变量 B 的 2 个水平。单击 OK,系统就输出一个新定义的数

据集,前两个变量就是要分析的 A 和 B,各个水平已经按正交设计的要求排列

好了。后面的 status_和 card_变量是系统产生的 LOG 变量,可以不管它。现在

你再建立一个结果变量,输入实验结果,就可以进行正交设计的分析了。

正交设计的分析用 GLM模块进行。具体操作如下: Analyze->General

Linear Model->Univariate... dependent 中选入应变量,fixed factor 中选

入自变量。然后进入 model 钮进行模型设置,这一步非常重要!设置模型为

Page 234: 第一章 SPSS概览--数据分析实例详解 · Web view2012/12/19  · Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendall's

custom,然后选择需要分析的主效应和交互作用。然后确认,就可以得到所需

要的结果。

请注意,如果 model 钮进行模型设置时选择错误,则得到的结果肯定是不正确

的。