lesson 4 文件级别的数据管理

Lesson 4 文件级别的数据管理

文件文件级别级别的数的数据管据管理理{{

简单过程：包括简单过程：包括记录排序与拆分、选择与加权记录记录排序与拆分、选择与加权记录变量与数据文件属性向导：变量与数据文件属性向导：用于定义数据字典或用于定义数据字典或将预定义的数据字典直接引入当前文件将预定义的数据字典直接引入当前文件数据重构向导：数据重构向导：用于进行数据转置用于进行数据转置文件合并过程：文件合并过程：将几个数据文件合并为一个大将几个数据文件合并为一个大的的 SPSSSPSS数据文件数据文件查找重复记录向导：查找重复记录向导：正交设计过程：正交设计过程：用于生产实施联合分析所需的用于生产实施联合分析所需的设计，是市场研究中的专用工具，参见《设计，是市场研究中的专用工具，参见《 SPSSSPSS与市场研究》与市场研究》

一一 . . 记录排序记录排序指将数据编辑窗口中的数据，按照用户指指将数据编辑窗口中的数据，按照用户指定的某一个或多个变量值的升序或降序重定的某一个或多个变量值的升序或降序重新排序，用户所指定的变量称为排序变量。新排序，用户所指定的变量称为排序变量。单个变量排序：单个变量排序：在数据表格的变量名处在数据表格的变量名处单击右键单击右键

升序升序降序降序

多个变量排序：多个变量排序：用用 Data→Sort CasesData→Sort Cases

升序或降序可修改升序或降序可修改

注意：注意：1. 1. 在多重排序中，先指定的变量名在排序时优在多重排序中，先指定的变量名在排序时优先于后指定的变量名，即记录首先按第一个变先于后指定的变量名，即记录首先按第一个变量进行排序，对于与第一变量取值相同的记录量进行排序，对于与第一变量取值相同的记录考虑按第二变量排序，依次类推。考虑按第二变量排序，依次类推。2. 2. 排序后，原来记录数据的次序将被打乱，应排序后，原来记录数据的次序将被打乱，应注意保存原始数据。注意保存原始数据。

二二 . . 记录的拆分记录的拆分用于将数据文件进行分组，在希望分组进行相用于将数据文件进行分组，在希望分组进行相应的统计分析或只希望分析其中部分数据时使应的统计分析或只希望分析其中部分数据时使用用

通过通过 Split FileSplit File 来完成来完成

不拆分文件不拆分文件按所选变量拆分文按所选变量拆分文件，各组分析结果件，各组分析结果放一起便于比较放一起便于比较按所选变量拆分按所选变量拆分文件，各组分析文件，各组分析结果单独放置结果单独放置拆分时将数据按所拆分时将数据按所用的拆分变量排序用的拆分变量排序

对数据拆分后，对数据拆分后， SPSSSPSS 右下角会出现右下角会出现 Split onSplit on 字样，表示所做的拆字样，表示所做的拆分生效，且可以被保存到数据集中，直到再次进行设定为止。分生效，且可以被保存到数据集中，直到再次进行设定为止。

三三 . . 记录筛选记录筛选不需要分析全部数据，而是按要求分析部分不需要分析全部数据，而是按要求分析部分数据时使用，比如只分析中文是教授的人的数据时使用，比如只分析中文是教授的人的年薪等。年薪等。

通过通过 Select CasesSelect Cases 来完来完成成

按某种条件抽样按某种条件抽样只分析满足条件的记录只分析满足条件的记录

基于时间或记录基于时间或记录序号来选择记录序号来选择记录使用筛选指示变量来选择记录使用筛选指示变量来选择记录

对没选中的记录的处理方式对没选中的记录的处理方式

被隔离，这些被隔离，这些记录号上会被记录号上会被加斜杠以示区加斜杠以示区别，同时自动别，同时自动生成一个名为生成一个名为 ffilter-$ilter-$ 的筛选的筛选指示变量，被指示变量，被选中的记录该选中的记录该变量取值变量取值 11 ，，否则否则 00对数据筛选后，对数据筛选后， SPSSSPSS 右下角会出现右下角会出现 Filter onFilter on 字样，表示所做的筛字样，表示所做的筛选正在生效，且可以被保存到数据集中，直到再次进行设定为止。选正在生效，且可以被保存到数据集中，直到再次进行设定为止。

四四 . . 记录加权记录加权一般情况下，一行就是一条记录，但有时出现一般情况下，一行就是一条记录，但有时出现如下数据，如果每一行就是一条记录，则需要如下数据，如果每一行就是一条记录，则需要输入输入 121121 行，此时，一般用频数格式录入数据，行，此时，一般用频数格式录入数据，即相同取值的观测只录入一次。即相同取值的观测只录入一次。

通过通过 Weight CasesWeight Cases 来完来完成成

进行权重记录后，进行权重记录后， SPSSSPSS 右下角会出现右下角会出现 Weight onWeight on字样，表示记录已加权，且可以被保存到数据集中，字样，表示记录已加权，且可以被保存到数据集中，直到取消加权，否则一直按加权对数据进行处理。直到取消加权，否则一直按加权对数据进行处理。

五五 . . 数据汇总数据汇总分类汇总指按指定的分类变量对观测值进行分组，分类汇总指按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的统计描述，结果可对每组记录的各变量求指定的统计描述，结果可以存入新数据文件，也可以替换当前文件。以存入新数据文件，也可以替换当前文件。例例 1.1. 根据根据 transform.savtransform.sav 中学生的性别变量对中学生的性别变量对英语的平均成绩进行汇总。英语的平均成绩进行汇总。

分类分类汇总汇总{{指定分类变量和汇总变量指定分类变量和汇总变量SPSSSPSS 自动根据分类变量的取值将记录分自动根据分类变量的取值将记录分成若干类，并对每类记录分别计算汇总变成若干类，并对每类记录分别计算汇总变量的条件描述量的条件描述保存计算结果保存计算结果

选择选择 Data →AggregateData →Aggregate

分类变量分类变量汇总变量汇总变量

在结果数据文件中保存分类组的记录数，在结果数据文件中保存分类组的记录数，则结果数据文件中自动生产一个默认名为则结果数据文件中自动生产一个默认名为N-BREAKN-BREAK 的变量的变量

前述为最基本和常用的数据管理功能，对于较复前述为最基本和常用的数据管理功能，对于较复杂的数据分析则会涉及到下面这些复杂功能。杂的数据分析则会涉及到下面这些复杂功能。

五五 . . 数据字典的定义与应用数据字典的定义与应用在大型的数据分析项目中，为了保证工作质量，在大型的数据分析项目中，为了保证工作质量，数据管理人员一般会事先定义号一个非常详细的数据管理人员一般会事先定义号一个非常详细的数据格式，包括变量格式、变量标签、值标签、数据格式，包括变量格式、变量标签、值标签、缺失值定义等，这就被称为数据字典。缺失值定义等，这就被称为数据字典。

1.1. 变量属性定义向导变量属性定义向导即即 Define Variable PropertiesDefine Variable Properties 过程，用于对数据过程，用于对数据集中已存在的变量进一步定义其属性。虽然大部分集中已存在的变量进一步定义其属性。虽然大部分功能可以在变量视图中完成，但对于复杂的数据管功能可以在变量视图中完成，但对于复杂的数据管理项目而言，它的可视化能力可大大提高工作效率。理项目而言，它的可视化能力可大大提高工作效率。

例例 2.2. 对数据集对数据集 transform.savtransform.sav 的变量的变量 gendergender进行属性设定。进行属性设定。

选入变量后，就可以对所扫描的变量进行属性设定选入变量后，就可以对所扫描的变量进行属性设定

2.2. 复制数据文件属性向导复制数据文件属性向导Copy Data PropertiesCopy Data Properties 过程，用于将定义好的数过程，用于将定义好的数据字典文件直接应用到当前文件中。在操作时可以据字典文件直接应用到当前文件中。在操作时可以将一个外部的数据文件相关属性拷贝到当前数据文将一个外部的数据文件相关属性拷贝到当前数据文件中，也可以自行定义，只选择某些变量或某些属件中，也可以自行定义，只选择某些变量或某些属性进行拷贝。性进行拷贝。例例 3.3. 将数据集将数据集 transform.savtransform.sav 中相关的变量属中相关的变量属性作为数据字典应用到性作为数据字典应用到 transform2.savtransform2.sav 中。中。

先打开先打开 transform2.savtransform2.sav 文件文件

选择同名同类型同长度变量的属性进行复制选择同名同类型同长度变量的属性进行复制选选择择一一个个变变量量进进行行复复制制

仅仅复复制制文文件件属属性，性，若若权权重重设设定定等等

3.3. 查找重复记录查找重复记录Identify Duplicate CasesIdentify Duplicate Cases 过程，用于在大型数据过程，用于在大型数据管理或数据变换工作中，查找重复记录。管理或数据变换工作中，查找重复记录。例例 4.4. 数据数据 companycompany＿＿ rongyu.savrongyu.sav 是一份对几是一份对几个公司的统计表，但由于有些公司提交了数次，个公司的统计表，但由于有些公司提交了数次，因而出现了不止一次，在统计工作中需要删除因而出现了不止一次，在统计工作中需要删除这些重复记录。这些重复记录。

希望查希望查找重复找重复值的变值的变量组量组重复重复记录记录按哪按哪个变个变量排量排序序

最后一个还是第一个最后一个还是第一个重复记录设为主记录重复记录设为主记录

重复记录是否要编流水号重复记录是否要编流水号

六六 . . 数据文件的重新排列与转置数据文件的重新排列与转置

有时用户要根据分析的要求改变数有时用户要根据分析的要求改变数据的排列格式。据的排列格式。选择选择 DataData→Restructure→Restructure

1.1. 数据的长型与宽型格式数据的长型与宽型格式重复测量数据的两种不同排列方式，重复测量数据的两种不同排列方式，由于重复测量模型可以使用不同的统计模型由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型与加以分析，因此根据模型的要求进行长型与款型格式之间的互换是必要的。款型格式之间的互换是必要的。

长型格式的数据长型格式的数据 Anxiety.savAnxiety.sav ，共，共 4848 条记录条记录

宽型格式的数据宽型格式的数据 Anxiety2.savAnxiety2.sav ，共，共 4848 条记录条记录

2.2. 长型格式转换成款型格式长型格式转换成款型格式例例 5.5. 将将 Anxiety.savAnxiety.sav 转换为转换为 Anxiety2.savAnxiety2.sav 的格式。的格式。

款型转成长型款型转成长型

长型转成款型长型转成款型行列转置行列转置

被重复观测的个体的变量被重复观测的个体的变量

反应测量级别的变量反应测量级别的变量

进一步询问是否根据所选变量排序，系统默认进一步询问是否根据所选变量排序，系统默认 yesyes

此时可单击完成实现转换，也可按下一步继续操作。此时可单击完成实现转换，也可按下一步继续操作。

结果窗口还会输出汇总表，用于检查操作是否有误。结果窗口还会输出汇总表，用于检查操作是否有误。

3. 3. 款型格式转换成长型格式款型格式转换成长型格式例例 6.6. 将将 Anxiety2.savAnxiety2.sav 转换为转换为 Anxiety.savAnxiety.sav 的格式。的格式。

转换一组变量转换一组变量转换多组变量转换多组变量

重复观测个体的标识变量重复观测个体的标识变量

被转换的变量组被转换的变量组携带变量携带变量

用于设定重复测量指标变量用于设定重复测量指标变量

此时可单击完成实现转换，也可按下一步继续操作。此时可单击完成实现转换，也可按下一步继续操作。

结果窗口还会输出汇总表，用于检查操作是否有误。结果窗口还会输出汇总表，用于检查操作是否有误。

4. 4. 数据转置数据转置即将数据编辑窗口中的数据的行列即将数据编辑窗口中的数据的行列互换，将记录转化为变量，将变量转化为记互换，将记录转化为变量，将变量转化为记录后，重新显示在窗口中。一般情况下不需录后，重新显示在窗口中。一般情况下不需要进行数据转置，数据转置主要用于编程，要进行数据转置，数据转置主要用于编程，进行矩阵运算时的矩阵转置操作。进行矩阵运算时的矩阵转置操作。

五五 . . 多个数据文件的合并多个数据文件的合并纵向连接：纵向连接：指几个数据集中的数据纵向相加，指几个数据集中的数据纵向相加，组成一个新的数据集，新数据集中的记录数组成一个新的数据集，新数据集中的记录数是原来几个数据集中的记录数的总和。是原来几个数据集中的记录数的总和。横向合并：横向合并：指按照记录次序或某个关键变量指按照记录次序或某个关键变量的数值，将不同数据集中的不同变量合并为的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数时所有原一个数据集，新数据集中的变量数时所有原数据集中的不重变量名的总和。数据集中的不重变量名的总和。

1.1. 纵向连接纵向连接纵向连接是将一个纵向连接是将一个 SPSSSPSS 数据文件的内数据文件的内容追加到数据编辑窗口中当前数据的后面。容追加到数据编辑窗口中当前数据的后面。其实质就是将两个数据文件的变量列，按照其实质就是将两个数据文件的变量列，按照各个变量名的含义，意义对应进行首尾连接。各个变量名的含义，意义对应进行首尾连接。实现纵向连接的条件：实现纵向连接的条件：两个待合并的数据文两个待合并的数据文件，其内容合并是有意义的；在不同数据文件，其内容合并是有意义的；在不同数据文件中，数据含义相同的列尽量起相同的名字，件中，数据含义相同的列尽量起相同的名字，变量类型与长度也尽量相同。变量类型与长度也尽量相同。

例例 7.7. 将将 transform2.savtransform2.sav 中的记录添加到中的记录添加到 transtransform.savform.sav 中，注意中，注意 transform2.savtransform2.sav 中的中的 sexsex对应了对应了 transform.savtransform.sav 中的中的 gendergender 。。

两个数据文件中匹配好的变量两个数据文件中匹配好的变量

两个数据文件中未匹配的变量两个数据文件中未匹配的变量

选择选择 transform2.savtransform2.sav 后后两个数据文件中匹配好的变量两个数据文件中匹配好的变量

两个数据文件中未匹配的变量两个数据文件中未匹配的变量显示记录来自合并前的哪个文件，显示记录来自合并前的哪个文件， 00 表表示来自第一个，示来自第一个， 22 表示来自第二个表示来自第二个

其中未选入的变量其中未选入的变量 sexsex 与与 gengergenger 丢失了丢失了

2.2. 横向合并横向合并纵向连接是将一个纵向连接是将一个 SPSSSPSS 数据文件的若数据文件的若干变量加到数据编辑窗口的数据中。其实质干变量加到数据编辑窗口的数据中。其实质就是将两个数据文件的记录，按照记录对应，就是将两个数据文件的记录，按照记录对应，一一进行左右连接。一一进行左右连接。实现纵向连接的条件：实现纵向连接的条件：如果不是按记录号对如果不是按记录号对应的规则进行合并，则必须至少有一个关键应的规则进行合并，则必须至少有一个关键变量（两个数据中重复的变量）；若使用关变量（两个数据中重复的变量）；若使用关键变量进行合并，则两个数据文件必须先按键变量进行合并，则两个数据文件必须先按关键变量进行升序排序；数据含义不相同的关键变量进行升序排序；数据含义不相同的列不应起相同的名字。列不应起相同的名字。

例例 8.8. 将将 transform3.savtransform3.sav 中的变量添加到中的变量添加到 transform.satransform.savv 中。中。

选择选择 transform3.savtransform3.sav 后后

两个数据文件中重复的变量两个数据文件中重复的变量

如果待合并的两个数据文件中的记录是横向一一如果待合并的两个数据文件中的记录是横向一一对应的，则直接单击对应的，则直接单击 OKOK 即可。即可。

否则，从否则，从 Exclude VarirblesExclude Varirbles 框中选出一个或多个关键变框中选出一个或多个关键变量送到量送到 Key VariablesKey Variables 框中，同时两个数据文件按关键框中，同时两个数据文件按关键变量先升序排序，如选变量先升序排序，如选 gendergender 为关键变量的输出结果为：为关键变量的输出结果为：

lesson 4 文件级别的数据管理

Documents