第2章 SPSS 24.0数据管理

统计数据是进行数据分析和研究的基础,良好的数据管理习惯和建立好的数据文件是进行正确科学分析的关键。数据文件建立好之后,还需要对数据进行必要的整理。由于不同的统计分析方法对数据结构的要求不同,因此我们需要对数据文件的结构进行必要的调整和转换,这就是数据管理。SPSS提供了强大的数据管理功能,可以从变量和观测量的角度对数据进行全面处理,为统计分析打下良好的基础。本章将对SPSS 24.0的数据管理功能进行介绍。

2.1 SPSS 24.0数据编辑器

SPSS的数据编辑器是用户进行数据处理与分析的主要窗口。用户可以在数据编辑器窗口中进行数据输入、观察、编辑和统计分析等操作。

在启动选项中选择“输入数据”或“打开现有的数据源”,进入SPSS后的第一个窗口就是数据编辑窗口,如图2-1所示。

图2-1 数据编辑窗口

1.标题栏

显示窗口名称和编辑的数据文件名。如果当前数据编辑器中是一个新建的文件,其显示为“未标题1[数据集0]- IBM SPSS Statistics数据编辑器”。

2.菜单栏

菜单栏包括“文件”“编辑”“查看”“数据”“转换”“分析”“直销”“图形”“实用程序”“扩展”“窗口”和“帮助”菜单,这些菜单可以实现编辑数据与变量、定义系统参数、设置显示方式、绘制图形、进行各项数据分析和查阅帮助等功能。

3.数据和单元格信息显示栏

该显示栏用于显示单元格位置和单元格的内容等相关信息。灰色区域为提示区,显示单元格的位置,空白区域为数据编辑区,该区域内显示当前选中单元格的内容,用户可以在该区域输入或修改相应的内容。

4.编辑显示区

在窗口的中部是编辑显示区,该区最左边一列显示单元序列号,最上边一行显示变量名称。选定的单元格呈反色显示,其内容将出现在数据和单元格信息显示栏中,在此输入或修改单元格内容。

5.视图转换栏

该栏用于进行变量和数据视图的切换,用户只需要单击相应的标签便可以完成变量与数据视图的切换。

6.系统状态栏

该栏显示当前的系统操作,用户可以通过该栏了解SPSS当前的工作状态。

2.2 常量、变量、操作符和表达式

常量、变量、操作符和表达式是SPSS数据管理与操作中的基本概念,也是SPSS命令语句的重要组成部分。

2.2.1 SPSS中的常量与变量

1.常量

SPSS中的常量是在一定阶段内其取值不随观测而改变的值。SPSS中的常量有3种类型,即数值型常量、字符型常量和日期型常量。

  • 数值型常量:数值型常量是一个数值。数值型常量有两种书写方式,一是普通书写方式(定点方式),如53、74.2 等;二是科学计数法(浮点方式),使用指数表示数值,通常用于表示特别大或特别小的数值,如3.16E18表示3.16×1018、7.32E-15 表示7.32×10-15等。
  • 字符型常量:字符型常量是被单引号或双引号括起来的一串字符。如果字符串中本身带有单引号或半个单引号,则该字符串常量必须使用双引号括起来,如字符串SPSS、This is Tom。
  • 日期型常量:日期型常量是按特定格式输出的日期,日期型常量一般使用较少。
2.变量

对不同的对象其取值发生变化的量称为变量。SPSS中的变量也包括数值型变量、字符型变量和日期型变量3种。

(1)数值型变量

数值型变量一般由数字、分隔符和一些特殊符号(如美元符号)构成,数值型变量包含以下6种具体的形式。

① 标准型。标准数值型变量是SPSS中默认的数值变量格式。其默认长度为8,小数位数为2,小数采用圆点表示。标准数值型变量的变量值可用标准数值格式输入,也可以用科学记数法输入,如2378、44.21等。

② 逗号数值型。逗号数值型变量的整数部分从右向左每隔三位插入一个逗号作为分隔。逗号数值型变量默认长度为8,小数位数为2,小数点采用圆点表示,如7 467.55。

③ 圆点数值型。圆点数值型变量显示方式与带逗号的数值型变量相反,其整数部分从右向左每隔三位插入一个圆点作为分隔符,默认长度为8,小数位数为2,小数点采用逗号表示,如7.467 55。

④ 科学计数法型。科学计数法型数值变量的数值采用指数形式表示。科学计数法型数值变量默认长度为8,小数位数为2,通常用于表示很大或很小的数字,如3.43E+002表示3.43*102

⑤ 美元型。美元型数值型变量是在有效数字前添加美元符号的数值型变量,默认长度为8,小数位数为2,系统给出了美元型变量的多种表示形式,用户可以根据需要自行选择相应的形式,如$56 434.277。

⑥ 自定义货币型。用户也可以创建5种自定义数据显示格式,系统自动将自定义数据显示名称命名为CCA、CCB、CCC、CCD和CCE,这只是5种命名,用户可以自行定制这5种类型。

(2)字符型变量

字符型变量由字符串组成,可以包含数字、字母和一些特殊符号。字符型变量的默认长度为8,大于8个字符的字符型变量称为长字符型变量,少于等于8个字符的变量称为短字符型变量,字符型变量最长为32767个字符。字符型变量不能参与运算,系统将区分大小写字母。

(3)日期型变量

日期型变量用于表示日期和时间。在如图2-2所示的“变量类型”对话框中,选中“日期”单选按钮,可以看到SPSS提供的29种不同的日期和时间格式。可根据需要选择相应的格式,如1-12-2009、29.12.99等。日期型变量不能参与运算,要想使用日期变量的值进行运算,必须通过有关的日期函数进行转换。

图2-2 日期型变量的格式

2.2.2 变量名与变量标签

变量名和变量标签是用户识别变量的标志,定义良好的变量名和变量标签将有助于提高分析的效率。

1.变量名

变量名用于区分不同的变量,SPSS中变量的命名规则如下。

① SPSS变量的变量名不能超过64个字符。

② 首字符必须是字母、中文或特殊符号“@”“$”或“#”。

③ 变量名中不能出现“?”“!”“-”“+”“=”“*”和空格。

④ 末字符不能为“.”和“_”。

⑤ 名称不能与SPSS的保留字相同,SPSS的保留字有AND、BY、EQ、GE、GT、LT、NE、NOT、OR、TO、WITH和ALL。

⑥ 系统不区分变量名中的大小写字母。

2.变量标签

变量标签是对变量名和变量值的辅助说明,包括变量名标签和变量值标签两类。

(1)变量名标签

变量名标签是对变量名的进一步解释和说明。变量名标签可由不超过256个字符的数字、汉字、字母和特殊符号构成,可以包含空格和SPSS保留字。用户可以自行设置变量名标签和变量名的显示方式,也可以用变量名标签代替变量名显示。变量名标签是一个可选择属性,用户可以不定义变量名标签。

(2)变量值标签

变量值标签是对变量取值的进一步解释和说明,通常用于分类变量。变量值标签最大长度为120个字符,其只对数值型变量、日期型变量和短字符型变量有效,变量值标签是一个可选择属性,可不定义变量的值标签。

2.2.3 运算符与表达式

SPSS的基本运算有3种,即数学运算、关系运算和逻辑运算,相应的运算符及其意义如表2-1所示。

表2-1 SPSS中的运算符

将常量变量或函数用运算符进行连接,便形成了表达式,表达式的具体形式有以下3种。

1.算数表达式

数学运算符连接数值型的常量、变量和函数即形成算数表达式,其运算结果一般为数值,如表达式23+45,输出结果为68。

2.比较表达式

利用关系运算符建立两个变量间的比较关系即为比较表达式。比较表达式要求相互比较的两个量类型一致,比较表达式的结果一般为逻辑型,例如,x=2,则表达式“x>0”为真,系统返回1(true)。

3.逻辑表达式

逻辑表达式由逻辑运算符、逻辑型的变量或取值为逻辑型的比较表达式构成,逻辑表达式的值为逻辑型常量,例如,对于表达式“true AND true”系统返回true,“true OR false”系统返回true。

2.2.4 变量的定义

在图2-1所示的数据编辑窗口中的视图转换栏中选择“变量视图”标签,即输入如图2-3所示的变量视图。变量的定义就是在数据编辑器的变量视图中进行的。

图2-3 数据编辑器的变量视图

1.定义变量名

选中某个变量的“名称”单元格,直接输入变量名便可定义变量名称,输入完成后单击其他单元格或按回车键即完成设置。如果用户没有预先设置变量名称而直接在数据视图中输入数据,那么变量名称将使用系统的默认名称VAR00001、VAR00002等,用户可以双击变量名称输入变量视图修改变量名称。

2.定义变量类型

选中某个变量的“类型”单元格,单击按钮弹出如图2-4所示的“变量类型”对话框。

用户在该对话框中选择相应的单选按钮即可完成变量类型的选择,具体的变量类型及其含义在2.2.1节已经进行了详细说明,在此不再赘述。

图2-4 “变量类型”对话框

3.宽度定义

选中某个变量的“宽度”单元格,直接输入相应的数值便可定义变量宽度,可以通过按钮来调节变量的宽度,系统默认的变量宽度为8。变量宽度的设置对日期型变量无效。

4.小数位数定义

选中某个变量的“小数”单元格,直接输入相应的数值便可定义变量的小数位数,也可以通过按钮来调节变量的小数位数,系统默认的小数位数为2。变量小数位数的设置对非数值型变量无效。

5.变量标签定义

选中某个变量的“标签”单元格,直接输入相应的内容便可定义该变量标签。

6.变量值标签定义

选中某个变量的“值”单元格,单击按钮弹出如图2-5所示的“值标签”对话框。

“值”文本框用于输入要定义标签的变量值,在“标签”文本框中输入定义的值标签内容,输入完成后单击“添加”按钮使设置好的值标签输入下方的列表框。单击“更改”和“删除”按钮可修改或删除设置好的值标签。

7.缺失值的定义

选中某个变量的“缺失”单元格,单击按钮弹出如图2-6所示的“缺失值”对话框。有3个可定义单选按钮。

图2-5 “值标签”对话框

图2-6 “缺失值”对话框

  • 无缺失值:表示无缺失值,为系统默认方式。
  • 离散缺失值:表示数据中存在离散缺失值,用户可以在其下的文本框中输入不超过3个的缺失值。
  • 范围加上一个可选的离散缺失值:表示数据中存在连续缺失值,在“下限”和“上限”文本框中输入相应的值以确定缺失值的取值范围。此外,用户还可以在“离散值”文本框中指定一个离散形式的缺失值。
8.列显示宽度设置

选中某个变量的“列”单元格,直接输入相应数值便可定义列的显示宽度,可以通过按钮来调节列的显示宽度。

9.对齐方式设置

选中某个变量的“对齐”单元格,在其右侧出现的下拉列表中选择相应的对齐方式即可,系统给出了“左”“右”和“居中”3种对齐方式。

10.变量度量尺度设置

选中某个变量的“度量方式”单元格,在其右侧出现的下拉列表框中选择相应的度量尺度即可。

2.3 输入数据

数据输入是数据管理中的基本操作,本节将对数据输入的方法和文件与变量信息的查看进行相应的介绍。

2.3.1 输入数据的方法

变量定义完成后,在如图2-1所示的数据编辑窗口的视图转换栏中选择“数据视图”标签,输入数据视图,即可在SPSS的数据管理器的编辑显示区中直接输入和编辑数据。编辑显示区是一个电子表格,其每一行代表一个观测,每一列代表一个变量,行列交叉处称为单元格,单元格中给出观测在相应特性上的取值。单击鼠标左键可激活单元格,被激活的单元格以反色显示;按方向键上下左右移动也可以来激活单元格,单元格被激活后,用户即可向其中输入新数据或修改已有的数据。

2.3.2 文件和变量信息的查看

数据文件建立后,我们可能希望看到数据文件的结构和变量的组成以确定是否需要完善或修改,此时我们就需要用到文件和变量信息查看功能。

1.查看变量信息

(1)在结果输出窗口中查看变量信息

在菜单栏中选择“文件”|“显示数据文件信息”|“工作文件”命令,就可以将当前工作文件的变量信息输出到结果查看窗口,输出结果如图2-7所示;此外,用户还可以在菜单栏中选择“文件”|“显示数据文件信息”|“外部文件”命令并选择相应的外部文件,将其他工作文件的变量信息输出到结果查看窗口。

图2-7 结果输出窗口中输出的变量信息

(2)利用工具栏查看变量信息

在菜单栏中选择“实用程序”|“变量”命令,打开如图2-8所示的“变量”对话框。

在“变量”列表框中选中相应的变量,即可查看当前数据文件中的变量信息,信息显示在右侧文本框中。

2.查看文件信息

在菜单栏中选择“文件”|“显示数据文件信息”|“外部文件”命令并选择相应的外部文件,可以将相应工作文件的文件信息输出到结果查看窗口,输出结果如图2-9所示。

图2-8 “变量”对话框

图2-9 文件信息

2.4 编辑数据

在输入数据后,我们需要对数据进行相应的整理或编辑,SPSS提供了强大的数据编辑功能,可以实现数据的修改、删除、复制和插入等操作。

2.4.1 插入和删除观测量

有时我们需要对数据进行相应的修改。例如,公司新进了一名员工,需要将他的信息插入原有的数据库,此时我们需要进行变量的插入操作;一名学生退学,则需要从班级名单中将其删除,此时我们需要进行变量的删除操作。

1.插入观测量

用户可以通过菜单命令插入变量,也可以通过工具栏和鼠标右键快捷菜单插入观测量,这几种方法是等价的。

(1)在SPSS数据编辑器的数据视图下,将任一观测量所在行的任意单元格激活,然后选择“编辑”|“插入个案”命令,即可完成观测量插入操作。

(2)在SPSS数据编辑器的数据视图下,将鼠标移动到相应的观测量序号上并单击选中该观测量,此时该观测量所在行的所有单元格都被选中并呈反色显示,单击鼠标右键,在弹出的快捷菜单中选择“插入个案”命令,即可完成变观测量插入操作。

(3)在SPSS数据编辑器的数据视图下,将任一观测量所在行的任意单元格激活,然后单击工具栏上的按钮,也可以完成观测量插入操作。

2.删除观测量

删除变量将删除该观测量所在行的全部数据,删除观测量有两种等价的方法。

(1)在SPSS数据编辑器的数据视图下,将鼠标移动到相应的观测量序号上并单击选中该观测量,此时该观测量所在列的所有单元格都被选中并呈反色显示,然后选择“编辑”|“清除”命令,即可完成观测量的删除操作。

(2)同样通过观测量序号选中该观测量,然后右击并在弹出的快捷菜单中选择“清除”命令,即可完成观测量的删除操作。

2.4.2 数据的剪切、复制和粘贴

对数据进行剪切、复制和粘贴操作前,首先选中需要操作的数据区域,被选中的数据区域反色显示。

1.数据的剪切

选中需要操作的数据区域后,在菜单栏中选择“编辑”|“剪切”命令,或者单击鼠标右键在弹出的快捷菜单中选择“剪切”命令,均可完成数据的剪切操作。

2.数据的复制

选中需要操作的数据区域后,在菜单栏中选择“编辑”|“复制”命令,或者单击鼠标右键在弹出的快捷菜单中选择“复制”命令,均可完成数据的复制操作。

3.数据的粘贴

选中需要操作的数据区域后,在菜单栏中选择“编辑”|“粘贴”命令,或者单击鼠标右键在弹出的快捷菜单中选择“粘贴”命令,均可完成数据的粘贴操作。

此外,用户还可以通过Ctrl+X、Ctrl+C和Ctrl+V组合键分别来实现数据的剪切、复制和粘贴操作。

2.4.3 撤销操作

当用户对数据进行了错误操作并希望返回操作前的状态时,可以在菜单栏中选择“编辑”|“撤销”命令,或者在工具栏上单击按钮来执行撤销任务。

2.5 数据文件操作

当输入数据建立数据文件后,根据统计分析的要求我们可能需要对数据进行分类等处理,或者对数据文件进行相应的转换。对数据文件的正确操作对于准确地进行分析具有重要的意义。

2.5.1 数据文件的打开与保存

要进行数据分析,必须先打开一个数据文件,数据文件的打开是进行数据分析的前提;在分析结束后,如果需要保存分析的结果,此时将会用到数据文件的保存功能。

1.打开数据文件

打开数据文件的具体操作步骤如下:

步骤01 在菜单栏中选择“文件”|“打开”|“数据”命令,或者单击工具栏上的按钮,打开如图2-10所示的“打开数据”对话框。

图2-10 “打开数据”对话框

步骤02 选择相应的文件。如果需要打开其他数据文件,用户可以在“文件类型”下拉列表框中选择相应的类型。关于数据文件的转换本书后面章节会做详细介绍,这里不做深述。

步骤03 双击需要打开的文件或单击“打开”按钮即可打开文件。从SPSS 15.0开始,系统支持同时打开多个数据文件,这极大地方便了用户在不同的数据文件之间进行操作。

2.保存数据文件

在菜单栏中选择“文件”|“保存”命令,或者选择“文件”|“另存为”命令,或者在工具栏中单击按钮都可实现数据文件的保存操作。

如果用户保存的是新建的数据文件,当进行以上操作时,会弹出如图2-11所示的“将数据保存为”对话框。

用户可以保存所有的变量,也可以单击“变量”按钮,在弹出的“数据保存为:变量”对话框(如图2-12所示)中只选择要保存的变量。

图2-11 “将数据保存为”对话框

图2-12 “数据保存为:变量”对话框

除保存为SPSS数据文件外,数据文件还可以用其他的数据格式保存,在“将数据保存为”对话框的“保存类型”下拉列表框中选择数据文件的保存类型即可。

2.5.2 数据排序

杂乱的数据显然不利于分析效率的提升,有时我们希望观测量能按照某一个顺序进行排列,例如我们在评比时希望按绩效的高低对员工进行排序,此时将用到数据排序的功能。

本节将以职工平均工资分析案例讲解数据排序的具体操作。本例中,我们希望了解不同地区职工的平均工资(单位:元)情况,利用数据排序功能对不同地区职工平均工资进行排序。排序前的数据文件如图2-13所示。

图2-13 进行数据排序前的工资数据文件

排序前的数据文件中观测量的排列是混乱的,我们无法从中看出不同地区职工平均工资的高低和某一个地区职工平均工资在全国所处的位置。

下面对工资数据进行排序,具体操作步骤如下:

步骤01 在菜单栏中选择“数据”|“个案排序”命令,打开如图2-14所示的“个案排序”对话框。

步骤02 选择排序依据变量,然后单击按钮将选中的变量选入“排序依据”列表框中,系统允许选择多个变量,在第一变量取值相同的情况下比较第二变量,依次类推。本例中我们将对不同地区的职工工资进行排序,故将“平均工资”变量选入“排序依据”列表框。

图2-14 “个案排序”对话框

步骤03 在“排列顺序”选项组中选择按“升序”或“降序”排列,本例中,我们希望按照由高到低的顺序进行排列,故选中“降序”单选按钮。

步骤04 单击“确定”按钮,即可完成排序操作。

排序完成后的工资数据文件如图2-15所示。

图2-15 进行数据排序后的工资数据文件

由图2-15我们可以看出,观测量已经按照平均工资的降序进行了排列,通过数据排序可以看出西藏、青海等艰苦地区与北京、上海等经济发达地区属于平均工资较高的地区,此外我们也可以看出各省市在平均工资排序中的大致位置。

2.5.3 数据文件的分解与合并

有时我们需要将变量按照指定的要求进行分组,例如按照地区分析销售人员的业绩,此时要用到数据的分解功能;有时我们需要将不同的数据文件组合形成一个新的数据文件,例如要将二班的成绩和一班的成绩放在一起形成总成绩表,或者把生物成绩追加到数学和物理成绩之后,此时我们将用到数据的合并功能。

1.数据文件的分解

所谓数据文件的分解,是指将该数据文件中的所有观测量以某一个或某几个变量为关键字进行分组,以便于集中对比和操作。本节将以销售人员的业绩分析为例讲解数据文件的分解操作,本例中我们希望按照地区划分销售人员的业绩,以分析不同地区的销售情况。分解前的数据文件如图2-16所示。

图2-16 分解前的销售业绩数据文件(销售量单位:万件)

通过图2-16我们可以看出,数据文件是按照销售量进行的排序,对各分区的业绩考核与排序则不够直观。

数据分解的具体操作步骤如下:

步骤01 在菜单栏中选择“数据”|“拆分文件”命令,打开如图2-17所示的“拆分文件”对话框。

步骤02 选择文件分解方式。如选中“分析所有个案,不创建组”单选按钮,系统将不进行分组操作;如选中“比较组”单选按钮,系统将把各组的分析结果放在同一个表格中比较输出;如选中“按组来组织输出”单选按钮,系统将按分组单独输出分析结果。本例选中“按组来组织输出”单选按钮。

步骤03 选择分组方式与显示方式。选中“比较组”或“按组来组织输出”单选按钮,分组方式列表和设置文件排序方式的两个单选按钮将被激活。在列表中选择排序依据变量,然后单击按钮将选中的变量选入“分组依据”列表框中。本例将按照地区进行销售业绩的评估,故选择“地区”变量输入“分组依据”列表框。

步骤04 选择排序方式。如选中“按分组变量进行文件排序”单选按钮,系统会将观测量按分组文件的顺序进行排列;如选中“文件已排序”单选按钮,则表示文件已经排序,无须系统进行排序操作。本例中的数据文件未按“地区”变量进行分组,故选中“按分组变量进行文件排序”单选按钮。

步骤05 单击“确定”按钮,即可进行文件分解操作。分解完成的数据文件如图2-18所示。

由图2-18可以看出,数据已经按照地区进行了划分,我们可以很方便地了解各个地区的销售情况并进行业绩评价。

图2-17 “拆分文件”对话框

图2-18 分解后的数据文件

2.数据文件的合并

数据文件的合并分为横向合并和纵向合并。横向合并是指从外部数据文件中增加变量到当前数据文件;纵向合并是指从外部数据文件中增加观测量到当前的数据文件中。

(1)数据文件的横向合并

数据文件的横向合并也分为两种情况:一种情况是将外部数据文件的变量追加到当前数据文件中;另一种是按共同的关键变量合并。本节以学生成绩添加为例讲解数据文件的横向合并。本例中,我们希望将学生的数学成绩添加到物理成绩之后形成学生的总成绩表。横向合并前的物理成绩与数学成绩的数据文件分别如图2-19和图2-20所示。

图2-19 学生的物理成绩

图2-20 学生的数学成绩

数据文件的横向合并的具体方法如下:

1)在菜单栏中选择“数据”|“合并文件”|“添加变量”命令,打开如图2-21所示的“变量添加至”对话框。

用户可以选择已经打开的数据文件,或者从外部选择一个已经保存的SPSS数据文件作为与当前文件合并的文件,选择完毕后单击“继续”按钮。本例选中“外部SPSS Statistics数据文件”单选按钮,然后选择“数学成绩”文件,打开如图2-22所示的“变量添加自”对话框。

图2-21 “变量添加至”对话框

图2-22 “变量添加自”对话框

2)选择合并后数据文件中的变量

“排除的变量”列表框用于显示不出现在新合并的数据文件中的变量以及当前数据文件和外部数据文件中的重名变量。

“新的活动数据集”列表框用于显示合并后的数据集中包含的变量。变量名称后面带有“+”的表示来自外部数据文件的变量,变量名称后面带有“*”的表示当前数据文件中的变量。如果用户希望将重名变量也加入合并后的文件,可以在“排除的变量”列表框中选择该变量并单击“重命名”按钮对其重新命名,再单击按钮将该变量选入“新的活动数据集”列表框中,本例无须对此进行操作。

3)设置关键变量

如果两个数据文件具有相同的个案数且排列顺序相同,用户无须指定关键变量。否则,需要选择关键变量并以关键变量的升序对两个数据集进行排序。只有当前数据文件和外部数据文件中的重名变量才可以作为关键变量,选中“两个数据集中的个案都按键变量的顺序进行排序”复选框并选择该变量,单击按钮将该其选入“键变量”列表框中,本例由于学生的成绩均按照学号进行排序,故不必指定键变量。

选中“两个数据集中的个案都按键变量的顺序进行排序”复选框将激活下面的3个单选按钮。

  • 非活动数据集是键控表:表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。
  • 活动数据集是键控表:表示将非活动数据文件作为关键表。
  • 两个文件都提供个案:表示将两个数据文件的所有观测量合并。

4)单击“确定”按钮,即可完成文件横向合并操作

由图2-23可以看出数学成绩已经作为一个新的变量被添加到了学生成绩表中,我们得到了一个包含数学和物理成绩的成绩总表。

图2-23 横向合并后的数据文件

(2)数据文件的纵向合并

数据文件的纵向合并只能合并两个数据文件中相同的变量。本节同样以学生成绩添加为例讲解数据文件的纵向合并。与上一个例子不同,本例中我们希望将二考场学生的数学成绩添加到一考场学生的成绩之后形成学生的总数学成绩表,其中一考场为学号1~50号的学生,二考场为学号51~80号的学生。纵向合并前的两个考场学生的数学成绩数据分别如图2-24和图2-25所示。

图2-24 一考场学生的数学成绩

图2-25 二考场学生的数学成绩

数据文件纵向合并的具体方法如下:

1)在菜单栏中选择“数据”|“合并文件”|“添加个案”命令,打开如图2-26所示的“将个案添加至”对话框。

本例在“外部SPSS Statistics数据文件”下选择“二考场数学成绩”文件,然后打开如图2-27所示的“添加个案自数据集2”对话框。

图2-26 “添加个案至”对话框

图2-27 “添加个案自数据集2”对话框

2)进行相应的设置。

“非成对变量”列表框中显示的是未能匹配的变量,“新的活动数据集中的变量”列表框中显示的是两个数据文件中文件名和数据类型都相同的变量。对于数据类型相同而名称不同的变量,用户可以通过选择这些变量后单击“配对”按钮来匹配两个变量。

3)单击“确定”按钮,即可完成文件纵向合并操作。合并后的部分数据文件如图2-28所示。

图2-28 纵向合并后的数据文件

由图2-28可以看出,一考场的数学成绩和二考场的数学成绩已经被合并了,学号为51~80号学生的数学成绩已经被合并到了一考场学生数学成绩的后面,形成了总数学成绩单。

2.5.4 数据文件的变换

不同的分析方法需要不同的数据文件结构,当现有的观测量和变量的分布与分析的要求不一致时,我们就要对数据文件进行变换。数据文件的变换是指将数据文件的观测量与变量互换。本节即讲解数据文件的变换操作,为简便起见,我们选取20名学生的数学成绩作为其产品调查中被调查者对该产品的评分,我们希望以学号作为变量,得分作为观测量,从而得到一个调查表。变换前的数据文件如图2-29所示。

图2-29 变换前的数据文件

数据文件的变换操作具体如下所示:

1)在菜单栏中选择“数据”|“转置”命令,打开如图2-30所示的“转置”对话框。

2)选择要变换的变量,单击按钮将其选入“变量”列表框中。如果一个变量的所有观测量的取值各不相同,则可以将其作为名称变量,单击按钮将其选入“名称变量”列表框,如图2-31所示。如果用户不指定名称变量,系统将默认以“VAR0000X”命名变量。本例将“数学”变量选入“变量”列表框中,将“学号”选入“名称变量”列表框中。

图2-30 “转置”对话框

图2-31 选择变量

3)单击“确定”按钮,即可完成文件变换操作。转置后的数据文件如图2-32所示。

从图2-32中可以看出,k_加上学生的学号成为变量,每一个相应的学号都对应着这个学生的数学成绩。

图2-32 转置后的数据文件

2.5.5 观测量的加权

对数据进行加权处理是我们使用SPSS提供某些分析方法的重要前提。数据在进行加权后,当前的权重将被保存在数据中。当进行相应的分析时,用户无须再次进行加权操作。本节以对广告的效果观测为例,讲解数据的加权操作。本例给出了消费者购买行为与是否看过广告之间的联系,按“是否看过广告”和“是否购买商品”两个标准,消费者被分为4类,研究者对这4类消费者分别进行了调查。由于各种情况下调查的人数不同,如果将4种情况等同进行分析,势必由于各种情况的观测数目不同导致分析的偏误,因此我们需要对观测量进行加权。加权前的数据文件如图2-33所示。

图2-33 加权前的数据文件

加权操作的具体步骤如下所示。

步骤01 在菜单栏中选择“数据”|“个案加权”命令,打开如图2-34所示的“个案加权”对话框。

  • 不对个案加权:表示对当前数据集不进行加权,该项一般用于对已经加权的数据集取消加权。
  • 个案加权系数:表示对当前数据集进行加权,同时激活“频率变量”列表框。

步骤02 选择加权变量。加权变量用于定制权重,从变量列表框中选择作为加权变量的变量,单击按钮将其选入“频率变量”列表框,如图2-35所示,本例选择“人数”变量作为加权频率变量。

图2-34 “个案加权”对话框

图2-35 加权变量的选择

步骤03 单击“确定”按钮,即可进行加权操作。加权后状态栏右侧会显示信息,表示数据已经加权,如图2-36所示。

图2-36 加权后的数据文件

2.6 变量的转换与运算

变量是SPSS数据结构中重要的组成部分,是统计分析的主要对象。本节对SPSS 24.0中有关变量的操作进行介绍。

2.6.1 插入与删除变量

有时我们需要增加新的信息,如由于对外开放,在工资统计中需要加入外资企业的信息,此时会用到插入新的变量操作,有时候也需要删除无用的变量。

与观测量的插入和删除一样,用户可以通过菜单命令插入变量,也可以通过工具栏和鼠标右键快捷菜单插入变量,系统默认插入的新变量为标准数值型变量,变量名为VAR0000X。具体操作方法可参照2.4.1小节。

在SPSS数据编辑器的变量视图下,同样可以完成变量的插入和删除操作,方法与在数据视图下基本一致,只是操作对象变成了行。

2.6.2 根据已存在的变量建立新变量

在实际的数据分析过程中经常会利用多个变量之间的关系来生成新的变量。SPSS的变量生成过程可以方便实现这项功能。本节将以平均成绩的计算为例来讲解根据已存在的变量建立新变量的过程,按照“平均成绩=(数学成绩+物理成绩)/2”的公式计算学生的平均成绩。原始数据文件如图2-37所示。

图2-37 未产生新变量的数据文件

1)在菜单栏中选择“转换”|“计算变量”命令,打开如图2-38所示的“计算变量”对话框。

2)定制目标变量。

在“目标变量”文本框中输入目标变量的名称,单击“类型和标签”按钮,在弹出的“计算变量:类型和标签”对话框中设置新生成变量的类型与标签。本例选中“标签”单选按钮,并在其后的文本框中输入变量标签“平均成绩”,如图2-39所示。

图2-38 “计算变量”对话框

图2-39 “计算变量:类型和标签”对话框

3)设置新变量的生成表达式。

从源变量列表框中选择生成新变量所依据的变量,单击按钮将选中的变量选入“数字表达式”列表框中参与模型表达式的构建;然后从“函数组”列表框中选择相应的函数类型,“函数和特殊变量”列表框中会显示出具体的函数类型与特殊变量,用户可以选择相应的函数并单击按钮将其选入“数字表达式”列表框中参与表达式的构建。可以利用“数字表达式”下方的键盘进行数字与符号的输入,如图2-40所示。

4)设置个案选择条件。

单击“如果”按钮,打开如图2-41所示的“计算变量:If个案”对话框。

图2-40 设置新变量的生成表达式

图2-41 个案选择条件

如选中“包括所有个案”单选按钮,则表示变量中的全部个案均参与计算;选中“在个案满足条件时包括”单选按钮,则激活个案选择条件设置部分,该部分与新变量的生成表达式的设置方法基本相同,在此不再赘述。本例选中“包括所有个案”单选按钮。

5)单击“确定”按钮,就可以计算新变量了。新变量的生成结果如图2-42所示。

图2-42 产生新变量的输出结果

从图2-42中可以看出,数学和物理的平均成绩被计算出来并作为一个新变量被保存。

2.6.3 产生计数变量

有时我们需要统计满足某一个条件观测的个数,如对学生党员人数进行统计。计数变量的功能就是对变量中满足一定条件的个案数进行统计,并保存计数结果,本节以优秀人次的计算为例讲解产生计数变量的过程,本例要求计算考生的数学和物理成绩优秀人次,判定成绩为优秀的标准为成绩大于等于80分。未产生计数变量的原始数据文件如图2-43所示。

图2-43 未产生计数变量的原始数据文件

产生计数变量的过程如下所示:

(1)在菜单栏中选择“转换”|“对个案中的值进行计数”命令,打开如图2-44所示的“计算个案中值的出现次数”对话框。

(2)选择要进行计数的变量并设置计数变量。

在源变量列表框中选择要进行计数的变量,单击按钮将其选入“变量”列表框中,本例将“数学”变量和“物理”变量选入列表框,如图2-45所示。

图2-44 “计算个案中值的出现次数”对话框

图2-45 计数变量的选择

  • “目标变量”文本框用于输入产生的计数变量的名称。
  • “目标标签”文本框用于输入产生的计数变量的变量标签。本例在“目标变量”文本框中输入“优秀人次”。

3)定义计数对象。

单击“定义值”按钮,弹出如图2-46所示的“对个案中的值进行计数:要计数的值”对话框。

用户可以在“值”选项组中选择计数对象,单击“添加”按钮将其选入右边的“要计数的值”列表框中。

图2-46 “对个案中的值进行计数:要计数的值”对话框

  • 值:系统将以用户在下面文本框中输入的值作为计数对象。
  • 系统缺失值:将把系统指定缺失值作为计数对象。
  • 系统缺失值或用户缺失值:将把系统指定缺失值或用户指定缺失值作为计数对象。
  • 范围:系统将把用户在下面文本框中输入的数值范围内的观测量数作为计数对象。
  • 范围,从最低到值:系统将把负无穷到用户在下面文本框中输入的数值范围内的观测量数作为计数对象。
  • 范围,从值到最高:将把用户在下面文本框中输入的数值到正无穷范围内的观测量数作为计数对象。

本例选中“范围,从值到最高”单选按钮,并在其后的文本框中输入80。

4)然后单击“添加”按钮,再单击“继续”按钮,最后在“计算个案中值的出现次数”对话框中单击“确定”按钮,就可以生成计数变量。生成计数变量后的数据文件如图2-47所示。

由图2-47可以看出,SPSS生成了名为“优秀人次”的计数变量,该变量统计了每个观测中符合条件的值的个数,通过生成计数变量我们可以了解各个学生的成绩情况。

图2-47 计数变量的生成

2.6.4 变量的重新赋值

对于数值型变量,用户在数据编辑和整理过程中可以对某些变量一定取值范围内的观测量进行重新赋值。例如,在学生成绩中,由于统计的失误,导致一部分学生的成绩需要更正,此时我们将用到变量的赋值操作。变量的重新赋值有两种方式:一种是对变量自身重新赋值,另一种是赋值生成新的变量,这两种方法的具体实现过程下面都将介绍。

本节以对学生的成绩评分为例讲解对变量重新赋值的过程,该例要求将百分制成绩换算为优良、及格与不及格3类,分别用数字1、2、3代替。优秀标准为成绩大于等于80分、及格标准为成绩大于等于60分。原始数据文件如图2-42所示。

1.对变量自身重新赋值

对变量自身的重新赋值不产生新变量,变量的新值直接在原来位置替代变量的原值。

步骤01 在菜单栏中选择“转换”|“重新编码为相同的变量”命令,打开如图2-48所示的“重新编码为相同的变量”对话框。

步骤02 选择要重新赋值的变量。选择要重新赋值的变量,单击按钮将其选入右侧的“数字变量”列表框中,本例将“数学”变量和“物理”变量选入数字变量列表框,如图2-49所示。

图2-48 “重新编码为相同的变量”对话框

图2-49 重新赋值变量的选择

3)定义旧值与新值。

单击“旧值和新值”按钮,弹出如图2-50所示的“重新编码为相同变量:旧值和新值”对话框。

图2-50 “重新编码为相同变量:旧值和新值”对话框

  • “旧值”选项组:该选项组用于设置要改变的值的范围,其中选项及其含义与图2-46中的“值”大致相同,只多出一个“所有其他值”选项。
  • “新值”选项组:该选项组用于设置变量的新赋值。如选中“值”单选按钮,表示由用户指定该值,用户可以在其后的文本框中输入变量的新赋值;如选中“系统缺失值”单选按钮,表示将把系统指定缺失值作为新赋值。

用户设置完旧值和新值的赋值配对后,可以单击“添加”按钮将其选入右边的“旧-->新”列表框中。对于该列表框中的对象,用户可以单击“更改”按钮进行修改,或者单击“删除”按钮予以删除。

本例将成绩大于等于80分(优秀)、小于80分大于等于60分(及格)和小于60分的变量分别用数字1、2、3代替。

4)设置个案选择条件

个案选择条件的设置方法在前面章节已有介绍,在此不再赘述。

5)单击“确定”按钮,就可以对变量重新赋值。

重新赋值后的变量如图2-51所示。

由图2-51可以看出,原始分数均被表示级别的数字1、2和3代替,变量的新值直接在原来位置替代了变量的原值。

2.赋值生成新的变量

与变量自身重新赋值不同,赋值生成新的变量操作会将变量的新值作为一个新的变量进行保存。

1)在菜单栏中选择“转换”|“重新编码为不同变量”命令,打开如图2-52所示的“重新编码为不同变量”对话框。

图2-51 变量自身重新赋值后的数据文件

图2-52 “重新编码为不同变量”对话框

2)选择要重新赋值的变量。

选择要重新赋值的变量,单击按钮将其选入“数字变量-->输出变量”列表框中,并在“输出变量”选项组中输入输出变量的信息,单击“变化量”按钮。本例建立“物理→物理等级”和“数学→数学等级”两个变量转换,如图2-53所示。

图2-53 选择重新赋值的变量

3)定义旧值与新值。

单击“旧值和新值”按钮,弹出如图2-54所示的“重新编码为不同变量:旧值和新值”对话框。

图2-54 “重新编码为不同变量:旧值和新值”对话框

  • “新值”选项组:“新值”选项组中较图2-50中多出一个“复制旧值”单选按钮,若选中该单选按钮,系统将不改变旧值。
  • “输出变量是字符串”复选框:如选中该复选框,系统将把新赋值生成的变量定制为字符串变量。

4)单击“确定”按钮,就可以对变量重新赋值。赋值产生新变量的结果如图2-55所示。

图2-55 赋值后产生的新变量

由图2-55可以看出,原始分数后面跟随的是科目成绩的等级,变量重新赋值后产生了新变量“数学等级”和“物理等级”。

2.6.5 变量取值的求等级

有时我们想知道某一个观测在已知条件下观测中的位置,而又不希望打破数据现有的排序,此时将用到变量取值求等级的功能。所谓变量取值的等级就是变量在某指定条件下的排列中所处的位置,等级反映了变量在有序序列里的位置信息,本节以学生排名为例介绍变量取值求等级的操作方法,本例中要求按照学生的成绩得到学生的排名信息,如果成绩相同则并列名次。未进行求等级的原始数据文件如图2-56所示。

图2-56 未进行求等级的原始数据文件

变量取值求等级的具体方法如下:

1)在菜单栏中选择“转换”|“个案排秩”命令,打开如图2-57所示的“个案排秩”对话框。

2)选择要重新赋值的变量。

选择要进行等级排序的变量,单击按钮将其选入“变量”列表框中。如果需要进行分组,则选择分组变量并单击按钮将其选入“依据”列表框中,本例将“成绩”变量选入“变量”列表框,如图2-58所示。指定了分组标准后,系统会对各个组分别计算和输出变量的等级。

3)进行相应的设置。

① “类型排秩”设置。单击“类型排秩”按钮,弹出如图2-59所示的“个案排秩:类型”对话框。

该对话框用于设置等级排序的相关方法和参数,共有8个复选框。

  • 秩:表示使用简单等级。
  • 萨维奇得分:表示使用基于指数分布的Savage得分作为等级排序的依据。
  • 分数排序:表示使用每个等级除以带有有效值的个案数,再乘以100的结果作为等级排序的依据。

图2-57 “个案排秩”对话框

图2-58 “个案排秩”对话框的变量选择

  • 百分比分数秩:表示使用等级除以非缺失观测量的权重和作为等级排序的依据。
  • 个案权重总和:表示使用各观测量权重之和作为等级排序的依据。
  • Ntiles:表示使用百分位数作为等级排序的依据,选择该项后用户可以在其后的文本框中输入百分位数的个数。
  • 比例估算:系统将估计与特定等级对应的分布的累积比例。
  • 正态得分:系统将输出对应于估计的累积比例的Z得分。

当选中了“比例估算”或“正态得分”复选框后,“比例估算公式”选项组被激活,用户可以选择要使用的比例估计方法。

本例选中“秩”复选框。

② “绑定值”设置。单击“绑定值”按钮,弹出如图2-60所示的“个案排秩:绑定值”对话框。

图2-59 “个案排秩:类型”对话框

图2-60 “个案排秩:绑定值”对话框

该对话框用于设置对等级取值相同的观测值的处理,共有以下4种方式。

  • 平均值:表示以等级的平均值作为最终的结果。
  • 低:表示以相同等级的最小值作为最终的结果。
  • 高:表示以相同等级的最大值作为最终的结果。
  • 顺序秩到唯一值:表示把相同的观测值作为一个值来求等级。

本例要求成绩相同者名称并列,故选中“高”单选按钮。

③ 将秩1赋予。该选项组用于设置等级的排列顺序,最小值表示使用升序;最大值表示使用降序,本例选中“最大值”单选按钮。

④ 显示摘要表。如选中该复选框,在结果窗口中将输出分析的摘要信息。

4)单击“确定”按钮,就可以对变量取值求等级。个案等级排序的结果如图2-61所示。

图2-61 变量等级排序后的结果

由图2-61可以看出,变量的等级作为一个新的变量“R成绩”保存,这个变量给出了每个学生的排名情况,可以由表格中第13~15行看出,成绩相同的学生的排名是并列的。

2.6.6 缺失数据的处理

在数据分析的过程中,多种情况会导致缺失值的产生,例如某一年的观测资料丢失,缺失值的产生会给数据分析带来许多问题,这种情况下我们将用到缺失数据处理的功能。SPSS提供了多种手段进行缺失值的替代操作。本节以人均GDP的计算为例讲解缺失值的操作,数据文件中由于某种原因,没有获得1995年的人均GDP数据(GDP单位:亿元,人均GDP单位:元),因此我们需要对缺失值进行合理替代以便进行相应的分析。本例的原始数据文件如图2-62所示。

缺失值替代的操作步骤如下:

1)在菜单栏中选择“转换”|“替换缺失值”命令,打开如图2-63所示的“替换缺失值”对话框。

2)选择要替换缺失值的变量。

选择含有缺失值的变量,单击按钮将其选入“新变量”列表框中,系统会自动生成用于替代缺失值的新变量。如果用户希望自定义变量名称,可以在“名称”文本框中输入自定义变量名称,然后单击“变化量”按钮完成设置。本例将“人均GDP”变量选入列表框中,生成后的新变量命名为“人均GDP的缺失值替代”,如图2-64所示。

图2-62 人均GDP数据(缺1995年)

图2-63 “替换缺失值”对话框

图2-64 选择要替换缺失值的变量

3)选择缺失值替代的方法。

在“方法”下拉列表中选择缺失值替代的相应方法,有以下几种方法。

  • 序列平均值:系统将使用所有非缺失值的平均数替代缺失值。
  • 临近点的平均值:系统将使用缺失值临近的非缺失值的平均值替代缺失值,用户可以在“附近点的跨度”文本框中定义临近非缺失值的个数。
  • 临近点的中位数:系统将使用缺失值临近的非缺失值的中位数替代缺失值,同样可在“附近点的跨度”文本框中定义临近非缺失值的个数。
  • 线性插值法:系统将使用缺失值相邻两点的中点处的取值替代缺失值。
  • 点处的线性趋势:系统将采取线性拟合的方法确定替代值。

本例选择“序列平均值”选项。

4)单击“确定”按钮,就可以完成缺失值替代操作。缺失值替代的输出结果如图2-65所示。

图2-65 进行缺失值替代后的数据

由图2-65可以看出,1995年的缺失值已经有替代,保存在新生成的“人均GDP的缺失值替代”变量中。

2.7 数据的汇总

数据的汇总就是按指定的分类变量对观测量进行分组并计算各分组中某些变量的描述统计量。本节以按性别进行成绩统计为例,讲解数据的汇总操作,本例要求按性别分别输出数学和物理成绩的均值,以此分析不同性别的学生对知识的掌握程度。本例的原始数据如图2-66所示。

图2-66 未进行汇总的原始数据

数据的汇总的操作方法如下所示:

1)在菜单栏中选择“数据”|“汇总”命令,打开如图2-67所示的“汇总数据”对话框。

2)选择分类变量与汇总变量。

选择分类变量,单击按钮将其选入“分界变量”列表框;选择要进行汇总的变量,单击按钮将其选入“变量摘要”列表框,本例将“性别”变量选入“分界变量”列表框,将“数学”和“物理”变量选入“变量摘要”列表框,如图2-68所示。

图2-67 “汇总数据”对话框

图2-68 分界变量与变量摘要的选择

3)设置汇总变量。

在“变量摘要”列表框中选中汇总变量,单击“函数”按钮,在弹出的“汇总数据:汇总函数”对话框(如图2-69所示)中选择汇总函数的类型;单击“名称与标签”按钮,在弹出的“汇总数据:变量名和标签”对话框(如图2-70所示)中设置汇总后产生的新变量的变量名与变量标签。

图2-69 “汇总数据:汇总函数”对话框

图2-70 “汇总数据:变量名和标签”对话框

如果用户希望在新变量中显示每个类别中的观测量的个数,可以选中“个案数”复选框并在其后的“名称”文本框中输入相应变量的名称。

本例输出数学和物理变量的平均值,分别命名为“数学平均成绩”和“物理平均成绩”。

4)进行相应的设置。

① “保存”设置。该选项组用于设置汇总结果的保存方式。

  • 选中“将汇总变量添加到活动数据集”单选按钮,系统会将汇总的结果保存到当前数据集。
  • 选中“创建只包含汇总变量的新数据集”,系统将创建一个新的、只包含汇总变量的数据集,用户可以在“数据集名称”文本框中输入新数据集名称。
  • 选中“创建只包含汇总变量的新数据文件”,系统会将汇总后的变量保存到一个新的数据文件。本例选中“将汇总变量添加到活动数据集”单选按钮。

② 适用大型数据集的选项。该选项组用于设置对于较大数据集的处理方式。

  • “文件已按分界变量进行排序”复选框,表示数据已经按照分组变量进行了排序,系统将不再进行排序操作。
  • “汇总前对文件进行排序”,系统会在进行汇总前按照分组变量对数据进行排序。本例选中“文件已按分组变量排序”复选框。

5)单击“确定”按钮,就可以进行汇总操作。

图2-71即为按性别汇总后的数据文件,SPSS分别给出了男生和女生的数学与物理成绩的均值,并作为新变量保存在数据文件中。

图2-71 汇总后的数据文件

2.8 数据文件的结构重组

不同的分析方法需要不同的数据文件结构,当现有的数据文件结构与将要进行的分析所要求的数据结构不一致时,我们需要进行数据文件的结构重组。一般来说,数据文件的结构分为横向与纵向两种结构。

1.横向结构

横向结构的数据将一个变量组中的不同分类分别作为不同的变量,例如,在示例数据中将施用不同化肥下的作物产量分别作为一个变量进行保存,每一个试验组是一个观测量,如图2-72所示。

2.纵向结构

纵向结构的数据将一个变量组中的不同分类分别作为不同的观测量,例如,在示例数据中将每一个试验组在不同肥料作用下的产量分别作为一个观测量,如图2-73所示。

本节以施用不同类型肥料的情况下作物的产量为例讲解数据文件的结构重组,图2-72和2-73给出了该数据文件的两种不同的保存方式。

图2-72 数据文件的横向结构

图2-73 数据文件的纵向结构(产量单位:千克/亩)

2.8.1 数据重组方式的选择

在菜单栏中选择“数据”|“重构”命令,打开如图2-74所示的“重构数据向导”对话框。

该对话框提供了3种数据重组方式,分别是“将选定变量重构为个案”“将选定个案重构为变量”和“转置所有数据”,用户可以根据现有数据的组合方式和将要进行的分析来选择相应的数据重组方式。

2.8.2 由变量组到观测量组的重组

变量组到观测量组的重组将会使数据由横向格式转换为纵向格式,首先打开横向格式保存的数据文件,如图2-72所示。

图2-74 “重构数据向导”对话框

1)选择变量组个数。

在图2-74所示的“重构数据向导”对话框中选中“将选定变量重组为个案”单选按钮,单击“下一步”按钮,弹出如图2-75所示的“重构数据向导—第2/7步”对话框,

在该对话框中选择要重组的变量组的个数。因为本例只有施肥类型一个变量组,所以选中“一个”单选按钮。

2)选择要重组的变量。

单击“下一步”按钮,弹出如图2-76所示的“重构数据向导—第3/7步”对话框。

图2-75 “重构数据向导—第2/7步”对话框

图2-76 “重构数据向导—第3/7步”对话框

① “个案组标识”选项组。该选项组用于设置对观测记录的标识变量,在下拉列表框中有3个选择项:

  • 使用个案号,选择此项系统会出现“名称”文本框和“标签”列表,用户可以设置重组后序号变量的变量名和变量标签。
  • 使用选定变量,选择此项系统会出现一个按钮和“变量”列表,选择标识变量,单击按钮将其选入“变量”列表框即可。
  • 无,表示不使用标识变量。

② “要转置的变量”选项组。该选项组用于设置需要进行变换的变量组。“目标变量”下拉列表框用于指定要进行重组的变量组。指定完成后,选择相应变量,单击按钮将其选入“目标变量”列表框,组成要变换的变量组。

③ “固定变量”列表框。如果用户不希望一个变量参加重组,只需要选择该变量,单击按钮将其选入“固定变量”列表框即可。

本例将“肥料A”“肥料B”和“肥料C”变量选入“要变换的变量”列表框,在“目标变量”后的文本框中输入“产量”。

3)选择索引变量的个数。

单击“下一步”按钮,弹出如图2-77所示的“重构数据向导—第4/7步”对话框。

该对话框用于设置重组后生成的索引变量的个数,可以选择一个或多个,也可以选择无,表示把索引信息保存在某个要变换重组的变量中,不生成索引变量。本例选择创建“一个”索引变量。

4)设置索引变量的参数。

继续单击“下一步”按钮,弹出如图2-78所示的“重构数据向导—第5/7步”对话框。

图2-77 “重构数据向导—第4/7步”对话框

图2-78 “重构数据向导—第5/7步”对话框

  • “索引值具有什么类型”选项组:该选项组用于设置索引值的类型,用户可以选择连续数字或变量名作为索引值的类型。
  • “编辑索引变量名和标签”栏:在该栏中设置索引变量的变量名和变量标签。

本例设置索引变量的名称为“施肥类型”,“索引值”为变量名,即“肥料A、肥料B、肥料C”。

5)其他参数的设置。

单击“下一步”按钮,弹出如图2-79所示的“重构数据向导—第6/7步”对话框。

① “未选择的变量的处理方式”选项组。该选项组用于设置对用户未选定变量的处理方式,如选中“从新数据文件中删除变量”单选按钮,系统会将这一部分变量删除;如选中“保留并作为固定变量处理”单选按钮,系统会将这一部分变量作为固定变量处理。

② “所有转置后的变量中的系统缺失值或空值”选项组。该选项组用于设置对要变换变量中的缺失值和空白值的处理方式,如选中“在新文件中创建个案”单选按钮,表示系统将为这些变量单独生成观测记录;如选择“废弃数据”单选按钮,则这一部分观测值将被删除。

③ “个案计数变量”选项组。该选项组用于设置是否生成计数变量,选中“计算由当前数据中的个案创建的新个案的数目”复选框,表示生成计数变量,同时将激活“名称”和“标签”文本框,用户可以在其中输入计数变量的变量名和变量标签。在本例中,该步保持默认设置即可。

6)完成数据重组。

单击“下一步”按钮,弹出如图2-80所示的“重构数据向导—完成”对话框。

图2-79 “重构数据向导—第6/7步”对话框

图2-80 “重构数据向导—完成”对话框

这里可选择是否立即进行数据重组,如选中“将本向导生成的语法粘贴到语法窗口中”单选按钮,系统会将相应的命令语句粘贴至语句窗口。

设置完成后,单击“完成”按钮即可进行数据重组操作。重组后的数据文件如图2-73所示,横向格式的数据文件转换成了纵向格式的数据文件。

2.8.3 由观测量组到变量组的重组

观测量组到变量组的重组使数据由纵向格式转换为横向格式,步骤如下。

1)选择重组变量。在图2-74所示的“重构数据向导”对话框中选中“将选定个案重组为变量”单选按钮,单击“下一步”按钮,弹出如图2-81所示的“重构数据向导—第2/5步”对话框。

图2-81 “重构数据向导—第2/5步”对话框

从“当前文件中的变量”列表框中选择在重组后将在数据集中标识观测记录的变量,单击按钮将其选入“标识变量”列表框;选择构成新数据集中变量组的变量,单击按钮将其选入“索引变量”列表框。

本例将“观测组”变量选入“标识符变量”列表框,将“产量”变量选入“索引变量”列表框。

2)原始数据的排序设置。单击“下一步”按钮,弹出如图2-82所示的“重构数据向导—第3/5步”对话框。

该对话框用于设置是否对原始数据进行排序,选中“是”单选按钮,系统会在数据重组之前按照标识变量对原始数据进行排序;选中“否”单选按钮,则不进行此项操作。本例选中“是”单选按钮。

3)新变量的相关参数设置。单击“下一步”按钮,弹出如图2-83所示的“重构数据向导—第4/5步”对话框。

图2-82 “重构数据向导—第3/5步”对话框

图2-83 “重构数据向导—第4/5步”对话框

  • “新变量组的顺序”选项组:用于设置新变量组中变量的排序方式,有“按原始变量进行分组”和“按索引分组”两种。
  • “个案计数变量”选项组:设置是否生成计数变量,如选中“计算当前数据中用来创建新个案的个案数”复选框,则表示生成计数变量,同时激活“名称”和“标签”文本框,用户可以在其中输入计数变量的变量名和变量标签。
  • “指示符变量”选项组:设置是否生成指示变量,选中“创建指示符变量”复选框,表示对索引变量的每个取值生成一个指示变量,用于记录对应的变量取值是否为空值,用户可以在“根名”文本框中输入指示变量的前缀。

本例选择默认设置即可。

4)完成数据重组。继续单击“下一步”按钮,弹出“重构数据向导—完成”对话框。

2.8.4 变换重组

在图2-74“重构数据向导”对话框中选中“转置所有数据”单选按钮,单击“完成”按钮,则弹出如图2-31所示的“转置”对话框。

该对话框的形式和设置方式与2.5.4节“数据文件的变换”中完全相同,读者可以参考该节,在此不再赘述。

2.9 读取其他格式文件数据

在现实的分析应用中,许多数据并不是以SPSS数据格式保存的,因此我们需要能够读取这些不同格式的数据文件。SPSS提供了与多种应用软件的接口,支持多种格式的数据文件,用户可以很方便地将其他格式的数据文件导入其中。

2.9.1 读取Excel软件文件(.xls)

Excel是当前常用的电子表格软件之一,SPSS提供了相应的程序接口,使用户可以方便地把Excel电子表格中的数据读入SPSS数据编辑器中。Excel文件的数据显示如图2-84所示。

图2-84 Excel文件

读取Excel数据的具体操作如下。

1)在菜单栏中选择“文件”|“打开”|“数据”命令,打开如图2-85所示的“打开数据”对话框。

2)在“文件类型”下拉列表框中选择“Excel(*.xls,*.xlsx,*.xlsm)”选项,打开要读入的Excel文件,如图2-86所示。

图2-85 “打开数据”对话框

图2-86 选择一个.xls文件

3)进行相应的设置。

单击“打开”按钮,弹出如图2-87所示的“读取Excel文件”对话框。

  • “工作表”下拉列表框:如果读取的Excel数据文件中有多个数据表,用户可以在该下拉列表框中选择要读取的工作表。
  • “范围”文本框:如果用户希望读取Excel工作表中的部分数据,可以在该文本框中输入相应的数据范围。
  • “从第一行数据中读取变量名称”复选框:如选中该复选框,系统会将Excel数据文件的第一行作为变量名读入。

4)设置完成后,单击“确定”按钮即可读入Excel数据。读入后的结果如图2-88所示。

图2-87 “读取Excel文件”对话框

图2-88 读入SPSS的Excel数据

2.9.2 读取固定格式的文本文件

固定格式的文本文件要求不同的观测数据之间的变量数目、排列顺序、变量取值长度固定不变,如图2-89所示为一个固定格式的文本文件。

1)在菜单栏中选择“文件”|“打开”|“数据”命令,打开“打开数据”对话框。

2)在“文件类型”下拉列表框中选择“文本格式(*.txt,*.dat)”选项,打开要读入的文本文件。

3)打开文本导入向导。

单击“打开”按钮,弹出如图2-90所示的“文本导入向导—第1/6步”对话框。

用户可以选择预定义的格式,也可以在向导中创建新格式,本例选中“否”单选按钮。

4)设置文本格式。

单击“下一步”按钮,弹出如图2-91所示的“文本导入向导—第2/6步”对话框,这里有两个选项需要设置。

图2-89 固定格式的文本文件

图2-90 “文本导入向导—第1/6步”对话框

图2-91 “文本导入向导—第2/6步”对话框

  • 变量如何排列:定制读入的文本文件的格式。如选中“定界”单选按钮,则表示读入的是自由格式的文本文件;如选中“固定宽度”单选按钮,则表示读入的是固定格式的文本文件,本节主要讲解固定格式文本文件的读取,故选中“固定宽度”单选按钮。
  • 文件开头是否包括变量名:如果源文件中包含变量名,选中“是”单选按钮,系统会将变量名称读入;如果源文件中不包含变量名,选中“否”单选按钮。本例由于原始文本文件不包含变量名,故选中“否”单选按钮。

5)进行观测量的相应设置。

单击“下一步”按钮,弹出如图2-92所示的“文本导入向导—定界,第3/6步”对话框。

  • “第一个数据个案从哪个行号开始”微调框:用于选择数据读取的起始行,如果数据文件中包含标签,那么该数据文件的起始行就不是第一行。本例由于第一行是空行,故选择“2”。
  • “个案的表示方式如何”选项组:用于设置表示个案的方式,可以每一行表示一个个案,也可以用特定的编号表示一个个案。

图2-92 “文本导入向导—定界,第3/6步”对话框

  • “要导入多少个案”选项组:用于设置导入个案的数量。如选中“全部个案”单选按钮,系统将把所有观测量导入;如选中“前(T)个个案”单选按钮,系统会导入从第一个观测到用户定义位置的所有观测量;如选中“随机百分比的个案”单选按钮,系统将随机导入用户指定百分比的观测量。本例选中“全部个案”单选按钮。

6)设置变量起始点。

单击“下一步”按钮,弹出如图2-93所示的“文本导入向导—定界,第4/6步”对话框。

该对话框用于设置从数据文件读取变量数据的方式。选择变量之间的定界符,选中“空格”复选框,系统将根据用户指定的定界符来划分数据。

7)设置变量名称和数据格式。

单击“下一步”按钮,弹出如图2-94所示的“文本导入向导—第5/6步”对话框。

图2-93 “文本导入向导—定界,第4/6步”对话框

图2-94 “文本导入向导—第5/6步”对话框

该对话框用于设置变量名和数据格式,在“数据预览”表格中选择相应的变量,即可在“变量名”文本框中输入变量名称,在“数据格式”下拉列表框中选择相应的数据格式。

8)完成读取。

最后单击“下一步”按钮,弹出如图2-95所示的“文本导入向导—第6/6步”对话框。

如果用户希望将本次设置的文件格式作为规则保存,以便在导入类似的文本数据文件时无须重新设置,可以在“您要保存此文件格式以供将来使用吗”选项组中选择中“是”单选按钮并在其后的文本框中输入文件的保存路径。

图2-95 “文本导入向导—第6/6步”对话框

设置完成后,单击“完成”按钮即可实现固定格式文本数据的读取,图2-89文件读取的结果如图2-96所示。

图2-96 读入SPSS的固定格式文本文件

2.9.3 读取自由格式的文本文件

自由格式的文本文件要求不同的观测数据之间的变量数目、排列顺序一定,变量取值长度可以不同。此外,与固定格式的文本文件不同,自由格式的文本文件的数据项之间必须有分隔符,如图2-97所示。

1)在菜单栏中选择“文件”|“打开”|“数据”命令,打开“打开数据”对话框。

图2-97 自由格式的文本文件

2)在“文件类型”下拉列表框中选择“文本格式(*.txt,*.dat)”选项,打开要读入的自由格式文本文件。

3)单击“打开”按钮,输入文本导入向导。

4)设置文本格式。在图2-91所示的“文本导入向导—第2/6步”中选择变量的排列方式为“定界”。

5)进行观测量的相应设置。

6)定制分隔符与限定符。如图2-98所示的“文本导入向导—定界,第4/6步”对话框。

图2-98 “文本导入向导—定界,第4/6步”对话框

  • “变量之间存在哪些定界符”选项组:用于指定文件中数据之间的分隔符。系统提供了制表符、空格、逗号和分号作为选择,用户也可以自定义一个符号作为分隔符。本例原始文件使用逗号分隔,故选中“逗号”复选框。
  • “文本限定符是什么”选项组:用于设置文本限定符。“无”,表示不使用文本限定符;用户可以选择单引号或双引号作为文本限定符,用户也可以自定义文本限定符。本例选中“无”单选按钮,没有限定。

7)设置变量名称和数据格式。

8)完成读取。设置完成后,单击“完成”按钮即可实现自由格式文本数据的读取。读入SPSS的自由格式的文本文件如图2-99所示。

图2-99 读入SPSS的自由格式的文本文件

2.10 上机题

2.1 现有我国31个省、市、自治区的GDP的统计数据,数据中包括“城市”“GDP”和“人口”3个变量,如下表所示(数据路径:视频文件\sample\上机题\chap02\习题\第2章第一题.sav)。

试计算出人均GDP(人均GDP=GDP/人口)作为新变量保存。

2.2 为了测量儿童身体发育状况,随机抽查了30名儿童,对他们的肺活量和体重进行了测量,我们建立了3个变量:“测试编号”“肺活量”和“体重”,部分观测数据如下表所示。(数据路径:视频文件\sample\上机题\chap02\习题\第2章第二题.sav)

(1)根据理论,儿童的肺活量与体重呈正比,为正确分析儿童发育状况,试以体重作为加权变量对数据进行加权。

(2)对于体重而言,20kg以上视为超重、18~20kg视为发育良好,18kg以下视为发育情况一般。试对各种超重人数进行统计,并保存计数结果。

(3)试将体重数据换算为超重、发育良好和与发育情况一般3类,分别用数字1、2、3代替(20kg以上视为超重、18~20kg视为发育良好,18kg以下视为发育情况一般)。

(4)请输出儿童体重的排名信息,如果体重相同则并列名次。

2.3 某小学对学生进行体检,测量了90名小学生的身高,根据查体结果建立了“年级”“性别”和“身高”3个变量,部分测量数据如下表所示(数据路径:视频文件\sample\上机题\chap02\习题\第2章第三题.sav)。

(1)试按性别分别输出身高均值,分析不同性别的学生的身高情况。

(2)试按照身高的高低对学生数据进行排序。

2.4 研究者观察了某地1978年~2004年人口数量的数据。建立了“年份”和“人口”两个变量,观测数据如下表所示(数据路径:视频文件\sample\上机题\chap02\习题\第2章第四题.sav)。

因为某些原因,1994年的数据缺失,我们需要对缺失值进行合理替代以便进行相应的分析,试采用序列均值的方式进行缺失值的替代操作。

2.5 调查者观测了3种不同工艺下某种产品的产量(单位:件/小时),数据采用了横向格式保存(数据路径:视频文件\sample\上机题\chap02\习题\第2章第五题.sav)。

由于分析的需要,我们希望得到纵向格式的数据,试将数据转换为纵向格式。

2.6 调查者观测了4种不同水源下3种元素的产量,数据采用了纵向格式保存(数据路径:视频文件\sample\上机题\chap02\习题\第2章第六题.sav)。

现希望得到横向格式的数据,试将其转换为横向格式。

2.7 调查者观测了来自不同地区的样本的经济指标和发展指标的数据,这两个地区分别用数字“1”和“2”代替,部分观测数据如下表所示(数据路径:视频文件\sample\上机题\chap02\习题\第2章第七题.sav)。

我们希望按照地区分析这两个指标,以便对地区的综合竞争力给以科学的评价,请对数据按地区分解并组织输出。

2.8 请通过下面3个小题,体会将其他数据文件导入SPSS的方法(数据路径:视频文件\sample\上机题\chap02\习题\第2章第八题)。

(1)试将Excel数据文件“第2章第八题(1).xls”读入SPSS。

(2)试将文本文件“第2章第八题(2).txt”读入SPSS。

(3)试将文本文件“第2章第八题(3).txt”读入SPSS。