薛薇,《SPSS统计分析方法及应用》第三章数据预处理

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

通过数据排序能够快捷地发现数据的异常值，为进一步明确它们是否会对分析产生重要影响提供帮助。

排序方法：
（1）单值排序，指排序变量只有一个（2）多重排序，首先按照主排序变量的大小次
序排序，对于有相同主排序变量的数据，再按第二排序变量的大小次序依次安排。
说明：

1、数据排序是整行数据排序，而不是只对某列变量排序；
就只针对选出的数据，直到用户取消这种选取为止。

提高数据的分析效率，检验模型的需要（部分数据参与建模，剩余用于模型检验）
二、选取的基本方式
（1）选取全部数据（All （2）按指定条件选取（
cases）
If condition is satisfied ）
SPSS要求用户以条件表达式给出数据选取

按【函数】，指定汇总变量时计算哪些统计量。Spss 默认计算为均值mean.

可以指定分类汇总变量3种保存方式，其中【创建只包含汇总变量的新数据集】选项指结果保存到一个新的数据编辑窗口，需要给它起名

注意：SPSS会自动剔除那些系统缺失值得样本。

即根据统计分析的需要，按某种标准，重新划分不同的组别。数据分组是对定距数据进行粗略分析的主要工具。
方法：采用多重排序，主排序变量为本市户口，【数据】
→【排序个案】

然后指定主排序变量到【排序依据】中，并在【排列顺序】中升序或者降序

注意：数据排序是整行数据排序，不只是对某列变量排序。

数据计算的目的：数据的转换处理是在原有数据的基础上，计算产
生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业

（5）通过过滤变量选取样本（ Use filter variable ），
即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量，变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。

说明：
（1）完成数据选取后，以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。
变量计算中有三个概念：

一、SPSS算术表达式（numeric expression）
它是由变量、常量、算术运算符、括号、函数等组成的式子。

运算先后顺序：自左向右，先算括号内的；先计算乘方（**），再计算乘（*）、除（/），最后计算加
（+）、减（—）

1、简单的表达式由SPSS关系运算符、变量、常量以及算术表达式组成的式子。其中关系运算符：

目的： SPSS实现的计数是对所有个案或满足某条件的部分个案，计算若干变量中有几个变量的值落在指定的区间内，并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时，可以依次计算每个学生的若干门课程中有几门课程得了优，有几门课程得了良，有几门课程不及格。

在【目标变量】中存入计数结果的变量名，并在【目
标标签】中输入相应的变量名标签。如本题变量名为
gs

在【定义值】中的计数区间定义为【值】，并输入1(表示计数变量的取值为1)

在结果gs变量中，如果家庭的计数结果为2，则
为该家庭对目前住房满意且不计划买房。还可以
进一步计算百分比

分类汇总指按照某分类变量进行分类计算分类汇总的应用举例（住房状况调查）
SPSS实现计数的关键步骤是：
指定哪些变量参与计数，计数的结果存入哪个新变量中指定计数区间（尤为关键）认识个案的结构特征及权重

计数区间的描述形式：按单个变量值计数【value】按系统缺失值或用户缺失值计数【system or usermissing】

按从最大值到最小值区间的计数【n through m】,如
(1)分析本市与外地户口家庭目前人均住房面积是否
有较大差距;

(2)未来打算买房的平均面积是否有差距分类变量是“户口状况”，汇总变量分别为“人均面积”和“计划面积”。
分类汇总操作：

【数据】→【汇总】指定分类变量“户口状况”到【分组变量】框中，指定汇总变量“人均面积”和“计划面积”到【变量摘要】框中
来），也可以是变量或算术表达式。参数可以是多个，需要用逗号分开。

SPSS函数有算术函数、统计函数、与分布相关的函数、查找函数、字符函数、缺失值函数，以及
其它函数等（见课本：p41）

操作：
【转换】→【计算变量】在【目标变量】输入存放计算结果的变量名在【如果个案满足条件则包括】选项中输入条件表达式。

依据职称级别计算实发工资 (sr-bx)*0.5(0.3)
3.3

数据选取
一、数据选取的目的
数据选取就是根据分析的需要，从已收集到的大批
量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析的过程，通常也称为抽样。

SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取，这样后面的分析操作
件满足】项，然后选择“户口状况”=1
2、对70%的随机样本进行分析【数据】→【选择个案】→选择【随机个
案样本】项，然后输入比例数0.7

SPSS对未选中的个案的处理方式：【过滤掉未选定的变量】

表示对未被选中的个案打“/”
【删除未选定个案】表示从数据窗口中删除未被选择的个案【将选定个案复制到新数据集】表示筛选出的个案复制到一个新的数据编辑窗口中。

2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序（或降序）排序的同时再按其他变量值降序（或升序）排序；

3、数据排序后，原有数据的排序次序必然被打乱。

操作例子：职工住房状况调查
要求：分析本市户口和外地户口家庭的住房面积情况。

从80到89【80 through 89】

小于等于某指定值区间【lowest through n】
大于等于某指定值区间【n through highest 】

问题：分析多少家庭对目前住房满意且近年不买住房
操作：
【转换】→【对个案内的值计数】然后在【数字变量】中选择参与计数变量“住房满意” 和“未来三年”
用括号改变运算次序。

如：(nl>=35) and (sr<=700) (nl<35) | (sr<=700)

三是函数指事先编好的并储存在SPSS 软件中，能够事先按照某些特定任务完成计算的一段计算机程序。运行后，会得到一个函数值。

结构：函数名（参数）

括号中参数可以是常量（字符型常量用引号括起

根据分析要求在【旧值和新值】内逐个定义各分组区
间。

3.7.1 数据转置（略) 将数据编辑窗口中的数据进行行、列互换【数据】→【转置】要指定数据转置后要保留哪些变量，将他们选入【变量】框中；

还要指定转置后各变量名如何命名，应选择一个取
值唯一的变量（如职工号）作为标记变量到【名称
本章教学内容及目标：
掌握SPSS数据筛选、排序、计数、汇总等基本操
作
掌握SPSS组距分组的具体操作。

排序目的：
数据排序便于数据的浏览，有助于了解数据的取值
状况、缺失值数量的多少等；

通过数据排序能够快捷的找到数据的最大值和最小值，进而可以计算出数据的全距，初步把握和比较数据的离散程度；

（2）采用指定条件选取和随机抽样方法进行数据选取后，SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量，取值为1或0。1表示本个案被
选中，0表示未被选中。该变量是SPSS产生的中间
变量，如果删除它则自动取消样本抽样。
三、应用举例（住房状况调查数据） 1、选择本市户口的住户样本【数据】→【选择个案】→选择【如果条

> (大于)、 <(小于)、=(等于)、 ~=(不等于)、>=(大
于等于)、<=(小于等于)。

举例：nl>35、sr<=700。

2、复合条件表达式又称逻辑表达式，由逻辑运算符、括号和简单条件表达式组成。

逻辑运算符：&(AND) 并且、│ (OR) 或者、~(NOT)
非。Not运算符优先、其次and、最低是or。但可以

组距分组：指将全部区间划分成若干个区间，并将同一区间的变量作为一组。
Leabharlann Baidu

步骤：①排序， ②确定组数， ③确定组距=

数据分组应用举例（住房状况调查）问题：分析被调查家庭人均住房面积的分布

操作：
【转换】→【重新编码成不同变量】选择分组变量“人均面积”到【数字变量】中在【输出变量】框中的【名称】后输入存放分组结果的变量名，如mj，并按【变更】确认。还可以在【标签】后输入相应的变量名标签
的条件，SPSS将自动对数据编辑窗口中的所有
个案进行条件判断。那些满足条件的个案，即条件判断为真的个案将被自动选取出来，而那些条件判断为假的个案则不被选中。

（3）随机抽样（ Random sample of cases ），即对
数据编辑窗口中的所有个案进行随机筛选，包括如下两种方式：

精确抽样要求用户给出两个参数。第一个参
数是希望选取的个案数，第二个参数是指定在
前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。

（4）选取某一区域内的样本（ Based on time or case range ），即选取数据编辑窗口中样本号在指定范围内的所有个案，要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。
第一，近似抽样（Approximately）近似抽样要求用户给出一个百分比数值，SPSS
将按照这个比例自动从数据编辑窗口中随机抽取相
应百分比数目的个案。

注：由于SPSS在样本抽样方面的技术特点，抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目，会有小的偏差，因而称为近似抽样。

第二，精确抽样（Exactly）
保险、奖金等数据，计算实际月收入，这些新变量具有更直观更有效的特点。

SPSS变量计算是在原有数据的基础上，根据用户给出的SPSS算术
表达式以及函数，对所有个案或满足条件的部分个案，计算产生一系列新变量。（1）变量计算是针对所有个案（或指定的部分个案）的，每个个案都有自己的计算结果。（2）变量计算的结果应保存到一个指定变量中，该变量的数据类型应与计算结果的数据类型相一致。
变量】框中
转置图示

例如，计算蔬菜平均销售价格——以销售量为权数求平均

操作：采用【数据】→【加权个案】选择【加权个案】项，并选择“销售量”为加权变量到【频率变量】框中

SPSS对数据的拆分与数据排序很相似，是根据指定变量对数据进行分组。

选择【数据】→【拆分文件】
然后选择拆分变量到【分组方式】中

薛薇,《SPSS统计分析方法及应用》第三章 数据预处理

薛薇,《SPSS统计分析方法及应用》第三章数据预处理