薛薇,《SPSS统计分析方法及应用》第三章 数据预处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


通过数据排序能够快捷地发现数据的异常值,为进 一步明确它们是否会对分析产生重要影响提供帮助。

排序方法:
(1)单值排序,指排序变量只有一个 (2)多重排序,首先按照主排序变量的大小次
序排序,对于有相同主排序变量的数据,再按 第二排序变量的大小次序依次安排。
说明:

1、数据排序是整行数据排序,而不是只对某列变量 排序;
就只针对选出的数据,直到用户取消这种选取为止。

提高数据的分析效率,检验模型的需要(部分数据 参与建模,剩余用于模型检验)
二、选取的基本方式
(1)选取全部数据(All (2)按指定条件选取(
cases)
If condition is satisfied )
SPSS要求用户以条件表达式给出数据选取

按【函数】,指定汇总变量时计算哪些统计量。Spss 默认计算为均值mean.

可以指定分类汇总变量3种保存方式,其中【创建只 包含汇总变量的新数据集】选项指结果保存到一个新 的数据编辑窗口,需要给它起名

注意:SPSS会自动 剔除那些系统缺失值得样本。

即根据统计分析的需要,按某种标准,重新划分不同的 组别。数据分组是对定距数据进行粗略分析的主要工具。
方法: 采用多重排序,主排序变量为本市户口,【数据】
→【排序个案】

然后指定主排序变量到【排序依据】中,并在 【排列顺序】中升序或者降序

注意:数据排序是整行数据排序,不只是对某列 变量排序。

数据计算的目的:数据的转换处理是在原有数据的基础上,计算产
生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业

(5)通过过滤变量选取样本( Use filter variable ),
即依据过滤变量的取值进行样本选取。要求指定一 个变量作为过滤变量,变量值为非0或非系统缺失 值的个案将被选中。这种方法通常用于排除包含系 统缺失值的个案。


说明:
(1)完成数据选取后,以后的SPSS分析操作仅 针对那些被选中的个案直到用户再次改变数据的选 取为止。
变量计算中有三个概念:

一、SPSS算术表达式(numeric expression)
它是由变量、常量、算术运算符、括号、函数等组 成的式子。

运算先后顺序:自左向右,先算括号内的;先计算 乘方(**),再计算乘(*)、除(/),最后计算加
(+)、减(—)

1、简单的表达式 由SPSS关系运算符、变量、常量以及算术表达式 组成的式子。 其中关系运算符:

目的: SPSS实现的计数是对所有个案或满足某条件的部分个案, 计算若干变量中有几个变量的值落在指定的区间内,并 将计数结果存入一个新变量中的过程。例如对大学毕业 班学生的成绩进行综合测评时,可以依次计算每个学生 的若干门课程中有几门课程得了优,有几门课程得了良, 有几门课程不及格。


在【目标变量】中存入计数结果的变量名,并在【 目
标标签】中输入相应的变量名标签。如本题变量名为
gs

在【定义值】中的计数区间定义为【值】,并输 入1(表示计数变量的取值为1)

在结果gs变量中,如果家庭的计数结果为2,则
为该家庭对目前住房满意且不计划买房。还可以
进一步计算百分比

分类汇总指按照某分类变量进行分类计算 分类汇总的应用举例(住房状况调查)
SPSS实现计数的关键步骤是:
指定哪些变量参与计数,计数的结果存入哪个新变量中 指定计数区间(尤为关键)认识个案的结构特征及权重

计数区间的描述形式: 按单个变量值计数【value】 按系统缺失值或用户缺失值计数【system or usermissing】

按从最大值到最小值区间的计数【n through m】,如
(1)分析本市与外地户口家庭目前人均住房面积是否
有较大差距;

(2)未来打算买房的平均面积是否有差距 分类变量是“户口状况”,汇总变量分别为“人均 面积”和“计划面积”。
分类汇总操作:

【数据】→【汇总】 指定分类变量“户口状况”到【分组变量】框中,指 定汇总变量“人均面积”和“计划面积”到【变量摘 要】框中
来),也可以是变量或算术表达式。参数可以是 多个,需要用逗号分开。

SPSS函数有算术函数、统计函数、与分布相关的 函数、查找函数、字符函数、缺失值函数,以及
其它函数等(见课本:p41)


操作:
【转换】→【计算变量】 在【目标变量】输入存放计算结果的变量名 在【如果个案满足条件则包括】选项中输入条件表 达式。

依据职称级别计算实发工资 (sr-bx)*0.5(0.3)
3.3

数据选取
一、数据选取的目的
数据选取就是根据分析的需要,从已收集到的大批
量数据(总体)中按照一定的规则抽取部分数据 (样本)参与分析的过程,通常也称为抽样。

SPSS可根据指定的抽样方法从数据编辑窗口中选 出部分样本以实现数据选取,这样后面的分析操作
件满足】项,然后选择“户口状况”=1
2、对70%的随机样本进行分析 【数据】→【选择个案】→选择【随机个
案样本】项,然后输入比例数0.7

SPSS对未选中的个案的处理方式: 【过滤掉未选定的变量】


表示对未被选中的个案打“/”
【删除未选定个案】 表示从数据窗口中删除未被选择的个案 【将选定个案复制到新数据集】 表示筛选出的个案复制到一个新的数据编辑窗 口中。

2、多重排序中指定排序变量的次序很关键。先指 定的变量优先于后指定的变量。多重排序可以在按 某个变量值升序(或降序)排序的同时再按其他变 量值降序(或升序)排序;

3、数据排序后,原有数据的排序次序必然被打乱。

操作例子:职工住房状况调查
要求:分析本市户口和外地户口家庭的住房面积情 况。

从80到89【80 through 89】

小于等于某指定值区间【lowest through n】
大于等于某指定值区间【n through highest 】

问题:分析多少家庭对目前住房满意且近年不买住房
操作:
【转换】→【对个案内的值计数】 然后在【数字变量】 中选择参与计数变量“住房满意” 和“未来三年”
用括号改变运算次序。

如:(nl>=35) and (sr<=700) (nl<35) | (sr<=700)

三是函数指事先编好的并储存在SPSS 软件中, 能够事先按照某些特定任务完成计算的一段计算 机程序。运行后,会得到一个函数值。

结构:函数名(参数)

括号中参数可以是常量(字符型常量用引号括起

根据分析要求在【旧值和新值】内逐个定义各分组区
间。

3.7.1 数据转置(略) 将数据编辑窗口中的数据进行行、列互换 【数据】→【转置】 要指定数据转置后要保留哪些变量,将他们选入 【变量】框中;

还要指定转置后各变量名如何命名,应选择一个取
值唯一的变量(如职工号)作为标记变量到 【名称
本章教学内容及目标:
掌握SPSS数据筛选、排序、计数、汇总等基本操

掌握SPSS组距分组的具体操作。


排序目的:
数据排序便于数据的浏览,有助于了解数据的取值
状况、缺失值数量的多少等;

通过数据排序能够快捷的找到数据的最大值和最小 值,进而可以计算出数据的全距,初步把握和比较 数据的离散程度;

(2)采用指定条件选取和随机抽样方法进行数 据选取后,SPSS将在数据编辑窗口中自动生成一个 名为filter_$的新变量,取值为1或0。1表示本个案被
选中,0表示未被选中。该变量是SPSS产生的中间
变量,如果删除它则自动取消样本抽样。
三、应用举例(住房状况调查数据) 1、选择本市户口的住户样本 【数据】→【选择个案】→选择【如果条

> (大于)、 <(小于)、=(等于)、 ~=(不等于)、>=(大
于等于)、<=(小于等于)。

举例:nl>35、sr<=700。

2、复合条件表达式 又称逻辑表达式,由逻辑运算符、括号和简单条件 表达式组成。

逻辑运算符:&(AND) 并且、│ (OR) 或者、~(NOT)
非。Not运算符优先、其次and、最低是or。但可以

组距分组:指将全部区间划分成若干个区间,并将同 一区间的变量作为一组。
Leabharlann Baidu

步骤:①排序, ②确定组数, ③确定组距=

数据分组应用举例(住房状况调查) 问题:分析被调查家庭人均住房面积的分布


操作:
【转换】→【重新编码成不同变量】 选择分组变量“人均面积”到【数字变量】中 在【输出变量】框中的【名称】后输入存放分组结果 的变量名,如mj,并按【变更】确认。还可以在 【标签】后输入相应的变量名标签
的条件,SPSS将自动对数据编辑窗口中的所有
个案进行条件判断。那些满足条件的个案,即 条件判断为真的个案将被自动选取出来,而那 些条件判断为假的个案则不被选中。

(3)随机抽样( Random sample of cases ),即对
数据编辑窗口中的所有个案进行随机筛选,包括如 下两种方式:

精确抽样要求用户给出两个参数。第一个参
数是希望选取的个案数,第二个参数是指定在
前几个个案中选取。SPSS自动在数据编辑窗口 的前若干个个案中随机精确地抽出相应个数的 个案来。

(4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样本号在指定 范围内的所有个案,要求给出这个范围的上、下界 个案号码。这种抽样方法适用于时间序列数据。
第一,近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS
将按照这个比例自动从数据编辑窗口中随机抽取相
应百分比数目的个案。

注:由于SPSS在样本抽样方面的技术特点,抽 取出的个案总数不一定恰好精确地等于用户指定的 百分比数目,会有小的偏差,因而称为近似抽样。


第二,精确抽样(Exactly)
保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有 效的特点。

SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术
表达式以及函数,对所有个案或满足条件的部分个案,计算产生一 系列新变量。(1)变量计算是针对所有个案(或指定的部分个案) 的,每个个案都有自己的计算结果。(2)变量计算的结果应保存 到一个指定变量中,该变量的数据类型应与计算结果的数据类型相 一致。
变量】框中
转置图示

例如,计算蔬菜平均销售价格——以销售量为权数求平均

操作:采用【数据】→【加权个案】 选择【加权个案】项,并选择“销售量”为加权变 量到【频率变量】框中

SPSS对数据的拆分与数据排序很相似,是根据指定 变量对数据进行分组。


选择【数据】→【拆分文件】
然后选择拆分变量到【分组方式】中
相关文档
最新文档