第三章 SPSS数据的预处理资料讲解

合集下载

SPSS第三章

3.6 数据分组
► 3.6.1
数据分组的目的
对定距型数据进行整理和粗略把握其分布的工具；对定距型数据进行整理和粗略把握其分布的工具；数据分组就是按照统计研究的需要，数据分组就是按照统计研究的需要，将数据按照某种标准重新划分为不同组别，划分为不同组别，在分组的基础上进行频数分析，可以把握数据的分布，在分组的基础上进行频数分析，可以把握数据的分布，另外还能实现数据的离散化处理；能实现数据的离散化处理；
►菜单菜单Transform
3.3 数据选取
► 数据选取就是根据分析需要，从大量数据中按数据选取就是根据分析需要，
照一定规则抽取部分数据参与分析的过程。照一定规则抽取部分数据参与分析的过程。 3.2.1 数据选取的目的：数据选取的目的：提高数据分析效率；提高数据分析效率；少量抽取的样本可以大大提高分析效率；少量抽取的样本可以大大提高分析效率；要注意偏差；要注意偏差；检验模型的需要，一部分样本用于建模，检验模型的需要，一部分样本用于建模，其他用于检验模型。他用于检验模型。
► ►
举例计算是针对每个个案进行的，计算是针对每个个案进行的，每个个案都有计算结果。有计算结果。
3.2.3 SPSS的条件表达式 SPSS的条件表达式
► 对不同组的个案进行不同的计算，例如，按照职对不同组的个案进行不同的计算，例如，
称加工资，或者按照收入征缴个人税等等；称加工资，或者按照收入征缴个人税等等； ► SPSS中的条件表达式就是用来完成这个功能； SPSS中的条件表达式就是用来完成这个功能中的条件表达式就是用来完成这个功能； ► 简单的条件表达式是用<、>、=、~=、>=、简单的条件表达式是用< ~=、>=、 <=符号连接的两个量常量或者变量，例如： <=符号连接的两个量，常量或者变量，例如：符号连接的两个量， n1>35； n1>35； ► 复合条件表达式又称逻辑表达式，是由逻辑运算复合条件表达式又称逻辑表达式，圆括号和简单条件表达式构成；符、圆括号和简单条件表达式构成； ► 如果给出条件表达式，那么就只对满足条件的个如果给出条件表达式，案进行计算，举例。案进行计算，举例。

第三章 SPSS数据的预处理

第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤。

数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能：转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。

3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。

仍以文件“研究生．sav”来说明，观测量分类整理的基本操作步骤如下：(1)执行Data→Sort Cases (观测量分类) 命令，打开Sort Cases对话框。

(2)从源变量列表框中选择一个或几个分类变量，单击中间的箭头按钮将它们移入Sort by框中，不妨称移入该框的变量为By变量。

选择By变量的意义是将按这个变量对观测量进行分类整理。

如果选择了几个By变量，从上至下依次称为第一By变量、第二By变量等。

分类整理将按每一个By变量层叠分类整理。

例如，选择了两个分类变量，sex为第一By变量，score为第二By变量，在sex的每一个分类中观测值将按score分类。

(3)在Sort Order栏中选择一种排序方式。

如对某分类变量选择Ascending (升序)，则在Sort by框里该变量名之后用连线连接Ascending；如选择Descending (降序)，该变量名连接Descending。

各分类变量的排序方式可以不同。

(4)以上选择确定后，单击OK，返回数据窗口，分类排序结果显示于数据窗口内。

此外，对字符串变量按分类次序大写字母将优先于小写的同一字母。

在我们引用的数本来有一个Order (序号) 变量，它的值为自然数顺序。

按照某些By变量分类后，要将文件恢复成原来的顺序，可以再用Order作为By变量执行观测量分类即可。

第三章 SPSS数据的预处理

3.2 变量计算
3.2.1 变量计算的目的
数据的转换处理是在原有数据的基础上，计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据，计算实际月收入，这些新变量具有更直观更有效的特点。对数据原有分布状态进行转换，由于数据分析和建模中某些模型对数据的分布有一定的要求，因此可以利用变量计算对数据的分布进行转换。例如利用对数或多项式转换对非正态或非线性数据进行处理。
3.2.2 SPSS算术表达式算术表达式
指出按照什么方法计算变量； SPSS算术表达式（Numeric Expression）是由常量、变量、算术运算符、圆括号、函数等组成的式子。
• • • •
字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括＋、－、、/、**（乘方）＋、－、*、、＋、－、在同一算术表达式中的常量及变量，数据类型应该一致，否则无法计算。
3.3.3 数据选取的基本操作
（1）简单条件表达式由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括>、<、＝、～＝（不等、＝、～＝（不等、、＝、～＝（）、>＝、＝、<＝于）、＝、＝。（nl<35）（2）复合条件表达式又称逻辑表达式，是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中，逻辑运算符号包括&或AND（并且）、或OR（或者）、～或NOT ）、|或（或者）、～）、～或或（并且）、（非）。NOT的运算优先级最高，其次是AND，最低是OR。可以通过圆括号改变运算的优先级。（nl<=35） and not （zc<3）在变量计算时，如果根据实际需要给出了条件表达式， SPSS将只对数据编辑窗口中条件判断为真的那些个案进行计算。因此构造条件表达式很重要。

第三章SPSS数据的预处理ppt课件

▪ 3、计算“职工数据.sav”中职称值>2的职工求基本工资和失业保险的平均值。
精品课件
3.3 数据选取（抽样）
▪ 数据选取就是根据分析的需要，从已收集到的大批量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析的过程，通常也称为抽样。
▪ 目的：方便对符合条件的case进行分析。 ▪ SPSS可根据指定的抽样方法从数据编辑窗口中
精品课件
数据排序应用举例
▪ 利用居民储蓄调查数据，通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值
精品课件
3.2 变量计算
▪ 数据的转换处理是在原有数据的基础上，计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据，计算实际月收入，这些新变量具有更直观更有效的特点。
精品课件
3.2.2 SPSS算术表达式
▪ 指出按照什么方法计算变量； ▪ SPSS算术表达式（Numeric Expression）是由
常量、变量、算术运算符、圆括号、函数等组成的式子。
• 字符型常量应当用引号括起来 • 变量是指那些已存在于数据编辑窗口中的原有变量 • 算术运算符主要包括＋、－、*、/、**（乘方） • 在同一算术表达式中的常量及变量，数据类型应该
前三个计数区间实际上是一些离散的数据点，严格讲并不是区间，但SPSS仍将其归在广义区间的范畴内，目的是方便一些其他的应用。
精品课件
3.4.3 计数的基本操作
（1）选择单Transform－Count，出现如下窗口：
精品课件
（2）将参与计数的变量选到 Numeric Variables框中
精品课件
3.1.2 数据排序的基本操作

《基于spss的数据分析(第四版)》第三章SPSS数据的预处理

第三章
SPSS数据的预处理
主要内容
个案排序变量计算数据分组个案选取计数分类汇总指定加权变量
数据排序
目标：排序在数据分析中的作用？快速找到可能的离群点
手段：将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列
菜单选项: 数据 -> 排序个案
注意: (1)排序的次序：升序、降序。 (2)多重排序,选择变量名的次序很关键。
（1）从不（2）偶尔（3）有时（4）经常 3、在公众场合下你会大声发表自己的意见
（1）从不（2）偶尔（3）有时（4）经常 •极为内向：3分；较为内向：6分；较为外向:9分；极为外向： 12分
个案选取
目标：个案选取的意义？手段：从现有数据中选出部分数据
按条件选取；随机选取；选取指定区间中的样本
SPSS的区间狭义区间：
职工工资的分组（850以下，851至900,901至 950,951至1000,1000以上）
广义区间：
用户缺失值的定义；变量类别的重新调整
数据分组
•性格打分（内向、一般、外向） 1、与生人交往会“自来熟”
（1）从不（2）偶尔（3）有时（4）经常 2、与不熟悉的异性交往，会脸红
分类汇总
目标：分析各分组下样本的统计特征手段：
按指定的分组变量值对样本分组分别计算各组中汇总变量的基本统计量例：对比男女职工的平均年龄和平均工资
性别
年龄
奖金
男
40
1000
女
35
550
男
20
200
性别_1 男女
年龄_1 30 35
奖金_1 600 550
原始数据
按性别变量汇总数据

SPSS数据的预处理

SPSS统计分析方法
Part 1：第三章数据预处理
1.变量级别的数据管理 2.文件级别的数据管理(一) 3.文件级别的数据管理(二)
学习要求
学习要求
掌握变量计算、分组合并等变量级别的数据管理方法
掌握记录排序、数据汇总、数据合并等文件级别的数据管理方法
数据预处理的主要内容
数据预处理
❖（nl<=35）and not (zc<3)
❖ 优先级
3.3 变量计算——P51
❖ 函数：可以看做是功能体；我们告诉已知，函数给出结果 ❖ Mean函数：功能计算平均数 ❖ Mean（语文，数学，英语） ❖ 常见函数
算数函数统计函数：均值（mean），标准差(Sd)，方差
(Variance) 与分布相关的函数查找函数字符函数日期函数缺失值函数其他函数
…
3.3变量计算
❖ 对数据的转换处理 ❖ 针对每个个案，都有自己的结果 ❖ 算述表达式：由常量、变量、算数运算符、圆括
号和函数组成的式子。
工资*0.1 Mean(数学，语文，英语)-60
3.3 变量计算
❖ 条件表达式：由关系运算符、逻辑运算符、变量、常量、算术表达式等组成；
❖其结果为真（1）或者假（0） ❖ 关系运算符： ❖ 逻辑运算符：与（且）&；或|；非~
1.在数据“概率论成绩”中生成新变量“评价”，当成绩小于60分时为“不合格”， 60～70分之间时为“合格”， 70～80分时为“中等”， 80～90分时为“良好”， 90分以上时为“优秀”。
3.1 排序
变量的排序是指根据变量值的大小按升序或降序进行排列，在数据 →排序个案/变量中实现
变量排序主对话框

第三章 SPSS数据预处理

按性别变量汇总数据
性别_1 男女年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时，变量名的选择顺序。生成的新文件名默认为:aggr.sav。可修改。生成的新变量名默认为原变量名后加_1。可修改。可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一个数据文件（职工数据.sav）。按Data Sort Cases，弹出一个排序对话框(以职称为主排序变量降序，基本工资为第二排序变量的升序进行多重排序)。依据需要进行选择，然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案，计算若干个变量中有几个变量的值落在指定的区域内，并将结果存入新变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域，给出最大和最小值 range: lowest through n:最小值到某个给定值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。按Data Split Files顺序逐一单击鼠
标，打开Split Files对话框。根据对数据的具体需要选择相应的选项。按Ok完成。
1.利用居民储蓄调查数据，将数据分成两个文件，一个为存储常住地在“沿海或中心繁华城市”且本次存款金额在1000~5000元之间的调查数据，二是按照简单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据，将其按常驻地升序、收入水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据，对每个学生计算得优课程数和得良课程数，并按得优课程数降序排序。 4.学生成绩合并后数据，计算每个学生课程的平均分和标准差，同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中，如果认为“今年收入比去年增加”“预计未来一两年收入仍会增加”的人是对自己收入比较满意和乐观的人，请利用计数和数据筛选功能找到这些人。

spss19.0第3章--数据的预处理PPT课件

分、缺失值处理、数据排秩、定义变量集。
3
3.1 数据的排序
SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。排序变量只有一个时，排序称为单值排序。排序变量有多个时，排序称为多重排序。多重排序中，第一个指定的排序变量称为主排序变量，其他依次指定的变量分别称为第二排序变量、第三排序变量等。
11
3.2.3 SPSS条件表达式
在变量计算中通常要求对不同的个案分别按照不同的方法进行计算，于是就需要通过一定的方式来指定个案；
SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值：如果判断条件成立，则结果为真；如果判断条件不成立，则结果为假。条件表达式包括简单条件表达式和复合条件表达式。
32
（5）如果仅希望对满足某条件的个案进行计数，则单击【如果】按钮并输入相应的SPSS条件表达式。否则，本步可略去。
33
3.5 分类汇总
3.5.1 分类汇总的目的分类汇总是按照某分类变量进行分类汇总计算。例如：某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总，即将职工按学历进行分类，分别计算不同学历职工的平均工资，然后可对平均工资进行比较。
18
3.3 数据选取
数据选取就是根据分析的需要，从已收集到的大批量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析的过程，通常也称为抽样。 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取，这样后面的分析操作就只针对选出的数据，直到用户取消这种选取为止。
23
说明：
（1）完成数据选取后，以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。

第3 章 SPSS数据的预处理

二、计数的应用举例利用住房调查数据，分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房。 “住房满意”变量中，取值1为表示满意； “未来三年”，取值1表示不准备购买住房步骤： 1.选择菜单：[转换T]—[对个案内的值计数 O] 出现如下菜单

2.选择参与计数的变量到[数字变量V]框中 3.在[目标变量T]框中输入存放计数结果的变量名，并在[目标标签]框中输入变量名标签

二、数据选取的应用举例从住房状况调查数据中选取：希望仅对具有外地户口的家庭状况进行分析希望对全部样本中的5%的个案进行分析步骤： 1.选择菜单：[数据D]—[选择个案] 2.在[选择]框中选择抽样方法。[全部个案]表示全部选中，第一种抽样方案应选择“如果条件满足”，第二种方案应选择“随机个案样本”项下的“大约”项，并输入比例数5 3.指定对未选中个案的处理方式。其中，过滤掉未选定的个案F，表示系统自动增加一个变量filter_$，未被选中的个案号码变量值取0,选中的取值为1；删除未选定的个案表示未选中的个案被删除；[将选定个案复制到新数据集]，表示将筛选出的个案复制到一个新的数据编辑窗口中，应在[数据集名称]后输入新数据文件的名称。
第1节数据的排序

ቤተ መጻሕፍቲ ባይዱ

排序是将数据编辑窗口的数据按照某个或多个指定变量的变量值升序或降序排列。排序变量单值排序多重排序主排序变量／第二排序变量／。。。一、数据排序的目的便于浏览快捷找到最大值和最小值快捷发现异常值
二、排序的步骤： 1.选择菜单[数据D]—[排序个案] 2.指定主排序变量到[排序依据]框中，并选择[排列顺序]框中的选框，[升序A]表示从小到大排，[降序D]表示从大到小排。 3.如果多重排序，还要依次指定第二、第三排序变量及相应规则

第三章SPSS数据的预处理ppt课件

数据拆分、定义变量集。
精品课件
3.1 数据的排序
▪ SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。排序变量只有一个时，排序称为单值排序。排序变量有多个时，排序称为多重排序。多重排序中，第一个指定的排序变量称为主排序变量，其他依次指定的变量分别称为第二排序变量、第三排序变量等。
精品课件
（3）随机抽样（ Random sample of cases ），即对数据编辑窗口中的所有个案进行随机筛选，包括如下两种方式：
第一，近似抽样（Approximately）近似抽样要求用户给出一个百分比数值，
SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。
注：由于SPSS在样本抽样方面的技术特点，抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目，会有小的偏差，因而称为近似抽样。
▪ 在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤。
▪ 数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：
精品课件
预处理的内容
➢ 数据的排序 ➢ 变量计算 ➢ 数据选取 ➢ 计数 ➢ 分类汇总 ➢ 数据分组 ➢ 数据预处理的其他功能：转置、加权、
精品课件
3.2.1 变量计算的目的
▪ SPSS变量计算是在原有数据的基础上，根据用户给出的SPSS算术表达式以及函数，对所有个案或满足条件的部分个案，计算产生一系列新变量。（1）变量计算是针对所有个案（或指定的部分个案）的，每个个案都有自己的计算结果。（2）变量计算的结果应保存到一个指定变量中，该变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念： SPSS算数表达式、SPSS条件表达式和SPSS函数。

第3章 SPSS数据的预处理

精通SPSS统计分析
3.4.1 数据选取的目的
数据选取主要有以下几个目的： 1. 提高数据分析效率
如果数据量较大会在一定程序上影响计算和建模的效率，因此，可以依据一定的抽样方法从总体上抽取少量样本，后面的分析只针对样本进行，这样会大大提高分析的效率。当然，抽取出的样本应具有总体代表性，否则分析的结果可能会有一些偏差。
数据应分成多少组比较适合，通常与数据本身的数据个数有关。由于分组的目的之一是为了观察数据分布的特征，因此，组数的确定应以能够清楚地显示数据分布特征和规律为原则。组数太少会使数据的分布过于集中，而组数太多又会使数据的分布过于分散，这样都不便于观察数据分布的特征和规律。
2.组距的确定
组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值及组数来确定，即：组距＝（最大值－最小值）/组数当上述问题确定以后，便可以实施分组操作了。在SPSS分组操作时应注意指定分组变量、定义分组区间和指定存入分组结果的变量。
精通SPSS统计分析
（5）选择按升序进行分组，即“Lowest value”单选按钮，然后单击“OK”按钮，如图3-5所示。（6）返回数据编辑窗口后，其分组结果如图3-6所示。
图3- 5 确认设置
图3- 6 分组效果
精通SPSS统计分析
3.7.3 SPSS的组距分组
在连续变量或变量值较多的情况下，数据分组通常采用组距分组。组距分组是将全部变量值依次划分为若干个区间，并将这一区间的变量值作为一组。组距分组中的关键问题主要有以下两个。 1.分组数目的确定
图3- 1 “Select Case”对话框
精通S算的目的 SPSS算术表达式
SPSS条件表达式
SPSS函数

第3章 SPSS数据的预处理

Abs（sr-850）：分别计算每条个案变量sr与850之差的绝对值
Sqrt(4):函数值=2
Sin（30*3.14/180）：函数值：0.50
Cos（60*3.14/180）：函数值=0.50 Exp（5）：函数值=148.41 Ln（sr）分别计算每个个案变量sr的自然对数值 Lg10（5）函数值=0.7 Rnd（2.66）：函数值=3.0 Trunc（4.7）：函数值=4 Mod（20,3）函数值=2
主要操作步骤
• 1）数据→排序个案
• 2）指定主排序变量到“排序依据”中
• 3）选择“排列顺序”
• 4）如果是多重排序，再指定第二、第三等排序变量
注意
• 1、数据排序是整行数据排序，而不是只对某列变量排序 • 2、多重排序中指定排序变量的次序很关键 • 3、必要时保留数据的原始排列顺序
二、变量计算
Xdate.jday(日期型变量)
Xdate.week(日期型变量)
缺失值函数
函数名 Missing（变量名）该变量必须是数值型变量功能举例判断指定变量是否为 Missing（Math）：分别对每条个案系统缺失值或用户缺判断Math这个变量是否为系统缺失失值值或用户缺失值。1表示是，0为不是。判断指定变量是否取值为系统缺失值 Sysmis（Math）：分别对每条个例判断Math这个变量是否取值为系统缺失值，1表示是，0为不是。 Nmiss（Math，English，Chiness）：分别对每条个案计算三科成绩中有几科取值为系统缺失值或用户缺失值。 Value（Math）：忽略Math这个变量重定义的用户缺失值。
Sysmis（变量名）该变量必须是数值型变量
Nmiss（变量名1，变量名2，...）

第三章SPSS数据的预处理详解

类型为数值型。运算的先后次序是：先计算乘方，再计算乘除，最后计算加减。在同级运算中，按从左往右的顺序进行计算。通过圆括号改变固有的计算顺序。 • 在同一算术表达式中的常量及变量，数据类型应该一致，否则无法计算。 • 再次强调spss中算术表达式的计算是针对每个个案进行的。因此，得到的计算结果也是一系列的，每个个案都有相应的计算结果。
利用职工基本情况数据，通过数据排序功能找到职称最高的职工的最高工资及职称最低的职工的最低工资。
3.2 变量计算
（1）数据的转换处理在原有数据的基础上，计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据，计算实际月收入，这些新变量具有更直观更有效的特点。
（2）对数据的原有分布状态进行转换对原有数据的分布进行转换，以满足建模中某些模型对数据分布的要求。非正态或非线性数据的处理时间序列平稳化处理标准化处理
息的新数据，或对数据的原有分布进行转换等。 3.数据抽样
从实际问题、算法或效率等方面考虑，并非收集到的所有数据(个案) 在某项分析中都有用途，有必要按照一定的规则从大量数据中选取部分样本参与分析。 4.选取变量
并非收集到的所有数据项(变量)在某项分析中均有意义，选取部分变量参与分析是很自然的。
SPSS提供了一些专门的功能辅助用户实现数据的预加工处理工作。运用预处理还可以使用户对数据的总体分布有所了解。
秩、定义变量集。
数据的预加工处理需要解决的问题有
1.缺失值和异常数据的处理在第2章曾经讨论过，大量缺失值会给数据分析带来极大的影响。同样，异常值也会影响最终的分析结果。因此，在数据预处理阶段对缺失值和异常值进行分析和处理是很必要的。
2.数据的转换处理数据的转换处理是在原有数据的基础上，计算产生一些含有更丰富信

第-3-章--SPSS-数据的预处理

致，否则无法计算。
7
SPSS 条件表达式
条件表达式通常用于指定满足某个条件的个案。条件表达式是一个对条件进行判断的式子。其结果有
两种取值： ➢ 如果判断条件成立，则结果为真； ➢ 如果判断条件不成立，则结果为假。条件表达式包括简单条件表达式和复合条件表达式。
8
SPSS 条件表达式
简单条件表达式： ➢ 由关系运算符、常量、变量以及算术表达式等组成的
组距分组
在变量值较多的情况下，数据分组通常采用组距分组。组距分组是将全部变量值依次划分为若干区间，并将同一区间的变量值作为一组。
(1) 全距：最大值与最小值之差 (2) 组数：组数的多少以分组后能清楚反映数据内部的分布特征和规律为原则。可按 Sturges 经验公式确定组数： K 1 ln n
式子。 ➢ 关系运算符包括： >、<、＝、～＝（不等于）、>
＝、<＝。如：nl > 32、sr <= 900 复合条件表达式： ➢ 由逻辑运算符号、圆括号和简单条件表达式等组成的
式子。 ➢ 逻辑运算符号包括～或 NOT（非）、& 或 AND
（并且）、| 或 OR（或者）。 ➢ 如：(nl>32) and not (sr<9=900)
18
数据拆分
数据拆分：是将数据按一个或几个指定的变量进行分组。后续进行的统计分析将按照分组进行。
菜单选项：数据 -> 拆分文件注意：数据拆分后，在状态栏会显示“拆分条件” 取消拆分方法：重新执行数据拆分，选择“分析所
有个案，不创建组”。例：“职工数据.sav”，按职称变量分组 ➢ 比较组：分组统计结果输出在同一张表格中 ➢ 按组织输出：分组统计结19果分别输出在不同的表格

第3章 SPSS数据的预处理

ＳＰＳＳ
分组变量：接纳从源变量列表框中选择的分组变量变量摘要：对进入此栏的变量值按分组变量进行汇总。个案数：显示每组有多少各个案。名称可以自定义也可以是系统自带。
ＳＰＳＳ
选择函数：函数用于定义汇总函数，计算指定的描述统计量。 SPSS中提供三种函数，但是每个汇总变量只能选择一个描述统计量进行汇总。
ＳＰＳＳ
依据一个变量或多个变量进行排序先按性别进行排序，再按年收入进行排序
升序：由小到大降序：由大到小
保存已排好序的文件
ＳＰＳＳ
升序
ＳＰＳＳ
2、个案排秩
秩（Rank）是数理统计学中的一个重要的概念，是非参数统计中常用到的统计量。个案排秩是将个案X1,X2,…Xn,按从小到大的次序或者从大到小的次序排列后，第i个个案Xi排在第Ri位上，就称Ri为Xi在个案 X1,X2,…Xn中的秩。见实例2
ＳＰＳＳ
3.5缺失值
• 缺失值(missing data)可分为三种型态, (1)MNAR (missing not at random) (2)MAR(missing at random) (3)MCAR(missing completely at random)
ＳＰＳＳ
缺失值填补的方法
（1）序列均值：取整列数据的均值（2）临近点均值：取该缺失值邻近的几个点的均值，具体几个点由附近的跨度来决定。（3）临近值的中位数：取缺失值临近几个点的中位数，具体几个点由附近点的跨度来设定（4）线性插值法：用该列数据缺失值前一个数据和后一个数据建立插值直线，然后用缺失点在线性插值函数的函数值填充（5）线性趋势法：用缺失值所在列数据建立线性回归方程。
不等于

第三章--SPSS-数据的预处理ppt课件

4/2/2020
10
6) 计算方法的不足
变量的计算，无法一次将不同条件的表达式集中编写，只能一个条件表达式运行一次。
4/2/2020
11
3 数据抽样(选取)
在实际的工作中，往往需要对满足一定条件的数据进行分析。如研究储蓄存款时，将储户分成城镇储户和农村储户，这时的数据更具有相同的特征，研究也更具有针对性。
a) Rendom：每次抽取，都产生一个随机数作为开设置. b) Fixed Value：在下边的文本框中填入一个大于0小于的具体数值作为种子。
(4) Based on time or case range
在指定的范围内，顺序抽样，更适于时间序列数据。点击Range按钮，弹出Select cases:Range对话框。
(2) 确定统计所关注的变量值
变量一般取多个值，我们只关心多个变量同时取的某个
4/2/2020
24
值的个数。这里是定义几个变量要取的那个固定的值。
例子：收入情况未来收入情况这两个变量取3的有几个? 点击【 Define Values 】按钮，将选择的一个或多个变量与指定的值建立关系对话框。对话框分成两个区域：左边的区域是值定义，右边是值存储及修改。
5) 条件语句编辑编辑例
这时高级工程师的个案的sfgz变量都有了数据，其它职
称个案的sfgz的值为缺失值。
重复同样的方法，分别设置：
表达式
条件
(sr-bx)*1.03
zc=2
工程师
(sr-bx)*1.02
zc=3
助理工程师
(sr-bx)*1.01
zc=4
无职称
这时变量sfgz所在的列将不再有缺失值。
例子特点：多个变量中，取同一值的变量有多少个？例2：中考成绩(计数63).sav ：要统计出每一考生语文、英语、数学、物理和化学5科成绩，落在某一区间(如[70,79]) 的有几科？

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表示随机数种子为一个具体的正整数（该整数应小于等于2000000），一般用于随机化结果需要重复出现的情况
第二，精确抽样（Exactly）
精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数，第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。
SPSS变量计算的基本操作步骤如下
（1）选择菜单：转换－>计算变量
（2）在数字表达式框给出SPSS算术表达式和函数。（3）在目标变量框中输入存放计算结果的变量名。（4）如果用户仅希望对符合一定提交的个案计算产生变量，则按“如果”按钮，选择“如果个案满足条件则包括” 选项，然后输入条件表达式。
★通过数据排序能够快捷地发现数据的异常值，为进一步明确它们是否对分析产生重要影响提供帮助。
单值排序：排序变量只有一个
多重排序：第一个指定的排序变量称为主排序变量，其他依次指定的变量分别称为第二排序变量、第三排序变量等。
SPSS数据排序的基本操作步骤：
（1）选择菜单：数据 -> 排序个案（2）指定主排序变量，并选择是按升序还是降序排列（3）如果是多重排序，还要依次指定第二、第三排序变量及相应的排序规则。否则，本步可略。
（2）变量计算的结果应保存到一个指定变量中，该变量的数据类型应与计算结果的数据类型相一致。
二、SPSS算术表达式
SPSS算术表达式（Numeric Expression）是由常量、变量、算术运算符、圆括号、函数等组成的式子。
★ 字符型常量应当用引号括起来 ★ 变量是那些已存在于数据编辑窗口中的原有变量 ★ 算术运算符主要包括＋、－、*、/、**（乘方）。操作对象的数据类型为数值型。运算的先后次序是：先计算乘方，再计算乘除，最后计算加减。在同级运算中，按照从左往右的顺序进行计算。通过圆括号改变原有的计算顺序。 ★ 在同一算术表达式中的常量及变量，数据类型应该一致，否则无法计算。
兼容版本 12. 版本 12 和早期版本中所使用的随机数字生成器。如果您要重新生成在早期版本中根据指定的种子值生成的随机结果，可使用此随机数字生成器。
较新的随机数生成器，可实现更可靠的模拟。如果从 SPSS 12 或早期版本再现随机结果是问题，那么可使用此随机数生成器。
表示随机数种子每次自动取一个新的值，是SPSS 默认的选项，这样随机化结果不会重复出现。
五、变量计算的应用举例
3-3 数据选取
一、数据选取的目的
数据选取就是根据分析的需要，从已收集到的大批量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析的过程，通常也称为抽样。
1、提高数据分析效率
如果数据量较大，会在一定程度上影响计算和建模的效率，因此，通常可以根据一定的抽样方法从总体中抽取少量样本，后面的分析只针对样本进行，这样会大大提高分析的效率。当然，抽取出的样本应具有总体代表性，否则分析的结论可能会有偏差。
SPSS函数大致可以分成八大类：
1、算术函数 3、分布函数 5、字符串函数 7、日期函数
2、统计函数、 4、逻辑函数、 6、缺失值函数、 8、其他函数。
五、变量计算的应用举例
利用“职工数据.sav”，依据职称级别计算实发工资，计算规则是：实发工资等于基本工资减去失业保险，之后，依据1～4 等级分别将以上计算结果上浮5%，3%，2%，1%。
第三章 SPSS数据的预处理
3-1 数据排序
一、数据排序的目的
通常数据编辑窗口中个案的前后次序是由数据录入的先后顺序决定的。数据预处理中，有时需要将数据按照一定的顺序重新排列。
数据排序在数据分析过程中的作用：
★ 数据排序便于数据的浏览，有助于了解数据的取值状况、缺失值数量的多少等。
★通过数据排序能够快捷地找到数据的最大值和最小值，进而可以计算出数据的全矩，初步把握和比较数据的离散程度。
2、随机选取（Random sample of cases）第一，近似选取（Approximately）
要求用户给出一个百分比数值。SPSS将按照这个比例自动从数据编辑窗口中随机抽取出相应百分比数目的个案。
随机是根据SPSS随机数种子发生器设计和实现的。
设置的菜单是：转换 -> 随机数字生成器
三、SPSS条件表达式 SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值：如果判断条件成立，则结果为真；如果判断条件不成立，则结果为假。
1、简单条件表达式由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括>、<、＝、～＝（不等于）、>＝、<＝。
2、复合条件表达式
2、检验模型的需要依据一定的抽样方法只选择部分样本参与数据建模，剩
余的数据用于模型检验。
二、数据选取方法
1、按指定条件选取（If condition is satisfiled）
用户以条件表达式的形式给出数据选取的条件。SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案，即条件判断为真的个案将被自动选取出来，而那些条件判断为假的个案则不被选中。
例利用租房状况问卷调查和数据，通过数据排序功能分析本市户口和外地户口家庭的住房面积情况。
3-2 变量计算
一、变量计算的目的
变量计算是数据分析过程中应用最广泛也是最重要的一环。通过变量计算可以处理许多问题。
1、数据的转换处理 2、对数据的原有分布状态进行转换
注意
（1）变量计算是针对所有个案（或指定的部分个案）的，每条个案（或指定的部分个案）都有自己的计算结果。
又称逻辑表达式，是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中，逻辑运算符号包括&或AND （并且）、|或OR（或者）、～或NOT（非）。NOT的运算优先级最高，其次是AND，最低是OR。可以通过圆括号改变运算的优先级。
Hale Waihona Puke 四、SPSS函数函数书写的具体形式为：函数名（参数）
其中函数名是SPSS已经规定好的，参数可以是常量（字符型常量应用引号括起来），也可以是变量或算术表达式。参数可能是一个，也可能是多个，各参数之间用逗号分隔。