第三章SPSS数据预处理
第三章 SPSS数据的预处理
第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。
仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:(1)执行Data→Sort Cases (观测量分类) 命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。
选择By变量的意义是将按这个变量对观测量进行分类整理。
如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。
分类整理将按每一个By变量层叠分类整理。
例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
(3)在Sort Order栏中选择一种排序方式。
如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。
各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。
在我们引用的数本来有一个Order (序号) 变量,它的值为自然数顺序。
按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。
第三章 SPSS数据的预处理
SPSS
第六节 数据分组
• 数据分组就是根据统计研究的需要,将数 据按照某种标准重新划分为不同的组别。 分组目的
• 对数值型数据进行整理和粗略把握数据分布情况 • 在数据分组基础上对数据进行频数分析 • 实现数据的离散化处理
SPSS
SPSS的数据分组方法
单变量值分组 组距分组 分位数分组(略)
SPSS
SPSS
SPSS
SPSS
以学生成绩.sav为例
对两门课中成绩在优良以上 (分数大于等于80分)的计数
SPSS
SPSS
SPSS
第五节 分类汇总
• 分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确:
• 按照哪个变量进行分类 • 对哪个变量进行汇总,并指定对哪些统计 量进行计算
SPSS
第三章 SPSS数据的预处理 数据的排序
变量计算 数据选取 计数 分类汇总
数据分组
数据预处理的其他功能
SPSS
第一节数据的排序
数据排序的目的 数据排序的基本操作 数据排序的应用举例
数据排序的目的
SPSS
SPSS数据排序是将数据编辑窗口按照某个 或多个指定变量的变量值升序或降序重新 排列。
SPSS
变量计算的目的
• 数据的转换处理 • 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量,需注意:
变量计算针对所有个案的,每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中,该变量的数据 类型与计算结果的数据类型要一致。
SPSS算术表达式
SPSS • 由常量、变量、算术运算符、圆括号、函 数等组成的式子
SPSS
第三章 SPSS 数据的预处理
4) 条件语句编辑
单击 if 按钮,进入条件语句编辑框,有两个单选按钮。 a) Include all cases :对所有个案进行计算,默认选项。
b) Include if cases satisfied condition:仅对满足条件的
个案进行计算。选择这一单选按钮后,编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是,每次只能 编辑一个筛选条件,不能同时编辑多个筛选条件。 对应工资上浮5%的条件是职称值等于1,高级工程师。 在编辑框输入表达式:zc=1
3) 数据排序例
对居民储蓄存款调查数据,利用排序的方法找出城镇居 民和农村居民一次性存款的最大值和最小值。 操作:户口,升序;存款额,升序。
13:33:33 4
2 变量的计算
在统计分析过程中,为了更有效的反映事物的本质,有
时需要对变量的数据进行加工整理,产生新变量和计算结果。
比如计算一个变量的倍数,计算几个变量的和、差,计 算变量的绝对值、平方等等。
13:33:33 19
(1) Filter out unselected cases
过滤掉没有选择的个案。这时未被选中的个案上打上斜 线作为删除标记。默认选项。
(2) Copy selected cases to a new dataset
将选择了的个案存储到一个新的数据集中,这时需要在
其后的文本框中输入要存储数据集的名字。
13:33:33
条件 zc=2 zc=3 zc=4 工程师 助理工程师 无职称
10
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
变量的计算,无法一次将不同条件的表达式集中编写, 只能一个条件表达式运行一次。
13:33:33
第3章 SPSS数据的预处理
<(小于)、=(等于)、 ~=(不等于)、 >=(大于等于)、<=(小于等于)。
如:nl>32、sr<=700。
2.复合条件表达式
又称逻辑表达式,由逻辑运算符、括号和简单
条件表达式组成。 逻辑运算符:&(AND) 并且、│(OR) 或者、 ~(NOT) 非。Not运算符优先、其次and、最低 是or。但可以用括号改变运算次序。 如:(nl>32) and (sr<=700) (nl=32) | (sr<=700)
用分组变量值覆盖原变量(Into Same Variables) , 将分组结果存到一个新变量中(Into Different
Variables)。相应的操作也略有差异。通常采用第 二种策略
3.6.3 数据分组的应用举例
问题:分析被调查家庭人均住房面积的分布(住房状 况调查数据) 操作:
【transform】→【recode into different variables】 选择分组变量“人均面积”到【numeric variable】中 在【output variable】框中的【name】后输入存放分 组结果的变量名,如mj,并按【change】确认。还可 以在【label】后输入相应的变量名标签 根据分析要求在【old and new values】内逐个定义各 分组区间 如果仅对符合一定条件的个案分组,则单击If按钮并输 入SPSS条件表达式。否则,本步可略去
按照哪个变量(如上例中的学历、职业和年
龄段)进行分类
对哪个变量(如上例中的基本工资、消费金
额)进行汇总,并指定对汇总变量计算哪些 统计量(如上例中的平均工资、平均消费金 额和标准差)
第三章SPSS数据的预处理
由算术表达式、条件表达式、SPSS函数以及
SPSS变量名组成的式子。
变量计算
(5)SPSS条件表达式:由SPSS关系运算符、逻辑运算 符、SPSS函数以及SPSS变量名组成的式子。
关系运算符: > (大于)、<(小于)、=(等于)、 ~=(不等于)、>=(大于等于)、<=(小于等于)
如:nl>32、sr<=700
逻辑运算符:&(AND):并且、|(OR):或者、 ~(NOT):非
如:(nl>32) and (sr<=700) 如:(nl=32) | (sr<>700) 如: not xb=1
变量计算
(4) SPSS函数 算术函数 统计函数 分布函数 逻辑函数 字符串函数 缺失值函数 日期时间函数 其他函数
分类汇总
目标:分析各分组下样本的统计特征 手段: 按指定的分组变量值对样本分组 分别计算各组中汇总变量的基本统计量 例:对比男女职工的平均年龄和平均工资
年龄 40 35 20 奖金 1000 550 200
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
性别 男 女 男
原始数据
按性别变量汇总数据
数据分组
目标:更好地了解连续型变量的分布特点 手段:组距分组 指定按哪个变量分组;定义分组区间(不重不漏); 指定存放分组结果的组标志变量 SPSS的区间 分组数,组距
职工工资的分组(850以下,851至900,901至950,951 至1000,1000以上)
变量计算的应用举例
数据选取
SPSS数据的预处理
Part 1:第三章 数据预处理
1.变量级别的数据管理 2.文件级别的数据管理(一) 3.文件级别的数据管理(二)
学习要求
学习要求
掌握变量计算、 分组合并等变量 级别的数据管理 方法
掌握记录排序、 数据汇总、数据 合并等文件级别 的数据管理方法
数据预处理的主要内容
数据预处理
❖(nl<=35)and not (zc<3)
❖ 优先级
3.3 变量计算——P51
❖ 函数:可以看做是功能体;我们告诉已知,函数给出结果 ❖ Mean函数:功能 计算平均数 ❖ Mean(语文,数学,英语) ❖ 常见函数
算数函数 统计函数:均值(mean),标准差(Sd),方差
(Variance) 与分布相关的函数 查找函数 字符函数 日期函数 缺失值函数 其他函数
…
3.3变量计算
❖ 对数据的转换处理 ❖ 针对每个个案,都有自己的结果 ❖ 算述表达式:由常量、变量、算数运算符、圆括
号和函数组成的式子。
工资*0.1 Mean(数学,语文,英语)-60
3.3 变量计算
❖ 条件表达式:由关系运算符、逻辑运算符、变量、 常量、算术表达式等组成;
❖其结果为真(1) 或者 假(0) ❖ 关系运算符: ❖ 逻辑运算符:与(且)&;或|;非~
1.在数据“概率论成绩”中生成新变量“评价”,当 成绩小于60分时为“不合格”, 60~70分之间时为“合格”, 70~80分时为“中等”, 80~90分时为“良好”, 90分以上时为“优秀”。
3.1 排序
变量的排序是指根据变量值的大小按升序或降序进行排 列,在数据 →排序个案/变量中实现
变量排序主对话框
第三章 SPSS数据预处理
按性别变量汇总数据
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时,变量名的选择顺序。 生成的新文件名默认为:aggr.sav。可修改。 生成的新变量名默认为原变量名后加_1。可修 改。 可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一 个数据文件(职工数据.sav)。 按Data Sort Cases,弹出一 个排序对话框(以职称为主排序 变量降序,基本工资为第二排 序变量的升序进行多重排序)。 依据需要进行选择,然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案,计算若干个变量中有几个 变量的值落在指定的区域内,并将结果存入新 变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域,给出最大和 最小值 range: lowest through n:最小值到某个给定 值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。 按Data Split Files顺序逐一单击鼠
标,打开Split Files对话框。 根据对数据的具体需要选择相应的 选项。 按Ok完成。
1.利用居民储蓄调查数据,将数据分成两个文件,一 个为存储常住地在“沿海或中心繁华城市”且本次存 款金额在1000~5000元之间的调查数据,二是按照简 单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据,将其按常驻地升序、收入 水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据,对每个学生计算得优课程 数和得良课程数,并按得优课程数降序排序。 4.学生成绩合并后数据,计算每个学生课程的平均分 和标准差,同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中,如果认为“今年收入比去 年增加”“预计未来一两年收入仍会增加”的人是对 自己收入比较满意和乐观的人,请利用计数和数据筛 选功能找到这些人。
第三章 SPSS数据的预处理
为什么要进行数据的预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工 处理,这是数据分析过程中必不可少的一个关键步骤。 数据的预加工处理服务于数据分析和建模,主要包括以下几个方面
数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据预处理的其他功能:转臵、加权、数据拆分、缺失值处理、数据排 秩、 定义变量集。
(4)如果希望对符合一定条件的个案进行变量计算,则 单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对 不满足条件的个案,将不进行变量值计算。
3.2.6 变量计算的应用举例
1.利用职工基本情况数据,依据职称级别计算 实发工资。实发工资等于基本工资减去失业保 险,依据职称1至4等级分别上调5%,3%,2 %,1%。 分析: (1)(基本工资-失业保险)*系数 (2)选择“IF”按钮,对不同职称的职工分别计 算实发工资。
3.2.1 变量计算的目的
SPSS变量计算是在原有数据的基础上,根据用户 给出的SPSS算术表达式以及函数,对所有个案或 满足条件的部分个案,计算产生一系列新变量。 (1)变量计算是针对所有个案(或指定的部分 个案)的,每个个案都有自己的计算结果。 (2)变量计算的结果应保存到一个指定变量中, 该变量的数据类型应与计算结果的数据类型相一 致。 在变量计算过程中涉及到几个概念:SPSS算术 表达式、SPSS条件表达式和SPSS函数。
第三章 SPSS数据的预处理
第三章 数据的预处理
数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据的预处理的其它功能
第三章 数据的预处理
第 3 章 SPSS 数据的预处理
定组数:
ln n K 1 ln 2
21
(3) 组距=全是对变量重新赋值的一种。
变量的重新赋值
赋值到同一变量:转换 -> 重新编码为相同变量 赋值到不同变量:转换 -> 重新编码为不同变量 例:“大学生职业生涯规划.sav” 问题:对专业和职业认知得分变量,以5为组距进行
权变量,进行数据加权。(即还原为原始数据)
24
加权个案
菜单选项:数据 -> 加权个案 加权后,数据编辑器窗口中的数据没有变化,但在 状态栏中会显示“加权范围”。
一旦执行加权操作后,对以后的分析会一直有效。
取消加权:选择“请勿加权个案”。
例:“血压和年龄.sav”
25
缺失值处理
大量的缺失值会给数据分析带来极大的影响,这就 需要采用科学的方法对缺失值进行处理。 处理方法:删除法和插补法
菜单选项:
转换 -> 对个案内的值计数
15
计数
例:“大学生职业生涯规划.sav” 问题:分析有多大比例的学生对问卷中的量表问题
感觉不好回答(量表得分为 0)。
分析:先计算 Q61 ~ Q616 中取值为 0 的变量个数; 再计算其中个数为非 0 的学生数所占的百分比。
16
分类汇总
分类汇总:按照指定的分类变量值对所有个案进行 分类,从而可以分析各分组下样本的统计特征。
10
变量计算
菜单选项: 转换 -> 计算变量
例1:“大学生职业生涯规划.sav”
问题:对每个个案计算 Q61 ~ Q64 的总得分,称
为对专业和职业的认知得分。
第3 章 SPSS数据的预处理
二、计数的应用举例 利用住房调查数据,分析被调查家庭中有 多少比例的家庭对目前的住房满意且近几 年不准备购买住房。 “住房满意”变量中,取值1为表示满意; “未来三年”,取值1表示不准备购买住房 步骤: 1.选择菜单:[转换T]—[对个案内的值计数 O] 出现如下菜单
2.选择参与计数的变量到[数字变量V]框中 3.在[目标变量T]框中输入存放计数结果的变 量名,并在[目标标签]框中输入变量名标签
二、数据选取的应用举例 从住房状况调查数据中选取: 希望仅对具有外地户口的家庭状况进行分析 希望对全部样本中的5%的个案进行分析 步骤: 1.选择菜单:[数据D]—[选择个案] 2.在[选择]框中选择抽样方法。[全部个案]表示全部选中, 第一种抽样方案应选择“如果条件满足”,第二种方案应 选择“随机个案样本”项下的“大约”项,并输入比例数5 3.指定对未选中个案的处理方式。其中,过滤掉未选定 的个案F,表示系统自动增加一个变量filter_$,未被选中 的个案号码变量值取0,选中的取值为1;删除未选定的个 案表示未选中的个案被删除 ;[将选定个案复制到新数据 集], 表示将筛选出的个案复制到一个新的数据编辑窗口 中,应在[数据集名称]后输入新数据文件的名称。
第1节 数据的排序
ቤተ መጻሕፍቲ ባይዱ
排序是将数据编辑窗口的数据按照某个或多个指 定变量的变量值升序或降序排列。 排序变量 单值排序 多重排序 主排序变量/第二排序变量/。。。 一、数据排序的目的 便于浏览 快捷找到最大值和最小值 快捷发现异常值
二、排序的步骤: 1.选择菜单[数据D]—[排序个案] 2.指定主排序变量到[排序依据]框中,并选 择[排列顺序]框中的选框,[升序A]表示从 小到大排,[降序D]表示从大到小排。 3.如果多重排序,还要依次指定第二、第 三排序变量及相应规则
03-SPSS数据的预处理
3.1.2 数据排序的基本操作
SPSS数据排序的基本操作步骤 (1)选择菜单Data-Sort Cases - (2)将主排序变量从左边的列表中选到 Sort by框中,并在Sort Order框中选 择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第 二、第三排序变量及相应的排序规则。
3.3 数据选取
数据选取就是根据分析的需要, 数据选取就是根据分析的需要,从已收 集到的大批量数据(总体) 集到的大批量数据(总体)中按照一定 的规则抽取部分数据(样本) 的规则抽取部分数据(样本)参与分析 的过程,通常也称为抽样 抽样。 的过程,通常也称为抽样。 SPSS可根据指定的抽样方法从数据编辑 可根据指定的抽样方法从数据编辑 窗口中选出部分样本以实现数据选取, 窗口中选出部分样本以实现数据选取, 这样后面的分析操作就只针对选出的数 直到用户取消这种选取为止。 据,直到用户取消这种选取为止。
(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式 等组成的式子。其中关系运算符包括>、<、 、 、 =、~=(不等于)、>=、 =。(年龄 =、~=(不等于)、 =、<= 不等于)、 =、 <35) (2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括 号和简单条件表达式等组成的式子。其中,逻 )、|或 辑运算符号包括&或AND(并且)、 或OR 或 (并且)、 或者)、~ )、~或 (或者)、~或NOT(非)。NOT的运算优先 ( 级最高,其次是AND,最低是OR。可以通过圆 括号改变运算的优先级。(年龄<=35)and not (职称<3)
ቤተ መጻሕፍቲ ባይዱ
3.2.4 SPSS函数 函数
SPSS函数是事先编好并存储在SPSS软件中, 能够实现某些特定计算任务的一段计算机程 序。这些程序都有各自的名字称为函数名 函数名。 函数名 执行这些程序段得到的计算结果称为函数值 函数值。 函数值 函数书写的具体形式为:函数名(参数) 函数名( 函数名 参数)
第3章 SPSS数据的预处理
精通SPSS统计分析
3.4.1 数据选取的目的
数据选取主要有以下几个目的: 1. 提高数据分析效率
如果数据量较大会在一定程序上影响计算和建模的效率,因此,可以依据 一定的抽样方法从总体上抽取少量样本,后面的分析只针对样本进行,这样会 大大提高分析的效率。当然,抽取出的样本应具有总体代表性,否则分析的结 果可能会有一些偏差。
数据应分成多少组比较适合,通常与数据本身的数据个数有关。由于分组 的目的之一是为了观察数据分布的特征,因此,组数的确定应以能够清楚地显 示数据分布特征和规律为原则。组数太少会使数据的分布过于集中,而组数太 多又会使数据的分布过于分散,这样都不便于观察数据分布的特征和规律。
2.组距的确定
组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值 及组数来确定,即: 组距=(最大值-最小值)/组数 当上述问题确定以后,便可以实施分组操作了。在SPSS分组操作时应注意 指定分组变量、定义分组区间和指定存入分组结果的变量。
精通SPSS统计分析
(5)选择按升序进行分组,即“Lowest value”单选按钮,然后单击“OK”按钮, 如图3-5所示。 (6)返回数据编辑窗口后,其分组结果如图3-6所示。
图3- 5 确认设置
图3- 6 分组效果
精通SPSS统计分析
3.7.3 SPSS的组距分组
在连续变量或变量值较多的情况下,数据分组通常采用组距分组。组距分组是将 全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。组距分组中的 关键问题主要有以下两个。 1.分组数目的确定
图3- 1 “Select Case”对话框
精通S算的目的 SPSS算术表达式
SPSS条件表达式
SPSS函数
spss_第三章_SPSS数据的预处理
3.3.2 数据选取的基本操作
(1)选择菜单Data—Select cases (2)根据分析需要选择数据选取方法 (3)Unselected cases are指定对未选
①指定哪些变量参与计数,计数的结果存入哪个新变量中 ②指定计数区间(尤为关键)
3.4.2 计数区间
SPSS中的计数区间可以有以下几种描述形式:
❖ 单个变量值(Value) ❖ 系统缺失值(System-missing) ❖ 系统缺失值或用户缺失值( System or user-
missing) ❖ 给定最大值和最小值的区间(n through m) ❖ 小于等于某指定值的区间(Lowest through n) ❖ 大于等于某指定值的区间(n through highest)
②精确抽样(Exactly)
精确抽样要求用户给出两个参数。第一个参数 是希望选取的个案数,第二个参数是指定在前 几个个案中选取。SPSS自动在数据编辑窗口 的前若干个个案中随机精确地抽出相应个数的 个案来。
(4)选取某一区域内的样本( Based on time or case range ) 即选取数据编辑窗口中样本号在指定范围内的 所有个案,要求给出这个范围的上、下界个案 号码。这种抽样方法适用于时间序列数据。
①近似抽样(Approximately)
近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例 自动从数据编辑窗口中随机抽取相应百分比数目的个案。
第3章 SPSS数据的预处理
Abs(sr-850):分别计算每 条个案变量sr与850之差的绝 对值
Sqrt(4):函数值=2
Sin(30*3.14/180):函数 值:0.50
Cos(60*3.14/180):函数 值=0.50 Exp(5):函数值=148.41 Ln(sr)分别计算每个个案 变量sr的自然对数值 Lg10(5)函数值=0.7 Rnd(2.66):函数值=3.0 Trunc(4.7):函数值=4 Mod(20,3)函数值=2
主要操作步骤
• 1)数据→排序个案
• 2)指定主排序变量到“排序依据”中
• 3)选择“排列顺序”
• 4)如果是多重排序,再指定第二、第三等 排序变量
注意
• 1、数据排序是整行数据排序,而不是只对 某列变量排序 • 2、多重排序中指定排序变量的次序很关键 • 3、必要时保留数据的原始排列顺序
二、变量计算
Xdate.jday(日期型变量)
Xdate.week(日期型变量)
缺失值函数
函数名 Missing(变量名)该变 量必须是数值型变量 功能 举例 判断指定变量是否为 Missing(Math):分别对每条个案 系统缺失值或用户缺 判断Math这个变量是否为系统缺失 失值 值或用户缺失值。1表示是,0为不是。 判断指定变量是否取 值为系统缺失值 Sysmis(Math):分别对每条个例判 断Math这个变量是否取值为系统缺 失值,1表示是,0为不是。 Nmiss(Math,English,Chiness): 分别对每条个案计算三科成绩中有几 科取值为系统缺失值或用户缺失值。 Value(Math):忽略Math这个变量 重定义的用户缺失值。
Sysmis(变量名)该变 量必须是数值型变量
Nmiss(变量名1,变量 名2,...)
第三章SPSS数据的预处理详解
利用职工基本情况数据,通过数据排序 功能找到职称最高的职工的最高工资及 职称最低的职工的最低工资。
3.2 变量计算
(1)数据的转换处理 在原有数据的基础上,计算产生一些含有更丰富信息的新 数据。例如根据职工的基本工资、失业保险、奖金等数 据,计算实际月收入,这些新变量具有更直观更有效的 特点。
(2)对数据的原有分布状态进行转换 对原有数据的分布进行转换,以满足建模中某些模型对数 据分布的要求。 非正态或非线性数据的处理 时间序列平稳化处理 标准化处理
息的新数据,或对数据的原有分布进行转换等。 3.数据抽样
从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案) 在某项分析中都有用途,有必要按照一定的规则从大量数据中选取部分 样本参与分析。 4.选取变量
并非收集到的所有数据项(变量)在某项分析中均有意义,选取部分变 量参与分析是很自然的。
SPSS提供了一些专门的功能辅助用户实现数据的预加工处理工作。 运用预处理还可以使用户对数据的总体分布有所了解。
秩、 定义变量集。
数据的预加工处理需要解决的问题有
1.缺失值和异常数据的处理 在第2章曾经讨论过,大量缺失值会给数据分析带来极大的影响。同样, 异常值也会影响最终的分析结果。因此,在数据预处理阶段对缺失值和 异常值进行分析和处理是很必要的。
2.数据的转换处理 数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信
第3章 SPSS数据的预处理
SPSS
分组变量:接纳从源 变量列表框中选择的 分组变量 变量摘要:对进入 此栏的变量值按分组 变量进行汇总。 个案数:显示每组有 多少各个案。 名称可以自定义也可 以是系统自带。
SPSS
选择函数:函数用于定义汇总 函数,计算指定的描述统计量。 SPSS中提供三种函数,但是 每个汇总变量只能选择一个描 述统计量进行汇总。
SPSS
依据一个变量或 多个变量进行排序 先按性别进行 排序,再按 年收入进行 排序
升序:由小到大 降序:由大到小
保存已排好序的文件
SPSS
升 序
SPSS
2、个案排秩
秩(Rank)是数理统计学中的一个重要 的概念,是非参数统计中常用到的统计量。 个案排秩是将个案X1,X2,…Xn,按从小到大 的次序或者从大到小的次序排列后,第i个 个案Xi排在第Ri位上,就称Ri为Xi在个案 X1,X2,…Xn中的秩。 见实例2
SPSS
3.5缺失值
• 缺失值(missing data)可分为三种型态, (1)MNAR (missing not at random) (2)MAR(missing at random) (3)MCAR(missing completely at random)
SPSS
缺失值填补的方法
(1)序列均值:取整列数据的均值 (2)临近点均值:取该缺失值邻近的几个点的均值, 具体几个点由附近的跨度来决定。 (3)临近值的中位数:取缺失值临近几个点的中位 数,具体几个点由附近点的跨度来设定 (4)线性插值法:用该列数据缺失值前一个数据和 后一个数据建立插值直线,然后用缺失点在线性 插值函数的函数值填充 (5)线性趋势法:用缺失值所在列数据建立线性回 归方程。
不等于
第3章 SPSS数据的预处理
特殊情况: 如果在排列大小时出现了相同大小的观察值, 则其秩的定义为足标的平均值。 例如: 抽得的样本观察值按次序排成 0,1,1,1,2,3,3, 则3个1的秩均为,(2+3+4)/3=3 两个3的秩均为? 自学:秩和检验(Rank sum test)
操作步骤:转换—个案排秩
分位数
(一)根据未分组的资料计算四分位数 Q1的位置 =n+1/4 Q2的位置=2(n+1)/4 Q3的位置=3(n+1)/4
操作步骤:数据—加权个案
练习1:输入书中表3-14数据,进行加权 练习2:(数据:SPSS统计分析从入门到精通 \Chapter 03\抽烟与肺癌的关系.sav)
3.7.3 数据拆分 “拆分文件”将数据文件分割为单独的组,以根据 一个或多个分组变量的值进行分析。如果您选择了 多个分组变量,个案按“分组依据”列表的前一个 变量的类别中的每个变量进行分组。例如:如果您 选择性别作为第一个分组变量,选择少数民族作为 第二个分组变量,将按每个性别类别中的少数民族 分类对个案进行分组。 • 您最多可指定 8 个分组变量。 比较数据拆分与分类汇总
f Q1 f Q2 f Q3 分别表示下四分位数、中位数和上四分位数所在组的
例如,某生产车间50名工人日加工零件数如下(单位: 个)。试对数据进行组距分组
117 108 110 112 137 122 131 118 134 114 124 125 123 127 120 129 117 126 123 128 139 122 133 119 124 107 133 134 113 115 117 126 127 120 139 130 122 123 123 128 122 118 118 127 124 125 108 112 135 121
第三章SPSS数据的预处理ppt课件
精品课件
3.3 数据选取(抽样)
▪ 数据选取就是根据分析的需要,从已收集到的 大批量数据(总体)中按照一定的规则抽取部 分数据(样本)参与分析的过程,通常也称为 抽样。
▪ 目的:方便对符合条件的case进行分析。 ▪ SPSS可根据指定的抽样方法从数据编辑窗口中
精品课件
数据排序应用举例
▪ 利用居民储蓄调查数据,通过数据排序功 能分别找到城镇户口和农村户口储户一次 存款金额的最大值和最小值
精品课件
3.2 变量计算
▪ 数据的转换处理是在原有数据的基础上,计算 产生一些含有更丰富信息的新数据。例如根据 职工的基本工资、失业保险、奖金等数据,计 算实际月收入,这些新变量具有更直观更有效 的特点。
精品课件
3.2.2 SPSS算术表达式
▪ 指出按照什么方法计算变量; ▪ SPSS算术表达式(Numeric Expression)是由
常量、变量、算术运算符、圆括号、函数等组 成的式子。
• 字符型常量应当用引号括起来 • 变量是指那些已存在于数据编辑窗口中的原有变量 • 算术运算符主要包括+、-、*、/、**(乘方) • 在同一算术表达式中的常量及变量,数据类型应该
前三个计数区间实际上是一些离散的 数据点,严格讲并不是区间,但SPSS仍将其归 在广义区间的范畴内,目的是方便一些其他的 应用。
精品课件
3.4.3 计数的基本操作
(1)选择单Transform-Count,出现如下窗口:
精品课件
(2)将参与计数的变量选到 Numeric Variables框中
精品课件
3.1.2 数据排序的基本操作
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。
函数书写的具体形式为:函数名(参数)
SPSS有约180个内部函数,其中包括数学函数、逻辑函数、缺失值函数、字符串函数、日期函数等。函数表达方法是在函数名(即函数的几个关键字)后的括号中列出自变量和参数,不同的函数对自变量和参数的要求是不同的,调用之前必须明确对自变量和参数的要求,要给参数赋以恰当的数值。我们将SPSS函数列于书末的附录中供用户参考。下面仅就其中最大的一类数学函数(125多个)作简要介绍。
非中心分布函数பைடு நூலகம்
NPDF.rv_name(q,a…)
非中心概率密度函数(SPSSll.0新增)
表中rv_name代表随机变量名,CDF.rv_name(g,a,…)=P(ξ<q)=p,即对指定的自变量值q,它返回到服从相应概率分布的随机变量ξ<g的概率p。前缀为“IDF”的称为逆分布函数,即分布函数的反函数。离散型随机变量没有逆分布函数。前缀为“PDF”的称为概率函数(离散型随机变量)或概率密度函数。
中心的贝塔分布、χ2分布、Student t分布和F分布等。
各种概率函数中都依赖于数目不等的分布参数,不同分布的参数有不同的取值范围,
因此在调用分布函数时,必须给它们赋以恰当的数值。而且同名的累积分布函数、概率密
度函数、逆分布函数的参数取值是完全一致的。
形如RV.rv_name(a,…),括号内的“a,…”为分布参数,其取值与相应的累积分布函数的参数一致,功能是生成服从相应概率分布的独立观察值,即随机数。例如,对正态随机生成函数RV.NORMAL(a,b)来说,当指定了参数值以后可以产生一列按数据文件中观测量序号排列的服从正态分布的随机数。
3.2.3SPSS算术表达式
在Compute对话框中定义了计算表达式、目标函数,以及设置了计算条件后,单击主对话框的Paste按钮,系统随即打开Systax窗口,该窗口显示如下格式的命令语句。
(1)未设置计算条件情况下,COMPUTE命令语句:
COMPUTE变量名=计算表达式.
EXECUTE.
其中:
(3)在Sort Order栏中选择一种排序方式。如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
(2)统计函数,即数理统计中的统计量,SPSS有7个统计函数,用于计算实变量的均值Mean(argl,arg2,…)、标准差Sd(argl,arg2,…)、变异系数CFVAR(argl,arg2,…)等。
(3)概率函数,SPSS中,给出了概率统计中几乎所有常见的随机变量的分布函数、密度函数、逆分布函数、随机数生成函数、非中心分布函数等。SPSS提供了数量约80个概率函数,它们以函数名的前缀来区分,各种前缀列于表3.3中。
第三章
为什么查进行预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:
数据的排序
变量计算
数据选取
计数
分类汇总
数据分组
数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
单击Continue按钮对设定的条件表达式加以确认,返回Compute Variable主对话框。条件表达式的建立规则是:条件表达式中至少要包括一个关系运算符,也可以使用逻辑运算符,并且可以通过关系(或逻辑)运算符连接多个条件表达式。
各项选择确认后,单击OK。系统将根据表达式和条件计算新变量的值,并且将其结果显示到数据窗口的工作文件中
用Compute命令计算新变量步骤如下:
(1)打开数据文件,执行Transform(转换)→Compute命令,打开Compute Variable(计算变量)对话框。
(2)输入计算表达式。使用计算器板(Colculator Pad)或键盘将计算表达式输入到Numeric Expression (数值表达式)栏中,表达式中需要的SPSS函数可从Function (函数)栏中选择,通过双击鼠标左键或单击该栏上方的箭头按钮将选中者移入表达式栏。这时,栏中函数的自变量和参数用“?”提示,自变量必须选用当前工作文件中的变量,可以从源变量清单栏中选择,选中后用鼠标双击它,或单击栏边的箭头按钮输入表达式中。
SPSS的数学函数均为数值型函数。各函数的自变量可以是符合取值范围要求的数值表达式。数学函数(设arg表示自变量)中包括:
(1)算术函数,如三角和反三角函数、指数和对数函数、四舍五入函数RND(arg)、截尾函数TRUNC(arg)、求余函数MOD(arg,modulus)等。设自变量arg=-5.6,则四舍五入函数RND(—5.6)=—5、截尾函数TRUNC(—5.6)=—4。又如arg=75,则MOD(75,10)=5。
3.2
3.2.1变量计算的目的
略
3.2.2SPSS条件表达式
条件表达式(If..)及其对话框的使用。有时候,仅仅需要对一些符合某些特定条件的自变量的观察值来进行计算。例如,在记录某年级3班和6班学生成绩的数据文件中,我们只需要了解3班女同学的学习情况,需要计算她们各门功课平均成绩,即需选择满足条件“sex=0&class=3”(即三班女学生)的观测值来计算。当条件表达式“sex=0”和“class=3”同时为真时,计算平均成绩。对使表达式为假的或缺失的观测量就不计算这个值,对应于这些观测量,新变量的值为系统缺失值。
3.2.5变量计算的基本操作
统计中,建立的数据文件中包含的数据可能来自统计调查的原始测量结果,统计分析要通过研究变量之间关系来揭示现象的内在数量规律。例如,统计学中大量的相对指标的指标值是不可能通过实际测量得到的,而需要利用有联系的变量的比值计算出来,计算所得的数值就成为新变量的观测值。SPSS提供了强大的Compute (计算)功能,新变量的计算可以利用Compute对话框方便地求得。
3.
3.1.1数据排序的作用
3.1.2数据排序的基本操作
将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:
(1)执行Data→Sort Cases (观测量分类)命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。选择By变量的意义是将按这个变量对观测量进行分类整理。如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。分类整理将按每一个By变量层叠分类整理。例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
●Label:在框中给目标变量加注标签。
●Use expression as label:使用计算目标变量的表达式作为标签,这有利于统计分析时清晰地了解新变量的意义及运算关系。
在此对话框里,还可以对新变量的类型及宽度进行选择。选择确定后,单击Continue按钮,返回主对话框。
3.2.6变量计算的应用举例
SPSS的每个统计功能对话框中都设有Paste按钮,当对话框内选项设置确定以后,单击该按钮,系统按照设定的选项将需执行的命令以SPSS语法程序显示在Syntax窗口,在该窗口可以进一步地编辑,然后执行Run→All菜单命令,或者选择其中部分程序语句,执行Run→Select菜单命令。输出结果或显示于数据窗口,或显示于Output窗口。要深入了解SPSS语法命令,建议同学们在每次运行SPSS命令时,都遵照上述做法进行即可,本书将不再介绍其他语法命令。
统计学中利用已知变量计算新变量的值是经常进行的工作,下面我们应用SPSS提供的变量计算方法解决几个统计学中的问题。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。在我们引用的数本来有一个Order (序号)变量,它的值为自然数顺序。按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。如果文件缺少这样一个变量,经过分类的文件将不能恢复原状。SPSS的许多系统数据文件中都包含一个标志观测量序号的“id'’(单词identity的头两个字母)变量,它就可以起到这个作用。
用鼠标将COMPUTE命令和EXECUTE命令选中,单击Syntax窗口工具条中的箭头按钮或执行RUN→ALL菜单命令,计算结果将显示到数据窗口。
掌握COMPUTE命令的结构后,需要执行变量计算命令时,可以直接打开Syntax窗口自行编写COMPUTE命令语句。而且允许并列多个COMPUTE命令语句,这样可以一次计算多个新变量值,大大地提高计算效率,
在Compute Variable对话框中单击If…按钮,打开If Cases条件对话框。
对话框上方有两个单选项:
●Include all cases:对所有观测量计算新变量值,相当于不设条件,为系统默认的选项。
●Include if cases satisfies condition:对满足条件的观测量计算新变量值。此时,源变量清单栏、表达式栏、函数栏同时被激活,将条件表达式输入表达式框。
COMPUTE average=(math十physical十chemical)/3.
COMPUTE average=mean(scorel to score5).
COMPUTE age=2002—birthday.
COMPUTE sales=quantity*price.