第三章-SPSS数据预处理(1)
第三章 SPSS数据的预处理
第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。
仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:(1)执行Data→Sort Cases (观测量分类) 命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。
选择By变量的意义是将按这个变量对观测量进行分类整理。
如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。
分类整理将按每一个By变量层叠分类整理。
例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
(3)在Sort Order栏中选择一种排序方式。
如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。
各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。
在我们引用的数本来有一个Order (序号) 变量,它的值为自然数顺序。
按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。
第三章-SPSS数据预处理(1)
数据选取的方法
按指定条件选取
随机选取 选取某一区域内的样本 通过筛选变量选取
诚信求是,笃学致公
3.3 数据选取
数据选取的基本步骤
选择菜单【数据->选择个案】; 若使用全部个案,选中【全部个案(A)】 否则可按其他方式选择部分个案。
练习:基本知识点统计.sav
(1)选择“金融学院”学生的数据作为待分析对象; (2)随机选择 50%的个案作为待分析对象。
SPSS算术表达式的操作步骤
选择菜单【转换->计算变量】; 在【数字表达式(E)】输入表达式;
在【目标变量(T)】存放计算结果的变量,可以是新变量,也可以覆盖已 有变量。
若希望对符合一定条件个案计算,单击【如果(I)】,选择【如果个案满 足条件则包括(F)选项】,输入条件表达式。
若指定存放计算结果的变量为新变量,SPSS会自动创建;若变量已存在, 则会覆盖原来旧值。
诚信求是,笃学致公
3.2 变量计算
(1)SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子; 运算符主要包括: +、-、*、/、**(乘方);
操作对象的数据类型是数值型;
在同一算术表达式中的常量及变量的数据类型应该一致,否则无法计算。
诚信求是,笃学致公
3.2 变量计算
依次指定第二、第三等排序变量及相应排序顺序。
诚信求是,笃学致公
3.2 变量计算
变量计算的目的
派生新变量: 根据职工的基本工资、失业保险和奖金派生变量“实际 月收入”; 变换数据的原有分布:对非正态变量的对数变换、对时间序列平稳处 理;
变量计算的相关概念
SPSS算术表达式 SPSS条件表达式 SPSS函数
第3章 SPSS数据的预处理(上机1)
第三章第三章spssspss数据的预处理数据的预处理上机上机11上机作业上机作业2利用前面所做居民储蓄调查数据的数据将其按常住地升序收入水平升序存款金额降序进行多重排序
第三章 SPSS数据的预处理 (上机1)
上机作业
1、实践SPSS数据的排序、计算与选取。 2、利用前面所做“居民储蓄调查数据”的数据, 将其按常住地(升序)、收入水平(升序)、存款金额 (降序)进行多重排序 。 3、利用前面所做“居民储蓄调查数据”的数据, 采用SPSS数据筛选功能将数据分成两份文件。其 中,第一份数据文件为存储常住地“沿海或中心 繁华城市”且本次存款金额在1000~5000元之间 的调查数据;第二份数据文件是按照简单随机抽 样所选取的70%的样本数据。 4、利用前面所做“学生成绩”合并数据,计算 每个学生课程的平均分和标准差同时计算男生 和女生各科成绩的平均分。
第三章 SPSS数据的预处理
SPSS
第六节 数据分组
• 数据分组就是根据统计研究的需要,将数 据按照某种标准重新划分为不同的组别。 分组目的
• 对数值型数据进行整理和粗略把握数据分布情况 • 在数据分组基础上对数据进行频数分析 • 实现数据的离散化处理
SPSS
SPSS的数据分组方法
单变量值分组 组距分组 分位数分组(略)
SPSS
SPSS
SPSS
SPSS
以学生成绩.sav为例
对两门课中成绩在优良以上 (分数大于等于80分)的计数
SPSS
SPSS
SPSS
第五节 分类汇总
• 分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确:
• 按照哪个变量进行分类 • 对哪个变量进行汇总,并指定对哪些统计 量进行计算
SPSS
第三章 SPSS数据的预处理 数据的排序
变量计算 数据选取 计数 分类汇总
数据分组
数据预处理的其他功能
SPSS
第一节数据的排序
数据排序的目的 数据排序的基本操作 数据排序的应用举例
数据排序的目的
SPSS
SPSS数据排序是将数据编辑窗口按照某个 或多个指定变量的变量值升序或降序重新 排列。
SPSS
变量计算的目的
• 数据的转换处理 • 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量,需注意:
变量计算针对所有个案的,每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中,该变量的数据 类型与计算结果的数据类型要一致。
SPSS算术表达式
SPSS • 由常量、变量、算术运算符、圆括号、函 数等组成的式子
SPSS
第三章 SPSS 数据的预处理
4) 条件语句编辑
单击 if 按钮,进入条件语句编辑框,有两个单选按钮。 a) Include all cases :对所有个案进行计算,默认选项。
b) Include if cases satisfied condition:仅对满足条件的
个案进行计算。选择这一单选按钮后,编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是,每次只能 编辑一个筛选条件,不能同时编辑多个筛选条件。 对应工资上浮5%的条件是职称值等于1,高级工程师。 在编辑框输入表达式:zc=1
3) 数据排序例
对居民储蓄存款调查数据,利用排序的方法找出城镇居 民和农村居民一次性存款的最大值和最小值。 操作:户口,升序;存款额,升序。
13:33:33 4
2 变量的计算
在统计分析过程中,为了更有效的反映事物的本质,有
时需要对变量的数据进行加工整理,产生新变量和计算结果。
比如计算一个变量的倍数,计算几个变量的和、差,计 算变量的绝对值、平方等等。
13:33:33 19
(1) Filter out unselected cases
过滤掉没有选择的个案。这时未被选中的个案上打上斜 线作为删除标记。默认选项。
(2) Copy selected cases to a new dataset
将选择了的个案存储到一个新的数据集中,这时需要在
其后的文本框中输入要存储数据集的名字。
13:33:33
条件 zc=2 zc=3 zc=4 工程师 助理工程师 无职称
10
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
变量的计算,无法一次将不同条件的表达式集中编写, 只能一个条件表达式运行一次。
13:33:33
第3章 SPSS数据的预处理
<(小于)、=(等于)、 ~=(不等于)、 >=(大于等于)、<=(小于等于)。
如:nl>32、sr<=700。
2.复合条件表达式
又称逻辑表达式,由逻辑运算符、括号和简单
条件表达式组成。 逻辑运算符:&(AND) 并且、│(OR) 或者、 ~(NOT) 非。Not运算符优先、其次and、最低 是or。但可以用括号改变运算次序。 如:(nl>32) and (sr<=700) (nl=32) | (sr<=700)
用分组变量值覆盖原变量(Into Same Variables) , 将分组结果存到一个新变量中(Into Different
Variables)。相应的操作也略有差异。通常采用第 二种策略
3.6.3 数据分组的应用举例
问题:分析被调查家庭人均住房面积的分布(住房状 况调查数据) 操作:
【transform】→【recode into different variables】 选择分组变量“人均面积”到【numeric variable】中 在【output variable】框中的【name】后输入存放分 组结果的变量名,如mj,并按【change】确认。还可 以在【label】后输入相应的变量名标签 根据分析要求在【old and new values】内逐个定义各 分组区间 如果仅对符合一定条件的个案分组,则单击If按钮并输 入SPSS条件表达式。否则,本步可略去
按照哪个变量(如上例中的学历、职业和年
龄段)进行分类
对哪个变量(如上例中的基本工资、消费金
额)进行汇总,并指定对汇总变量计算哪些 统计量(如上例中的平均工资、平均消费金 额和标准差)
第三章 SPSS数据预处理
按性别变量汇总数据
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时,变量名的选择顺序。 生成的新文件名默认为:aggr.sav。可修改。 生成的新变量名默认为原变量名后加_1。可修 改。 可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一 个数据文件(职工数据.sav)。 按Data Sort Cases,弹出一 个排序对话框(以职称为主排序 变量降序,基本工资为第二排 序变量的升序进行多重排序)。 依据需要进行选择,然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案,计算若干个变量中有几个 变量的值落在指定的区域内,并将结果存入新 变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域,给出最大和 最小值 range: lowest through n:最小值到某个给定 值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。 按Data Split Files顺序逐一单击鼠
标,打开Split Files对话框。 根据对数据的具体需要选择相应的 选项。 按Ok完成。
1.利用居民储蓄调查数据,将数据分成两个文件,一 个为存储常住地在“沿海或中心繁华城市”且本次存 款金额在1000~5000元之间的调查数据,二是按照简 单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据,将其按常驻地升序、收入 水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据,对每个学生计算得优课程 数和得良课程数,并按得优课程数降序排序。 4.学生成绩合并后数据,计算每个学生课程的平均分 和标准差,同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中,如果认为“今年收入比去 年增加”“预计未来一两年收入仍会增加”的人是对 自己收入比较满意和乐观的人,请利用计数和数据筛 选功能找到这些人。
第3 章 SPSS数据的预处理
二、计数的应用举例 利用住房调查数据,分析被调查家庭中有 多少比例的家庭对目前的住房满意且近几 年不准备购买住房。 “住房满意”变量中,取值1为表示满意; “未来三年”,取值1表示不准备购买住房 步骤: 1.选择菜单:[转换T]—[对个案内的值计数 O] 出现如下菜单
2.选择参与计数的变量到[数字变量V]框中 3.在[目标变量T]框中输入存放计数结果的变 量名,并在[目标标签]框中输入变量名标签
二、数据选取的应用举例 从住房状况调查数据中选取: 希望仅对具有外地户口的家庭状况进行分析 希望对全部样本中的5%的个案进行分析 步骤: 1.选择菜单:[数据D]—[选择个案] 2.在[选择]框中选择抽样方法。[全部个案]表示全部选中, 第一种抽样方案应选择“如果条件满足”,第二种方案应 选择“随机个案样本”项下的“大约”项,并输入比例数5 3.指定对未选中个案的处理方式。其中,过滤掉未选定 的个案F,表示系统自动增加一个变量filter_$,未被选中 的个案号码变量值取0,选中的取值为1;删除未选定的个 案表示未选中的个案被删除 ;[将选定个案复制到新数据 集], 表示将筛选出的个案复制到一个新的数据编辑窗口 中,应在[数据集名称]后输入新数据文件的名称。
第1节 数据的排序
ቤተ መጻሕፍቲ ባይዱ
排序是将数据编辑窗口的数据按照某个或多个指 定变量的变量值升序或降序排列。 排序变量 单值排序 多重排序 主排序变量/第二排序变量/。。。 一、数据排序的目的 便于浏览 快捷找到最大值和最小值 快捷发现异常值
二、排序的步骤: 1.选择菜单[数据D]—[排序个案] 2.指定主排序变量到[排序依据]框中,并选 择[排列顺序]框中的选框,[升序A]表示从 小到大排,[降序D]表示从大到小排。 3.如果多重排序,还要依次指定第二、第 三排序变量及相应规则
《SPSS数据分析与应用》SPSS数据预处理
SPSS数据变量计算
SPSS算术表达式:SPSS算术表达式是由常量、变量、算术运算符、圆括号、 函数等组成的式子。
• 字符串型常量应当用英文引号引起来 • 变量是指那些存在于数据编辑器窗口中的已有变量 • 算术运算符主要包括+(加)、-(减)、*(乘)、/(除)、**(乘方)。
SPSS条件表达式:条件表达式是对条件进行判断的式子。其结果有两种取值 :若判断条件成立,则结果为真;若判断条件不成立,则结果为假。
第一步:选择菜单:【转换 (T)】→【计算变量(C)】;
第二步:在【数字表达式(E) 】框中给出SPSS算术表达式和 SPSS函数,可以手工输入,也 可以使用算术表达式和函数的 输入工作;
第三步:在【目标变量(T)】 框中输入存放计算结果的变量 名。
Part 3.4
SPSS数据重新编码
SPSS数据重新编码
数据重新编码应用举例:根据大学生恋爱数据,对“生活费_百元”变量进行 重新编码。
基本操作步骤: 第一步:点击【转换(T)】→【重新编码 为不同变量(R)】; 第二步:在【输出变量】下的【名称(N)】 框中输入存放结果的变量名,并点击【变化 量(H)】按钮确认,这里将“生活费等级” 作为新变量名。也可在【标签(L)】后输入 相应的变量名标签;
数据重新编码概念:当对数据中某些变量进行分组处理、改变变量的值或数 据类型时,需要使用SPSS重新编码功能。
数据重新编码目的:将变量的原始值重新设定;
• 重新编码为相同变量时,变量的值改变后直接覆盖原变量; • 重新编码为不同变量时,是根据原来变量某一值或某一值范围,变成一个新的数值。
SPSS数据重新编码
SPSS数据重新编码
基本操作步骤: 第三步:点击【旧值和新值(O)】按钮, 打开新旧值窗口;
第3章 SPSS数据的预处理
精通SPSS统计分析
3.4.1 数据选取的目的
数据选取主要有以下几个目的: 1. 提高数据分析效率
如果数据量较大会在一定程序上影响计算和建模的效率,因此,可以依据 一定的抽样方法从总体上抽取少量样本,后面的分析只针对样本进行,这样会 大大提高分析的效率。当然,抽取出的样本应具有总体代表性,否则分析的结 果可能会有一些偏差。
数据应分成多少组比较适合,通常与数据本身的数据个数有关。由于分组 的目的之一是为了观察数据分布的特征,因此,组数的确定应以能够清楚地显 示数据分布特征和规律为原则。组数太少会使数据的分布过于集中,而组数太 多又会使数据的分布过于分散,这样都不便于观察数据分布的特征和规律。
2.组距的确定
组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值 及组数来确定,即: 组距=(最大值-最小值)/组数 当上述问题确定以后,便可以实施分组操作了。在SPSS分组操作时应注意 指定分组变量、定义分组区间和指定存入分组结果的变量。
精通SPSS统计分析
(5)选择按升序进行分组,即“Lowest value”单选按钮,然后单击“OK”按钮, 如图3-5所示。 (6)返回数据编辑窗口后,其分组结果如图3-6所示。
图3- 5 确认设置
图3- 6 分组效果
精通SPSS统计分析
3.7.3 SPSS的组距分组
在连续变量或变量值较多的情况下,数据分组通常采用组距分组。组距分组是将 全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。组距分组中的 关键问题主要有以下两个。 1.分组数目的确定
图3- 1 “Select Case”对话框
精通S算的目的 SPSS算术表达式
SPSS条件表达式
SPSS函数
spss_第三章_SPSS数据的预处理
3.3.2 数据选取的基本操作
(1)选择菜单Data—Select cases (2)根据分析需要选择数据选取方法 (3)Unselected cases are指定对未选
①指定哪些变量参与计数,计数的结果存入哪个新变量中 ②指定计数区间(尤为关键)
3.4.2 计数区间
SPSS中的计数区间可以有以下几种描述形式:
❖ 单个变量值(Value) ❖ 系统缺失值(System-missing) ❖ 系统缺失值或用户缺失值( System or user-
missing) ❖ 给定最大值和最小值的区间(n through m) ❖ 小于等于某指定值的区间(Lowest through n) ❖ 大于等于某指定值的区间(n through highest)
②精确抽样(Exactly)
精确抽样要求用户给出两个参数。第一个参数 是希望选取的个案数,第二个参数是指定在前 几个个案中选取。SPSS自动在数据编辑窗口 的前若干个个案中随机精确地抽出相应个数的 个案来。
(4)选取某一区域内的样本( Based on time or case range ) 即选取数据编辑窗口中样本号在指定范围内的 所有个案,要求给出这个范围的上、下界个案 号码。这种抽样方法适用于时间序列数据。
①近似抽样(Approximately)
近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例 自动从数据编辑窗口中随机抽取相应百分比数目的个案。
第3章 SPSS数据的预处理
Abs(sr-850):分别计算每 条个案变量sr与850之差的绝 对值
Sqrt(4):函数值=2
Sin(30*3.14/180):函数 值:0.50
Cos(60*3.14/180):函数 值=0.50 Exp(5):函数值=148.41 Ln(sr)分别计算每个个案 变量sr的自然对数值 Lg10(5)函数值=0.7 Rnd(2.66):函数值=3.0 Trunc(4.7):函数值=4 Mod(20,3)函数值=2
主要操作步骤
• 1)数据→排序个案
• 2)指定主排序变量到“排序依据”中
• 3)选择“排列顺序”
• 4)如果是多重排序,再指定第二、第三等 排序变量
注意
• 1、数据排序是整行数据排序,而不是只对 某列变量排序 • 2、多重排序中指定排序变量的次序很关键 • 3、必要时保留数据的原始排列顺序
二、变量计算
Xdate.jday(日期型变量)
Xdate.week(日期型变量)
缺失值函数
函数名 Missing(变量名)该变 量必须是数值型变量 功能 举例 判断指定变量是否为 Missing(Math):分别对每条个案 系统缺失值或用户缺 判断Math这个变量是否为系统缺失 失值 值或用户缺失值。1表示是,0为不是。 判断指定变量是否取 值为系统缺失值 Sysmis(Math):分别对每条个例判 断Math这个变量是否取值为系统缺 失值,1表示是,0为不是。 Nmiss(Math,English,Chiness): 分别对每条个案计算三科成绩中有几 科取值为系统缺失值或用户缺失值。 Value(Math):忽略Math这个变量 重定义的用户缺失值。
Sysmis(变量名)该变 量必须是数值型变量
Nmiss(变量名1,变量 名2,...)
第三章SPSS数据的预处理详解
利用职工基本情况数据,通过数据排序 功能找到职称最高的职工的最高工资及 职称最低的职工的最低工资。
3.2 变量计算
(1)数据的转换处理 在原有数据的基础上,计算产生一些含有更丰富信息的新 数据。例如根据职工的基本工资、失业保险、奖金等数 据,计算实际月收入,这些新变量具有更直观更有效的 特点。
(2)对数据的原有分布状态进行转换 对原有数据的分布进行转换,以满足建模中某些模型对数 据分布的要求。 非正态或非线性数据的处理 时间序列平稳化处理 标准化处理
息的新数据,或对数据的原有分布进行转换等。 3.数据抽样
从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案) 在某项分析中都有用途,有必要按照一定的规则从大量数据中选取部分 样本参与分析。 4.选取变量
并非收集到的所有数据项(变量)在某项分析中均有意义,选取部分变 量参与分析是很自然的。
SPSS提供了一些专门的功能辅助用户实现数据的预加工处理工作。 运用预处理还可以使用户对数据的总体分布有所了解。
秩、 定义变量集。
数据的预加工处理需要解决的问题有
1.缺失值和异常数据的处理 在第2章曾经讨论过,大量缺失值会给数据分析带来极大的影响。同样, 异常值也会影响最终的分析结果。因此,在数据预处理阶段对缺失值和 异常值进行分析和处理是很必要的。
2.数据的转换处理 数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信
第-3-章--SPSS-数据的预处理
7
SPSS 条件表达式
条件表达式通常用于指定满足某个条件的个案。 条件表达式是一个对条件进行判断的式子。其结果有
两种取值: ➢ 如果判断条件成立,则结果为真; ➢ 如果判断条件不成立,则结果为假。 条件表达式包括简单条件表达式和复合条件表达式。
8
SPSS 条件表达式
简单条件表达式: ➢ 由关系运算符、常量、变量以及算术表达式等组成的
组距分组
在变量值较多的情况下,数据分组通常采用组距 分组。组距分组是将全部变量值依次划分为若干区间 ,并将同一区间的变量值作为一组。
(1) 全距:最大值与最小值之差 (2) 组数:组数的多少以分组后能清楚反映数据内部 的分布特征和规律为原则。可按 Sturges 经验公式确 定组数: K 1 ln n
式子。 ➢ 关系运算符包括: >、<、=、~=(不等于)、>
=、<=。 如:nl > 32、sr <= 900 复合条件表达式: ➢ 由逻辑运算符号、圆括号和简单条件表达式等组成的
式子。 ➢ 逻辑运算符号包括 ~ 或 NOT(非)、& 或 AND
(并且)、| 或 OR(或者)。 ➢ 如:(nl>32) and not (sr<9=900)
18
数据拆分
数据拆分:是将数据按一个或几个指定的变量进行 分组。后续进行的统计分析将按照分组进行。
菜单选项:数据 -> 拆分文件 注意:数据拆分后,在状态栏会显示“拆分条件” 取消拆分方法:重新执行数据拆分,选择“分析所
有个案,不创建组”。 例:“职工数据.sav”,按职称变量分组 ➢ 比较组:分组统计结果输出在同一张表格中 ➢ 按组织输出:分组统计结19果分别输出在不同的表格
第3章 SPSS数据的预处理
SPSS
分组变量:接纳从源 变量列表框中选择的 分组变量 变量摘要:对进入 此栏的变量值按分组 变量进行汇总。 个案数:显示每组有 多少各个案。 名称可以自定义也可 以是系统自带。
SPSS
选择函数:函数用于定义汇总 函数,计算指定的描述统计量。 SPSS中提供三种函数,但是 每个汇总变量只能选择一个描 述统计量进行汇总。
SPSS
依据一个变量或 多个变量进行排序 先按性别进行 排序,再按 年收入进行 排序
升序:由小到大 降序:由大到小
保存已排好序的文件
SPSS
升 序
SPSS
2、个案排秩
秩(Rank)是数理统计学中的一个重要 的概念,是非参数统计中常用到的统计量。 个案排秩是将个案X1,X2,…Xn,按从小到大 的次序或者从大到小的次序排列后,第i个 个案Xi排在第Ri位上,就称Ri为Xi在个案 X1,X2,…Xn中的秩。 见实例2
SPSS
3.5缺失值
• 缺失值(missing data)可分为三种型态, (1)MNAR (missing not at random) (2)MAR(missing at random) (3)MCAR(missing completely at random)
SPSS
缺失值填补的方法
(1)序列均值:取整列数据的均值 (2)临近点均值:取该缺失值邻近的几个点的均值, 具体几个点由附近的跨度来决定。 (3)临近值的中位数:取缺失值临近几个点的中位 数,具体几个点由附近点的跨度来设定 (4)线性插值法:用该列数据缺失值前一个数据和 后一个数据建立插值直线,然后用缺失点在线性 插值函数的函数值填充 (5)线性趋势法:用缺失值所在列数据建立线性回 归方程。
不等于
第三章--SPSS-数据的预处理ppt课件
4/2/2020
10
6) 计算方法的不足
变量的计算,无法一次将不同条件的表达式集中编写, 只能一个条件表达式运行一次。
4/2/2020
11
3 数据抽样(选取)
在实际的工作中,往往需要对满足一定条件的数据进行 分析。如研究储蓄存款时,将储户分成城镇储户和农村储户, 这时的数据更具有相同的特征,研究也更具有针对性。
a) Rendom:每次抽取,都产生一个随机数作为开设置. b) Fixed Value:在下边的文本框中填入一个大于0小于 的具体数值作为种子。
(4) Based on time or case range
在指定的范围内,顺序抽样,更适于时间序列数据。 点击Range按钮,弹出Select cases:Range对话框。
(2) 确定统计所关注的变量值
变量一般取多个值,我们只关心多个变量同时取的某个
4/2/2020
24
值的个数。这里是定义几个变量要取的那个固定的值。
例子:收入情况未来收入情况这两个变量取3的有几个? 点击【 Define Values 】按钮,将选择的一个或多个变量 与指定的值建立关系对话框。 对话框分成两个区域:左边的区域是值定义,右边是值 存储及修改。
5) 条件语句编辑编辑例
这时高级工程师的个案的sfgz变量都有了数据,其它职
称个案的sfgz的值为缺失值。
重复同样的方法,分别设置:
表达式
条件
(sr-bx)*1.03
zc=2
工程师
(sr-bx)*1.02
zc=3
助理工程师
(sr-bx)*1.01
zc=4
无职称
这时变量sfgz所在的列将不再有缺失值。
例子特点:多个变量中 ,取同一值的变量有多少个? 例2:中考成绩(计数63).sav :要统计出每一考生语文、 英语、数学、物理和化学5科成绩,落在某一区间(如[70,79]) 的有几科?
第三章 SPSS数据的预处理
第二,精确抽样(Exactly) 精确抽样要求用户给出两个参数.第 一个参数是希望选取的个案数,第二个 参数是指定在前几个个案中选取.SPSS 自动在数据编辑窗口的前若干个个案中 随机精确地抽出相应个数的个案来.
(4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样 本号在指定范围内的所有个案,要求给出这个 范围的上,下界个案号码.这种抽样方法适用 这种抽样方法适用 于时间序列数据. 于时间序列数据. (5)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样 本选取.要求指定一个变量作为过滤变量,变 量值为非0或非系统缺失值的个案将被选中. 这种方法通常用于排除包含系统缺失值的个案. 这种方法通常用于排除包含系统缺失值的个案.
SPSS数据排序的基本操作步骤 (1)选择菜单Data→Sort Cases → (2)将主排序变量从左边的列表中选到 Sort by框中,并在Sort Order框中选 择按该变量的升序还是降序排序. (3)如果是多重排序,还要一次指定第 二,第三排序变量及相应的排序规则.
在左边的源变量框 源变量框中 源变量框 选择排序变量进入Sort by框.如果选择2个以 上的变量,观测量的 排序结果与排序变量 在Sort by框中的顺序 有关.列于首位的为 第一排序变量.
变量计算的应用举例
例:利用职工基本情况数据,依据职称 级别计算实发工资.假设职工的工资分 别上调50%. 50
3.3 数据选取
数据选取就是根据分析的需要,从已收集到的 大批量数据(总体)中按照一定的规则抽取部 分数据(样本)参与分析的过程,通常也称为 抽样. 抽样 SPSS可根据指定的抽样方法从数据编辑窗口 中选出部分样本以实现数据选取,提高效率与 适应模型检验的需要,这样后面的分析操作就 只针对选出的数据,直到用户取消这种选取为 止.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练习:
(3)计算身高大于160,“计算机学院”学生的体质指数;
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数
算术函数
函数 abs(numbexpr) Rnd(numbexpr) Trunc(numbexpr) sqrt(numbexpr) 说明 绝对值函数 四舍五入函数 取整函数 平方根函数 范例(x=2.6,y=3) ABS(y-x)=0.4 RND(x)=3 TRUNC(x)=2 SQRT(y)=1.71
3.2 变量计算
(3)SPSS函数
字符串函数
函数
Concat(strexpr,strexpr) Index(s1,s2) 范例 CONCAT(th,is)=this INDEX(‘this is’,’is’)=3
说明
将自变量连成一个新自变量 s2在s1 中第一次出现的位置 自变量 s 所含文字的个数(包括特殊字符 和空格) 自变量 s 中的大写字母改为小写字母 将自变量 s 中的小写字母改为大写字母
诚信求是,笃学致公
3.4 计数
SPSS实现计数的关键步骤
指定哪些变量参与计数,计数结果存放在哪个新变量中 指定计数区间:(☆☆) 单个变量值 系统缺失值 系统缺失值或用户缺失值 给定最大值和最小值区间 大于等于某个指定值的区间 小于等于某个指定值的区间
诚信求是,笃学致公
数据选取的方法
按指定条件选取
随机选取 选取某一区域内的样本 通过筛选变量选取
诚信求是,笃学致公
3.3 数据选取
数据选取的基本步骤
选择菜单【数据->选择个案】; 若使用全部个案,选中【全部个案(A)】 否则可按其他方式选择部分个案。
练习:基本知识点统计.sav
(1)选择“金融学院”学生的数据作为待分析对象; (2)随机选择 50%的个案作为待分析对象。
练习: 计算
体质指数(BMI)=体重(kg)÷身高^2(m)
(1) 将身高单位转换为m (2) 计算BMI。
诚信求是,笃学致公
3.2 变量计算
(2)SPSS条件表达式
简单条件表达式 >、 <、=、~=(不等于)、>=、<=
复合条件表达式
由逻辑运算符(NOT>AND>OR)、圆括号、简单条件表达式组成
3.2 变量计算
(3)SPSS函数
统计函数
函数
Mean(numexpr,numexpr,…) Min(value, value,…) 范例(X1=2,X2=5,X3=8) MEAN(X1,X2,X3)=5 MIN(X1,X2,X3)=1
说明
自变量的平均值 自变量的最小值
Max(value, value,…)
将文件保存成 “.sav”格式文件,文件名为 “姓名+侠客行.sav”。
诚信求是,笃学致公
3.3 数据选取
根据数据分析需要,从已收集的大批量数据中按照一定的规则抽取部分 数据参与分析。
数据选取的目的
提高数据分析的效率:当样本量较大时,选择部分样本代表总体。 验证模型的需要:用部分数据构建模型,剩余数据验证模型的效能。 (一般用于分类或预测等任务中)
诚信求是,笃学致公
SPSS 软件应用实验
诚信求是,笃学致公
推荐参考书
SPSS统计分析方法及应用(第4版)
薛薇著,电子工业出版社。
SPSS22.0统计分析应用教程,冯岩 松著,清华大学出版社。
SPSS统计分析基础教程(第二版),
张文彤、邝春伟 著,高等教育出版
社。
SPSS统计分析方法及应用实验教程, 徐秋艳著,中国水利水电出版社。
SPSS的分位数基本步骤
选择菜单【转换->可视分箱比】; 将分组变量选择到【要分箱的变量(B)】框中,单击继续; 单击【生成分割点】按钮进行分隔。
练习:学生期末成绩.sav
(1)按“数学”对数据进行分位数分隔,并将新变量命名为“按数学成绩分位 数分组”。
诚信求是,笃学致公
SPSS基本统计分析
将变量 s 前的字符空格删掉
将变量 s 尾部的字符char删掉 Rtrim(s,char)
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数 随堂作业:
将文本文件“侠客行”导入SPSS,并以“,”将句子三个变量; 将前两个变量对应的字符串连接起来,形成上句;并将原来三个变量整 理成两个变量,分别命名为“上句”、“下句”; 将变量中的“--”、“ ”、“@”等无用符号剔除; 求字符串“五岳”在变量“下句”中出现的位置
依次指定第二、第三等排序变量及相应排序顺序。
诚信求是,笃学致公
3.2 变量计算
变量计算的目的
派生新变量: 根据职工的基本工资、失业保险和奖金派生变量“实际 月收入”; 变换数据的原有分布:对非正态变量的对数SS算术表达式 SPSS条件表达式 SPSS函数
计数的基本步骤
选择菜单【转换->对个案内的值 计数】; 选择参与计数的变量到【变量 (V)】框中; 单击【定义值【V】】定义计数 区间,通过添加、更高、删除按 钮完成计数区间的增删改;
练习:基本知识点统计.sav
(1)对“金融学院”的个案计数,并将变量命名为“金融学院”; (2)对 “方差分析”变量中1-2分的个案计数,并将变量命名为“不掌握”。
主动分类变量到【分组变量(B)】框中;
指定汇总变量到【变量摘要(S)】框中。 单击【函数(F)】按钮指定对汇总变量计算哪些统计量; 指定将分类汇总结果保存到何处; 单击【变量名与标签(N)】按钮重新指定结果文件中的变量名。
练习:基本知识点统计.sav
(1)按“学院”对数据进行分类汇总,并将新数据集命名为“按学院汇总”; (2)对 所有变量分类计算均值,观察分析不同学院在各知识点上的掌握情况。
分位数分组:由分位数决定分组区间。
诚信求是,笃学致公
3.6 数据分组
SPSS的组距分组基本步骤
选择菜单【转换->重新编码为相同变量】; 将分组变量选择到【数字变量(V)】框中; 单击【旧值和新值(O)】按钮进行分组区间定义。
选择菜单【转换->重新编码为不同变量】;
将分组变量选择到【数字变量(V)->输出变量】框中; 在【名称】后输入存放分组结果的变量名,并单击【更改】确认;
• 频数分析 • 计算基本描述统计量 • 交叉分组下的频数分析
诚信求是,笃学致公
小 结
27
诚信求是,笃学致公
谢 谢!
黄佳佳 haungjj@
诚信求是,笃学致公
3.6 数据分组
数据分析就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。 在数据分组基础上进行频数分析,能够概况和体现数据的分布特征。
SPSS数据分组方法
单变量值分组:将每个变量值作为一组,适用于离散值且样本量较小的情况。 组距分组:将变量依次划分为若干个区间,并将一个区间的变量值作为一组。
诚信求是,笃学致公
3.5 分类汇总
分类汇总是按照某分类分别对数据进行计算。
SPSS实现数据汇总的关键步骤
按照哪个变量(如学院)进行分类; 对哪个变量(如t统计、聚类分析)进行汇总,并指定对汇总变量计算哪 些统计量,如方差、平均值等。
诚信求是,笃学致公
3.5 分类汇总
数据汇总的基本步骤
选择菜单【数据->分类汇总】;
诚信求是,笃学致公
课程内容
1 • 了解数据预处理的相关功能 2 • 掌握SPSS数据排序、计数、分组 3 • 理解数据变量计算
4
5
3
诚信求是,笃学致公
SPSS数据预处理
• 数据排序 • 变量计算 • 数据选取 • 计数 • 分类汇总 • 数据分组
诚信求是,笃学致公
3.1 数据排序
Sum(numexpr,numexpr,…) Sd(numexpr,numexpr,…) Variance(numexpr,numexpr,…) Cfvar(numexpr,numexpr,…)
自变量的最大值
求和 求标准差 求方差 求变异系数
MAX(X1,X2,X3)=8
SUM(X1,X2,X3)=15 SD(X1,X2,X3)=3 VAR(X1,X2,X3)=9 CFVAR(X1,X2,X3)=0.6
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数
缺失值函数
函数
Missing(variable) 范例 MISSING(X1)=1 MISSING(X2)=1 MISSING(X3)=0 SYSMIS(X1)=0 SYSMIS(X2)=1 SYSMIS(X3)=0 NMISS(X1,X2,X3)=2 NVALID(X1,X2,X3)=1 VALUE(X1)=X1
SPSS算术表达式的操作步骤
选择菜单【转换->计算变量】; 在【数字表达式(E)】输入表达式;
在【目标变量(T)】存放计算结果的变量,可以是新变量,也可以覆盖已 有变量。
若希望对符合一定条件个案计算,单击【如果(I)】,选择【如果个案满 足条件则包括(F)选项】,输入条件表达式。
若指定存放计算结果的变量为新变量,SPSS会自动创建;若变量已存在, 则会覆盖原来旧值。
诚信求是,笃学致公
3.2 变量计算
(1)SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子; 运算符主要包括: +、-、*、/、**(乘方);
操作对象的数据类型是数值型;
在同一算术表达式中的常量及变量的数据类型应该一致,否则无法计算。
诚信求是,笃学致公
3.2 变量计算