第3章 SPSS数据的预处理 PPT课件
第章SPSS数据的预处理PPT课件
SPSS 函数
算术函数:完成特定的算术计算。 统计函数:计算基本的描述统计量。 与分布有关的函数:随机函数,分布函数及其反函数
、概率密度函数等。 查找函数:用于查找判断。 字符串函数:对字符型数据进行处理。 日期函数:对日期进行处理。 缺失值函数:用于判断缺失值。 其他函数:一些辅助函数。
18
分类汇总
例:“大学生职业生涯规划.sav” 问题:为评价不同专业类别学生对本专业和未来职业 的喜爱及了解程度,对专业和职业认知得分按专业类 别分别计算平均得分。 分类变量:专业分类 汇总变量:专业和职业认知得分 统计量:平均值
19
数据拆分
数据的排序:将所有个案按照用户指定的某一个或 多个变量的变量值进行升序或降序重新排列。
排序的作用:方便了解数据的取值分布状况,特别 是有助于发现数据的异常值。
注意: (1) 排序的次序:升序、降序。 (2) 多重排序时,指定排序变量的次序很关键。 (3) 数据排序是对个案排序,而不只是对变量排序。
系统缺失值的个案被选中,用于排除包含系统缺失 值的个案 注意:应根据不同的分析要求采用不同的选取方法
13
数据选取
例:“大学生职业生涯规划.sav” 问题: (1) 仅对大四学生进行分析; (2)随机选取100个个案。
注意:完成数据选取后,之后的分析将只针对被选 中的个案。
取消个案选取的方法: 删除 SPSS 产生的中间变量 “filter_$” 在选择个案窗口中选择“全部个案”
17
分类汇总
分类汇总:按照指定的分类变量值对所有个案进行 分类,从而可以分析各分组下样本的统计特征。
SPSS 实现分类汇总涉及两个主要方面: (1) 按照哪个(或多个)变量进行分类 (2) 对哪个变量进行汇总,并指定对汇总变量计算
第三章SPSS数据预处理PPT课件
3.1 数据排序
诚信求是,笃学致公
单值排序基本操作步骤
选择菜单【数据->排序个案】; 指定主排序变量到【排序依据】中,并选择指定排序是升序还是降序。
3.1 数据排序
诚信求是,笃学致公
多重排序基本操作步骤
选择菜单【数据->排序个案】; 指定主排序变量到【排序依据】中,并选择指定排序是升序还是降序; 依次指定第二、第三等排序变量及相应排序顺序。
诚信求是,笃学致公
SPSS 软件应用实验
诚信求是,笃学致公
推荐参考书
SPSS统计分析方法及应用(第4版) 薛薇著,电子工业出版社。
SPSS22.0统计分析应用教程,冯岩 松著,清华大学出版社。
SPSS统计分析基础教程(第二版), 张文彤、邝春伟 著,高等教育出版 社。
SPSS统计分析方法及应用实验教程, 徐秋艳著,中国水利水电出版社。
则会覆盖原来旧值。
练习: 计算 体质指数(BMI)=体重(kg)÷身高^2(m)
(1) 将身高单位转换为m
(2) 计算BMI。
3.2 变量计算
诚信求是,笃学致公
(2)SPSS条件表达式
简单条件表达式 >、 <、=、~=(不等于)、>=、<= 复合条件表达式 由逻辑运算符(NOT>AND>OR)、圆括号、简单条件表达式组成
3.2 变量计算
诚信求是,笃学致公
(3)SPSS函数
统计函数
函数 Mean(numexpr,numexpr,…)
Min(value, value,…) Max(value, value,…) Sum(numexpr,numexpr,…) Sd(numexpr,numexpr,…) Variance(numexpr,numexpr,…) Cfvar(numexpr,numexpr,…)
第三章 SPSS数据的预处理
第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。
仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:(1)执行Data→Sort Cases (观测量分类) 命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。
选择By变量的意义是将按这个变量对观测量进行分类整理。
如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。
分类整理将按每一个By变量层叠分类整理。
例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
(3)在Sort Order栏中选择一种排序方式。
如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。
各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。
在我们引用的数本来有一个Order (序号) 变量,它的值为自然数顺序。
按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。
第三章 SPSS数据的预处理
SPSS
第六节 数据分组
• 数据分组就是根据统计研究的需要,将数 据按照某种标准重新划分为不同的组别。 分组目的
• 对数值型数据进行整理和粗略把握数据分布情况 • 在数据分组基础上对数据进行频数分析 • 实现数据的离散化处理
SPSS
SPSS的数据分组方法
单变量值分组 组距分组 分位数分组(略)
SPSS
SPSS
SPSS
SPSS
以学生成绩.sav为例
对两门课中成绩在优良以上 (分数大于等于80分)的计数
SPSS
SPSS
SPSS
第五节 分类汇总
• 分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确:
• 按照哪个变量进行分类 • 对哪个变量进行汇总,并指定对哪些统计 量进行计算
SPSS
第三章 SPSS数据的预处理 数据的排序
变量计算 数据选取 计数 分类汇总
数据分组
数据预处理的其他功能
SPSS
第一节数据的排序
数据排序的目的 数据排序的基本操作 数据排序的应用举例
数据排序的目的
SPSS
SPSS数据排序是将数据编辑窗口按照某个 或多个指定变量的变量值升序或降序重新 排列。
SPSS
变量计算的目的
• 数据的转换处理 • 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量,需注意:
变量计算针对所有个案的,每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中,该变量的数据 类型与计算结果的数据类型要一致。
SPSS算术表达式
SPSS • 由常量、变量、算术运算符、圆括号、函 数等组成的式子
SPSS
第3章 SPSS数据的预处理
<(小于)、=(等于)、 ~=(不等于)、 >=(大于等于)、<=(小于等于)。
如:nl>32、sr<=700。
2.复合条件表达式
又称逻辑表达式,由逻辑运算符、括号和简单
条件表达式组成。 逻辑运算符:&(AND) 并且、│(OR) 或者、 ~(NOT) 非。Not运算符优先、其次and、最低 是or。但可以用括号改变运算次序。 如:(nl>32) and (sr<=700) (nl=32) | (sr<=700)
用分组变量值覆盖原变量(Into Same Variables) , 将分组结果存到一个新变量中(Into Different
Variables)。相应的操作也略有差异。通常采用第 二种策略
3.6.3 数据分组的应用举例
问题:分析被调查家庭人均住房面积的分布(住房状 况调查数据) 操作:
【transform】→【recode into different variables】 选择分组变量“人均面积”到【numeric variable】中 在【output variable】框中的【name】后输入存放分 组结果的变量名,如mj,并按【change】确认。还可 以在【label】后输入相应的变量名标签 根据分析要求在【old and new values】内逐个定义各 分组区间 如果仅对符合一定条件的个案分组,则单击If按钮并输 入SPSS条件表达式。否则,本步可略去
按照哪个变量(如上例中的学历、职业和年
龄段)进行分类
对哪个变量(如上例中的基本工资、消费金
额)进行汇总,并指定对汇总变量计算哪些 统计量(如上例中的平均工资、平均消费金 额和标准差)
第三章SPSS数据的预处理ppt课件
精品课件
3.3 数据选取(抽样)
▪ 数据选取就是根据分析的需要,从已收集到的 大批量数据(总体)中按照一定的规则抽取部 分数据(样本)参与分析的过程,通常也称为 抽样。
▪ 目的:方便对符合条件的case进行分析。 ▪ SPSS可根据指定的抽样方法从数据编辑窗口中
精品课件
数据排序应用举例
▪ 利用居民储蓄调查数据,通过数据排序功 能分别找到城镇户口和农村户口储户一次 存款金额的最大值和最小值
精品课件
3.2 变量计算
▪ 数据的转换处理是在原有数据的基础上,计算 产生一些含有更丰富信息的新数据。例如根据 职工的基本工资、失业保险、奖金等数据,计 算实际月收入,这些新变量具有更直观更有效 的特点。
精品课件
3.2.2 SPSS算术表达式
▪ 指出按照什么方法计算变量; ▪ SPSS算术表达式(Numeric Expression)是由
常量、变量、算术运算符、圆括号、函数等组 成的式子。
• 字符型常量应当用引号括起来 • 变量是指那些已存在于数据编辑窗口中的原有变量 • 算术运算符主要包括+、-、*、/、**(乘方) • 在同一算术表达式中的常量及变量,数据类型应该
前三个计数区间实际上是一些离散的 数据点,严格讲并不是区间,但SPSS仍将其归 在广义区间的范畴内,目的是方便一些其他的 应用。
精品课件
3.4.3 计数的基本操作
(1)选择单Transform-Count,出现如下窗口:
精品课件
(2)将参与计数的变量选到 Numeric Variables框中
精品课件
3.1.2 数据排序的基本操作
第三章SPSS数据的预处理
指定哪些变量参与计数,计数的结果存入哪个新变量中 指定计数区间(尤为关键)
3.4.2 计数区间
SPSS中的计数区间可以有以下几种描述形 式:
单个变量值(Value) 系统缺失值(System-missing)
系统缺失值或用户缺失值(
System or user-
missing) 给定最大值和最小值的区间(n through m) 小于等于某指定值的区间(Lowest through n) 大于等于某指定值的区间(n through highest)
3.2.5 变量计算的基本操作
(1)选择菜单Transform-Compute,弹出 Compute Variable对话框如下:
(2)在Target框中输入存放计算结果的变量名。该变 量可以是一个新变量,也可以是已经存在的变量。如 果指定存放计算结果的变量为新变量,SPSS会自动 创建它;如果指定产生的变量已经存在,SPSS会提 问是否以计算结果覆盖原有值。新的变量默认为数值 型,用户可以根据需要单击Type&Label按钮修改, 还可以对新变量加变量名标签。 (3)在Numeric Expression框给出SPSS算术表达 式。可以手工输入,也可以按窗口的按钮以及函数下 拉菜单输入。
上述后三个计数区间很容易理解。例如评价 学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。 前三个计数区间实际上是一些离散的数据点 ,严格讲并不是区间,但SPSS仍将其归在广义 区间的范畴内,目的是方便一些其他的应用。
(1)选取全部数据(All cases) (2)按指定条件选取( If condition is satisfied )
第3讲:SPSS数据的预处理
3.3.3数据选取的应用举例
利用“职工数据.sav”,对全部样本中的70%的数据进行分 析(采用随机选取中的近似选取方法进行抽样) 操作: 第一步:【数据(data)】 【选择个案(select cases)】
选择随机个案样本 (random sample of cases)
未被选中
3.4 计数
3.4.3 计数的应用举例
利用“住房状况调查.sav”,分析被调查家庭中有多少比例 的家庭对目前的住房满意且近几年不准备购买住房。 从调查数据来看,对目前住房是否满意的调查结果存放在 “住房满意”变量中,取值为“1”表示满意;今后三年是否 准备买房的调查结果存放在“未来三年”变量中,取值为 “1”表示不准备购买住房。 操作步骤:【转换(transform)】 【计数(count)】
表示该家庭对目 前住房满意且不 计划买房
3.5 分类汇总
3.5.1 分类汇总的目的 分类汇总是按照某分类按照某分类进行分类汇总计算。SPSS实 现分类汇总涉及两个主要方面: 1.按照哪个变量进行分类。 2. 对哪个变量进行汇总,并指定对汇总变量计算哪些统计量。 注: 分类汇总中的分类变量可以是多个,此时的分类汇总称为多重 分类汇总。在多重分类汇总中,第一个指定的分类变量为主分类变 量,其他依次为第二、第三分类变量,它们决定了分类汇总的先后 次序。
变量计算(案例)
在文件“职工数据.sav”中,依据职称级别计算实发工资,计 算规则是:实发工资等于基本工资减去失业保险,之后,依据 职称1~4等级分别将以上计算结果上浮5%,3%,2%,1%。 操作:【转换(Transform)】 【计算变量(Compute)】
在【数字表达式 (Numeric Expression)】中 给出SPSS的算术 表达式(可以手工 输入,也可以通过 函数下拉菜单输入)
第三章SPSS数据的预处理ppt课件
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
横向合并
横向合并有两种方式:
从一个指定的外部数据文件中取得一个或 几个变量的数据(包括变量名称)增加到 当前工作数据文件中,实际上相当于两个 数据文件的横向合并。
依据需要进行选择,然后单击确定按纽即 可。新生成的秩变量的名称以原变量名称 前加字母“R”的形式出现在数据文件中。
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
变量值排秩
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
按关键变量合并,即要求两个数据文件必 须有一个共同的关键变量,而且这两个文 件中的关键变量还存在一定数量的相同值 的个案。
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
横向合并的具体操作
首先打开一个数据文件。 按数据 合并文件 增加变量顺
纵向合并
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
纵向合并需注意的问题
两个待合并数据文件的内容合并起来是 要有实际意义的。
为方便spss数据文件的纵向合并,在不 同数据文件中数据含义相同的数据项最 好取相同的变量名,其数据类型也最好 相同。
If Case 对话框
用于设 置变量 重编码 的条件
篮球比赛是根据运动队在规定的比赛 时间里 得分多 少来决 定胜负 的,因 此,篮 球比赛 的计时 计分系 统是一 种得分 类型的 系统
SPSS数据的预处理
Part 1:第三章 数据预处理
1.变量级别的数据管理 2.文件级别的数据管理(一) 3.文件级别的数据管理(二)
学习要求
学习要求
掌握变量计算、 分组合并等变量 级别的数据管理 方法
掌握记录排序、 数据汇总、数据 合并等文件级别 的数据管理方法
数据预处理的主要内容
数据预处理
❖(nl<=35)and not (zc<3)
❖ 优先级
3.3 变量计算——P51
❖ 函数:可以看做是功能体;我们告诉已知,函数给出结果 ❖ Mean函数:功能 计算平均数 ❖ Mean(语文,数学,英语) ❖ 常见函数
算数函数 统计函数:均值(mean),标准差(Sd),方差
(Variance) 与分布相关的函数 查找函数 字符函数 日期函数 缺失值函数 其他函数
…
3.3变量计算
❖ 对数据的转换处理 ❖ 针对每个个案,都有自己的结果 ❖ 算述表达式:由常量、变量、算数运算符、圆括
号和函数组成的式子。
工资*0.1 Mean(数学,语文,英语)-60
3.3 变量计算
❖ 条件表达式:由关系运算符、逻辑运算符、变量、 常量、算术表达式等组成;
❖其结果为真(1) 或者 假(0) ❖ 关系运算符: ❖ 逻辑运算符:与(且)&;或|;非~
1.在数据“概率论成绩”中生成新变量“评价”,当 成绩小于60分时为“不合格”, 60~70分之间时为“合格”, 70~80分时为“中等”, 80~90分时为“良好”, 90分以上时为“优秀”。
3.1 排序
变量的排序是指根据变量值的大小按升序或降序进行排 列,在数据 →排序个案/变量中实现
变量排序主对话框
第3章 SPSS数据的预处理
精通SPSS统计分析
3.4.1 数据选取的目的
数据选取主要有以下几个目的: 1. 提高数据分析效率
如果数据量较大会在一定程序上影响计算和建模的效率,因此,可以依据 一定的抽样方法从总体上抽取少量样本,后面的分析只针对样本进行,这样会 大大提高分析的效率。当然,抽取出的样本应具有总体代表性,否则分析的结 果可能会有一些偏差。
数据应分成多少组比较适合,通常与数据本身的数据个数有关。由于分组 的目的之一是为了观察数据分布的特征,因此,组数的确定应以能够清楚地显 示数据分布特征和规律为原则。组数太少会使数据的分布过于集中,而组数太 多又会使数据的分布过于分散,这样都不便于观察数据分布的特征和规律。
2.组距的确定
组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值 及组数来确定,即: 组距=(最大值-最小值)/组数 当上述问题确定以后,便可以实施分组操作了。在SPSS分组操作时应注意 指定分组变量、定义分组区间和指定存入分组结果的变量。
精通SPSS统计分析
(5)选择按升序进行分组,即“Lowest value”单选按钮,然后单击“OK”按钮, 如图3-5所示。 (6)返回数据编辑窗口后,其分组结果如图3-6所示。
图3- 5 确认设置
图3- 6 分组效果
精通SPSS统计分析
3.7.3 SPSS的组距分组
在连续变量或变量值较多的情况下,数据分组通常采用组距分组。组距分组是将 全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。组距分组中的 关键问题主要有以下两个。 1.分组数目的确定
图3- 1 “Select Case”对话框
精通S算的目的 SPSS算术表达式
SPSS条件表达式
SPSS函数
第3章 SPSS数据的预处理
Abs(sr-850):分别计算每 条个案变量sr与850之差的绝 对值
Sqrt(4):函数值=2
Sin(30*3.14/180):函数 值:0.50
Cos(60*3.14/180):函数 值=0.50 Exp(5):函数值=148.41 Ln(sr)分别计算每个个案 变量sr的自然对数值 Lg10(5)函数值=0.7 Rnd(2.66):函数值=3.0 Trunc(4.7):函数值=4 Mod(20,3)函数值=2
主要操作步骤
• 1)数据→排序个案
• 2)指定主排序变量到“排序依据”中
• 3)选择“排列顺序”
• 4)如果是多重排序,再指定第二、第三等 排序变量
注意
• 1、数据排序是整行数据排序,而不是只对 某列变量排序 • 2、多重排序中指定排序变量的次序很关键 • 3、必要时保留数据的原始排列顺序
二、变量计算
Xdate.jday(日期型变量)
Xdate.week(日期型变量)
缺失值函数
函数名 Missing(变量名)该变 量必须是数值型变量 功能 举例 判断指定变量是否为 Missing(Math):分别对每条个案 系统缺失值或用户缺 判断Math这个变量是否为系统缺失 失值 值或用户缺失值。1表示是,0为不是。 判断指定变量是否取 值为系统缺失值 Sysmis(Math):分别对每条个例判 断Math这个变量是否取值为系统缺 失值,1表示是,0为不是。 Nmiss(Math,English,Chiness): 分别对每条个案计算三科成绩中有几 科取值为系统缺失值或用户缺失值。 Value(Math):忽略Math这个变量 重定义的用户缺失值。
Sysmis(变量名)该变 量必须是数值型变量
Nmiss(变量名1,变量 名2,...)
第三章SPSS数据的预处理详解
利用职工基本情况数据,通过数据排序 功能找到职称最高的职工的最高工资及 职称最低的职工的最低工资。
3.2 变量计算
(1)数据的转换处理 在原有数据的基础上,计算产生一些含有更丰富信息的新 数据。例如根据职工的基本工资、失业保险、奖金等数 据,计算实际月收入,这些新变量具有更直观更有效的 特点。
(2)对数据的原有分布状态进行转换 对原有数据的分布进行转换,以满足建模中某些模型对数 据分布的要求。 非正态或非线性数据的处理 时间序列平稳化处理 标准化处理
息的新数据,或对数据的原有分布进行转换等。 3.数据抽样
从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案) 在某项分析中都有用途,有必要按照一定的规则从大量数据中选取部分 样本参与分析。 4.选取变量
并非收集到的所有数据项(变量)在某项分析中均有意义,选取部分变 量参与分析是很自然的。
SPSS提供了一些专门的功能辅助用户实现数据的预加工处理工作。 运用预处理还可以使用户对数据的总体分布有所了解。
秩、 定义变量集。
数据的预加工处理需要解决的问题有
1.缺失值和异常数据的处理 在第2章曾经讨论过,大量缺失值会给数据分析带来极大的影响。同样, 异常值也会影响最终的分析结果。因此,在数据预处理阶段对缺失值和 异常值进行分析和处理是很必要的。
2.数据的转换处理 数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信
第3章 SPSS数据的预处理
特殊情况: 如果在排列大小时出现了相同大小的观察值, 则其秩的定义为足标的平均值。 例如: 抽得的样本观察值按次序排成 0,1,1,1,2,3,3, 则3个1的秩均为,(2+3+4)/3=3 两个3的秩均为? 自学:秩和检验(Rank sum test)
操作步骤:转换—个案排秩
分位数
(一)根据未分组的资料计算四分位数 Q1的位置 =n+1/4 Q2的位置=2(n+1)/4 Q3的位置=3(n+1)/4
操作步骤:数据—加权个案
练习1:输入书中表3-14数据,进行加权 练习2:(数据:SPSS统计分析从入门到精通 \Chapter 03\抽烟与肺癌的关系.sav)
3.7.3 数据拆分 “拆分文件”将数据文件分割为单独的组,以根据 一个或多个分组变量的值进行分析。如果您选择了 多个分组变量,个案按“分组依据”列表的前一个 变量的类别中的每个变量进行分组。例如:如果您 选择性别作为第一个分组变量,选择少数民族作为 第二个分组变量,将按每个性别类别中的少数民族 分类对个案进行分组。 • 您最多可指定 8 个分组变量。 比较数据拆分与分类汇总
f Q1 f Q2 f Q3 分别表示下四分位数、中位数和上四分位数所在组的
例如,某生产车间50名工人日加工零件数如下(单位: 个)。试对数据进行组距分组
117 108 110 112 137 122 131 118 134 114 124 125 123 127 120 129 117 126 123 128 139 122 133 119 124 107 133 134 113 115 117 126 127 120 139 130 122 123 123 128 122 118 118 127 124 125 108 112 135 121
第3章SPSS数据的预处理.ppt
• 选取指定区域数据处理
10
3.3 数据选取_例
• 例:对住房状况调查文件中的数据,随机选取 70%的住户,以便以后进行分析。
• 步骤:
– 执行菜单命令:Data\Select cases – 选择Random sample of cases,并点击Sample按
钮,输入0.7 – 点击Continue按钮返回, – 选择数据选取结果形式Filtered – 点击OK
2020/2/7
第二章 SPSS数据的预处理
11
3.4 计数(Count)
• 计数:对于所有或满足某条件的部分个 案,计算选定的变量中满足计数条件的 变量数目并存放在一个指定的变量中
• 例:
– 每个学生各门课程中85分以上的科目数; – 受访者对提问的若干问题给予肯定回答的
问题数;
2020/2/7
第二章 SPSS数据的预处理
12
3.4 计数_计数条件
• 单个值 • 系统缺失值 • 系统缺失值或用户缺失值 • 给定最大值和最小值的区间 • 小于或等于指定值的区间 • 大于或等于指定值的区间
2020/2/7
第二章 SPSS数据的预处理
13
3.4 计数_例
• 每个学生各门课程中85分以上的科目数(数 据文件:学生成绩.sav)
在不同的表格中
• 注意:数据拆分对以后的数据分析一直起作用, 直到取消拆分。
2020/2/7
第二章 SPSS数据的预处理
31
3.7.4 SPSS变量集
• 根据统计分析的需要,选择部分变量作为一个 变量集,简化分析过程中变量的选择。
• SPSS中的变量集
– 系统变量集
• ALLVARIABLES • NEWVARIABLES
SPSS数据文件的建立和预处理PPT课件
A、变量名(name):
变量名的字符个数不多于8个;
首字符应以英文字母开头,后面可以跟除了!? *之外的字母或数字。下划线、圆点不能为变量 名的最后一个字符
变量名不区分大小写字母
SPSS有默认的变量名,以‘VAR’开题,后面 补足5位数字。如:VAR00001等。
2020/1/11
2020/1/11
可编辑
21
C、变量宽度(width):变量可显示的最大字符位
数
D、小数位数(decimals)
E、变量名标签(label):对变量名含义的进一步解
释说明,可增强变量名的可视性和统计结果的可读性。
2020/1/11
可编辑
22
F、变量值标签(value)
• SPSS变量的数据类型大多应定 义为数值型,这样有利于以后的 数据分析;
6
窗口主菜单4: Data数据的操作和管理操作菜 单
• 对数据编辑窗口中的数据进行加工整理,如:数据的排序、转置、
2020选/1/取11 、分类汇总、加权等
可编辑
7
窗口主菜单5: Transform数据基本处理操作菜 单
• 对数据编辑窗口中的数据进行基本处理,如:生成新变量、计数、
2020分/1/组11 等。
定义SPSS数据的结构 录入和修改SPSS数据
统计分析SPSS数据
解释SPSS分析结果
2020/1/11
可编辑
15
2.SPSS数据文件的建立
建立方式之一:直接录入。即利用SPSS数据编 辑窗口定义SPSS数据的结构并输入数据。
建立方式之二:其他数据格式导入方式。即直 接读取其他格式的数据文件并将其转为SPSS格 式数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,某生产车间50名工人日加工零件数如下(单位: 个)。试对数据进行组距分组
117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121
(二)由组距式数列确定四分位数
第一步,向上或向下累计次数。
第二步,根据累计次数确定四分位数的位置。
1)当采用向上累计次数的资料确定四分位数时,四分位数
位置的公式是:
Q1的位置=
f
1
4
Q2的位置=
2( f 1)
4
Q2的位置=
3( f 1)
4
第三步,根据四分位数的位置算出各四分位数。
1)当累计次数是向上累计时,按下限公式计算
• 您最多可指定 8 个分组变量。
比较数据拆分与分类汇总
职称 高级工 Valid 程师 工程师 Valid
助理工 Valid 程师
无技术 Valid 职称
1014.00 1044.00 Total
859.00 889.00 984.00 989.00 Total
827.00 848.00 866.00 887.00 938.00 Total
各四分位数。 Q1
L1
f 4
SQ11
fQ1
i1
Q3 L3
3 4
Q2 L2
f SQ31
f Q3
i3
2 4
f SQ21
f Q2
i2
L1、L2、L3表示下四分位数、中位数和上四分位数所在组下限;
i1、i2、i3表示下四分位数、中位数和上四分位数所在组组距;
SQ1 − 1表示下四分位数前一组的累计次数; SQ2 − 1表示中位数前一组的累计次数; SQ3 − 1表示上四分位数前一组的累计次数。
特殊情况: 如果在排列大小时出现了相同大小的观察值,
则其秩的定义为足标的平均值。
例如: 抽得的样本观察值按次序排成 0,1,1,1,2,3,3,
则3个1的秩均为,(2+3+4)/3=3 两个3的秩均为? 自学:秩和检验(Rank sum test)
操作步骤:转换—个案排秩
分位数
(一)根据未分组的资料计算四分位数 Q1的位置 =n+1/4 Q2的位置=2(n+1)/4 Q3的位置=3(n+1)/4
•字符串常数必须包含在引号或撇号中。
•如果值包含小数,则必须使用句号 (.) 作 为小数指示符。
•对于新的字符串变量,必须选择类型和标签 以指定数据类型。
If 个案
“If 个案”对话框允许您使用条件表达式对选定的个案子 集应用数据转换。条件表达式对每个个案都返回一个值: true、false 或 missing。
第3章 SPSS数据的预处理
3.1 数据的排序 3.1.1 数据排序的目的 浏览数据,了解取值状况及缺失值 发现最大最小值,把握离散程度 发现异常值 可分为:单值排序和多重排序
3.1.2 数据排序的基本操作 单值排序
多重排序
3.2 变量计算 3.2.1 变量计算的目的 数据的转换处理 对数据的原有分布状态进行转换 注意事项:P51
3.6.3组距分组 转换—重新编码为相同变量
转换—重新编码为不同变量
组距分组的步骤
第一步:确定组数。按Sturges提出的经验 公式来确定组数 k 1 lg n
lg 2
第二步:确定各组的组距。组距是一个组的 上限与下限的差,可根据全部数据的最大值 和最小值及所分的组数来确定,即组距= (最大值-最小值)÷组数。
fQ1 fQ2 fQ3 分别表示下四分位数、中位数和上四分位数所在组的
次数;
按月工资分组(元) 职工人数(人) 向上累计职工人数 向下累计职工人数
600以下
23
23
566
600—700
120
143
543
700—800
150
293
423
800—900
135
428
273
900—1000
95
523
824.00
基本工资
Freque ncy Percent
2
66.7
1
33.3
3
100.0
Valid Percent 66.7 33.3 100.0
1
25.0
25.0
1
25.0
25.0
1
25.0
25.0
1
25.0
25.0
4
100.0 100.0
1
16.7
16.7
1
16.7
16.7
116.716.7源自233.3练习:将跑步测试时间以分钟为单位,组距 为2分钟,重新编码。(数据:SPSS统计分析 从入门到精通\Chapter 03\跑步机的测 试.sav)
可视离散化(分位数分组)
3.7 数据预处理的其他功能 3.7.1 数据转置 数据—转置
3.7.2 加权处理
学校算期末成绩,期中考试占30%,期末考试占50%,作 业占20%,假如某人期中开始得了84,期末92,作业分 91,如果是算数平均,那么就是(84+92+91)/3=89;加 权处理后就是84*30%+92*50%+91*20%=89.4
data02-14.sav data02-15.sav 比较数据的转置
统计知识补充
观测量的排秩 秩的定义
设X为一总体,将容量为n的样本观察值按自小到大
的次序编号排列成 x1< x2 < ()<x(n),称x(i) 的足标i
为 x(i) 的秩,i = 1,2,Λ,n。
例如:某施行团人员的行李重量数据如表: 重量(kg) 34 39 41 28 33 写出重量33的秩。 因为28<33<34<39<41,故33的秩为2。
从菜单中选择:转换—计算变量 在“数据转换”对话框中,单击 If。 选中如果个案满足条件则包含。 输入条件表达式。
3.2.6 计算变量的应用举例 P58页例题
3.3 数据选取 按指定条件抽样 随机抽样 选取某一区域内的样本 通过过滤变量选取样本(定义缺失值) 操作:数据—选择个案
3.6 变量值的分组与重新编码
组距分组是将全部变量值依次划分为若干个 区间,并将这一区间的变量值作为一组。
在组距分组中,各组之间的取值界限称为组 限,一个组的最小值称为下限,最大值称为 上限;上限与下限的差值称为组距;上限与 下限值的平均数称为组中值,它是一组变量 值的代表值。
3.6.2单变量值分组(自动重新分组编码) 转换—自动重新编码
如果条件表达式的结果为 true,则所选子集中将包含该个 案。
如果条件表达式结果为 false 或 missing,则所选子集中 不包含该个案。
大多数条件表达式使用计算器面板上六个关系运算符(<、>、 <=、>=、= 和 ~=)中的一个或多个。
条件表达式可以包含变量名称、常数、算术运算符、数值 (和其他)函数、逻辑变量以及关系运算符。
想知道两个班的化学加权平均值,一班50人,平均80, 二班60人,平均82,算数平均(80+82)/2=81,加权 (50*80+60*82)/(50+60)=81.09
满分10分的情况下,专家打8分,老师打6分,学生打7 分,但你认为专家权重和老师及学生权重应为 0.5:0.3:0.2,那么加权后就8*0.5+6*0.3+7*0.2=7.2, 而算数平均的话就是(8+6+7)/3=7。
3.7.6 数据文件结构重组 横向格式数据
纵向格式数据
操作数据:SPSS统计分析从入门到精通 \Chapter 03\季度销售额的横向格式.sav
季度销售额的纵向格式.sav
操作步骤:数据—重组 1.变量重组为个案
2.个案重组为变量
练习:SPSS for Windows统计分析(第3版) \data02-13-1.sav;data02-13-2.sav
构建一个表达式(可以将其粘贴到“表达式”字段中 或是在“表达式”字段中直接输入)。
通过从“函数组”列表中选择组,然后双击“函数和 特殊变量”列表中的函数或变量(或选择函数或变量, 然后单击“函数组”列表相邻的箭头),可以粘贴函 数或常用的系统变量。填充问号指示的任何参数(仅 适用于函数)。标记为所有的函数组提供所有可用函 数和系统变量的列表。对话框的保留区域中显示对当 前所选函数或变量的简要描述。
3.2.4.4 逻辑函数
3.2.4.5 字符函数
3.2.4.6 日期函数
3.2.4.1 缺失值函数
函数和简单算术表达式以不同的方式处理缺失值。 在以下表达式中:(var1+var2+var3)/3
如果一个个案里三个变量中的任何一个有缺失值, 结果将缺失。
在以下表达式中:MEAN(var1, var2, var3)
式中n表示资料的项数 某车间某月份的工人生产某产品的数量分别为13、
13.5、13.8、13.9、14、14.6、14.8、15、15.2、 15.4、15.7公斤,则三个四分位数的位置分别为? 某车间某月份的工人生产某产品的数量分别为13、 13.5、13.8、13.9、14、14.6、14.8、15、15.2、 15.4公斤,则三个四分位数的位置分别为?
3.2.2 SPSS算术表达式 常量——字符型常量 ‘a’+1=97+1=98=‘b’ ‘a’<‘b’ 变量 算术运算符:+、-、*、/、 * *