第3章数据的预处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变量计算的基本操作(以职工数 据.sav为例)
菜单转换
计算变量
第三节 数据选取

数据选取:即为样本抽样。
目的:

提高数据分析效率 检验模型的需要
SPSS中四种抽样方法



按指定条件抽样 随机抽样 选取某一区域内的样本 通过过滤变量选取样本
• 菜单数据
选择个案
四种抽样方法
按指定条件抽样
第二节变量计算
变量计算的目的 SPSS算术表达式
条件表达式
函数 变量计算的基本操作
变量计算的目的

数据的转换处理 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量,需注意:
变量计算针对所有个案的,每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中,该变量的数据 类型与计算结果的数据类型要一致。
数据拆分
SPSS的数据拆分与数据排序很相似 ,但有一个重要的不同点,即数据拆分不 仅是按指定变量进行简单排序,更重要的 是根据变量对数据进行分组,为以后的分 组统计分析提供便利。
以数据加工(职工数据).sav为例
比较组:表示将分组统计结果输出在同一表格中,以便于不同组之间 的比较; 按组组织输出:表示将分组统计结果分别输出在不同的表格中。 通常选择第一种输出方式。
练习

根据数据文件2-2 2003-2015年某企业净利润 与员工总数.sav,将“员工总数”按照以下方 式分组:
员工总 数 201~250 251~300 301~350 351以上 频数(人) 频率(%) 7 2 2 2 53.8 15.4 15.4 15.4
第七节 数据预处理的其他功能
数据转置 加权处理 数据拆分
计数的基本操作

菜单转换
以居民储蓄调查数据(存款).sav为例
对个案内的值计数
我们认为如果储户收入今年比去年增加了 ,且认为今后收入仍会增加则认为收入状况较 好。试分析有多少个储户的收入状况较好。
以学生成绩.sav为例
对两门课中成绩在优良以上 (分数大于等于80分)的计数
第五节 分类汇总
说明:
(1)数据拆分将对后面的分析一直起作用,即 无论进行哪种统计分析,都将按拆分变量的不 同组别分别分析计算。如果希望对所有数据进 行整体分析,则需要重新执行数据拆分,在数 据拆分窗口中选择分析所有个案,不创建组项 。 (2)对数据可以进行多重拆分,类似于数据的 多重排序。多重拆分的次序决定于选择拆分变 量的前后次序。
数据拆分应用举例: 利用职工情况数据选择职称和(或)性别 变量进行数据拆分并进行计算各组的基本工资 。
随机抽样
基于时间或个案全距
通过过滤变量选取样本
数据选取的应用举例
利用居民储蓄调查数据,根据不同的分析要求采 用不同的数据选取方法抽样: (1)如果只希望分析城镇储户的情况,可以通 过数据选择功能采用指定条件的抽样方法进行 抽样; (2)如果只希望对其中的70%的数据进行分析 ,可通过数据选择功能采用随机抽样中的近似 抽样方法进行抽样。
把分组变量基本工资(sr)选到数字变量中
Baidu Nhomakorabea
单击旧值和新值得到
先指定区间范围,再在“值”中添加对应的分组值
定义 分组 区间
基本操作二、菜单转换
重新编码为不同变量
将分组变量基本工资(sr)选入数字变量
定义输出 变量
先指定区间范围,再在“值”中添加对应的分组值
练习
单变量值分组应用举例: 1、利用职工情况数据按职工的基本工资升 序进行分组。 2、按职工的职称升序进行分组。
第三章 SPSS数据的预处理
数据的排序
变量计算
数据选取
计数
分类汇总
数据分组
数据预处理的其他功能
第一节数据的排序
数据排序的目的
数据排序的基本操作
数据排序的应用举例
数据排序的目的

SPSS数据排序是将数据编辑窗口按照某个或 多个指定变量的变量值升序或降序重新排列。
排序目的
第六节 数据分组

数据分组就是根据统计研究的需要,将数据按 照某种标准重新划分为不同的组别。
分组目的

对数值型数据进行整理和粗略把握数据分布情况 在数据分组基础上对数据进行频数分析 实现数据的离散化处理
SPSS的数据分组方法

单变量值分组 组距分组 分位数分组(略)
单变量值分组

分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确:

按照哪个变量进行分类 对哪个变量进行汇总,并指定对哪些统计量进 行计算
分类汇总的基本操作
菜单数据 分类汇总
指定 分类 变量
指定汇总 变量
单击函数按钮获得
指定分类 结果保 存到何 处
单击变量名与标签得到
若要保存 各分类组 的个案数
SPSS算术表达式

由常量、变量、算术运算符、圆括号、函数等 组成的式子
条件表达式


简单条件表达式 由关系运算符、常量、变量以及算术表达 式等组成的式子 复合条件表达式 由逻辑运算符号、圆括号和简单条件表达式 等组成的式子。
函数



算术函数 统计函数 分布函数 逻辑函数 字符函数 日期函数 缺失值函数 其他函数

SPSS单变量值分组是把每一个变量值作为一 组,这种分组方法通常只适合于离散变量且变 量值较少的情况。
基本操作菜单转换
自动重新编码
以职工数据.sav为例
将分组变量基本工资(sr)选择到右边的框中
最低值 表示升 序,最 高值表 示降序
在新名称 后输入 存放分 组结果 的变量 名
在重新编码 的起点中 选择是最 低值进行 还是最高 值进行

数据转置(行列互换)
以年人均消费支出和教育.Sav为例
把变量和名称变量分别选入对应位置
标记 变量
加权处理
统计分析中的加权处理是极为常见的,如计算加 权平均数等。 例如,希望掌握菜市场某天蔬菜销售的平均价格 。如果仅用各种蔬菜销售单价的平均数作为平 均价格就很不合理,还应考虑到销售量对平均 价格的影响。因此,以蔬菜的销售量为权数计 算各种蔬菜销售单价的加权平均数,就能够较 准确地反应平均价格水平。
分类汇总后的结果
练习
1. 根据职工情况数据研究不同学历的职工的工资水平是 否存在差异? 最简单的分析可利用分类汇总功能计算不同学历 职工的平均工资,然后进行比较。选择文化程度为分 类变量,基本工资为汇总变量。 2. 利用居民储蓄调查数据,分析城镇储户和农村储户的 一次平均存(取)款金额是否有显著的差异。可进行 的最初步的分析是按照户口类型对存(取)款金额进 行分类汇总。其中分类变量是户口,汇总变量是存( 取)款金额,且计算其均值。
组距分组
• 组距分组是将全部变量值依次划分为若 干个区间,并将这一区间的变量值作为 一组。 • 在连续变量或变量值较多的情况下适用。 分组数目的确定 分组关键
组距的确定
SPSS分组操作应注意:
指定分组变量 定义分组区间 指定存放分组结果的变量

基本操作一:菜单转换
重新编码为相同变量
以职工数据.sav为例
第四节 计数

SPSS计数是指对所有个案或满足其条件的部 分个案,计算若干个变量中有几个变量的值落 在特定的区间内,并将计数结果存入一个新变 量中的过程。
关键步骤 • 指定哪些变量参与计数,计数的结果 存入哪个变量中。 • 指定计数区间
计数区间
单个变量值 系统缺失值 系统缺失值或用户缺失值 给定最大值和最小值的区间 小于等于某指定值的区间 大于等于某指定值的区间

便于数据的浏览,了解数据的取值状况、缺失 值数量等 快捷找到数据的最大值和最小值 快捷发现数据的异常值
数据排序的基本操作(以职工数据 .sav为例)
菜单数据
排序个案
以职称主排序变量升序、工资收入第二排序 变量升序为排序依据
数据排序应用举例 (居民储蓄调查数据.sav)
练习

把年人均消费支出和教育.sav中的数据按照年 人均可支配收入为主排序变量进行降序排列, 教育支出为第二排序变量进行降序排列。
相关文档
最新文档