第三章SPSS数据的预处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分类汇总


目标:分析各分组下样本的统计特征 手段: 按指定的分组变量值对样本分组 分别计算各组中汇总变量的基本统计量 例:对比男女职工的平均年龄和平均工资
年龄 40 35 20 奖金 1000 550 200
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
性别 男 女 男
Abs() sqrt() rnd() trunc() mod() mean() sd() sum() cfvar() max() min() normal() uniform() rv.() cdf.() idf.() range() any() index() length() lower() lpad() ltrim() substr() missing() sysmis()
第三章
SPSS数据的预处理
主要内容

Hale Waihona Puke Baidu


个案排序 查找重复个案 变量计算 数据分组 个案选取 计数 分类汇总 数据分组 指定加权变量
数据排序




目标:排序在数据分析中的作用 ? 快速找到可能的离群点 手段:将所有个案按照用户指定的某一个或多个 变量的变量值的升序或降序重新排列 菜单选项: 数据 -> 排序个案 注意: (1)排序的次序:升序、降序。 (2)多重排序,选择变量名的次序很关键。
原始数据
按性别变量汇总数据
数据分组


目标:更好地了解连续型变量的分布特点 手段:组距分组 指定按哪个变量分组;定义分组区间(不重不漏); 指定存放分组结果的组标志变量 SPSS的区间 分组数,组距

职工工资的分组(850以下,851至900,901至950,951 至1000,1000以上)
指定加权变量



目标:计算加权平均数 例:蔬菜的平均价格、男足打分 手段:指定某一变量为加权变量 例:蔬菜的平均价格 菜单选项: 数据 -> 加权个案 说明:

如果取消加权变量应重新定义
练习一
1.利用数据筛选功能,将住房状况调查.sav生成两个文件,其中 第一个文件存储户口为“外地户口”且家庭收入在10000-15000 之间的数据;第二个文件存储按简单随机抽样抽取的10%的样本 数据。 2.利用 住房状况调查.sav 将其按家庭收入(升序)、现住面积 (升序)、计划面积(降序)进行多重排序。 3.根据 住房状况调查.sav ,利用SPSS的计数和数据筛选功能 找到“住房不满意”且“未来三年不买房”的人。 4.利用P43-9的结果 学生成绩表.sav计算每个学生的平均成绩和 标准差,同时计算男生和女生各科成绩的平均分。 5.利用数据分组功能对数学成绩进行组距分组,设置新变量名为 ”sxfz”,变量名标签为“数学分组”,并在变量值标签中标 明“1=59以下”,“2=60-69”,“3=70-79”,“4=8089”,“5=90以上” 6.用第5题的分组资料,计算各组统计学的平均成绩并说明与数学 成绩的关系

逻辑运算符:&(AND):并且、|(OR):或者、 ~(NOT):非

如:(nl>32) and (sr<=700) 如:(nl=32) | (sr<>700) 如: not xb=1
变量计算
(4) SPSS函数 算术函数 统计函数 分布函数 逻辑函数 字符串函数 缺失值函数 日期时间函数 其他函数

由算术表达式、条件表达式、SPSS函数以及
SPSS变量名组成的式子。
变量计算
(5)SPSS条件表达式:由SPSS关系运算符、逻辑运算 符、SPSS函数以及SPSS变量名组成的式子。

关系运算符: > (大于)、<(小于)、=(等于)、 ~=(不等于)、>=(大于等于)、<=(小于等于)

如:nl>32、sr<=700
查找重复个案



目的:? 手段:排序,保留主个案 菜单选项: 数据 -> 标识重复个案 注意: (1)重复个案的排序变量。
变量计算
目的:产生新变量或对原变量进行必要的转换 (如:预测问题 产生比率数据 偏态数据的正态处理 时间序列的平稳处理等) (1)含义:根据用户给出的SPSS算术表达式,对所有 或部分样本数据进行加工,并保存到一个指定变 量中。 (2)菜单选项: 转换-> 计算变量; 如果 按钮 (3)SPSS算术表达式:
变量计算的应用举例
数据选取

目标:个案选取的意义 ? 手段:从现有数据中选出部分数据


按条件选取; 随机选取; 选取指定区间中的样本

练习:对大学生职业生涯规划数据 挑出仅听过相应课程的样本 注意:以后的操作都针对选出的数据进行

计数


目标: 计数区间 手段:对所有或部分个案,计算若干个变量中有 几个变量的值落在指定的区域内,并将结果存入 新变量中 例: 学生成绩得优门次的整体状况分析
练习二
1.P43-7。 2.P69-1。 3.P69-2。 4.P69-5。
相关文档
最新文档