第三章 SPSS数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按性别变量汇总数据
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时,变量名的选择顺序。 生成的新文件名默认为:aggr.sav。可修改。 生成的新变量名默认为原变量名后加_1。可修 改。 可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一 个数据文件(职工数据.sav)。 按Data Sort Cases,弹出一 个排序对话框(以职称为主排序 变量降序,基本工资为第二排 序变量的升序进行多重排序)。 依据需要进行选择,然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案,计算若干个变量中有几个 变量的值落在指定的区域内,并将结果存入新 变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域,给出最大和 最小值 range: lowest through n:最小值到某个给定 值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。 按Data Split Files顺序逐一单击鼠
标,打开Split Files对话框。 根据对数据的具体需要选择相应的 选项。 按Ok完成。
1.利用居民储蓄调查数据,将数据分成两个文件,一 个为存储常住地在“沿海或中心繁华城市”且本次存 款金额在1000~5000元之间的调查数据,二是按照简 单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据,将其按常驻地升序、收入 水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据,对每个学生计算得优课程 数和得良课程数,并按得优课程数降序排序。 4.学生成绩合并后数据,计算每个学生课程的平均分 和标准差,同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中,如果认为“今年收入比去 年增加”“预计未来一两年收入仍会增加”的人是对 自己收入比较满意和乐观的人,请利用计数和数据筛 选功能找到这些人。
变量转换
(5)SPSS条件表达式:
条件表达式:由SPSS关系运算符、逻辑运算符、SPSS 函数以及SPSS变量名组成的式子。
逻辑运算符: 关系运算符: &(AND):并且 > (大于)、 <(小于)、 |(OR):或者 =(等于)、 ~=(不等于)、 ~(NOT):非 >=(大于等于)、 <=(小于等于) 如:(nl>32) and (sr<=700) 如:nl>32、sr<=700 (nl=32) | (sr<>700) not xb=1
SPSS变量名组成的式子。
变量转换
(4) SPSS函数
Abs() sqrt() rnd() trunc() mod() 算术函数 mean() sd() sum() cfvar() max() min() 统计函数 分布函数 normal() uniform() rv.() cdf.() idf.() 逻辑函数 range() any() 字符串函数 index() length() lower() lpad() ltrim() 缺失值函数 substr() 日期时间函数missing() sysmis() 其他函数
3.3数据选取
目的: 从现有数据中挑选出部分数据。
菜单选项: data -> select cases 选取个案的几种不同方式 (1)选择符合一定条件的个案(If condition is satisfied) (2)随机选取个案(Random sample of cases) 近似选取、 (3)选取某一区域内的个案(Based on time or case range) (4)使用过滤变量(use filter variable)
字符型变量用引号引起来。先计算乘方,再计算乘除,最后计 算加减,在同级运算中,按从左往右的顺序进行计算。通过圆 括号改变原有的计算顺序。
应用举例: 打开职工数据.sav,依据职称级别计算实 发工资,计算规则是:实发工资等于基 本工资减去实业保险,然后,依据职称 1~4等级分别将以上计算结果上浮5%, 3%,2%,1%。
目的:产生新变量或对原变量进行必要的转换处理
(1)含义: 根据用户给出的SPSS算术表达式,对所有或部分样本 数据进行加工。 (2)菜单选项: transform->compute if 按钮
(3)SPSS算术表达式(Numeric Expression):
由算术运算符(+ 、-、 *、 /、 **)、SPSS函数以及
举例: 住房状况调查数据,分析本市户口家庭 和外地户口家庭目前人均住房面积的平 均值是否有较大差距,未来打算购买住 房的平均面积是否有较大差距。
3.6指定加权变量
(1)含义:
指定某一变量为加权变量。如:平均蔬菜价格、男足打分
(2)菜单选项:
data -> weight case
(3)说明
如果取消加权变量应重新定义:
data->weight case do not weight cases
3.7拆分数据文件
在进行数据处理时经常要对数据文件中 的观测量进行分组分析,如分性别的平 均分数。进行分析之前必须对 数据文件 进行拆分。 拆分分件并不是将一个数据文件分为两 个或几个独立的数据文件,而是在同一 个数据文件中按某个条件分组。这种拆 分在以后的运算中一直有效直到取消或 更改拆分变量。
举例: 住房现状调查数据,分析被调查家庭中 有多少比例的家庭对目前的住房满意且 近三年不准备购买住房。
3.5 分类汇总
(1)含义:
按指定的分类变量的变量值对个案分组; 计算每组个案的汇总变量的基本统计量; 将计算结果生成到一新文件中,即:在新文件பைடு நூலகம்对 应分类变量的每一个分类值产生一个个案。
性别 男 女 男 年龄 40 35 20 奖金 1000 550 200
注意:以后的操作和分析都在该个案选取的基础 上进行.
举例: 住房状况调查数据,分别按照以下两种样本选 择cases。 1.希望仅对具有本市户口的家庭住房状况进行 分析,因此应只选择本市户口的住户为样本。 2.希望对全部样本的70%进行分析,因此应用 随机选取中的近似选取方法进行抽样。
3.4 计数