第2章:SPSS 数据文件的建立和管理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3) 定类数据(Nominal)
定类数据只能互相区别,不能进行排序,可以用数值或
字母表示。 例如性别可以用男、女表示;民族可以用汉、回、满等
表示,它们可以和数值、字母表示,无法进行排序。
(4) 变量之间的关系与设置
定距变量包含定序变量包含定类变量。
根据分析的需要,可以将变量定义成相应的尺度。计量
建立数据集例:姓名,字符型;生日,日期型;学历,
数值(0中学,1大学,2研究生);工资x,数值。
2.数据宽度
每种数据的类型都有数据宽度和列宽,数据宽度为存储
变量值的最大位数。需要注意的是对于数值型变量,录入数
据的宽度可以大于设置好的宽度,但对于字符型变量却不是 这样。对于字符型变量,你设置几位数,它就显示几位数。
计量尺度:定序变量 列宽: 标签值: 1 小学 2 中学 3 大学 4 研究生 a5. 存款金额 计量尺度:定距变量 列宽: 8 2 显示位置:居中
3) 凡是可以用数值1、2、3表示的变量定义成数值型,
将更有利于数据分析。
4) 不同的数据根据其实际的意义与取值定义计量尺度。
5) 变量标签的作用主要用于变量的解释说明。
5.缺失数据
(1) 数据缺失在数据处理过程中不可避免
在数据分析的过程中,有时某一项数据是空的,没有填; 有时有的数据明显是错误的,例如误将年龄的20岁填成了200 岁。这两种情况在数据处理中是经常遇到的。
(2) 缺失值的种类
SPSS的缺失值有两类:系统缺失值和用户缺失值。
称没有数据的单元格为系统缺失值,用点儿“.”表示;
尺度在变量定义窗口完成。 演示:姓名,定类;学历,定序;工资,定距。
SPSS应用案例
银行为了发展储户,扩大业务范围和业务量,委托咨询 公司对本企业的发展进行评估,设计了居民储蓄调查问卷.
如何理解调查问卷,将调查问卷组织成SPSS能处理和分
析的数据,包括:根据调查问卷定义SPSS中的变量,定义数 据集的数据结构等。
数据结构的定义原则
1) 每份调查问卷(个案)作为数据集一行(记录)存储;
2) 问卷中的一个问题作为数据集一列(变量)存储,因此
共有15列(变量);
题目 1. 您认为现在是买东西合算还是存 钱合算? 2. 您今年的收入是增加了还是减少 了? 3. 预计未来一两年中您的收入? 4. 您的月收入水平属于? 5您本次存(取)款的金额是多少? 6. 您本次存(取)款的种类? 8. 您认为现在的物价水平:
变量的值 变量值标签
(2) 删除或修改变量值标签的对应关系
单击列表框中要删除的标签,这时标签的值重新显示在 标签Lable文本框中,在值Value文本框输入原来对应的值, 【Remove】按钮被激活,可以将对应关系移去。
(3) 修改变量值标签的方法
单击列表框中要修改的标签,如果在值Value文本框输入 新值,或虽然输入了原来的值,但修改了标签Lable文本框中 的值,修改【change】按钮将被激活,点击该按钮将建立新 对应关系。
e) 如果定义变量时不给出名字,系统给出以VAR00001
注:数据表中的一行称为个案(Case),个案的全体组成 了表中的数据;数据表的每一列称为变量。
二、指定变量属性
变量属性包括:变量名、数据类型、数据宽度、变量名 标签、变量值标签、缺失值、计量尺度和角色9个部分。
1.数据类型
(1) 数值型
数值型是SPSS最常用的数据类型,通常由阿拉伯数字 (0~9)和其它特殊符号(如美元符号、逗号、句点等)组成。 数值型有5种不同的类型: a) 标准型(Numeric) 默认的宽度为8位,包含正负号、小数点及小数位。需 要说明的是,数据的显示宽度并不影响数据的存储宽度。 b) 科学记数法型(Scientific Notation) 默认的宽度为8位,包含正负号、字母E及跟在后面的正 负号及两位幂次数字。科学记数法型一般存储很大或很小的 数。输入时可以按标准型输入,系统会自动转换。 c) 逗号型(Comma) 将整数位自个位开始向前每3位用逗号分隔,默认的宽
2
3 4 5 6 7 8 9 10
27
19 38 38 53 24 41 35 30
2
1 1 1 2 1 2 2 1
1
2 1 2 1 2 2 1 2
1
1 3 3 3 3 1 2 3
1. 开放题的录入 (1)开放性数值题
这类题目要求被调查者自己填入数值,或者打分。 问题:你的年龄(实岁):______。 编码:一个变量,不定义变量值。 录入:即录入被调查者实际填入的数值。
替代,水平数值若大于6表示是键入错误的数字,因而设置:
Low:6; High:9999; Discrete Values:0
应用举例:以50位受试者的数据为例,在性别变量中,
水平数值编码中1为男生,2为女生,研究者在数据输入 时误打入两笔数据,将性别水平输入为3,4。 没有设缺 失值。
设了缺失 值。
/forum.php?mod=viewthread&tid=1575661&extra=
3.变量名标签
一般的,变量名多用一两个英文字母表示,如果在输出 结果中只能看到的是变量名,将大大的降低可读性。为了补 救这一缺憾,SPSS用给出变量名的标签的方法,达到增加数 据、输出结果可读性的目的。 变量名标签可以使用中文,允许最大长度为120个字符; 在意义明确的条件下,变量名标签尽可能的简单;如果变量 本身具有可读性,变量名标签可以省略。演示
a2. 学历
Measurement Level:Ordinal Column Width: Alignment: Value Label : 1 小学 2 中学 3 大学 4 研究生 a5. 存款金额 Measurement Level:Scale Column Width: 8 2 Center
a2. 学历
可选答案 1、买东西合算 2、存钱合算 1、增加 2、基本不变 3、减少 1、增加 2、基本不变 3、减少 1、1000元以下 2、1000~3000 3、3000~5000 4、5000以上 ( )元
1、三年以上定期 2、三年以下定期 3、活期 4、定活两便 5、有奖出现
6、个人通支存款 7、活期工资账户
族、性别)来说是必不可少的。
(1)பைடு நூலகம்建立变量值标签的方法
在值(Value)文本框中输入变量的值,在标签(Lable)文本 框中输入相应的标签,单击增加(add)按钮,将建立变量值与
值标签之间建立对应关系。这时的值Value文本框为空。
若值文本框为空,修改【change】和移去【Remove】按 钮都处于休眠状态。
4.变量值标签
在调查问卷中的选项中,答案经常是英文字母,例如学 历:A,初中以下;B,高中;C,大专…。在数据集中存储
是这些英文字母,让人很难读懂和理解。
SPSS可以定义变量值标签,对变量的值进行说明和解释。
在数据集中既可以浏览变量的值,也可以浏览变量值标签;
输出结果也是如此,十分方便(如下页图)。 变量值标签对于定序变量(如职称)和定类变量(如民
6) 变量的值标签,在数据分析结果输出时可以显示值标 签,增加了数据的可读性。
演示问卷调查数据集:居民储蓄调查数据。
数据值与标签的转换(视图---值标签)
补充: SPSS数据编码录入
进入SPSS之前的准备工作:
编码 录入
编码:根据一定的规则将研究资料转换为可进行统 计分析的数码资料的过程。
10名青少年身高体重表
第2章 SPSS 数据的录入
SPSS数据录入
读取其它格式的数据
数据文件的合并
第一节、 SPSS数据的录入 SPSS数据录入的三步曲
定义变量名称
指定变量属性
录入数据
重难点:问卷的录入
一、定义变量名称
变量名是访问分析数据的唯一标志。因此,在定义变量 需要首先定义变量名。定义变量名需遵循如下规则: a) 变量名的字符个数不多于8个。 b) 首字符必须是字母或汉字,最后一个位置不能是点儿 和下划线,其他位置除!、?、*之外的字符均可。 c) 变量名不区分大小写字母。 d) 变量名不能使用SPSS的关键字。
(2)开放性文字题
姓名 性别 男 男 男 男 男 女 年龄 13 13 14 15 14 14 身高 156.0 155.0 157.9 166.0 164.5 164.7 体重 47.5 37.8 49.2 57.0 44.0 44.1
编码
10青少年身高体重表
编号 性别 年龄 身高 体重
1 1 1 1 1 1 2 2 2 2 2 13 13 14 15 14 14 13 13 14 15 156.0 155.0 157.9 166.0 164.5 164.7 158.0 162.0 160.5 169.0 47.5 37.8 49.2 57.0 44.0 44.1 57.3 47.0 53.0 51.1
6.度量标准
(1) 定距型数据(Scale)
定距数据即包括诸如身高、体重、工资等类型的连续数
据,也包含人数、仪器设备的台数、商品件数等的离散型数
据。定距数据可以比较大小,可以做加减运算。
(2) 定序数据(Ordinal)
定序数据可以排序比较大小,但不能做加减运算,可以
用数值和字符表示。
如学历包括小学、中学、大学;职称包括助教、讲师、 教授,这些可以和数值建立联系,但加减运算没有意义。
1 20 女 张三 中立
关于投票选举一次抽样调 查的数据阵列 人员 年龄
1 20
性别 投票 态度
2 1 2
2
3 4 5 6 7 8 9 10
27
19 38 38 53 24 41 35 30

男 男 男 女 男 女 女 男
张三
李四 张三 李四 张三 李四 李四 张三 李四
反对
反对 赞成 赞成 赞成 赞成 反对 中立 赞成
1、过高 2、偏高 3、正常
c a1. 什么合算
变量及属性 a1. 什么合算 8
翻译
计量尺度:定类变量 c 列宽: 8
cMeasurement Level:Nominal
Column Width:
Alignment: Right
显示位置:靠右
值标签:1 买东西 2 存钱
Value Label :1 买东西 2 存钱
由于人为的原因造成数据失真时的缺失值,称为客户缺失值, 如年龄200岁。
(3) 缺失值的指定
(4) 缺失值的设置方法
◎ 没有缺失值
默认选项,不定义缺失值。
◎ 离散缺失值 离散值。最多可以设置3个值,在统计分析时,遇到这
三个值均当做缺失值处理。
例如性别变量定义0:男;1:女。如果遇到-1、2、3均 按缺失值处理。
度为8位,包含正负号、小数点、小数位及逗号。如果定义了
数据类型为逗号型,输入时不用输入逗号,系统自动在相应 的位置上加上逗号。
d) 圆点型(Dot)
类似于逗号型,不常用,略。 e) 美元型(Dollar) 美元型主要用来表示货币数据,在数值前加上美元符号 $。如果定义了美元类型,输入时不需输入,系统自动在相应 的位置上加上美元符号。
周今
马帅 丁一 古晨 江 峰
为方便
计算机 操作可
2 3 4 5 6 7 8 9 10
对品质
型变量 的取值
孙 悦
王霞 胡 萍 张红 曲萍

女 女 女
13
13 14 15
158.0
162.0 160.5 169.0
57.3
47.0 53.0 51.1
进行编
码。
关于投票选举一次抽样调 查的数据阵列 人员 年龄 性别 投票 态度
◎ 范围加上一个可选离散缺失值
指定一个缺失值范围,如果数据落到这个范围内即为缺 失值;这时还指定一个值,如果变量取了这个值,也认为是
缺失值。
例:以五点式李克特量表为例,五个选项是【非常同
意】、【多数同意】、【普通】、【多数不同意】、【非常 不同意】,水平值内容编码为5,4,3,2,1,未填答者以0
(2) 字符型(String)
字符型是SPSS经常使用的数据类型,字符型数据由字符 串构成。表示如学号、姓名、所在系等等字符数据。
字符型数据默认的宽度为8位、不能进行算术运算、区分 大小写。
(3) 日期型(Date)(主要在时间序列分析中比较有用)
用来表示日期或时间的数据类型称为日期型。如入学日 期、生日等等。有两种表现格式: dd-mmm-yyyy:日-月份的英文前三个字符-4位年份 例:20-AUG-2009表示2009年8月20日 mm/dd/yyyy:月/日/年(输入数据时要对应) 例: 20/08/2009表示2009年8月20日
相关文档
最新文档