SPSS的数据采集和整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


定义变量属性 ---缺失值missing
定义缺失值的类型:

没有缺失值:默认方式


定义离散缺失值
定义连续范围内的缺失值和离散缺 失值
录入数据---开放题的录入
数据录入时每行对应一个记录( case )、 每列对应一个变量。开放题的录入: 1、 序号
2、姓名 3、 出生年月日 mm/dd/YYYY
定义变量属性---变量类型type
数字型

数值型(Numeric):是默认的形式
逗号型(Comma):小数点前数据每三位 数用逗点分开 小数点型(Dot):小数点前数据每三位数 用句点分开 科学计数型(Scientific notation) 美元型(Dollar)


定制货币型 (Custom currency) : SPSS 只提供美元型变量作为现成的货币描述量。 若为人民币型变量则必须进行定义。方法 如下:
文件级数据整理
Merge file (合并文件) Split file (记录拆分) Select cases(记录筛选) Weight cases(记录加权)
Aggregate(数据汇总)
Transpose (数据转置)
Restructure (数据重新构造)
文件级数据整理 ---合并文件(merge file)
数据的保存
SPSS获得的数据可以保存为:

SPSS格式的文件*.sav(最常见)。
其他格式文件,如 excel 、 dbase 、 sas 等22种不同格式的文件。
SPSS的数据整理
数据整理包括两个级别的整理:

变量级数据整理:对变量进行操作, 如计算新变量、变量编码等,这些功 能主要集中在 transform (转换)菜 单上。
12 版之前变量名的长度一般不能超过 8 个 字符; 空格和特殊字符 ( 如!、 - 、 ? 、’和 * 等 ) 不能用于变量名; 每个变量名必须保证是唯一的,不区分大 小写; 下面的关键词不能用作变量名:
ALL NE EQ TO LE LT GE BY OR GT AND NOT WITH
文件级数据整理:对文件结构进行处 理,如文件行列互换、结构变换、文 件拆分、合并等。这些功能主要集中 在data(数据)菜单上。
Hale Waihona Puke 变量级数据整理•Compute(计算) •Rank Cases(个案排序/编秩) •Recode(重新编码) •Automatic Recode (自动重新编码) •Visual Bander(可视化分段) •Count(计数)
变量级数据整理 ---新变量生成(Recode)
将数值型变量转换为字符型,例: 将成绩60-100分---记为及格 0-59分---记为不及格 将字符型变量转换为数值型,例: 及格---记为1 不及格---记为2 将几个小类别合为一个类别。例: “A”+“B” ---“优良”, “C”+“D” ---“中等” “E” ---“差”
文件级数据整理 ---文件拆分(Split file)
例如对文件transfer.sav按学生所在城 市拆分四组。便于以后分组分析。 拆分状态在窗口右下角显示”split on”
文件级数据整理 ---记录筛选(Select cases)
将符合条件的数据筛选出来进行分析, 相当于 transform 菜单某些功能中的 if 按钮 筛选状态在窗口右下角显示” filter on”
进入data editor窗口---edit---option--currency---在prefix选项中输入¥等即可 一次可定义5个不同的货币类型。
日期格式型(Date)
字符串型(String)
定义变量属性---变量标签label
变量标签:对变量的含义解释
定义变量属性---值标签value
录入数据---多选题的录入
如:您通常获取新闻方式有 。
1)报纸
2)杂志
3)电视
4)收音机 5)网络
case 1 :杂志、网络
case 2:报纸、电视、收音机
……
多选题两种录入方法
多 重 二 分 法 (multiple dichotomy method):每个选项作为一个只有两个 取值(选为1、未选为0)的变量。
文件级数据整理 ---记录加权(Weight cases)
若各记录出现频数不同,则必须给出 加权变量 加权状态在窗口右下角显示”weight on”
文件级数据整理 ---数据分类汇总(aggregate)
将记录组合并到单个摘要记录中,并创建 新的分类汇总数据文件。基于一个或多个 分组变量的值分类汇总记录。
姓名 --- 姓 + 名,对数据雇员 .sav 利用函数 concat( 姓氏,名字 ) 生成新变量“姓名”, 注意:
1)在变量视图中调整姓氏和名字变量宽度 (4位); 2)生成新变量的种类改为字符串型。
变量级数据整理 ---新变量生成(Rank)
Rank Cases(编秩)就是对记录按某个变量 排序,并生成代表名次的新变量“ R+ 原 变量名” , 举例: transfer. sav 按英语成 绩排名,分数最高的为第一名。 注意以下问题: 相同分数( ties )的名次处理:同小、同 中、同大、不间断 若按多个变量排序,只能按相同的升降方 向排序
录入数据---单选题的录入
不含其它单选题,如:
性别 。 1)男 2)女 数据录入三种方式:
字符
字符加值标签 数值加值标签。便于后续分析,推荐
采用。
含其它单选题,如:
您的职业 。
1)工人
2)农民
3)教师
4)其他
可通过设置两个变量来处理,第一个变 量为单选题,若选择“其他”的纪录, 则通过第二个开放型变量进行说明。
SPSS的数据采集和整理
本讲主要内容:
SPSS数据采集

数据格式与问卷题目类型
数据录入
数据获取
SPSS数据整理

变量级数据整理
文件级数据整理
数据类型
SPSS统计分析要求的数据格式
变量1 记录1 记录1 记录1 变量2 变量3 ……
……
问题的类型
问卷示例: 1、调查序号 。 单选题---3, 5 2、您的姓名 。 字符串型开放题---2 3、性别 。 1)男 2)女 4、您的出生年月日 。 数字型开放题---1,4,7 5、您的职业 。 多选题---6 1)工人 2)农民 3)教师 4)其他 6、获取新闻的主要方式有 。 1)报纸 2)杂志 3)电视 4)收音机 5)网络 7、每天收看新闻的小时数 。
将数据文件个人工资 .xls ,读入 SPSS 中, 并保存,以备进一步数据整理和分析。 注意以下问题: 第一行是否是变量名 从哪张工作表( worksheet )中读取 数据 读取数据的范围(如 D1:E6)
与“复制+粘贴”不同:
第一行可自动定义为变量名,软件会 自动识别变量的属性。 字符串原样再现(若采用“复制 + 粘 贴”方法,则出现缺失值),但视为字 符型变量。 (注意:excel应用软件关闭,SPSS才能 读取数据)
合并相同变量数据的不同个体 --- 增加记录 (sample3. sav, sample4. sav)
合并相同个体的不同变量数据 - 增加变量。 注 意 应 先 排 序 (transfer.sav,transfer3. sav) 用菜单可以一次合并两个文件,一个是SPSS 格式,另一个可以用SPSS直接打开 用Syntax可以合并多个文件
该方法会出现很多数据为 0的现象, 录入数据工作量大。
多 重 分 类 法 (multiple category
method):选项最多的记录有几个选项 就设置几个变量。
设上题最多有四种获取新闻的方式, 在变量视图中:
在数据视图中:
适用于:选项较多、可用于需要排序的 回答、常出现数据缺失的情况。 多选题变量集的定义: Multiple response(多重响应) 菜单: Table 模块
数据的获取 ---读取文本格式数据
如何读取固定宽度的文本格式数据: 以文件demo.txt为例。 在此例中,我们读入年龄、婚否、 收入等变量数据,可以用记事本打开 文件进行观察数据排列形式,再在 SPSS 中读入相关数据。在软件上分六 步实现(略)。
数据的获取 ---读取数据库数据
SPSS 通 过 菜 单 File---Open---Data 可以直接打开 16 种外部数据文件格式, 如文本文件、EXCEL、Lotus、dBase、 SAS文件等。
变量级数据整理 ---新变量生成(Compute)
利用算术符号和函数生成新变量 (Compute), 举例: 销售总额=单价*数量*(1一折扣) (订单明细.sav) 平均成绩=(语文成绩+数学成绩+英语成绩)/3 (transfer. sav) 计算英语成绩高于70分的平均成绩 计算上海学生的平均成绩 注意: 1)在英文输入状态下输入函数式 2) 利用if按钮设定计算条件 3) 字符串条件加“”号,如city="上
值标签:对变量值进行说明。 例如对性别变量标注值标签:
1=男
或:
2=女 f=女
(若变量为数值型)
m=男
(若变量为字符串型)
定义变量属性 ---测量尺度measure
变量测量尺度:

定类变量(Nominal):名义变量 定 (/ 有 ) 序变量 (Ordinal) :有序变 量 定距和定比变量(Scale):尺度变量
数据的录入
数据编辑器包括两个视图: 1.变量视图:定义变量10个属性 2.数据视图:录入数据
定义变量属性---变量名
变量名命名要求 :
变量名的第一个字符必须为字母,后面可 跟任意字母、数字、句点或 @ 、 # 或 $ 等 符号;
变量名不能以句点结尾;
最后一个字符可以为下划线但应避免(可 能会与分析过程中自动产生的变量造成冲 突);
其他数据文件格式, SPSS 可以利用 通用数据库ODBC接口读取数据。
例:通过 SPSS 读取 Access 2000 数 据 库 中 数 据 northwind.mdb , 把 Access数据库中的如下数据表转化为 SPSS 文件:产品 .sav ;订单 . Sav ; 订单明细.sav。
方法是: 先设置 ODBC 数据源配置:文件 —— 打 开 数 据 库 —— 新 建 查 询 —— 添 加 数 据 源——选中 MS Access Database——配 置——选择—— 选中 northwind.mdb— —确定(3次) 读取数据: File---open database--new query--- 选 中 配 置 好 的 文 件 northwind---下一步---将左边数据库拖 到右边---下一步… ---完成
变量级数据整理 ---新变量生成(visual bander)
Recode 过 程 可 进 行 准 确 分 组 , visual bander 过程可进行有规律分组,如: 等组距分组。例:按成绩分组 90 ~ 100 为 A,80~90为B, 70 ~80为C, 60 ~70为D, 60以下为E 等比例分组 例:A级人数占总人数的25% B级占25% C级占25%, D级占25% 按平均数和标准差作分割点
新数据文件包含每个组的记录。例如,可 按省聚合县数据,并创建一个新的数据文 件,其中省是分析单位。
以 transfer.sav 为例,统计各地语文平均 成绩。
数据的获取
用SPSS可获取的数据:
读取SPSS格式的数据 读取Excel等格式的数据 读 取 文 本 数 据 (“ 分 隔 ” 和 “ 固 定 宽 度”) 读取数据库格式数据 (1)配置ODBC (2)在SPSS中通过ODBC和数据库进行连 接,并读取数据
数据的获取---读取EXCEL数据
Date菜单中的Sort Cases过程也可对数 据进行排序, Rank 与 Sort 不同在于: Sort不会生成反映排名序列号的新变 量 Sort对多个变量排序时可采用升序、 降序、混合序 例 1 :个人工资模拟数据 .xls ,请按工 资对个人排序,最高的放在第一行。 如果两个人的工资相同,男性排在前。 例 2 :个人工资模拟数据 .xls ,请在性 别内按工资对个人进行降序排列。
相关文档
最新文档