第二章 SPSS的数据管理
SPSS统计分析- 第2章 数据文件建立和管理
4.读取“*.txt”数据文件
现需将“人居收入.txt”文件中的数据读入SPSS,如图所示: (1) 打开“数据编辑器”对话框,选择“文件”|“打开文本数据”命令,打 开“打开数据”对话框。选择文本文件,单击“打开”按钮,打开“文本导入向 导”对话框,如图所示:
(2) 在“您的文本文件与 预定义的格式匹配吗? ” 选项组中选择 “ 是 ” 单选 按钮,可单击“浏览” 按 钮,选择已预定义好的 格式;单击 “ 否 ” 则需要 建立一个新格式。
2.1.1 打开定义变量视图
• 按前一章所述打开SPSS主界面,视图切换标签处单击“变 量视图”,即打开“变量视图”窗口,如图所示。在该视 图可对变量的以下属性进行定义:名称、类型、宽度、小 数、标签、值、缺失、列、对齐、度量标准和角色。
2.1.2 定义变量名称
• 在“变量视图”变量栏的“名称”栏中定义变量名称,用 户可根据数据需要或个人习惯进行定义,如果不对变量进 行定义,系统将自动默认变量名为var00001、var00002、 var00003等。一般根据变量的实质意义来命名,例如:年 龄、性别、年级等变量,可用Age,Gender,Grade命名,也 可用中文意义命名,但当出现变量数量较大时,一般使用 流水编号,即防混淆又方便。虽然变量可根据用户的需求 自行编辑,但仍有其需共同遵循的原则: • 若用英文命名,变量名首字必须为英文字母,其后方可接 数字、英文字母、@等。若用中文命名,则可直接使用。 • 不可使用空格和特殊字符(如键盘上的!、#、$、%、&、 ^、*、(、)、?等字符)。
(9) 之后进入下一步,如图所示。在“变量之间有哪些分隔符?”中,可根据 文本数据中变量间的分隔符,可选择“制表符”、 “空格”、“逗号 ”、“分号” 和“其他”复选框。在“文本限定符是什么?”中,可选择“无”、“单引号”、“ 双引号”和“其他”单选按钮,一般默认为“无”,选择完毕后单击“下一步” 。
第2章 SPSS 数据文件的管理解读
删除一个变量,即删除一列数据。其方法和上面的增加一
未被选中的记 录将被删除
1.5 选取个案子集
条件表达式可
使用现有变量 名称、常数、 算术运算符、 逻辑运算符、 关系运算符和 函数。
〖 Data– Select Case:If 〗
1.5 选取个案子集
〖 Data– Select Case:Output 〗
点击Filter out unselected cases ,会生成一个名为filter_$ 的新变量,表示选中还是没有选中,一旦该变量被删除, 将自动取消样本抽样;
(序列的均数) (相邻若干点的均数) (相邻若干点的中位数) (线性内插) (线性外延)
〖Transform - Replace Missing Value〗
用于填充缺失值,并将结果 存入一个新变量
〖Transform - Rank Cases〗 用于求变量值的秩
1.9 数据次序确定
定义秩次类型
定义对相同值观测量的处理方式
第二章 数据文件的编辑和整理
编辑和整理数据文件
在SPSS中,数据文件的编辑、整理等功能被
集中在Edit、Data、Transform和Utilities四个菜单 项中
1 2
数据的编辑 变量的操作
1 数据的编辑
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
序重新排列;
便于浏览,了解数据的整体情况; 便于找出最大最小值;
能够快捷的发现异常值;
可以按照一个或者多个变量排序。
1.4 数据的行列互换
〖Data - Transpose〗
对数据进行行列转置
1.5 选取个案子集
SPSS数据分析教程-2-数据文件的建立和管理
最新课件
14
数据的输入操作(2)
ID号(id) 性别(sex):1:男; 2:女
1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2, 2
身高(height)
76,59,67,65,63,72,70,68,69,74,68,63
参加活动以前的体重(before)
185 113 145 156 109 191 155 165 175 180 135 118
如果一个文件中的某个个案在另一个文件中找不到 个案来匹配,则该个案于第二个文件的变量上的取 值为缺失值。反之亦然。
如果一个文件中的某个个案在另一个文件中找到两 个或者两个以上的个案来匹配,则该个案只取第二 个文件中第一个相匹配的个案来连接。反之亦然。
最新课件
38
合并变量示意图:一对一
最新课件
39
最新课件
3
本章学习目标
理解信息、数据与数据处理的基本概念; 了解SPSS数据编辑器的特点,熟悉SPSS的变
量视图和数据视图,掌握SPSS常用的工具按 钮;
掌握数据录入SPSS软件的方法;
掌握把电子表格、数据库、文本文件等格式的 数据文件读入SPSS软件的方法;
掌握SPSS数据集的数据字典; 学习合并两个数据文件的方法; 明确分割SPSS数据文件的方法。
分析的目的是比较不同收益类型客户的概要特征。
最新课件
42
先按照关键变量“orgntype”(客户工作单 位的类型)进行合并文件。选择【数据】→ 【排序个案】 ,首先按照关键变量
“orgntype”排序。
然后选择【数据】→【合并文件】→【添加变 量】 进行合并。
最新课件
43
2.7 数据的拆分
学会使用SPSS进行数据处理和分析
学会使用SPSS进行数据处理和分析第一章:介绍SPSS及其基本功能SPSS(Statistical Package for the Social Sciences)是一款专业的统计软件,可广泛应用于社会科学、医学、教育、市场营销等领域的数据处理和分析。
SPSS具有强大的数据处理和展示功能,能够帮助用户进行数据清洗、统计描述、统计推断等分析工作。
本章将详细介绍SPSS的基本功能,包括数据导入导出、数据清洗和变量定义等。
第二章:数据导入与导出在使用SPSS进行数据处理和分析前,首先需要将原始数据导入到SPSS中。
SPSS支持多种数据格式的导入,如Excel、CSV、Txt等。
本章将介绍如何进行数据导入,并讲解一些常见的数据导入问题及解决方法。
此外,还将介绍如何将SPSS的分析结果导出到其他格式,如Excel、Word等,以便后续的数据展示和报告撰写。
第三章:数据清洗与变量定义数据清洗是数据处理的基础工作,对于原始数据中存在的异常值、缺失值、重复值等进行处理,以保证数据的准确性和可靠性。
本章将介绍如何使用SPSS进行数据清洗,包括识别与处理异常值、填补缺失值、删除重复值等。
同时,还将讲解如何进行变量的定义和测量水平的设置,以便后续的数据分析。
第四章:数据描述性统计数据描述性统计是对数据整体特征进行描述和总结的方法,可帮助研究者更好地理解数据。
本章将介绍如何使用SPSS进行数据描述性统计,包括计算变量的均值、标准差、频数分布等。
此外,还将讲解如何绘制直方图、散点图、箱线图等图表,以便更直观地展示数据的分布和关系。
第五章:统计推断与假设检验统计推断是在样本数据的基础上对总体参数进行推断的方法,常用于科学研究中的结论判定。
假设检验则用于判断样本数据与总体的差异是否显著。
本章将介绍如何使用SPSS进行统计推断和假设检验,包括T检验、方差分析、相关分析等。
同时,还将讲解如何解读统计结果并进行结果报告。
第六章:数据分析与建模数据分析是根据统计学原理对数据进行深度挖掘和解释的过程,而建模则是基于数据分析结果进行预测和决策的方法。
第二章SPSS数据文件的建立和管理
SPSS数据文件的特点
SPSS • 其扩展名为.sav • 是一种有结构的数据文件,由结构和内容 两部分组成 • 只能被SPSS软件打开
SPSS
结 构
SPSS
内 容
SPSS
SPSS数据的基本组织方式
• 原始数据的组织方式
• 频数数据的组织方式
原始数据的组织方式
SPSS
第二节SPSS数据的结构和定义方法 SPSS
SPSS
第五节SPSS数据的保存
• SPSS支持的数据格式 • 保存SPSS数据的基本操作
SPSS支持的数据格式
SPSS
• • • •
SPSS文件格式 Excel格式文件 Dbf格式文件 文本格式文件
扩展名
.sav
.xls
.dbf
.dat
SPSS
• 保存SPSS数据的基本操作
• 选择菜单文件
保存或另存为
SPSS
SPSS
添加 完 后 按 确 定
SPSS
得到合 并后 的数 据文 件
SPSS
横向合并数据文件
• 指将数据编辑窗口中的数据与另一个SPSS数 据文件的数据依据个案进行左右对接。 横向合并数据文件应注意:
两个数据文件必须至少有个名称相同的变量; 两个数据文件必须事先按关键变量进行了升序排序
SPSS
SPSS
第三节SPSS结构定义的应用案例
SPSS
第四节 SPSS数据的录入与编辑
• SPSS数据的录入 • SPSS数据的编辑
SPSS • • • •
SPSS数据的录入
按单元格输入数据 按变量输入数据 按个案输入数据 输入带有变量值标签的数据
SPSS数据的编辑
spss-2使用SPSS管理数据
F1—1 F1 1、4、12、27、40、42、48、49、52、53、56、58 12、27、40、42、48、49、52、53、56、 躯体化) (躯体化) F2—3 10、28、38、45、46、51、55、65(强迫) F2 3、9、10、28、38、45、46、51、55、65(强迫) F3—6 21、34、36、37、41、61、69、73(人际敏感) F3 6、21、34、36、37、41、61、69、73(人际敏感) F4—5 14、15、20、22、26、29、30、31、32、54、 F4 5、14、15、20、22、26、29、30、31、32、54、 71、 抑郁) 71、79 (抑郁) F5—2 17、23、33、39、57、72、78、80、 F5 2、17、23、33、39、57、72、78、80、86 焦虑) (焦虑) F6—11 24、63、67、74、 11、 敌意) F6 11、24、63、67、74、81 (敌意) F7—13 25、47、50、70、75、 13、 恐怖) F7 13、25、47、50、70、75、82 (恐怖) F8—8 18、43、68、76、 偏执) F8 8、18、43、68、76、83 (偏执) F9—7 16、35、62、77、84、85、87、88、 F9 7、16、35、62、77、84、85、87、88、90 精神病性) (精神病性) F10—19 44、59、60、64、 19、 其它) F10 19、44、59、60、64、89 (其它)
练习
对数据进行删除、复制、剪切、粘贴、排序、 对数据进行删除、复制、剪切、粘贴、排序、 选择部分观测数据等的操作 SCL-90数据库中插入专业变量 并赋值: 数据库中插入专业变量, 在SCL-90数据库中插入专业变量,并赋值:社 会学=1 社工=2 劳保=3,其他=4. =1, =2, =3,其他 会学=1,社工=2,劳保=3,其他=4. SCL-90数据库中对性别重新编码 数据库中对性别重新编码( =0, 在SCL-90数据库中对性别重新编码(男=0,女 =1)以生成“gender”变量 及时做标签) 变量( =1)以生成“gender”变量(及时做标签) SCL-90数据库中将专业重新赋值给同一变量 在SCL-90数据库中将专业重新赋值给同一变量 社工= 劳保=2 社会学=3 其他=1 =2, =3, (社工=3,劳保=2,社会学=3,其他=1 ) 统计SCL_90问卷各因子总分、平均分数, SCL_90问卷各因子总分 统计SCL_90问卷各因子总分、平均分数,生成 新变量, 新变量,并作标签
第章SPSS基本操作与数据管理PPT课件
(3)日期型:
按特定格式存储日期数据 ,一般使用较少
2020格/1/1式0 很多,如:20-AUG-1999
5
2.SPSS变量的类型和显示宽度 对不同的对象其取值发生变化的量称为变量。有3种类型 (1)数值型: 数据型变量一般由数字、分隔符和一些特殊符号(如美元符号)构成, 有6种形式。 • 标准数值型:默认类型 8.2
(6)系统状态栏
该栏显示当前的系统操作,用户可以通过该栏了解SPSS当前的 工作状态。
2020/1/10
4
2.1.2 常量、变量、操作符和表达 式 一、 常量与变量
1.SPSS常量
SPSS中的常量在一定阶段内其取值不随观测而改变的值。有3种类型
(1)数值型:
数据型常量是一个数值。他有两种书写方式:
(2)菜单栏
菜单栏,包括 “文件”、“编辑”、“视图”、“数据”、 “转换”、“分析”、“图形”、“实用程序”、“附加内容”、 “窗口”和“帮助” 菜单,这些菜单可以实现编辑数据与变量、定 义系统参数、设计显示方式、绘制图形、进行各项数据分析和查阅 帮助等(3功)数能据。单元格信息显示栏
该显示栏用于显示单元格位置和单元格的内容等信息。灰色显 示的区域为提示区,显示单元格的位置,空白区域为数据编辑器, 该区域内显示当前选中的单元格的内容,用户可以在该区域输入或 修改相应的内容。
格式很多,如:$12.30
• 自定义货币型:用户可以创建5种自定义数据显示CCD和CCE,
2020/1/这10 只是5种命名,用户可以自行设定这5种类型。
6
(2)字符型: 字符型编变量由字符串组成,可以包含数字、字母和一些特殊符号。字符型变 量的默认长度为8,大于8个字符的称为长字符型变量,少于8个字符的称为短字 符型变量,字符型变量最长为32767个字符。他不能参与运算,区分大小写字 母。 (3)日期型: 日期型变量用于表示日期和时间,他有29种不同的日期和时间格式,不能参与运算, 要参与必须通过日期函数进行转换。
单元一 SPSS数据文件的建立和管理
第一节 SPSS的发展及使用基础
(二)SPSS数据结构的基本方式
(2)计数数据的组织方式
第二节 SPSS的数据结构和定义方法
(一)变量名
变量名是变量访问和分析的唯一标识。
变量命名原则:
SPSS 变量名由不多于64(32个汉字)个字符组成;首字母是字母或汉字也可以是@字符;不能使用?,!和*;注意不能以下划线_和圆点“.”作为变量名的最后一个字符;
第一节 SPSS的发展及使用基础
(二)SPSS数据结构的基本方式
第一节 SPSS的发展及使用基础
(二)SPSS数据结构的基本方式
在计数数据的组织方式中,数据编辑窗口中的一行为变量的一个分组(或多变量交叉分组下的一个分组)。所有行囊括了该变量的所有分组情况(或多变量交叉下的所有分组情况)。数据编辑器窗口中的一列仍为一个变量,代表某个问题(或者某个方面的特征)以及相应的计数结果。
第五节 数据文件合并
数据文件合并的介绍
(2)横向合并-案例
职工数据和职工奖金数据的合并
①打开“职工数据.sav”②选择菜单【数据】→ 【合并文件】 → 【添加变量】
学 业 进 步!
基本操作步骤如下:
【文件】→【导入数据】→【文本数据】
(二)使用导向导入其他格式的数据
第五节 数据文件合并
数据文件合并的介绍
当数据量较大时,经常会把一份大的数据分成几个小的部分,分别录入,录入完毕后, 就必须将若干个小的数据文件合并起来。数据文件的合并分为纵向合并和横向合并。
(1)纵向合并
将一个SPSS数据文件的内容追加到当前数据编辑器窗口中数据的后面,依据两份数据文件中的变量名进行数据对接。
字符串型简称字符串(R),是SPSS中较常用的数据类型,它有由一串字符组成。如职工号码、姓名、地址等变量都可以定义为字符串数据。
Spss数据管理2
功能特点
Transform菜单主要集中了一些对变量进行变 换的过程,如对原始数据进行四则运算、对数 据重新编码、求出变量的秩次等,这些功能往 往在统计分析的预处理中起着非常重要的作用
功能特点
计算新变量:最常用和重要的过程。 变量转换:包括Recode、Visual Bander、 Count、Rank、Automatic Recode这五个过 程,它们实际上都可以被看成是compute过程 在某一方面功能的强化和打包。 专用过程:包括建立时间序列、缺失值替代和 设定随机种子三个过程。 Run Pending Transforms:用于执行编程中被 挂起(Pending)的数据整理操作
例3.2
分类变量类别的合并 接上题,将变量grade中的优秀,良好和及格三 , grade , 个等级合并为一个等级 “pass”,不及格转 化为:“nopass”
Transform菜单中的其它过程 菜单中的其它过程
将字符变量转换为数值变量 Automatic Record过程 计算变量秩次 Rank Cases过程 连续变量的可视化分段 Visual Bander过程,12版新增
例3.3
在3.1数据集中,将字符型变量city转化为数值型 变量newcity. 根据性别分组计算数学成绩的秩次.
三、文件级别的数据管理 ---Data菜单(一)
功能特点
对数据进行加工整理,比如根据统计分析的要 求对数据进行分组、合并、加权、筛选等操作 简单命令:在数据界面可直接运用鼠标完成 插入变量、插入记录、到达某条记录 常用简单过程:好学,而且非常重要 排序、拆分文件、选择记录和加权记录
Recode过程 Recode into same variable Recode into different variable 对连续型变量进行分组 分类变量类别的合并
spss数据的录入与管理
标识重复个案 标识异常个案
计算变量
“目标变量”文本 框:用于输入需要
赋值的变量名
“转换” “计算变量”
“数字表达式”文 本框:用于给目标 变量赋值
候选变量列表
函数解释文字文本框
“函数组” 列表框
“函数和特 殊变量”列 表框
3.2 已有变量值的分组合并
将连续变量转换为等级变量或将分类变量 不同的变量等级进行合并。
“重新编码为相同变量”:对原始变量的取值 直接进行重编码 “重新编码为不同变量”:根据原始变量的取 值生成一个新变量来记录重编码的结果。
B交叉变量规则:交叉变量规则是用户定义 的涉及多个变量间逻辑关系的规则,由标记 无效值的逻辑表达式定义,可以应用于单个
1、定义验证规则 “数据” “验证” “定义规则” 2、进行数据验证 “数据” “验证” “验证数据” 3、加载预定义规则 “数据” “验证” “加载预定义规则” Predefined Validation Rules.sav
(4)文件合并向导:将几个数据文件合并为一 个大的SPSS数据文件,含横向合并和纵向合并 两种情况。
(5)数据字典相关向导:包括定义变量属性, 复制变量属性,以及新建设定属性三个向导界 面。
4.1 几个常用的过程
1、排序个案 数据编辑窗口中的记录的前后次序在默认情
况下由录入时的先后顺序决定。 (1)单变量排序:变量名处右击,“升序排列 ”“降序排列” (2)多变量排序:使用“排序个案”对话框 2、分割文件(Split File) 3、选择个案:用于只分析部分数据 4、加权个案:(1)以频数格式录入的数据
最优离散化过程:是对前述可视化离散过程 的进一步自动化,根据某些作为“关键指示 变量”的分类变量,将原有的一个或多个连 续性变量按照该分类变量类间差异最大化的
SPSS第二讲 数据管理(一)
步骤一: 打开Transform菜单, 选择Compute 步骤一: 打开Transform菜单, 选择Compute
步骤二: 点击“Compute”,弹出对话 点击“Compute”,弹出对话 框
步骤三:在目标变量框内填入新变量名
步骤四:从右侧函数框内选择“自然对数”函 数
步骤五:从左侧变量框内选择“月收入”变量
步骤七:在分组对话框内进行分组定义
步骤八:点击“Apply”,回到原对话框 步骤八:点击“Apply”,回到原对话框
步骤九:点击“Make Label”,自动填充值标 步骤九:点击“Make Label”,自动填充值标 签
步骤十:点击“OK”,生成新变量 步骤十:点击“OK”,生成新变量
频数分析结果
第四类:控制命令(可忽略) – Run Pending Transforms – 用于执行编程中被挂起的数据整 理操作
1、Compute
在原有变量的基础之上,根 据用户的要求,使用相应的算 术表达式或函数,对所有案例 或满足一定要求的案例,计算 出一个新变量。
实例 – 对月收入超过100元的受访者的 月收入取自然对数
步骤九:点击“OK” 步骤九:点击“OK”
步骤十:对新生成的变量取值贴标签
频数分析结果
3、Visual Bander
通过百分位数、标准差范围 或等间距方式将连续变量划分为 若干组段,并采用图形化操作的 方式,非常直观好用。
实例 – 将受访者的月收入按照等间距的 方式分为四组
步骤一:在Transform菜单中选择Visual 步骤一:在Transform菜单中选择Visual Bander
步骤一:打开Transform菜单,选择Recode 步骤一:打开Transform菜单,选择Recode
Spss数据管理
功能特点
Transform菜单主要集中了一些对变量进行变 换的过程,如对原始数据进行四则运算、对数 据重新编码、求出变量的秩次等,这些功能往 往在统计分析的预处理中起着非常重要的作用
功能特点
计算新变量:最常用和重要的过程。 变量转换:包括Recode、Visual Bander、 Count、Rank、Automatic Recode这五个过 程,它们实际上都可以被看成是compute过程 在某一方面功能的强化和打包。 专用过程:包括建立时间序列、缺失值替代和 设定随机种子三个过程。 Run Pending Transforms:用于执行编程中被 挂起(Pending)的数据整理操作
变量赋值: 变量赋值:Compute过程 过程
用于计算新变量,或者给老变量赋值 有大量的SPSS函数可供使用 学会如何写相应的语句可能更方便
例3.1
数据transform.sav是某年级学生的数学,英语 和语文的三门成绩,现在需要统计英语成绩在 60分以上的学生的语文和数学的平均成绩
对变量值进行分组合并
例3.3
在3.1数据集中,将字符型变量city转化为数值型 变量newcity. 根据性别分组计算数学成绩的秩次.
Hale Waihona Puke 例3.2分类变量类别的合并 接上题,将变量grade中的优秀,良好和及格三 , grade , 个等级合并为一个等级 “pass”,不及格转 化为:“nopass”
Transform菜单中的其它过程 菜单中的其它过程
将字符变量转换为数值变量 Automatic Record过程 计算变量秩次 Rank Cases过程 连续变量的可视化分段 Visual Bander过程,12版新增
Recode过程 Recode into same variable Recode into different variable 对连续型变量进行分组 分类变量类别的合并
《统计分析与SPSS的应用(第五版)》课后练习答案(第2章)
《统计剖析与SPSS的应用(第五版)》(薛薇)课后练习答案第 2 章 SPSS数据文件的成立和管理1、 SPSS中有哪两种基本的数据组织形式各自的特色和应用处合是什么SPSS中两个基本的数据组织方式:原始数据的组织方式和计数数据的组织方式。
原始数据的组织方式:待剖析的数据是一些原始的检盘问卷数据,或是一些基本的统计指标。
计数数据的组织方式:所采集的数据不是原始的检盘问卷数据,而是经过分组汇总后的数据。
2、什么是SPSS的个案什么SPSS的变量个案:在原始数据的组织方式中,数据编写器窗口中的一行称为一个个案或观察。
变量:数据编写器窗口中的一列。
3、在定义SPSS数据构造时,默认的变量名和变量种类是什么假如希望加强SPSS统计剖析结果的易读性,还需要对数据构造的哪些方面进行必需说明默认的变量名:VAR------;默认的变量种类:数值型。
变量名标签和变量值标签可加强统计剖析结果的可读性。
4、采集到以下对于两种减肥产品试用状况的检查数据,请问在SPSS中应怎样组织该份资料体重变化状况产品种类显然减少无显然变化第一种产品2719第二种产品2033问:在 SPSS中应怎样组织该数据数据文件以下图:5、什么是 SPSS的用户缺失值为何要对用户缺失值进行定义怎样在SPSS中指定用户缺失值缺失值分为用户缺失值(User Missing Value)和系统缺失值(System MissingValue )。
用户缺失值指在问卷检查中,将无回答的一些数据以及显然失真的数据看作缺失值来办理。
用户缺失值的编码一般用研究者自己可以识其余数字来表示,如“0”、“ 9”、“ 99”等。
系统缺失值主要指计算机默认的缺失方式,假如在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标志为一个圆点“ ?”。
在变量视图中定义。
6、从计量尺度角度看,变量包含哪三种主要种类请各举出一个相应的实质数据。
怎样在SPSS中指定变量的计算尺度变量种类包含:数值型(身高)、定序型(受教育程度)以及定种类(性别)。
SPSS教程--二、数据管理
计算新变量
数据fee.sav是上海和杭州 名住院病人的费用数据,计 是上海和杭州16名住院病人的费用数据 例1 数据 是上海和杭州 名住院病人的费用数据, 算上海的住院病人平均每天的住院费用,要求结果取整。 算上海的住院病人平均每天的住院费用,要求结果取整。
计算新变量
输入新变量名perfee 输入新变量名
连续变量的可视化分段
仍以数据fee.sav为例 , 按变量 为例, 将病人分为5组 例 3 仍以数据 为例 按变量total将病人分为 组 , 将病人分为 5000元以下为第一组,5000元以上的按等间距的方式分 组。 元以下为第一组, 元以上的按等间距的方式分4组 元以下为第一组 元以上的按等间距的方式分
变量值分组合并
变量值分组合并
变量值分组合并
变量值分组合并
务必选上 该项
变量值分组合并
连续变量的可视化分段
recode过程提供了精确分组的功能,但如果希望进行的分 过程提供了精确分组的功能, 过程提供了精确分组的功能 组是有规律的,比如等距分组,或等样本量分组, 组是有规律的,比如等距分组,或等样本量分组,使用 recode过程进行操作就显得非常麻烦,且可视化程度不高。 过程进行操作就显得非常麻烦,且可视化程度不高。 过程进行操作就显得非常麻烦 此时可以考虑使用visual bander过程进行可视化分段。 过程进行可视化分段。 此时可以考虑使用 过程进行可视化分段
变量值分组合并
选入原变量 total
新变量名 grade
变量值分组合并
变量值分组合并
三种Range的设置,所有的范围均包含了端点,而前面 的设置,所有的范围均包含了端点, 三种 的设置 设定的变换会优于后面的变换,因此应该将大于等于 10000元最先设定,而将小于5000元最后设定。 元最先设定,而将小于 元最后设定。 元最先设定 元最后设定
第二章 SPSS数据文件的建立和管理
第二章 SPSS数据文件的建立与管理2.1 SPSS数据文件2.1.1 SPSS数据文件的特点:SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。
基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。
2.1.2 SPSS数据的组织方式(1)原始数据的组织方式数据编辑窗口中的一行称为一个个案或记录(Case),所有个案组成SPSS数据文件的内容。
数据编辑窗口的一列称为一个变量(Variable),每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标志。
SPSS数据文件的结构就是对每个变量及相关特征的描述。
(2)频数数据的组织方式例:职称年龄段35岁以下(1)36-49岁(2)50岁以上(3)教授(1)0158副教授(2)10202讲师(3)20101助教(4)3520频数数据的组织方式职称年龄段人数1101215138211022202323120321033141354224302.2 SPSS数据的结构和定义方法SPSS数据的结构是对SPSS每列变量及其相关属性的描述,主要包括变量名、数据类型、变量宽度、变量名标签、变量值标签、显示宽度、缺失值、对齐方式、度量尺度等信息。
变量名(Variable name)变量名是变量访问和分析的唯一标志。
在定义SPSS数据结构时应首先给出每列变量的变量名。
变量的命名规则如下:1.首字符应以英文字母开头,后面可以跟除了!、?、*之外的字母或数字。
下划线、圆点不能为变量名的最后一个字符。
SPSS允许用汉字作为变量名。
2.变量名的字符个数最好不多于8个;变量名不区分大小写字母。
3. SPSS有默认的变量名,以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00012等。
SPSS的基本数据管理功能
数据获取途径
二、变量属性 Variable Properties
:变量名。允许用中文,但习惯上采用英 文变量名。 2.Type:变量类型,常用数值型(Numeric)、字 符型(String)、日期型(Date)。 3.Width:变量宽度,默认为8。
4.Decimals:小数位数,默认为2。
四、文件拆分 Split File
ex .sav文件中, 按照“sex(性别)”拆分文件
比较组 分组变量
根据分组 变量排序
分性别对“height(身高)”进行统计描 述
描述性统计
不同性别的“height(身高)”统计描述
所有记录的“height(身高)”统计描述
注意:SPSS的输出结果文件为*.spo
9.Align:对齐方式。数值型变量默认右对齐(Right), 字符型变量默认左对齐(Left) 。 10.Measure:测度,包括三类:数值变量(Scale), 名义变量或无序分类变量(Nominal),有序分类变量 或等级变量(Ordinal)。
数据文件ex.sav(数据窗口……数据清单界面)
有高血压家族史的患者身高的统计描述
所有患者身高的统计描述
六、通过计算产生新变量
compute
产生一个新变量:bmi=体重/(身高**2),四舍五入 取整
七、重新赋值 Recode…….. Into different variables
旧及新的变量值
根据bmi对7个记录进行分组,bmi: 正常:18-23; 超重:24-27;肥胖:>=28。
bel:变量编码,又称为变量标签,用于注释 变量名的含义。
6.Values:变量值编码,又称为变量值标签,用于注释 变量值的含义。例如:变量sex,变量标签为“性别”; 变量值为1与2,变量值编码:1为“男性”,2为“女 性”。 7.Missing:缺失值。默认为系统缺失值,用“.”表示。 8.Columns:列宽,默认为8。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章SPSS的数据管理第一节数据的输入2.1.1 变量的定义2.1.2 数据格式化2.1.3 数据的输入2.1.4 缺失值处理2.1.5 变量标签2.1.6 数据管理器列宽定义第二节数据的编辑2.2.1 数据的增删2.2.2 数据的整理2.2.3 数据的算术处理第三节数据文件的管理2.3.1 数据文件的调用2.3.2 数据文件的连接2.3.3 数据文件的保存统计分析离不开数据,因此数据管理是SPSS的重要组成部分。
详细了解SPSS的数据管理方法,将有助于用户提高工作效率。
SPSS的数据管理是借助于数据管理窗口和主窗口的File、Data、Transform等菜单完成的。
第一节数据的输入2.1.1变量的定义先激活数据管理窗口,然后选Data菜单的Define Variable...命令项,弹出Define Variable对话框(见图1.1),在Variable Name:框内输入变量名,如本例为x1。
图1.1 变量定义对话框2.1.2数据格式化在Define Variable对话框中点击Type...钮,弹出Define Variable Type对话框(如图1.2所示),用户可根据具体资料的属性对数据进行格式化。
Define Variable Type对话框中列出如下7种数据类型:图1.2 定义变量类型对话框1、Numeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),默认为2位。
2、Comma:加显逗号的数值型,即整数部分每3位数加一逗号,其余定义方式同数值型。
3、Dot:3位加点数值型,无论数值大小,均以整数形式显示,每3位加一小点(但不是小数点),可定义小数位置,但都显示0,且小数点用逗号表示。
如1.2345显示为 12.345,00(实际是12345E-4).4、Scientific notation:科学记数型,同时定义数值宽度(Width)和小数位数(Decimal Places),在数据管理窗口中以指数形式显示。
如定义数值宽度为9,小数位数为2,则345.678 显示为3.46E+02。
5、Date:日期型,用户可从系统提供的日期显示形式中选择自己需要的。
如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。
6、Dollar:货币型,用户可从系统提供的日期显示形式中选择自己需要的,并定义数值宽度和小数位数,显示形式为数值前有$。
7、Custom currency:常用型,显示为整数部分每3位加一逗号,用户可定义数值宽度和小数位数。
如12345.678显示为12,345.678。
8、String:字符型,用户可定义字符长度(Characters)以便输入字符。
用户选择完毕可点击Continue钮返回Define Variable对话框。
2.1.3数据的输入定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。
数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以1、2、3、……表示,即第1、2、3、……行;纵方向为电子表格的列,其列头以var00001,var00002,var00003……表示变量名。
行列交叉处称为单元格,即保存数据的空格。
鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。
单元格被激活后,用户即可向其中输入新数据或修改已有的数据。
图1.3所示即为一个已输入数据的数据管理窗口。
为方便起见,用户亦可省略定义变量和数据格式化两个步骤,一启动SPSS即向数据管理窗口中键入原始数据,这时,变量名默认为var00001,var00002,var00003……图1.3数据管理器2.1.4缺失值处理在实际工作中,因各种原因会出现数值缺失现象,为此,SPSS提供缺失值处理技术。
在Define Variable对话框中点击Missing Value...钮,弹出Define Missing Values对话框(图1.4),用户有4个可选项:图1.4 缺失值定义对话框1、No missing values:没有缺失值;2、Discrete missing values:可定义1-3个。
如测量身高(厘米)的资料,可定义999为缺失值;性别的资料(男为1、女为2),可定义-1为缺失值;3、Range of missing values:可定义缺失值的范围。
如脉搏资料,可定义0—9为缺失值;4、Range plus one discrete missing value:可定义缺失值的范围,同时定义另外1个不是这一范围的缺失值。
如定义0—9为脉搏的缺失值,同时定义999为身高的缺失值。
2.1.5变量标签在Define Variable对话框中点击Labels...钮,弹出Define Labels对话框(图1.5),用户可定义变量标签和特定变量值的标签。
如定义变量hb的标签为“血红蛋白值”,同时定义12.36为“正常”,则可在Define Labels对话框中的Variable Label处输入变量标签名,在 Value Labels 框中的Value处指定变量值,在 Value Label处输入变量值标签,点击Add钮表示加入这种标签定义,点击Change表示更改原有标签,用户重新定义,点击Remove 钮表示取消原有标签。
图1.5 定义标签对话框2.1.6数据管理器列宽定义在Define Variable对话框中点击Column Format...钮,弹出Define Column Format 对话框(图1.6),用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:Left表示靠左、Center表示居中、Right表示靠右(此为默认方式)。
图1.6 列宽格式定义对话框第二节数据的编辑输入的原始数据,经常在统计分析前或统计分析过程中,需要作一些特殊的处理。
为此,系统提供了如下主要方法。
2.2.1数据的增删2.2.1.1 增加一个新的变量列例如要在第2列前增加一个新的列,使原来的第2列右移变成第3列,则可先激活第2列的任一单元格,然后选Data菜单的Insert Variable命令项,系统自动为用户在第2列前插入一个新的变量列,原第2列自动向右移一列成为第3列。
2.2.1.2 增加一个新的观察单位(即增加一个新的行)例如要在第6个观察单位前增加一个观察单位(亦即在第6行前增加一行,使原来的第6行下移成为第7行),则可先激活第6行的任一单元格,然后选Data菜单的Insert Case 命令项,系统自动为用户在第6行前插入一个新的行,原第6行列自动向下移一行成为第7行。
2.2.1.3 增加一个新的观察值例如由于输入错误,造成第7个观察单位的第4个变量值漏输,结果第8个观察单位的第4个变量值误为第7个观察单位的第4个变量值,这样的情形使得数据管理器中的第4个变量值从第7行起全部上移,而合计例数少一个。
于是希望在第7行的第4列处插入1个单元格,原有数据依次下移恢复正常。
可先将鼠标指向在第7行第4列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第4列从第7行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第8行第4列交叉处的单元格,选Edit菜单的Paste命令项,可将剪贴板中的原第7行起的所有数据下移自第8行开始,并空出第7行第4列的单元格以便补入漏输的数值。
2.2.1.4 删除一个行例如要删除第9行(即删除这个观察单位的所有观察值),则可先点击第9行的行头,这时整个第9行被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该行即被删除。
2.2.1.5 删除一个变量列例如要删除第4个变量列,则可先点击第4列的列头,这时整个第4列被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该列即被删除。
2.2.1.6 删除一个观察值例如由于输入错误,造成第6个观察单位的第2个变量值重复输入,结果第7个观察单位的第2个变量值误为第6个观察单位的第2个变量值,第8个观察单位的第2个变量值误为第7个观察单位的第2个变量值,……,这样的情形使得数据管理器中的第2个变量值从第7行起全部下移,而合计例数多一个。
于是希望将第7行第2列的单元格删除,原有数据依次上移恢复正常。
可先将鼠标指向在第8行第2列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第2列从第8行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第7行第2列交叉处的单元格,按Del键删除该单元格的数值,选Edit菜单的Paste命令项,可将剪贴板中的原第8行起的所有数据上移自第7行开始,既填补第7行第2列的单元格,又恢复原有下移的数值。
2.2.2数据的整理2.2.2.1 数据的排序用户可按要求对数据管理器的数据进行排序。
选Data菜单的Sort Cases...命令项,弹出Sort Cases...对话框(图1.7),在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击 钮使之进入Sort by框,然后在Sort Order框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击OK钮即可。
图1.7排序对话框2.2.2.2数据的行列互换有时,用户需要将数据管理器中原先按行(列)方向排列的数据转换成按列(行)方向排列的数据,这时可选Data菜单的Transpose...命令项,弹出Transpose...对话框(图1.8),在变量名列框中选1个或多个需要转换的变量,点击 钮使之进入Variable(s)框,再点击OK钮即可。
产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。
若要将数据再转换回原来的排列方式,方法与上述过程相同。
图1.8行列互换框2.2.2.3 数据的分组汇总用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总,汇总的形式十分多样。
例如,要对下列数据(图1.9)按变量group的大小,把变量x1作平均值汇总、把变量x2作求和汇总。
选Data菜单的Aggregate...命令项,弹出Aggregate Data对话框(图1.10),在变量名列框中选group变量,点击 钮使之进入Break Variable(s)框,选x1变量进入Aggregate Variable(s)框,因x1欲作平均值汇总,故点击Function...钮弹出Aggregate Data: Aggregate Function对话框(图1.11)选Mean of values项点击Continue 钮返回;选x2变量进入Aggregate Variable(s)框,因x2变量欲作求和汇总,故点击Function...钮选Sum of values项点击Continue钮返回。