第3章:SPSS 数据文件的建立和管理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

加权个案用在卡方检验上的案例
例 某医师研究物理疗法、药物治疗和外用膏药三
种疗法治疗周围性面神经麻痹的疗效,资料见表。 问三种疗法的有效率有无差别?
三种疗法有效率的比较
疗法 物理疗法组 药物治疗组 外用膏药组 合计 有效 199 164 118 481 无效 7 18 26 51 合计 206 182 144 532 有效率(%) 96.60 90.11 81.94 90.41
B) S系统缺失、 系统或用户缺失。
统计几个变量同时取系统缺失值、用户缺失值的个数,
很少用,略。 C) 范围:
m 到
。n
统计多个变量中,在闭区间[m,n]中取值的变量个数。 例如,在高考成绩.sav数据集中,成绩的5个变量都在区
间[70,79]中取值的变量个数。
这时m=70,n=79,完成设置后观察生成变量的数据并进 行分析。
www.themegallery.com
SPSS操作过程(行×列表卡方检验)
①建立数据文件
数据格式:包括6行3列的频数格式,3个变量分别为行
变量、列变量和频数变量。 ②说明频数变量:数据 加权个案 描述统计 交叉表
③ x2检验:从菜单选择 分析
www.themegallery.com
结论:按α=0.05检验水准拒绝H0,接受H1,可以认为三种 疗法治疗周围性面神经麻痹的总体有效率有差别。
案的值将替换旧变量对应的值,其它值不变。
c) 新变量的数据类型默认为数值型,点击类型与标签按 钮,在弹出的对话框中可以定义新变量的数据类型和标签。 对于我们的例子,新变定义量名 实发工资为:sfgz,选 择默认数据类型。
(sr-bx)*系数,系数因职称不同而不同,下图是上浮 5%的情况,其它情形相似。
点击【数据】→【加权个案】
观察其描述性统计:
(2) 案例数据抽样权重的确定
例如:希望掌握菜市场某天蔬菜销售的平均价格。如果 仅使用各种蔬菜销售单价的平均数作为平均价格就很不合理, 还应考虑到销售量对平均价格的影响。因此,以蔬菜的销售 量为权数计算各种蔬菜销售单价的加权平均数,就能够较准
确地反映平均价格的水平。
3) 数据排序的操作
a) 选择菜单数据 排序个案。这时,数据集所有变量
出现在排序对话框左侧的列表中。 b) 选择排序变量并移入 排序依据列表框中,指定该变量 的数据是升序(Ascending)还是降序(Descending)的单选按钮. c) 如果是多重排序,用同样的方法指定第二、第三排序 变量。按第一个变量先排序;第一个变量相同,按下一个变 量排序;余类推。
选择对话框。出现计数设置对话框见图3-6。
图3-6 计数操作设置窗口
(1) 确定计数变量
计数变量用于存储统计结果。步骤如下: a) 目标变量:在下面的文本框填入目标变量,用于存储 计数的值。 操作:在文本框中输入 X b) 目标标签 :在下面的文本框中输入变量的标签,作为 目标变量的说明,可选。操作:堪忧。 c) 数字变量 :将要计数的变量移入。 操作:收入情况、未来收入情况
SPSS统计分析方法及应用第三章
SPSS 数据的预处理
数据文件建立完成之后,为了方便统计分析,需要对数
据进行初步的处理,如对数据进行排序,将一列数据扩大一 个倍数,多列数据的求和等等。
1 数据的排序 1) 数据排序的目的
数据集中的数据是按照录入的先后排列的,并没有规律 可言,不便于数据的分析。数据排序有什么好处呢? a) 数据的排序,有助于了解数据的取值状况、变化规律、 缺失值的个数等等。 b) 数据的排序,方便的得到变量的最大值、最小值,计 算出数据的全距,了解数据的离散程度。
D) 范围:从最低到值
n
统计于左半开区间(-∞,n]中取值变量的个数。
例如:5门成绩中不及格的数量,这时的n=59。演示并
观察运行的结果。
类似的,还可以统计于右半开区间[n ,∞)中取值变量的
个数,例如:5门成绩取得良以上的门数。
7. 分类汇总
经济工作者根据工资数据,研究各县市职工的生活水平 差异,需要计算各县市工资的平均工资。 根据高考总分,分析学生智力水平是否和性别有关,即 按性别计算出高考总分的平均值、最高分和最低分。 这两个例子的计算有如下特点:需要对数据进行分类, 计算出每一类的某一经济指标。用SPSS如何实现呢?
收入情况、未来收入情况,取值分别为:1,增加;2,
基本不变;3,减少。 如果想了解在每一个个案中,选3(减少)的变量有几个,
如何用SPSS快速的给出答案?
例子特点:多个变量中 ,取同一个值的变量有多少个?
例2:高考成绩.sav :要统计出每一考生语文、英语、数
学、物理和化学5科成绩,落在某一区间(如[70,79])的有几科? 例子特点:多个变量,取值在同一个区间的有多少个?
同职称的失业保险情况(对之进行统计性描述)。
(2) 数据拆分的步骤
选择菜单【数据】→【拆分文件】,如下图所示 :
在对话框的右上端有3个单选按钮。
a) 分析所有个案,不创建组:默认选项,此选项也用于 将拆分设置删除。
b) 比较组:将各组的结果在一个表输出,以方便结论的
比较对照。 c) 按组分多个表输出结果。 数据排序状态 分组状态的2个单选按钮。 a) 按分组变量排序文件:系统先按分组变量排序,然后 进行拆分。 b) 文件已排序:已经按分组变量进行了排序,系统不需 要再进行排序,可直接进行拆分。
E) 指定计算的统计量保存到何处。有3中选择。 a) 将统计量的计算结果存储到当前数据集。 b) 创建一个只含指定统计量作为变量的新数据集。
这时需在下面的文本框给出数据集的名字。 c) 将计算的统计量存储到一个默认名称为agg.sav,的新
文件中。文件类型可以不是SPSS的文件类型。
高级工程师对应工资上浮5%,高级职称的值等于1,在 编辑框输入条件表达式:zc=1。
5) 条件语句编辑例
这时高级工程师的个案的sfgz变量都有了数据,其它职 称个案的sfgz的值为缺失值。 重复同样的方法,分别设置: 表达式 (sr-bx)*1.03 (sr-bx)*1.02 条件 zc=2 zc=3 工程师 助理工程师
下面我们看各种设置的结果 不设置
比较组
按组织输出
5 变量的计算
在实际工作中,经常要Leabharlann Baidu变量进行加工整理,产生新的
变量和计算结果。
比如计算一个变量的倍数,计算几个变量的和、差,计 算变量的绝对值、平方等等。
SPSS如何对变量进行计算呢?
变量计算的例(58页)
对职工的基本情况的数据(41页)表2-5进行处理,依据职 称级别计算实发工资,满足:职称1~4的工资分别上浮5%、
c) 数据的排序,可以快速发现异常值,以便及时对其进 行处理。
2) 数据排序的规则
a) 排序分为升序与降序,可以同时对数据集中的多个变 量进行排序。
b) 排序的规则是:按第一个变量排序,第一个变量相同
时按第二个变量排序,余此类推。 c) 排序将导致个案的位置改变,未排序的变量数据随排
序变量的位置同时改变。
B) 选择分类变量
从左边的变量列表框选择分类变量到分组变量框中。操
作:职业。
C) 选择汇总变量 汇总变量汇总变量模块。
操作:存款金额 D) 确定计算什么统计量。
点击【 函数 】按钮,弹出选择对话框,可供选择的统 计量包括: 均值、求和、最大值、最小值等20个选项,默认选项是 均值,每次只能计算一个统计量。默认是均值。 【 变量名与标签 】按钮为计算的统计量定制标签。 操作:均值(注意观察汇总变量的取值随着选择的改变而改变) E) 输出每一类中包含的个案数。 选择框 个案数,若选择将生成一个每一类中所含个案数 的变量,变量名为N_BREAK。
(sr-bx)*1.01
zc=4
无职称
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
对于满足一定条件时变量的计算,无法一次将不同条件 的表达式集中编写,只能一个条件的表达式运行一次。
6. 计数
在实际工作当中,需要对调查问卷的答案进行分析。 例1:居民储蓄调查(存款).sav中有如下两个指标:
1) 分类汇总关注的问题
A) 按照哪个变量进行分类(如:区域、性别)。 B) 对哪个变量进行汇总(如:职工工资、高考总分)。 C) 计算哪些指标(如:平均值、最大值和最小值)。
例:利用居民储蓄调查数据.sav数据集,分析职业与存
款数额之间的关系。
2) 分类汇总的基本操作
A) 打开汇总菜单 点击:数据 分类汇总,弹出分类汇总对话框。
确认后sfgz中zc只有1的个案出现了工作调整的数据, 其它做系统缺失值处理,再确认2、3、4时可将其补充。
3) 算术表达式及运算符的定义
a)算术表达式的元素。变量可以从左侧的变量列表中选
择;数字、运算符号可以在软键盘中选择;函数可以从右侧 选择,这些也都可以直接用键盘输入。 b)逻辑运算符及意义 逻辑与:& 逻辑或: | 逻辑非:~ 等价于 等价于 等价于 AND OR NOT
3) 数据排序例
对居民储蓄存款调查数据,利用排序的方法找出城镇居 民和农村居民一次性存款的最大值和最小值。 操作:户口,升序;存款金额,升序。
2. 选择个案(数据---选择个案)
在统计分析中,有时不需要对所有的观测进行分析,而 可能只对某些特定的对象有兴趣。利用SPSS的选择个案命令 可以实现这种样本筛选的功能。以SPSS安装配套数据文件居 民储蓄调查数据(存款)数据为例,我们只统计农村居民的 储蓄情况。 使用筛选器变量:此时需要在下面选入一个筛选指示变 量,该变量取值为非0的记录将被选中,进行之后的分析。 “过滤掉未选定的个案”:未选定的个案不包括在分析中, 但保留在数据集中,使用该选项会在数据文件中生成名为 filter_$的变量,对于选定个案该变量的值为1,对于未选定 个案该变量值为0,而相应的未被选中的个案ID号处也会以反 斜杠加以标记。
4. 数据的拆分(Split)
(1) 数据拆分的意义
在进行统计分析时,经常要对文件中的观测进行分组, 然后按组分别进行分析。例如要求按性别不同分组。又比如, 省统计局每次的数据处理都是针对各个地级市的;学校对于 学生数据的处理都是针对各个系的。 以数据加工(职工数据).sav为例,我们需要看统计比较不
3. 加权个案(通常在做卡方检验的时候用的比较多
一般而言,下面两种情形需要进行该操作:
(1) 以频数录入的格式
在默认情况下,数据集中的每一行就是一条原始记录, 这在多数情况下没有什么问题,但有时却很麻烦。如果所示 的数据:如果每一行就是一条原始记录,需要输入121行! 这时候一般使用频数格式录入数据,即相同取值的个案 只录入一次,另加一个频数变量用于记录该数值共出现了 多少次,这样就需要在 分析时使用“加权个案” 对话框将数据指定为频 数格式(加下页)。
3%、 2%、1%。用例子演示变量计算的基本操作(58页)。
1) 进入变量计算对话框
首先将数据加工(职工数据).sav数据集打开。
选择菜单 变换 计算变量,弹出对话框:
2) 定义结果变量
a) 在目标变量的编辑框中输入变量的名称,这时的变量
可以是新变量,也可以是原有变量。 b) 如果输入的变量名在数据集中已经存在,满足条件个
以上问题,如何通过SPSS软件实现?
1) 计数的功能
计数是统计出在一个个案中,多个变量取同一个值或在
同一个区间取值的变量个数的方法。
因此,处理这样的问题需要关注两个问题: A) 考察哪几个变量?
B) 同时取什么值,在哪一个区间取值?
2) 计数的步骤
选择菜单 转换 计算个案内值的出现次数,进入计数
(2) 计数取某一值变量的个数
计数涉及的变量一般都取多个值,我们只关心多个变量
同时取某一个值或在某一个区间取值变量的个数。
例子:收入情况未来收入情况这两个变量取3的有几个? 点击【 定义值 】按钮,确定变量取值的对话框,见图
A) 值 在Value下边的文本框中填入几个变量都取的值,对于我
们的例子填入3,完成设置。
4) 条件语句编辑
单击 if 按钮,进入条件语句编辑框,有两个单选按钮。
a) 包括所有个案 :对所有个案进行计算,默认选项。
b) 如果个案满足条件则包括:仅对满足条件的个案进行 计算。选择这一单选按钮后,编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是,每次只能
编辑一个筛选条件,不能同时编辑多个筛选条件。
相关文档
最新文档