第3章：SPSS 数据文件的建立和管理

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

加权个案用在卡方检验上的案例
例某医师研究物理疗法、药物治疗和外用膏药三
种疗法治疗周围性面神经麻痹的疗效，资料见表。问三种疗法的有效率有无差别？
三种疗法有效率的比较
疗法物理疗法组药物治疗组外用膏药组合计有效 199 164 118 481 无效 7 18 26 51 合计 206 182 144 532 有效率（%） 96.60 90.11 81.94 90.41
B) S系统缺失、系统或用户缺失。
统计几个变量同时取系统缺失值、用户缺失值的个数，
很少用，略。 C) 范围：
m 到
。n
统计多个变量中，在闭区间[m,n]中取值的变量个数。例如，在高考成绩.sav数据集中，成绩的5个变量都在区
间[70,79]中取值的变量个数。
这时m=70，n=79，完成设置后观察生成变量的数据并进行分析。
www.themegallery.com
SPSS操作过程（行×列表卡方检验）
①建立数据文件
数据格式：包括6行3列的频数格式，3个变量分别为行
变量、列变量和频数变量。 ②说明频数变量：数据加权个案描述统计交叉表
③ x2检验：从菜单选择分析
www.themegallery.com
结论：按α=0.05检验水准拒绝H0，接受H1，可以认为三种疗法治疗周围性面神经麻痹的总体有效率有差别。
案的值将替换旧变量对应的值，其它值不变。
c) 新变量的数据类型默认为数值型，点击类型与标签按钮，在弹出的对话框中可以定义新变量的数据类型和标签。对于我们的例子，新变定义量名实发工资为：sfgz，选择默认数据类型。
(sr-bx)*系数，系数因职称不同而不同，下图是上浮 5%的情况，其它情形相似。
点击【数据】→【加权个案】
观察其描述性统计：
(2) 案例数据抽样权重的确定
例如：希望掌握菜市场某天蔬菜销售的平均价格。如果仅使用各种蔬菜销售单价的平均数作为平均价格就很不合理，还应考虑到销售量对平均价格的影响。因此，以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数，就能够较准
确地反映平均价格的水平。
3) 数据排序的操作
a) 选择菜单数据排序个案。这时，数据集所有变量
出现在排序对话框左侧的列表中。 b) 选择排序变量并移入排序依据列表框中，指定该变量的数据是升序(Ascending)还是降序(Descending)的单选按钮. c) 如果是多重排序，用同样的方法指定第二、第三排序变量。按第一个变量先排序；第一个变量相同，按下一个变量排序；余类推。
选择对话框。出现计数设置对话框见图3-6。
图3-6 计数操作设置窗口
(1) 确定计数变量
计数变量用于存储统计结果。步骤如下： a) 目标变量：在下面的文本框填入目标变量，用于存储计数的值。操作：在文本框中输入 X b) 目标标签：在下面的文本框中输入变量的标签，作为目标变量的说明，可选。操作：堪忧。 c) 数字变量：将要计数的变量移入。操作：收入情况、未来收入情况
SPSS统计分析方法及应用第三章
SPSS 数据的预处理
数据文件建立完成之后，为了方便统计分析，需要对数
据进行初步的处理，如对数据进行排序，将一列数据扩大一个倍数，多列数据的求和等等。
1 数据的排序 1) 数据排序的目的
数据集中的数据是按照录入的先后排列的，并没有规律可言，不便于数据的分析。数据排序有什么好处呢？ a) 数据的排序，有助于了解数据的取值状况、变化规律、缺失值的个数等等。 b) 数据的排序，方便的得到变量的最大值、最小值，计算出数据的全距，了解数据的离散程度。
D) 范围：从最低到值
n
统计于左半开区间(-∞，n]中取值变量的个数。
例如：5门成绩中不及格的数量，这时的n=59。演示并
观察运行的结果。
类似的，还可以统计于右半开区间[n ，∞)中取值变量的
个数，例如：5门成绩取得良以上的门数。
7. 分类汇总
经济工作者根据工资数据，研究各县市职工的生活水平差异，需要计算各县市工资的平均工资。根据高考总分，分析学生智力水平是否和性别有关，即按性别计算出高考总分的平均值、最高分和最低分。这两个例子的计算有如下特点：需要对数据进行分类，计算出每一类的某一经济指标。用SPSS如何实现呢？
收入情况、未来收入情况，取值分别为：1，增加；2，
基本不变；3，减少。如果想了解在每一个个案中，选3(减少)的变量有几个，
如何用SPSS快速的给出答案？
例子特点：多个变量中，取同一个值的变量有多少个？
例2：高考成绩.sav ：要统计出每一考生语文、英语、数
学、物理和化学5科成绩，落在某一区间(如[70,79])的有几科? 例子特点：多个变量，取值在同一个区间的有多少个?
同职称的失业保险情况（对之进行统计性描述）。
(2) 数据拆分的步骤
选择菜单【数据】→【拆分文件】，如下图所示：
在对话框的右上端有3个单选按钮。
a) 分析所有个案，不创建组：默认选项，此选项也用于将拆分设置删除。
b) 比较组：将各组的结果在一个表输出，以方便结论的
比较对照。 c) 按组分多个表输出结果。数据排序状态分组状态的2个单选按钮。 a) 按分组变量排序文件：系统先按分组变量排序，然后进行拆分。 b) 文件已排序：已经按分组变量进行了排序，系统不需要再进行排序，可直接进行拆分。
E) 指定计算的统计量保存到何处。有3中选择。 a) 将统计量的计算结果存储到当前数据集。 b) 创建一个只含指定统计量作为变量的新数据集。
这时需在下面的文本框给出数据集的名字。 c) 将计算的统计量存储到一个默认名称为agg.sav，的新
文件中。文件类型可以不是SPSS的文件类型。
高级工程师对应工资上浮5%，高级职称的值等于1，在编辑框输入条件表达式：zc=1。
5) 条件语句编辑例
这时高级工程师的个案的sfgz变量都有了数据，其它职称个案的sfgz的值为缺失值。重复同样的方法，分别设置：表达式 (sr-bx)*1.03 (sr-bx)*1.02 条件 zc=2 zc=3 工程师助理工程师
下面我们看各种设置的结果不设置
比较组
按组织输出
5 变量的计算
在实际工作中，经常要Leabharlann Baidu变量进行加工整理，产生新的
变量和计算结果。
比如计算一个变量的倍数，计算几个变量的和、差，计算变量的绝对值、平方等等。
SPSS如何对变量进行计算呢？
变量计算的例(58页)
对职工的基本情况的数据(41页)表2-5进行处理，依据职称级别计算实发工资，满足：职称1~4的工资分别上浮5%、
c) 数据的排序，可以快速发现异常值，以便及时对其进行处理。
2) 数据排序的规则
a) 排序分为升序与降序，可以同时对数据集中的多个变量进行排序。
b) 排序的规则是：按第一个变量排序，第一个变量相同
时按第二个变量排序，余此类推。 c) 排序将导致个案的位置改变，未排序的变量数据随排
序变量的位置同时改变。
B) 选择分类变量
从左边的变量列表框选择分类变量到分组变量框中。操
作：职业。
C) 选择汇总变量汇总变量汇总变量模块。
操作：存款金额 D) 确定计算什么统计量。
点击【函数】按钮，弹出选择对话框，可供选择的统计量包括：均值、求和、最大值、最小值等20个选项，默认选项是均值，每次只能计算一个统计量。默认是均值。【变量名与标签】按钮为计算的统计量定制标签。操作：均值(注意观察汇总变量的取值随着选择的改变而改变) E) 输出每一类中包含的个案数。选择框个案数，若选择将生成一个每一类中所含个案数的变量，变量名为N_BREAK。
(sr-bx)*1.01
zc=4
无职称
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
对于满足一定条件时变量的计算，无法一次将不同条件的表达式集中编写，只能一个条件的表达式运行一次。
6. 计数
在实际工作当中，需要对调查问卷的答案进行分析。例1：居民储蓄调查(存款).sav中有如下两个指标：
1) 分类汇总关注的问题
A) 按照哪个变量进行分类(如：区域、性别)。 B) 对哪个变量进行汇总(如：职工工资、高考总分)。 C) 计算哪些指标(如：平均值、最大值和最小值)。
例：利用居民储蓄调查数据.sav数据集，分析职业与存
款数额之间的关系。
2) 分类汇总的基本操作
A) 打开汇总菜单点击：数据分类汇总，弹出分类汇总对话框。
确认后sfgz中zc只有1的个案出现了工作调整的数据，其它做系统缺失值处理，再确认2、3、4时可将其补充。
3) 算术表达式及运算符的定义
a)算术表达式的元素。变量可以从左侧的变量列表中选
择；数字、运算符号可以在软键盘中选择；函数可以从右侧选择，这些也都可以直接用键盘输入。 b)逻辑运算符及意义逻辑与：& 逻辑或： | 逻辑非：~ 等价于等价于等价于 AND OR NOT
3) 数据排序例
对居民储蓄存款调查数据，利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值。操作：户口，升序；存款金额，升序。
2. 选择个案(数据---选择个案)
在统计分析中，有时不需要对所有的观测进行分析，而可能只对某些特定的对象有兴趣。利用SPSS的选择个案命令可以实现这种样本筛选的功能。以SPSS安装配套数据文件居民储蓄调查数据（存款）数据为例，我们只统计农村居民的储蓄情况。使用筛选器变量：此时需要在下面选入一个筛选指示变量，该变量取值为非0的记录将被选中，进行之后的分析。 “过滤掉未选定的个案”：未选定的个案不包括在分析中，但保留在数据集中，使用该选项会在数据文件中生成名为 filter_$的变量，对于选定个案该变量的值为1，对于未选定个案该变量值为0，而相应的未被选中的个案ID号处也会以反斜杠加以标记。
4. 数据的拆分(Split)
(1) 数据拆分的意义
在进行统计分析时，经常要对文件中的观测进行分组，然后按组分别进行分析。例如要求按性别不同分组。又比如，省统计局每次的数据处理都是针对各个地级市的；学校对于学生数据的处理都是针对各个系的。以数据加工(职工数据).sav为例，我们需要看统计比较不
3. 加权个案（通常在做卡方检验的时候用的比较多
一般而言，下面两种情形需要进行该操作：
(1) 以频数录入的格式
在默认情况下，数据集中的每一行就是一条原始记录，这在多数情况下没有什么问题，但有时却很麻烦。如果所示的数据：如果每一行就是一条原始记录，需要输入121行！这时候一般使用频数格式录入数据，即相同取值的个案只录入一次，另加一个频数变量用于记录该数值共出现了多少次，这样就需要在分析时使用“加权个案” 对话框将数据指定为频数格式（加下页）。
3%、 2%、1%。用例子演示变量计算的基本操作(58页)。
1) 进入变量计算对话框
首先将数据加工(职工数据).sav数据集打开。
选择菜单变换计算变量，弹出对话框：
2) 定义结果变量
a) 在目标变量的编辑框中输入变量的名称，这时的变量
可以是新变量，也可以是原有变量。 b) 如果输入的变量名在数据集中已经存在，满足条件个
以上问题，如何通过SPSS软件实现？
1) 计数的功能
计数是统计出在一个个案中，多个变量取同一个值或在
同一个区间取值的变量个数的方法。
因此，处理这样的问题需要关注两个问题： A) 考察哪几个变量？
B) 同时取什么值，在哪一个区间取值？
2) 计数的步骤
选择菜单转换计算个案内值的出现次数，进入计数
(2) 计数取某一值变量的个数
计数涉及的变量一般都取多个值，我们只关心多个变量
同时取某一个值或在某一个区间取值变量的个数。
例子：收入情况未来收入情况这两个变量取3的有几个? 点击【定义值】按钮，确定变量取值的对话框，见图
A) 值在Value下边的文本框中填入几个变量都取的值，对于我
们的例子填入3，完成设置。
4) 条件语句编辑
单击 if 按钮，进入条件语句编辑框，有两个单选按钮。
a) 包括所有个案：对所有个案进行计算，默认选项。
b) 如果个案满足条件则包括：仅对满足条件的个案进行计算。选择这一单选按钮后，编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是，每次只能
编辑一个筛选条件，不能同时编辑多个筛选条件。