SPSS第三章第四节教案

SPSS第三章第四节教案
SPSS第三章第四节教案

教案

授课主要内容

教学过程

『组织教学』检查学生出勤情况

『导入新课』数据选取、计数、分类汇总在SPSS工作中都非常的常见,那么,这些具体的操作是什么呢?

『新课讲授』

第三章 SPSS数据的预处理

第四节SPSS数据选取、计数、分类汇总

一、数据选取

数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。

目的:方便对符合条件的case行分析。

SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。

数据选取的基本方式:

(1)选取全部数据(All cases)

(2)按指定条件选取( If condition is satisfied )

SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。

(3)随机抽样( Random sample of cases ),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:

第一,近似抽样(Approximately)

近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。

注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。

第二,精确抽样(Exactly)

精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。

(4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。

(5)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。

说明:

(1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。

(2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自

动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。

该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。

(案例)

利用住房状况调查数据,选取方案

编码所在区性别年龄文化程度从业状况婚姻常住人口户口状况家庭10009115123141 10641123015141 10588114815131 10657115112151 31966313211141 10422124013141 32077323225231 42857415316121 32467313111131 10878113713131 42575414222131 42674413322131 10253123822131 32140313032131 10483114722131 10327113921131 32081314522131 21668213022141 10276115331131 32311315321121 32298315021141 42680414725141 10093124621231 21559212831151 32268312323212

输出内容:

GET FILE='C:\Documents and Settings\Administrator\桌面\住房状况调查.sav'. USE ALL. COMPUTE filter_$=(常住人口 = 3). VARIABLE LABEL filter_$ '常住人口 = 3 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE. USE ALL. COMPUTE filter_$=(年龄 35 & 家庭收入 >= 15000 & 现住面积 >= 100). VARIABLE LABEL filter_$ '年龄 35 & 家庭收入 >= 15000 & 现住面积 >= 100 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE. DATASET COPY 啦啦. DATASET ACTIVATE 啦啦. FILTER OFF. USE ALL. SELECT IF (年龄 35 & 家庭收入 >= 15000 & 现住面积 >= 100). DATASET ACTIVATE 数据集1. EXECUTE. DATASET COPY 呵呵. DATASET ACTIVATE 呵呵. FILTER OFF. USE ALL. SAMPLE .01. DATASET ACTIVATE 数据集1. EXECUTE. USE ALL. do if $casenum=1. compute #s_$_1=20. compute #s_$_2=30. end if. do if #s_$_2 > 0. compute filter_$=uniform(1)* #s_$_2 #s_$_1. compute #s_$_1=#s_$_1 - filter_$. compute #s_$_2=#s_$_2 - 1. else. compute filter_$=0. end if. VARIABLE LABEL filter_$ '从第一 30 个案中的 20 (SAMPLE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE.

FILTER OFF. USE 10 thru 20. EXECUTE. DATASET ACTIVATE 数据集1. DATASET CLOSE 呵呵. DATASET CLOSE 啦啦. USE ALL. FILTER BY 计划面积. EXECUTE.

二、计数

3.4.1 计数目的

SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。

SPSS实现计数的关键步骤是:

指定哪些变量参与计数,计数的结果存入哪个新变量中

指定计数区间(尤为关键)

3.4.2 计数区间

SPSS中的计数区间可以有以下几种描述形式:

单个变量值(Value)

系统缺失值(System-missing)

系统缺失值或用户缺失值( System or user-missing)

给定最大值和最小值的区间(n through m)

小于等于某指定值的区间(Lowest through n)

大于等于某指定值的区间(n through highest)

3.4.3 计数的基本操作

(1)选择菜单Transform-Count,出现如下窗口:

(2)将参与计数的变量选到 Numeric Variables框中

(3)在Target Variable框中输入存放计数结果的变量名,并在Target Label框中输入相

应的变量名标签。

(4)单击Define Values按钮定义计数区间,出现如下图窗口:

(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS条件表

达式。否则,本步可略去。

(案例)

利用住房状况调查数据,分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年

不准备购买住房。

编码所在区性别年龄文化程度从业状况婚姻常住人口户口状况家庭10009115123141 10641123015141 10588114815131 10657115112151 31966313211141 10422124013141 32077323225231 42857415316121 32467313111131 10878113713131 42575414222131 42674413322131 10253123822131 32140313032131 10483114722131 10327113921131 32081314522131

输出内容:

COUNT gs=住房满意未来三年(1). VARIABLE LABELS gs '住房满意且不准备买房'. EXECUTE.

COUNT ll=现住面积(60 thru 80). EXECUTE.

COUNT haha=计划面积计划户型购房价位是否贷款购买类型地理位置(SYSMIS). VARIABLE

LABELS haha '缺失值个数'. EXECUTE.

三、分类汇总

SPSS实现分类汇总涉及两个主要方面:

按照哪个变量(如上例中的学历、职业和年龄段)进行分类

对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计

量(如上例中的平均工资、平均消费金额(案例)

利用住房调查数据,分析本市户口家庭和外地户口家庭目前人均住房面积的平均值是否有较大差距。

分类汇总的基本操作

(1)选择菜单Data-Aggregate,出现如下所示的窗口:

(2)将分类变量选到Break Variable(s)框中

(3)将汇总变量选到Summaries of Variable(s)框中

(4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。

( 5)指定将分类汇总结果保存到何处。有三种选择:

第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。

第二,Create new data file,表示将结果存放到系统默认的名为aggr.sav的SPSS 数据文件中,可以单击File按钮,重新指定文件名;

第三,Replace working data file,表示用分类汇总结果覆盖数据编辑窗口中的数据。

一般选择第二种方式,结果比较清晰。

(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量名称(如a_mean)。

(7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。

说明:

分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用。

类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。

户口状况计划面积人均面积

1101.9921.73

296.1426.72

输出内容:DATASET DECLARE uu. AGGREGATE /OUTFILE='uu' /BREAK=户口状况 /计划面

相关主题
相关文档
最新文档