第三章 SPSS数据的预处理资料讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
五、变量计算的应用举例
3-3 数据选取
一、数据选取的目的
数据选取就是根据分析的需要,从已收集到的大批量数据( 总体)中按照一定的规则抽取部分数据(样本)参与分析的过 程,通常也称为抽样。
1、提高数据分析效率
如果数据量较大,会在一定程度上影响计算和建模的效 率,因此,通常可以根据一定的抽样方法从总体中抽取少量 样本,后面的分析只针对样本进行,这样会大大提高分析的 效率。当然,抽取出的样本应具有总体代表性,否则分析的 结论可能会有偏差。
2、随机选取(Random sample of cases) 第一,近似选取(Approximately)
要求用户给出一个百分比数值。SPSS将按照这个比例自动 从数据编辑窗口中随机抽取出相应百分比数目的个案。
随机是根据SPSS随机数种子发生器设计和实现的。
设置的菜单是Baidu Nhomakorabea 转换 -> 随机数字生成器
三、SPSS条件表达式 SPSS条件表达式是一个对条件进行判断的式子。其结果有两 种取值:如果判断条件成立,则结果为真;如果判断条件不成 立,则结果为假。
1、简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式 子。其中关系运算符包括>、<、=、~=(不等于)、>= 、<=。
2、复合条件表达式
SPSS变量计算的基本操作步骤如下
(1)选择菜单: 转换->计算变量
(2)在数字表达式框给出SPSS算术表达式和函数。 (3)在目标变量框中输入存放计算结果的变量名。 (4)如果用户仅希望对符合一定提交的个案计算产生变 量,则按“如果”按钮,选择“如果个案满足条件则包括” 选项,然后输入条件表达式。
SPSS函数大致可以分成八大类:
1、算术函数 3、分布函数 5、字符串函数 7、日期函数
2、统计函数、 4、逻辑函数、 6、缺失值函数、 8、其他函数。
五、变量计算的应用举例
利用“职工数据.sav”,依据职称级别计算实发工资,计算规 则是:实发工资等于基本工资减去失业保险,之后,依据1~4 等级分别将以上计算结果上浮5%,3%,2%,1%。
(2)变量计算的结果应保存到一个指定变量中,该变量 的数据类型应与计算结果的数据类型相一致。
二、SPSS算术表达式
SPSS算术表达式(Numeric Expression)是由常量、 变量、算术运算符、圆括号、函数等组成的式子。
★ 字符型常量应当用引号括起来 ★ 变量是那些已存在于数据编辑窗口中的原有变量 ★ 算术运算符主要包括+、-、*、/、**(乘方)。 操作对象的数据类型为数值型。运算的先后次序是:先计算 乘方,再计算乘除,最后计算加减。在同级运算中,按照从 左往右的顺序进行计算。通过圆括号改变原有的计算顺序。 ★ 在同一算术表达式中的常量及变量,数据类型应 该一致,否则无法计算。
又称逻辑表达式,是由逻辑运算符号、圆括号和简单条 件表达式等组成的式子。其中,逻辑运算符号包括&或AND (并且)、|或OR(或者)、~或NOT(非)。NOT的运算 优先级最高,其次是AND,最低是OR。可以通过圆括号改变 运算的优先级。
四、SPSS函数 函数书写的具体形式为:函数名(参数)
其中函数名是SPSS已经规定好的,参数可以是常量(字 符型常量应用引号括起来),也可以是变量或算术表达式。 参数可能是一个,也可能是多个,各参数之间用逗号分隔。
兼容版本 12. 版本 12 和早期版本中所使用的随机数 字生成器。如果您要重新生成在早期版本中根据指定的 种子值生成的随机结果,可使用此随机数字生成器。
较新的随机数生成器,可实现更可靠的模拟。如果 从 SPSS 12 或早期版本再现随机结果是问题,那 么可使用此随机数生成器。
表示随机数种子每次自动取一个新的值,是SPSS 默认的选项,这样随机化结果不会重复出现。
例 利用租房状况问卷调查和数据,通过数据排序功能分析 本市户口和外地户口家庭的住房面积情况。
3-2 变量计算
一、变量计算的目的
变量计算是数据分析过程中应用最广泛也是最重要的一环。通 过变量计算可以处理许多问题。
1、数据的转换处理 2、对数据的原有分布状态进行转换
注意
(1)变量计算是针对所有个案(或指定的部分个案)的 ,每条个案(或指定的部分个案)都有自己的计算结果。
表示随机数种子为一个具体的正整数(该整 数应小于等于2000000),一般用于随机化 结果需要重复出现的情况
第二,精确抽样(Exactly)
精确抽样要求用户给出两个参数。第一个参数是希望选取 的个案数,第二个参数是指定在前几个个案中选取。SPSS自 动在数据编辑窗口的前若干个个案中随机精确地抽出相应个 数的个案来。
第三章 SPSS数据的预处理
3-1 数据排序
一、数据排序的目的
通常数据编辑窗口中个案的前后次序是由数据录入的先后顺 序决定的。数据预处理中,有时需要将数据按照一定的顺序重 新排列。
数据排序在数据分析过程中的作用:
★ 数据排序便于数据的浏览,有助于了解数据的取值状况、 缺失值数量的多少等。
★通过数据排序能够快捷地找到数据的最大值和最小值,进 而可以计算出数据的全矩,初步把握和比较数据的离散程度。
2、检验模型的需要 依据一定的抽样方法只选择部分样本参与数据建模,剩
余的数据用于模型检验。
二、数据选取方法
1、按指定条件选取(If condition is satisfiled)
用户以条件表达式的形式给出数据选取的条件。SPSS将自动 对数据编辑窗口中的所有个案进行条件判断。那些满足条件的 个案,即条件判断为真的个案将被自动选取出来,而那些条件 判断为假的个案则不被选中。
★通过数据排序能够快捷地发现数据的异常值,为进一步明 确它们是否对分析产生重要影响提供帮助。
单值排序:排序变量只有一个
多重排序:第一个指定的排序变量称为主排序变量,其他 依次指定的变量分别称为第二排序变量、第三排序变量等。
SPSS数据排序的基本操作步骤:
(1)选择菜单:数据 -> 排序个案 (2)指定主排序变量,并选择是按升序还是降序排列 (3)如果是多重排序,还要依次指定第二、第三排序变 量及相应的排序规则。否则,本步可略。