第3章 数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.3.3 在给定范围内选取数据
这里的“范围”可以是日期的范围、时间的范围 (对于时间序列数据)或个案的范围。但实际上大 多是指个例样本范畴,具体步骤如下: 1)-2)同前。 3)在Select Cases对话框中选择Based on time or case range单选钮。Range变为可用,单击该按钮, 显示对话框如图3.10所示。 4)在First窗口中输入起始样本个案号,在Last Case窗口中输入最终个案号。例如,First窗口中输 入2,Last Case窗口中输入23。 5)选择以后,原数据文件中只保留个案号为2至23 的个案,其余样本个案均被滤掉。
小键盘中有以下几类符号:数字和小数点包括0-9十个数字和小 数点;数学运算符,关系运算符,逻辑运算符包括逻辑与(&)、 逻辑或(|)和逻辑非(~)。其他符号和工具等。逻辑运算的基 本格式为“A(逻辑运算符)B”,运算的结果如下: A & B表示A与B运算,如果A和B均为真,则上面表达式的结果为 真。如果A和B中至少有一个为假,则表达式为假。 A | B表示A或B运算,如果A和B中至少有一个为真,则上面表达 式为真。只有当A、B均为假时,结果才为假。 A ~ B表示A非B运算,当A为真时,表达式“~=A”的结果为假, 当A为假时,表达式的结果为真。 本例中,在关系表达式窗口中输入“populatn>50000”,表示选 择人口大于5000万人的国家数据。 (4)单击“Continue”按钮,回到上一对话框,单击“OK”按钮, 进行数据选择。对未选中的样本处理方法有两种(图3.8): Filtered表示可恢复的数据过滤,Deleted表示内存中不可恢复的 数据筛选,仅能从硬盘上重新取出原来的数据(注意在这种模式 下千万不要存盘,以免原始数据的丢失)。
3.3.2随机选取数据
有时因为数据太多,如某地普查3000-8000万样本,进行试运行
时没有必要全部运算,常用随机选取数据的方法,作为正式运算 前的试算,正式运算则取全部数据。具体步骤如下: 1)、2)与前面相同: 3)在图3.6中的Select Cases对话框中,选择Random sample of cases单选按钮,单击Samples按钮,打开Random Sample对 话框如图3.9。 4)在Random Sample对话框中,有两种方式来确定随机样本 的大小。第一种是从总样本中抽取一定比例的数据样本,第二种 是指定从本数据文件中前A个样本中抽取B个样本。第一种方式为 缺省方式。第二个选择要求在两个窗口中分别输入数字,如从前 面100个数据中抽取30个数据,后面的数据必须大于或等于前面 数据,如图3.9所示。 图3.9 从前100个原始数据中随机地抽取30个数据的选择框 5)单击“Continue”按钮,回到上一级对话框,单击“OK”按钮, 进行计算。
还有一种数据排序的方法是产生一个新变量,给出原数据的
序号,而并不打乱原变量的顺序,这种方法往往比前一种方法 更为常用有效,这种方法见图3.2中Transform下的Rank Cases 对话框(图3.3)。在Variables 对话框中输入主要排序变量,排序的方向由Assign Rank而确 定,By后表示按照…变量进行分组排序,Ties是对同值排序时 的处理方法,若打开对话框,可取几个序号平均(Mean), 最小序号(Low)、最大序号(High),或仅用一个序号 (Sequential ranks to unique values)作为同值序号。 若进一步打开Rank Types对话框(图3.4)可得秩次编码方法 的选择,Rank是新变量值即秩——排序号,新变量名为原变量 名前加r;Fractional rank新变量值为秩除以所有合法值的观察 个案数之和;Fractional rank as %是在上述基础上再乘以100; Ntile是分段排序,如果后面输入为5,则低于20%的观察量被 赋值为1、位于20-40%的观察量被赋值为2……、高于80%的 观察量被赋值为5;Sum of case weights新变量值等于各观察 量权重之和;Savage score新变量值是依据指数分布所得原始 分数,新变量名为原变量名前加s。这里用得较多得是Rank、 Ntile、Fractional rank as %等。
3.4 数据的加权
加权(Weight)是一种通过人为方法来调节样本或 数据大小的方法,在资料输入、样本分析和科学评 价中经常起到举足轻重的作用。如在1%抽样调查中, 实际有些抽取了0.8%、有些抽取了1.3%,在有条 件的情况下,就可对不同的样本进行不同的权重, 进行调整;再如,各门成绩学分数不同,不能算简 单的平均,而要根据不同的学分进行加权处理;利 用加权方法还可大量节约输入时间和输入工作量。 加权就是给相应被加权对象乘上一个不同的系数 (权重)。当系数小于平均权重时,被加权对象在 整体中的影响被缩小;系数大于平均权重时,被加 权对象在整体中的影响被扩大。
3.来自百度文库 数据的排序
有些过程运行以前,需要对数据按照变量值大小进行排序
(Sort),如数据文件的拆分和合并等。在数据编辑器中输入原 数据文件以后,执行以下操作,可实现对数据进行排序。在 SPSS文件中,排序有两种,一种是直接改变样本顺序(Sort Cases),一种是给出排序的顺序号码(rank case)。 【例3-1】打开1995年世界各国人口经济资料(World95.sav) 文件,以第一种方法进行排序。在主菜单中单击Data菜单选项, 打开该菜单条;单击Sort Cases选项,打开Sort Cases对话框 (如图3.1所示)。从对话框左边窗口选择一变量(如人口密 度density),将该变量名送到Sort by窗口中。这就可将所选 变量,根据变量值的大小对原文件进行排序。选择了density变 量作为Sort by变量,意味着将根据density变量中数据的大小, 对“World95”文件中的数据进行排序。 在Sort Order方框中,有两种排序选择方式。Ascending和 Descending分别表示将根据所选变量按从小到大,或从大到 小的顺序对原数据中的各样本进行排序,这里选择后者。
3.3.1 根据逻辑关系表达式选择数据
【例3-2】研究人口大国的社会经济状态。打开SPSS软件自带文件
“World95”,选择人口数大于5000万以上的国家。注意,人口数据原 基本单位为千,而不是万。用逻辑关系表达式选择数据执行以下操作: (1)单击图3.2中的Data菜单项,打开下拉式菜单。 (2)在菜单中单击Select Cases选项,打开对话框,进入图3.6对话 框,窗口左为变量列表。列表右边为两个方框,Select方框中提供了5 个单选按钮,用于确定数据的选择方式,缺省方式为选择全部样本。 Unselected Cases Are框提供了2个单选按钮用于控制输出显示。 (3)单击If condition is satisfied单选按钮,If按钮变为可用,单击该 按钮,打开If对话框(图3.7),图左方是已有变量表,右上方是逻辑关系 表达式输入区间,中间是小键盘,右下方是函数表达式。在lf对话框中, 单击左边列表框中选定的变量名,单击向右箭头键,可将该变量名移到 右侧列表框中。数字、数学运算符、关系运算符等可以通过键盘输入, 也可以通过鼠标单击对话框中间小键盘上的按钮来输入。如果关系表达 式中有函数,建议从小键盘右边的Function列表框中进行选择,然后单 击上方的向上小箭头“▲”,函数名显示到表达式窗口中,然后输入参 数。直接计算时,若任一数据缺失则会导致整个样本无法计算。
【例3-4】某地区21岁人口的调查资料如下,问无业、已婚 人数占总人数的比例分别是多少?
可以选择多个变量作为Sort
by变量,根据这多个变量数据 的大小对原数据文件中的个案进行排序。但排序结果与这些 变量输入Sort by窗口的先后顺序有关。最先输入的变量作为 第一排序变量,其后输入的变量作为第二、第三,……,第n排 序变量。SPSS按照先后顺序,首先根据第一Sort by变量对 数据进行排序,然后对这一排序结果中,大小相同的第一 Sort by变量所对应的样本,根据第二Sort的变量及排序方式 进行排序,后面依次类推。若选择人口密度(density)变量 和城市人口比例(urban)变量作为Sort by第一、第二排序 变量,前者为降序,后者为升序;还可选择人口数(populatn) 作为第三排序变量,排序方式为降序,结果见图3.2。可以 看出,spss首先根据density变量进行排序,完成以后,对于 density变量值相同的个例,再根据urban变量进行排序,并 对density、urban变量值都相同的个例,按populatn从大到 小进行排序。如果将第一排序变量与第二排序变量交换,就 会产生不同的排序结果,同学们不妨作一些对比。
3.2 数据的转置
数据转置(Transpose),如矩阵转置,将行列互换,使原来 的行变量变成列变量,同时将列变量转变为行变量。有些新 学员输入时将调查样本按列输入,使行变成变量,列变成样 本。这就需要进行转置,否则无法进行统计及运算。 数据转置的具体方法是单击图3.2主菜单下 Data→Transpose↙,打开图3.5对话框。在左边窗口中选择 并单击那些拟转置变量的变量名,再单击右箭头键,把选定 的变量移到Variable窗口中。单击“OK”按钮,会弹出一对 话框提示“只选择了所有变量中的一部分,实施转置以后, 未被选择的变量在新的文件中将会丢失”。这时可单击“确 定”按钮,继续操作。 原文件中的行变成了新文件中的列,原文件中的列变成了新 文件中的行。原文件中的变量成为新文件中的样本(Case), 原文件中的样本变成了新文件中的变量。实施转置后,原数 据文件中用户指定的缺失值被转换为系统缺失值,原字符串 变量则被转换为缺失值。
3.4.1概述
在SPSS软件中,加权常用于以下两种情况:减少输 入数量,进行复权。 1)对变量的值进行加权是一种通过改变变量的值来 修正样本或数据的方法。 【例3-3】有140位同学的5分制学习成绩,求平均成 绩、成绩的标准差。先输入140个同学中文成绩,如 输入35(5+12+18)个3;65(20+22+23)个4;40 (20+12+8)个5,再输入英文成绩,输入5个3;12 个4;18个5;20个3;22个4;23个5,……,这样需 要输入420个数据,效率太低。因此,常常可以直接 输入分组资料(9组资料),具体是将各组人数或频 数F作为权重,仅输入中文成绩、英文成绩和相应的 频数。这样可大幅度节省输入工作量(9/140)。
第3章 数据预处理
本章提要 数据正式处理之前,常需将数据进行预 先处理。比如对数据进行选择、加权、合 并等,以便提高效率、对数据进行有针对 性的处理。本章介绍了数据的主要预处理 过程,具体包括数据的排序、转置、拆分、 合并、选择、加权和转换。
数学神题: ABCD * 9 DCBA 问:ABCD=?
3.3 数据的选择
SPSS是对变量的所有样本进行处理,而实际上有 时仅研究部分样本,为节省大量的时间,将从大量 的原始数据中,选择所需要研究的某些样本,是个 案样本选择(Select Case)。具体是依次打开Data 和Select case按钮,弹出4种数据选择的方法(图 3.6)使用最多的是第二种。 (1)根据逻辑关系表达式有目的地挑选数据(If condition is satisfied) (2)无目的地随机选取数据(Random sample of cases) (3)按日期、时间或样本编号,在给定范围内 选择数据(Based on time or case range) (4)用变量过滤器选取数据(Use filter variable)