第3章 SPSS数据的预处理 PPT课件

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
构建一个表达式(可以将其粘贴到“表达式”字段中 或是在“表达式”字段中直接输入)。
通过从“函数组”列表中选择组,然后双击“函数和 特殊变量”列表中的函数或变量(或选择函数或变量, 然后单击“函数组”列表相邻的箭头),可以粘贴函 数或常用的系统变量。填充问号指示的任何参数(仅 适用于函数)。标记为所有的函数组提供所有可用函 数和系统变量的列表。对话框的保留区域中显示对当 前所选函数或变量的简要描述。
3.4 计数 3.4.1 计数的目的 与选取数据的区别 3.4.2 计数区间 3.4.3 操作(变量转移) 转换—对个案内的值计数
3.5 分类汇总
练习:以性别和年龄为分类变量,对儿童身 高、体重进行汇总求均值(数据:SPSS统计 分析从入门到精通\Chapter 03\儿童的身高 和体重数据.sav)
如果条件表达式的结果为 true,则所选子集中将包含该个 案。
如果条件表达式结果为 false 或 missing,则所选子集中 不包含该个案。
大多数条件表达式使用计算器面板上六个关系运算符(<、>、 <=、>=、= 和 ~=)中的一个或多个。
条件表达式可以包含变量名称、常数、算术运算符、数值 (和其他)函数、逻辑变量以及关系运算符。
•字符串常数必须包含在引号或撇号中。
•如果值包含小数,则必须使用句号 (.) 作 为小数指示符。
•对于新的字符串变量,必须选择类型和标签 以指定数据类型。
If 个案
“If 个案”对话框允许您使用条件表达式对选定的个案子 集应用数据转换。条件表达式对每个个案都返回一个值: true、false 或 missing。
824.00
基本工资
Freque ncy Percent
2
66.7
1
33.3
3
100.0
Valid Percent 66.7 33.3 100.0
1
25.0
25.0
1
25.0
25.0
1
25.0
25.0
1
25.0
25.0
4
100.0 100.0
1
16.7
16.7
1
16.7
16.7
1
16.7
16.7
2
33.3
3.2.4.4 逻辑函数
3.2.4.5 字符函数
3.2.4.6 日期函数
3.2.4.1 缺失值函数
函数和简单算术表达式以不同的方式处理缺失值。 在以下表达式中:(var1+var2+var3)/3
如果一个个案里三个变量中的任何一个有缺失值, 结果将缺失。
在以下表达式中:MEAN(var1, var2, var3)
• 您最多可指定 8 个分组变量。
比较数据拆分与分类汇总
职称 高级工 Valid 程师 工程师 Valid
助理工 Valid 程师
无技术 Valid 职称
1014.00 1044.00 Total
859.00 889.00 984.00 989.00 Total
827.00 848.00 866.00 887.00 938.00 Total
式中n表示资料的项数 某车间某月份的工人生产某产品的数量分别为13、
13.5、13.8、13.9、14、14.6、14.8、15、15.2、 15.4、15.7公斤,则三个四分位数的位置分别为? 某车间某月份的工人生产某产品的数量分别为13、 13.5、13.8、13.9、14、14.6、14.8、15、15.2、 15.4公斤,则三个四分位数的位置分别为?
(二)由组距式数列确定四分位数
第一步,向上或向下累计次数。
第二步,根据累计次数确定四分位数的位置。
1)当采用向上累计次数的资料确定四分位数时,四分位数
位置的公式是:
Q1的位置=
f
1
4
Q2的位置=
2( f 1)
4
Q2的位置=
3( f 1)
4
第三步,根据四分位数的位置算出各四分位数。
1)当累计次数是向上累计时,按下限公式计算
想知道两个班的化学加权平均值,一班50人,平均80, 二班60人,平均82,算数平均(80+82)/2=81,加权 (50*80+60*82)/(50+60)=81.09
满分10分的情况下,专家打8分,老师打6分,学生打7 分,但你认为专家权重和老师及学生权重应为 0.5:0.3:0.2,那么加权后就8*0.5+6*0.3+7*0.2=7.2, 而算数平均的话就是(8+6+7)/3=7。
从菜单中选择:转换—计算变量 在“数据转换”对话框中,单击 If。 选中如果个案满足条件则包含。 输入条件表达式。
3.2.6 计算变量的应用举例 P58页例题
3.3 数据选取 按指定条件抽样 随机抽样 选取某一区域内的样本 通过过滤变量选取样本(定义缺失值) 操作:数据—选择个案
3.7.6 数据文件结构重组 横向格式数据
纵向格式数据
操作数据:SPSS统计分析从入门到精通 \Chapter 03\季度销售额的横向格式.sav
季度销售额的纵向格式.sav
操作步骤:数据—重组 1.变量重组为个案
2.个案重组为变量
练习:SPSS for Windows统计分析(第3版) \data02-13-1.sav;data02-13-2.sav
3.2.2 SPSS算术表达式 常量——字符型常量 ‘a’+1=97+1=98=‘b’ ‘a’<‘b’ 变量 算术运算符:+、-、*、/、 * *
3.2.3 条件表达式
对条件进行判断,条件成立则为真,条件不 成立则为假;可分为简单条件表达式和复合 条件表达式
3.2.3.1 简单条件表达式 关系运算符: ﹥、﹤、~﹦、﹥﹦、 ﹤ ﹦
33.3
1
16.7
16.7
6
100.0 100.0
3
100.0 100.0
Cumulative Percent 66.7 100.0
25.0 50.0 75.0 100.0
16.7 33.3 50.0 83.3 100.0
100.0
3.7.4 SPSS变量集 系统变量集 用户变量集
3.7.5 观测量的查重 步骤:数据—标识重复个案
操作步骤:数据—加权个案
Hale Waihona Puke Baidu 练习1:输入书中表3-14数据,进行加权
练习2:(数据:SPSS统计分析从入门到精通 \Chapter 03\抽烟与肺癌的关系.sav)
3.7.3 数据拆分
“拆分文件”将数据文件分割为单独的组,以根据 一个或多个分组变量的值进行分析。如果您选择了 多个分组变量,个案按“分组依据”列表的前一个 变量的类别中的每个变量进行分组。例如:如果您 选择性别作为第一个分组变量,选择少数民族作为 第二个分组变量,将按每个性别类别中的少数民族 分类对个案进行分组。
fQ1 fQ2 fQ3 分别表示下四分位数、中位数和上四分位数所在组的
次数;
按月工资分组(元) 职工人数(人) 向上累计职工人数 向下累计职工人数
600以下
23
23
566
600—700
120
143
543
700—800
150
293
423
800—900
135
428
273
900—1000
95
523
3.6.3组距分组 转换—重新编码为相同变量
转换—重新编码为不同变量
组距分组的步骤
第一步:确定组数。按Sturges提出的经验 公式来确定组数 k 1 lg n
lg 2
第二步:确定各组的组距。组距是一个组的 上限与下限的差,可根据全部数据的最大值 和最小值及所分的组数来确定,即组距= (最大值-最小值)÷组数。
各四分位数。 Q1
L1
f 4
SQ11
fQ1
i1
Q3 L3
3 4
Q2 L2
f SQ31
f Q3
i3
2 4
f SQ21
f Q2
i2
L1、L2、L3表示下四分位数、中位数和上四分位数所在组下限;
i1、i2、i3表示下四分位数、中位数和上四分位数所在组组距;
SQ1 − 1表示下四分位数前一组的累计次数; SQ2 − 1表示中位数前一组的累计次数; SQ3 − 1表示上四分位数前一组的累计次数。
3.6 变量值的分组与重新编码
组距分组是将全部变量值依次划分为若干个 区间,并将这一区间的变量值作为一组。
在组距分组中,各组之间的取值界限称为组 限,一个组的最小值称为下限,最大值称为 上限;上限与下限的差值称为组距;上限与 下限值的平均数称为组中值,它是一组变量 值的代表值。
3.6.2单变量值分组(自动重新分组编码) 转换—自动重新编码
3.2.3.2 复合条件表达式 逻辑运算符号: &、∣、~
3.2.4 函数 能够实现某些特定计算任务的程序。 函数名(参数)、函数值 参数之间用逗号隔开 具体见:spss帮助—主题—数据转换—函数
3.2.4.1 算术函数
3.2.4.2 统计函数
3.2.4.3 分布函数
data02-14.sav data02-15.sav 比较数据的转置
统计知识补充
观测量的排秩 秩的定义
设X为一总体,将容量为n的样本观察值按自小到大
的次序编号排列成 x1< x2 < ()<x(n),称x(i) 的足标i
为 x(i) 的秩,i = 1,2,Λ,n。
例如:某施行团人员的行李重量数据如表: 重量(kg) 34 39 41 28 33 写出重量33的秩。 因为28<33<34<39<41,故33的秩为2。
第3章 SPSS数据的预处理
3.1 数据的排序 3.1.1 数据排序的目的 浏览数据,了解取值状况及缺失值 发现最大最小值,把握离散程度 发现异常值 可分为:单值排序和多重排序
3.1.2 数据排序的基本操作 单值排序
多重排序
3.2 变量计算 3.2.1 变量计算的目的 数据的转换处理 对数据的原有分布状态进行转换 注意事项:P51
第三步:根据分组整理成频数分布表。
例如,某生产车间50名工人日加工零件数如下(单位: 个)。试对数据进行组距分组
117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121
只有当个案中三个变量都有缺失值的时候,结果才 将缺失。
对于统计函数,您可以指定必须包含非缺失值的参 数的最小数目。为此,要在函数名称之后输入一个 句点和最小数目,例如:MEAN.2(var1, var2, var3)
3.2.5 计算变量的基本操作
从菜单中选择: 转换—计算变量...
输入一个目标变量的名称(现有变量或新变量)。
k 1 lg 50 7 lg 2
组距=(139-107)÷7=4.6≈5
按零件数分组
105-110 110-115 115-120 120-125 125-130 130-135 135-140
合计
频数(人)
3 5 8 14 10 6 4
50
频率(%)
6 10 16 28 20 12 8
100
特殊情况: 如果在排列大小时出现了相同大小的观察值,
则其秩的定义为足标的平均值。
例如: 抽得的样本观察值按次序排成 0,1,1,1,2,3,3,
则3个1的秩均为,(2+3+4)/3=3 两个3的秩均为? 自学:秩和检验(Rank sum test)
操作步骤:转换—个案排秩
分位数
(一)根据未分组的资料计算四分位数 Q1的位置 =n+1/4 Q2的位置=2(n+1)/4 Q3的位置=3(n+1)/4
练习:将跑步测试时间以分钟为单位,组距 为2分钟,重新编码。(数据:SPSS统计分析 从入门到精通\Chapter 03\跑步机的测 试.sav)
可视离散化(分位数分组)
3.7 数据预处理的其他功能 3.7.1 数据转置 数据—转置
3.7.2 加权处理
学校算期末成绩,期中考试占30%,期末考试占50%,作 业占20%,假如某人期中开始得了84,期末92,作业分 91,如果是算数平均,那么就是(84+92+91)/3=89;加 权处理后就是84*30%+92*50%+91*20%=89.4
相关文档
最新文档