第三章-SPSS数据预处理(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将变量 s 前的字符空格删掉
将变量 s 尾部的字符char删掉 Rtrim(s,char)
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数 随堂作业:
将文本文件“侠客行”导入SPSS,并以“,”将句子三个变量; 将前两个变量对应的字符串连接起来,形成上句;并将原来三个变量整 理成两个变量,分别命名为“上句”、“下句”; 将变量中的“--”、“ ”、“@”等无用符号剔除; 求字符串“五岳”在变量“下句”中出现的位置
诚信求是,笃学致公
3.2 变量计算
(1)SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子; 运算符主要包括: +、-、*、/、**(乘方);
操作对象的数据类型是数值型;
在同一算术表达式中的常量及变量的数据类型应该一致,否则无法计算。
诚信求是,笃学致公
3.2 变量计算
诚信求是,笃学致公
3.6 数据分组
数据分析就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。 在数据分组基础上进行频数分析,能够概况和体现数据的分布特征。
SPSS数据分组方法
单变量值分组:将每个变量值作为一组,适用于离散值且样本量较小的情况。 组距分组:将变量依次划分为若干个区间,并将一个区间的变量值作为一组。
数据排序的目的
便于数据浏览,有助于了解数据的取值状况、缺失值数量等; 能够快捷找到数据中的最大值和最小值,进而计算出数据的全距,初 步把握和比较数据的离散程度; 能够快捷发现数据中的异常值。
数据排序的方式
单值排序:依据一个变量进行排序; 多重排序:主排序变量->第二排序变量->第三排序变量….
将文件保存成 “.sav”格式文件,文件名为 “姓名+侠客行.sav”。
诚信求是,笃学致公
3.3 数据选取
根据数据分析需要,从已收集的大批量数据中按照一定的规则抽取部分 数据参与分析。
数据选取的目的
提高数据分析的效率:当样本量较大时,选择部分样本代表总体。 验证模型的需要:用部分数据构建模型,剩余数据验证模型的效能。 (一般用于分类或预测等任务中)
主动分类变量到【分组变量(B)】框中;
指定汇总变量到【变量摘要(S)】框中。 单击【函数(F)】按钮指定对汇总变量计算哪些统计量; 指定将分类汇总结果保存到何处; 单击【变量名与标签(N)】按钮重新指定结果文件中的变量名。
练习:基本知识点统计.sav
(1)按“学院”对数据进行分类汇总,并将新数据集命名为“按学院汇总”; (2)对 所有变量分类计算均值,观察分析不同学院在各知识点上的掌握情况。
练习: 计算
体质指数(BMI)=体重(kg)÷身高^2(m)
(1) 将身高单位转换为m (2) 计算BMI。
诚信求是,笃学致公
3.2 变量计算
(2)SPSS条件表达式
简单条件表达式 >、 <、=、~=(不等于)、>=、<=
复合条件表达式
由逻辑运算符(NOT>AND>OR)、圆括号、简单条件表达式组成
诚信求是,笃学致公
SPSS 软件应用实验
诚信求是,笃学致公
推荐参考书
SPSS统计分析方法及应用(第4版)
薛薇著,电子工业出版社。
SPSS22.0统计分析应用教程,冯岩 松著,清华大学出版社。
SPSS统计分析基础教程(第二版),
张文彤、邝春伟 著,高等教育出版
社。
SPSS统计分析方法及应用实验教程, 徐秋艳著,中国水利水电出版社。
计数的基本步骤
选择菜单【转换->对个案内的值 计数】; 选择参与计数的变量到【变量 (V)】框中; 单击【定义值【V】】定义计数 区间,通过添加、更高、删除按 钮完成计数区间的增删改;
练习:基本知识点统计.sav
(1)对“金融学院”的个案计数,并将变量命名为“金融学院”; (2)对 “方差分析”变量中1-2分的个案计数,并将变量命名为“不掌握”。
诚信求是,笃学致公
课程内容
1 • 了解数据预处理的相关功能 2 • 掌握SPSS数据排序、计数、分组 3 • 理解数据变量计算
4
5
www.islide.cc
3
诚信求是,笃学致公
SPSS数据预处理
• 数据排序 • 变量计算 • 数据选取 • 计数 • 分类汇总 • 数据分组
诚信求是,笃学致公
3.1 数据排序
单击【旧值和新值(O)】按钮进行分组区间定义。
练习:学生期末成绩.sav
(1)按“数学”对数据进行分组,并将新变量命名为“按数学成绩分组”;
诚信求是,笃学致公
3.6 数据分组
分位数分组中各组的上下值由分位数决定,且各分组中的个案数大致相当。 分位数分组需首先确定分组数目,然后计算相应的分位数,最后基于分位数降 序将数据分组。
3.2 变量计算
(3)SPSS函数
统计函数
函数
Mean(numexpr,numexpr,…) Min(value, value,…) 范例(X1=2,X2=5,X3=8) MEAN(X1,X2,X3)=5 MIN(X1,X2,X3)=1
说明
自变量的平均值 自变量的最小值
Max(value, value,…)
练习:
(3)计算身高大于160,“计算机学院”学生的体质指数;
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数
算术函数
函数 abs(numbexpr) Rnd(numbexpr) Trunc(numbexpr) sqrt(numbexpr) 说明 绝对值函数 四舍五入函数 取整函数 平方根函数 范例(x=2.6,y=3) ABS(y-x)=0.4 RND(x)=3 TRUNC(x)=2 SQRT(y)=1.71
诚信求是,笃学致公
3.5 分类汇总
分类汇总是按照某分类分别对数据进行计算。
SPSS实现数据汇总的关键步骤
按照哪个变量(如学院)进行分类; 对哪个变量(如t统计、聚类分析)进行汇总,并指定对汇总变量计算哪 些统计量,如方差、平均值等。
诚信求是,笃学致公
3.5 分类汇总
数据汇总的基本步骤
选择菜单【数据->分类汇总】;
数据选取的方法
按指定条件选取
随机选取 选取某一区域内的样本 通过筛选变量选取
诚信求是,笃学致公
3.3 数据选取
数据选取的基本步骤
选择菜单【数据->选择个案】; 若使用全部个案,选中【全部个案(A)】 否则可按其他方式选择部分个案。
练习:基本知识点统计.sav
(1)选择“金融学院”学生的数据作为待分析对象; (2)随机选择 50%的个案作为待分析对象。
SPSS算术表达式的操作步骤
选择菜单【转换->计算变量】; 在【数字表达式(E)】输入表达式;
在【目标变量(T)】存放计算结果的变量,可以是新变量,也可以覆盖已 有变量。
若希望对符合一定条件个案计算,单击【如果(I)】,选择【如果个案满 足条件则包括(F)选项】,输入条件表达式。
若指定存放计算结果的变量为新变量,SPSS会自动创建;若变量已存在, 则会覆盖原来旧值。
诚信求是,笃学致公
3.1 数据排序
单值排序基本操作步骤
选择菜单【数据->排序个案】; 指定主排序变量到【排序依据】中,并选择指定排序是升序还是降序。
诚信求是,笃学致公
3.1 数据排序
多重排序基本操作步骤
选择菜单【数据->排序个案】; 指定主排序变量到【排序依据】中,并选择Hale Waihona Puke Baidu定排序是升序还是降序;
说明
若变量缺失,则为T或1,否则为F 或0 若变量是系统缺失值则为T或1,如 为自定缺失或非缺失则为F或0 缺失值个数 有效值个数 忽略自定义缺失值,当作非缺失
Sysmis(numvar)
Nmiss(variable,…) Nvalid(variable,…) Value(variable,…)
诚信求是,笃学致公
诚信求是,笃学致公
3.2 变量计算
(3)SPSS函数
缺失值函数
函数
Missing(variable) 范例 MISSING(X1)=1 MISSING(X2)=1 MISSING(X3)=0 SYSMIS(X1)=0 SYSMIS(X2)=1 SYSMIS(X3)=0 NMISS(X1,X2,X3)=2 NVALID(X1,X2,X3)=1 VALUE(X1)=X1
3.2 变量计算
(3)SPSS函数
字符串函数
函数
Concat(strexpr,strexpr) Index(s1,s2) 范例 CONCAT(th,is)=this INDEX(‘this is’,’is’)=3
说明
将自变量连成一个新自变量 s2在s1 中第一次出现的位置 自变量 s 所含文字的个数(包括特殊字符 和空格) 自变量 s 中的大写字母改为小写字母 将自变量 s 中的小写字母改为大写字母
• 频数分析 • 计算基本描述统计量 • 交叉分组下的频数分析
诚信求是,笃学致公
小 结
27
诚信求是,笃学致公
谢 谢!
黄佳佳 haungjj@nau.edu.cn
Length(s)
Lower(s) UpcaseE(s) Ltrim(s,char)
LENGTH(‘th is’)=5
LOWER(‘This’)=’this’ UPCASE(‘this’)=’THIS’ LTRIM(‘this’,’t’)=’his’ LTRIM(‘this’,’is’)=’th’ LTRIM(‘ this’)=’this’ Rtrim(‘this ’)=’this’
Mod(numbexpr,modulus)
exp(numbexpr) lg10(numbexpr) ln(numbexpr)
求算两数相除后的余数
以e为底的指数函数 以10底的对数函数 自然对数函数
MOD(y,x)=0.4
EXP(y)=20.09 LG10(x*10)=1.41 LN(y)=1.1
诚信求是,笃学致公
诚信求是,笃学致公
3.4 计数
SPSS实现计数的关键步骤
指定哪些变量参与计数,计数结果存放在哪个新变量中 指定计数区间:(☆☆) 单个变量值 系统缺失值 系统缺失值或用户缺失值 给定最大值和最小值区间 大于等于某个指定值的区间 小于等于某个指定值的区间
诚信求是,笃学致公
SPSS的分位数基本步骤
选择菜单【转换->可视分箱比】; 将分组变量选择到【要分箱的变量(B)】框中,单击继续; 单击【生成分割点】按钮进行分隔。
练习:学生期末成绩.sav
(1)按“数学”对数据进行分位数分隔,并将新变量命名为“按数学成绩分位 数分组”。
诚信求是,笃学致公
SPSS基本统计分析
依次指定第二、第三等排序变量及相应排序顺序。
诚信求是,笃学致公
3.2 变量计算
变量计算的目的
派生新变量: 根据职工的基本工资、失业保险和奖金派生变量“实际 月收入”; 变换数据的原有分布:对非正态变量的对数变换、对时间序列平稳处 理;
变量计算的相关概念
SPSS算术表达式 SPSS条件表达式 SPSS函数
Sum(numexpr,numexpr,…) Sd(numexpr,numexpr,…) Variance(numexpr,numexpr,…) Cfvar(numexpr,numexpr,…)
自变量的最大值
求和 求标准差 求方差 求变异系数
MAX(X1,X2,X3)=8
SUM(X1,X2,X3)=15 SD(X1,X2,X3)=3 VAR(X1,X2,X3)=9 CFVAR(X1,X2,X3)=0.6
分位数分组:由分位数决定分组区间。
诚信求是,笃学致公
3.6 数据分组
SPSS的组距分组基本步骤
选择菜单【转换->重新编码为相同变量】; 将分组变量选择到【数字变量(V)】框中; 单击【旧值和新值(O)】按钮进行分组区间定义。
选择菜单【转换->重新编码为不同变量】;
将分组变量选择到【数字变量(V)->输出变量】框中; 在【名称】后输入存放分组结果的变量名,并单击【更改】确认;