#2--SPSS基础知识-数据筛选
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理缺失数据
插补
(替换缺失数据) 估计最大化 (EM) 算法 – 这是一种最 大可能性叠代估计方法 多重插补 – 如前所述, 使用多种方法, 计算平均估计值 这样做的好处是你同时得到了这一估 计值的一个标准误差估计
推荐建议
当仅存在少量缺失值,
以及样本数量比较 大时, 使用数据组完全排除删除法 当缺失值比例小时, 使用平均值代替以及 回归插补
Click over variables you want to use “Display frequency tables” should be checked by default
需要检查缺失的数据是否随机 (SPSS)
如果缺失的数据少于5%,
无需担心系统
性地缺失数据 如果多于 5%, 则需要判定缺失的数据是 否随机
变量页窗口: 宽度 Variable View window: Width 宽度(Width) 64 字符(# of characters allowed to be entered for the variable)
变量页窗口: 小数点位数(Variable View window: Decimals) 小数点位数(Decimals) # of decimals ≤ 16位数
打开数据文件(Opening Data)
文件(File)
打 开(Open )数 据(Data)
数据编辑器 (Data Editor)
数据编辑器(Data
Editor ) Spreadsheet-like system for defining, entering, editing, and displaying data. Extension of the saved file will be “sav.” 文件 扩展名是“sav”
输出浏览器(Output Viewer)
Output
Viewer 运行结果,包括运行错误(Displays output and errors. Extension of the saved file will be “spv.”)
默认窗口(Def ) There are two sheets in the window (有两页):
数据
排序(“Data” “Sort Cases”)
对数据进行排序 [Sorting the data (cont’d)]
点
“变量名”(Double Click “Name of the students”.)
练习2 (Practice 2) 如何对“身高”数据进行下降式排序 (How would you sort the data by the height of students in descending order?)
1. 数据页(Data view ) visible when you first open the Data Editor 2. Variable view (变量页)
数据视图
数据视图 (Data view)
变量页窗口(Variable View window)
记录变量输入情况(This
样本 如进行单变量分析, 列表删除法即简 单地分析现有的数据. 如进行多变量分析,列表删除法将删除 那些其中任一变量有缺失值的研究对 象
删除法:列表删除法存在的问题
一个坏处是造成了数据丢失:
因为排 除了研究对象的全部数据, 而研究对 象可能回答了部分问题, 虽非全部 (比如部分没有数据). 这样一来, 减 少了样本数量
列表删除法实例
s1 s2 s3
x1 x11 x21
x2 x12 x32
x3 x13 x23 x33
使用列表删除法 的话, 仅能用这 一数据组
配对删除
SPSS
将包括全部可用数据. 与列 表删除法将只要有缺失数据的研究 对象即被删除不同, 配对删除法仅 仅将这些缺失值从分析中排除而非 整个数据组
值(Values)
which
numbers represent which categories when the variable represents a category
定义变量(Defining the value labels)
点
价值 选项(Click the cell in the values column) 最多60 字符(Up to 60 characters ) 点 ok选项(After defining the values click add and then click OK.)
x2 x12 x32
x3 x13 x23 x33
配对删除 – 优点
当样本量小或缺失值多的时候,
配 对删除法是有用的, 因为可使用的 数值并没有那么多。
配对删除 – 缺点
N不同
提示
为更好地理解列表删除法和配对删除法
对于你的结果可能造成什么影响, 可以 试试分别用两种方法做同样的测试. 结 果有变化吗? 对于每一类测试, 你需要鉴定SPSS 是使 用列表删除还是配对排除删除. 大多数 测试允许你选择你的喜好 SPSS 默认配对删除法
练习数据整理
把变量名换成中文
数据录入检查
适当的数据筛选第一步通常包括确认数据
的录入 分别检查每个人的数据录入 如果数据很大,代价则可能很昂贵, 因此 数据录入时要很小心… 检查数据的范围, 以及简单的频率计数
数据缺失
用SPSS找缺失的数据
分析〉
描述性统计〉频率(Analyze > Descriptive Statistics > Frequencies)
马氏距离
(M距) – 用于衡量与质心 (由 所有的变量的方式所产生的多元分布的中 心)间的偏移 计算马氏距离, 你得到一个2 (chi square) 分布 2 (df = # 变量), 查找临界值 (with α = .001) 如 MD > CV 参与者是一个多元异常值 一般对于多元异常值, 基本上只能删除
异常值
技术上说是一个远离分布的数据点; 因此 是潜在有害的, 因为对于分布可能造成抵 消的影响
异常值 - 单变量
首先总需要检查数据是否录入正确
以两种方法判断 如果某一数据点与分布中的其它数据
点不相联系, 它是异常值 如果Z-score > 3.3, 该数据是异常 值
异常值(SPSS)
处理单变量异常值
一旦发现异常值 对数据组进行调查,
看是否有迹象显示 这一数据组并非是你所希望的样本 减小异常值的影响 改变数值, 使其向分布的其余部分贴 近, 同时仍使其保持极值
多元异常值的检测
研究对象的评分,
作为单变量来看, 不一 定是一个异常值; 但作为变量组合来看, 是一个异常值
多元异常值的检测(SPSS)
变量页窗口: 注释 (Variable View window: Label) 变量注释(Label) 注释每一个变量的含义(Specify the details of the variable) 256个字符(# of characters ≤ 256)
变量页窗口:值( Variable View window: Values)
配对删除
换句话说,
所有可用的数据都用了. 如果你在做多个变量的相关性, 而 一些变量有缺失值, 那么SPSS将在 全部可用的数据点间进行二元相关, 而仅仅忽略那些缺失值. 在这一情 况下, 配对删除法造成的结果将是 对于每一个相关有不同的样本大小.
配对删除
s1 s2 s3
x1 x11 x21
“1” 是男;2是女
Gender 2 2 2 2 1 1 1 1
Height 5.4 5.3 5.6 5.7 5.7 6 6.4 5.9
练习1-答案 [Practice 1 (Solution Sample)]
练习1-答案
选择要用的数据保存文件
另存为
点击-变量新的文 件名
对数据进行排序 (Sorting the data)
练习3(Practice 3) 创建一个新变量 –身高的平方( Create a new variable named “sqrtheight” which is the square root of height.)
数据筛选的目的(data screening)
对于各个研究变量,
应使用足够的数 据筛选方法, 以便在进行数据分析前 找出 (并剔除) 错误录入的、缺失的、 或混乱的数据
检查数据分布 频率表
系统性地缺失数据会影响分析结果.
例如, 如果女性没有回答问题的话, 就是 一种系统性缺失数据的情况 – 无法检查 女性的情况
治理数据缺失的情况
删除:
当样本数量不是问题, 缺失数据量 也不大时, 可以使用此方法 插补: 当样本数量已经不大时, 使用此方 法
删除法:列表删除
SPSS自动删除那些存在缺失值的变量的
变量页窗口:类型(Variable View window: Type)
类型(Type) 界定变量类型(This
column enables you to specify the type of variable.) 数字 和字串(Basic types: numeric and string.)
sheet contains information about the data set that is stored with the dataset) Name(名称) 第一个必须是字母(1stcharacter must be alphabetic) 变量名不能重复, ≤ 64字符(Variable names must be unique, characters ≤ 64.) 不能有空格(Spaces are NOT allowed.)
SPSS 基础/数据筛 选
课堂安排
答问题
选择课堂讨论方法 学生科研课题数据库 SPSS
基础 数据筛选
选择课堂讨论方法
每人每天要找一篇当天要讨论的方法的文章
期终科研课题要用的数据库
我的数据
打开SPSS (Opening SPSS) 开始(Start) → 所有程序 (All Programs) → SPSS Inc→ SPSS 17.0 → SPSS 16.0
转换数据(Transforming data)
计算量’ “(Transform” “Compute Variable…”)
转换数据
转换数据(Transforming data ) (cont’d) 例子:转换新变量
Add
a new variable named “lnheight” which is the natural log of height Target Variable (new name): type in “lnheight” Under Function group select “Arithmetic”, then select “Ln” Click “Height” over to the “Numeric Expression” box
处理缺失数据 – 插补法(SPSS)
插补
(替换而非删除缺失数据的研究对象) 变量均值插入法 – 最常用且最保守的 方法. 问题 – 减少方差 子组均值插入法 – 如果你对数据进行 了分组, 那么用研究对象所在组的平均 值, 而不是用全部样本的平均值, 替换 缺失值
处理缺失数据
回归
– 根据其它变量的分数, 预测一个研 究对象的某一变量的缺失值. 这是一个更好的也更复杂的方法, 但也存 在问题 – 过度拟合
数据类型、测量级别和变量列表图标
显示在对话框列
表中的变量旁边 的图标提供有关 变量类型和测量 级别的信息
练习1(Practice 1)
输入如下数
据(How would you put the following informatio n into SPSS?
Name JAUNITA SALLY DONNA SABRINA JOHN MARK ERIC BRUCE