SPSS数据结构第三章课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


3.1.2数据项(变量)之间的逻辑检查与清理
• • •
(1)首先打开数据文件“文科硕士生培养情况表9.sav”。 (2)单击菜单栏中的“Data”菜单,展开下拉菜单。 (3)在下拉菜单中单击“Select Cases”命令,弹出“Select Cases”对话框,如图3.2所示。 (4) 在图3.2中选择“Select” 选项区中的“If condition is satisfied”选项,则激活“If„”按钮,弹出按输入条件选 择观察量的 “Select Cases:If”对话框,如图3.1.3所示。
3.2常用统计量
统计分析中常用的统计量大致可以分为三大类:第一类是刻 画集中趋势的描述统计量;第二类是刻画离散程度的描述统计量 第三类是刻画分布形态的描述统计量。通常,综合这三类统计量 就能准确和清晰地把握数据的分布特点。
3.2.1刻画集中趋势的描述统计量
• • •
集中趋势是指一组数据向某一中心值靠拢的倾向。刻画集中趋势 的描述统计量主要有均值、中位数、众数等。 1.均值(Mean) 均值又称“算术平均数”,反映了某变量所有取值的集中趋势或 者平均水平。例如某班学生某门课程考试的平均成绩,某校教师 的平均月收入等,都是均值的具体体现。均值的大小易受到数据 中极端值的影响。 均值的计算公式为:


“目前专业[A2]”频数统计表
3.1.1奇异数据的检查与清理
• • • • • •
上表中各变量含义为: • Frequency:频数; • Percent:百分比; • Valid Percent:有效百分比; • Cumulative Percent:累计百分比注意,如果出现缺失值,则 有效百分比与百分比会不一致。 如果在该频数统计表中出现“公共管理类”、“教育学类”、“ 法学类”、“其它”以外的数字,说明数据录入(或填表时)有 差错,应找到该观察量,仔细核对原始数据,修正之。 如果在该频数统计表中出现系统缺失值,即出现“· ”,说明 漏录入了该项数据,应找到该观察量,仔细核对原始数据,补充 录入。
• •


(3)将图3.1.1左边矩形框的变量调入中间的“Variable(s): ”下的矩形框。比如,把变量“A6”调入该矩形框。
(4)单击“OK”钮,则在output窗口会出现频数统计表,如下 所示
3.1.1奇异数据的检查与清理
“目前专业态度[A6]”频数统计表
显然,value=5和一个系统缺失值都是错误的,应该把它改正
把一组数据按照递增或者递减的顺序排列,处于中间位置的变量 值就是中位数。它是一种位置代表值,所以不会受到极端数值的 影响,具有较高的稳定性。 中位数的计算方法:

3.2.1刻画集中趋势的描述统计量
• • • • •
① 直接法 若样本含量N为奇数时,那么把观察量按大小顺序排列后,取中 间那个即为中位数; 若样本含量N为偶数时,那么把观察量按大小顺序排列后,取中 间的两个,求其平均值即为中位数。
② 频数表计算法
计算公式为: M L
I
f
( N 5%
M
f
c
)

其中:M表示中位数;L 表示中位数所在的那一组的下限值;I 为该组的组距;fM 表示中位数所在组的频数;fc为该组以前的 各组的累积频数。
上列的中位数公式实质上是50%位点的值,用同样的方法可计算 25%、75%等位点的值。
3.2.2刻画离散程度的描述统计量

离散程度是指一组数据远离其“中心值”的程度。除了以均值等 “中心值”描述数据外,还应考察数据分布的疏密程度。如果数 据都紧密地集中在“中心值”的周围,即数据的离散程度较小, 则说明“中心值”对数据的代表性好,反之,则表明“中心值” 的代表性不强 常见的刻画离散程度的描述统计量有: 1.标准差(Std.deviation) 标准差是表示变量取值距均值的平均离散程度的统计量。标准差 值越大,说明变量值之间的差异越大,距均值这个“中心值”的 2 离散程度越大。 标准差的计算公式为:
SPSS 目录
SPSS与教育统计 数据文件的建立与处理 数据清理基本统计分析 统计表与制表 统计图的绘制 均值检验 定量变量相关分析 定量因变量回归分析 定性因变量回归分析 聚类分析 因子分析与主成分分 析 可靠性分析
典型相关分析与偏最 小二乘
综合问题
定性变量相关分析
第三章
数据清理与基本统计分析
全距=最大值—最小值 4.最小值(Minimum)

• •
即一组数据中的最小值。
5.最大值(Maximum) 即一组数据中的最大值。
3.2.2刻画离散程度的描述统计量
数据清理与基本统计分析
数据清理、基本统计分析是进行其他分析的基础和前 提。本章主要介绍在SPSS中如何进行数据清理,如何进行 基本统计量的计算,如何进行频数分析、描述分析、探索 分析及交叉列联表分析等的操作。
3.1数据清理

在数据采集及数据录入的过程中,可能存在这样或那样的差错现 象,因此,在进行任何统计分析之前,必须首先清理数据文件中 的数据。 清理数据包括两方面的意义:一是使每个变量值具有合理性(即 能发现奇异数据与错误数据);二是使各变量值之间在逻辑上具 有合理性。


3.1.1奇异数据的检查与清理
(7)单击图3.1.2中的“OK”按钮,则搜索到所需的观察量 case15。运行结果如图 3.1.5所示。
(8)此时,可对case15的系统缺失值进行修改。可用同样的方法对case5 进行修改。
3.1.2数据项(变量)之间的逻辑检查与清理

我们仍以例2.1中的数据文件为例,在原有数据文件的基础上, 我们增加了一个变量“做论文期间每周学习时间[A16]”,将文 件保存为“文科硕士生培养情况表9.sav”。在数据文件“文科 硕士生培养情况表9.sav”里,我们调查了“做论文期间每天学 习时间[A15]”和“做论文期间每周学习时间[A16]”两个变量。 按正常情况分析,“做论文期间每周学习时间”不应少于“做论 文期间每天学习时间”,即“[A16]>=[A15]”。 例3.2在数据文件“文科硕士生培养情况表9.sav”里,如果我们 在输入数据时,在第11个观察量中输入“A15=10.00, A16=7.00”,显然,这组数据之间是相互矛盾的。此时应该通 过逻辑检查把它们检查出来,并进行清理,具体操作步骤为:

3.1.1奇异数据的检查与清理
• • • •
1. 对奇异数据的检查 一般用频数表对奇异数据进行检查,这里仍以例2.1中的数据文 件为例,对奇异数据检查的操作步骤为: (1)单击菜单栏中的“Analyze”菜单,展开下拉菜单。 (2)单击“Descriptive Statistics”菜单项弹出级联菜单,再 单击“Frequencies”命令,弹出“Frequencies”对话框,如 图3.1.1所示
3.1.1奇异数据的检查与清理
(5)首先在“Function group:”列表框中选择要使用的函数 ,例如Missing Values,然后再调入“A6”作为参数,此时对 话框如图3.1.4所示。最后单击“Continue”按钮 ,则返回图 3.1.2。
3.1.1奇异数据的检查与清理
• •
(6)在图3.1.2中“Output”区域的选项有: • Filter out unselected cases:表示过滤掉未选定的观察量。 未选定的观察量不包括在分析中,但保留在数据集中。如果关闭 过滤,则在会话中稍后可以使用未选定个案。如果选择随机样本 ,或者基于条件表达式选择观察量,则此项生成名为 filter_$ 的 变量,对选定的观察量,该变量的值为1,对未选定的观察量, 该变量的值为0。在本例中选择此项。 • Copy selected cases to a new dataset:表示将选定的观察 量复制到新数据集。选定的观察量复制到新数据集后,原始数据 集未受影响。未选中观察量不包括在新数据集中,而在初始数据 集中保持其初始状态。 • Delete unselected cases:表示删除未选定观察量。只有退 出文件而不保存任何更改,然后重新打开文件,才能恢复删除的 观察量。如果保存对数据文件的更改,则会永久删除观察量。
N 1

MS
( x x)
N
3.2.2刻画离散程度的描述统计量
• •
3.全距(Range) 全距也称为极差,是数据的最大值与最小值之间的绝对差。在相 同样本容量情况下的两组数据,全距大的一组数据要比全距小的 一组数据更为分散。如果全距非常小,则意味着数据基本都集中 在一起。

• •
全距的计算公式为:
SD
• • •

( x x)
N 1
3.2.2刻画离散程度的描述统计量
• •
2.方差(Variance) 方差也是表示变量取值离散程度的统计量,是所有变量与均值偏 差平方的平均值。方差是标准差的平方,方差值越大,说明变量 值之间的差异越大。 方差的计算公式为:
MS
2
2

( x x)
3.1.1奇异数据的检查与清理
• • • • •
2. 对奇异数据的清理 对奇异数据的清理的操作步骤为: (1)首先打开例3.1的数据文件“文科硕士生培养情况表 8.sav”。 (2)单击菜单栏中的“Data”菜单,展开下拉菜单。 (3)在下拉菜单中单击“Select Case”命令,则弹出 “Select Cases”(选择观察量)对话框,如图3.1.2所示。
3.1.1奇异数据的检查与清理
图3.1.2 “Select Cases”对话框
3.1.1奇异数据的检查与清理
(4)在图3.1.2中选择“select”选项区中的“If condition is satisfied”选项,则激活“If…”按钮,单击之,弹出 “Select cases :If” (按条件选择观察量)对话框,如图3.1.3所示。

3.2.1刻画集中趋势的描述统计量
• • • • •
3.众数(Mode) 众数是指一组数据中,出现次数最多的那个变量值。众数在描述 数据集中趋势方面有一定的意义。 计算公式:手工计算比较麻烦,需要统计数据的次数分布。 4.总和(Sum) 总和是所有带有非缺失值的观察量值的合计或总计,即。 xi

3.1.1奇异数据的检查与清理

例3.1 打开数据文件“文科硕士生培养情况表8”,如果在输入变 量“目前专业态度[A6]”的数据时,在第5个观察量中输入 “A6=5”,在第15个观察量中没有输入A6的值,即为系统缺失 值,显然这两组变量值都是错误的。同样可以用频数表对奇异数 据进行清理,其操作步骤为: (1)单击主菜单中的“Analyze”菜单项,展开下拉菜单。 (2)在下拉菜单中用鼠标点“Descriptive Statistics ”弹出小 菜单在小菜单中单击“Frequencies”,弹出“Frequencies”主 对话框,如图3.1.1所示。
图3.1.1 “Frequencies”对话框
3.1.1奇异数据的检查与清理

(3)将图3.1.1中左侧列表框中的变量调入到“Variable(s) :”下的文本框。比如,把变量“目前专业[A2]”调入右侧文本 框中,并选中“Display frequency tables”选项。 (4)单击“OK”按钮,则在输出窗口会出现频数统计表,如下 所示。
• •
• 对于服从正态分布的变量值的平均水平,可用算术均数表示, 其计算公式为:
x x
N
i

其中xi为各样本值,N为总的观测例数即样本数。
3.2.1刻画集中趋势的描述统计量

对于已分组的频数表资料,其计算公式为:
fx x
• • •
பைடு நூலகம்
其中x为组中值,f为该组的频数。
f
2.中位数(Median)

3.1.2数据项(变量)之间的逻辑检查与清理

(5)输入表达式“A16 >= A15”,如图3.1.6所示。
3.1.2数据项(变量)之间的逻辑检查与清理
• • •
(6)单击“Continue”按钮,返回图3.1.2,在Filtered 和 Deleted两项中选一个。 (7)单击图3.1.2中的“OK”按钮,则搜索到所需的观察量 case11。运行的结果如图3.1.7所示。 (8)此时可对case11的错误数据进行修改。
相关文档
最新文档