第5,6讲 SPSS探索和交叉表分析讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
茎叶图(Stem-and-leaf),是根据数据数值绘 制的图形,类似直方图,但更精细。
Q-Q图(Q-Q plots),检验数据是否服从正态分 布。
【上机练习】
研究问题 20名10岁少儿的身高(cm)资料,数据如
峰度大于0,说明数据分布比标准正态分布更陡峭; 峰度小于0,说明数据分布不如标准正态分布陡峭; 等于0,说明数据分布陡峭程度和标准正态分布相当。 值得指出的是,在经济学和金融学中得到的数据,很多都具有
“尖峰后尾”的特点,即峰度大于0,偏度也大于0,在处理 这类数据时,要特别小心
5.1 探 索 分 析
对数据规律的初步观察:通过初步观察获得 数据的一些内部规律,例如,两个变量间是否线性 相关。
3.探索分析的考察方法
探索分析一般通过数据文件在分组与不分组的 情况下,获得常用统计量和图形。
一般以图形方式输出,直观帮助用户确定奇异 值、影响点、进行假设检验,以及确定用户要使用 的某种统计方式是否合适。
Q-Q图,图中斜线表示正态分布的理论值,而 “○”表示数据实际值,当数据确实是正态分 布时,数据实际值应该在理论线上或者附近, 没有明显的偏离,如果出现明显偏离,就好像 图中情况,说明数据不是正态分布。
箱式图(Boxplots),是利用最小值、25%分位 数、中位数、75%分位数和最大值五个数绘制而 成,可以描述数据分布的特征。
选中此项会输出含有:均值,中位数、 5%修整均数、标准误、方差、最小 值、最大值、全距、峰度系数、峰度 系数标准误、偏度系数及偏度系数标
准误
输出5个最大值与最小值,包 括观测量的标签
箱式图,图由箱体部分和线组成,
箱体上沿为数据75%分位数,下沿为 数据25%分位数,箱体中间的横线表 示50%分位数,即中位数,箱体上方 和下方横线之间的细线长度为1.5倍箱 体长度,超出横线范围用“●”表示的 称为离群点(Outlier),其值在1.5倍 箱体长度到3倍箱体长度之间,而超出 横线用“*”表示的成为极端值 (Extreme Value),其值在3倍箱体 长度以上,记号上的数值表示其案例编 号。从箱式图可以看出,数据有一些离 群点和极端值,呈现右偏分布。
在实际应用中,应该根据数据的特点决定使用哪种集中趋势描 述统计量,均值的特点是易受极端值影响,因此如果数据中有 特别大或特别小的值时,不推荐使用均值,应该使用中位数作 为集中趋势统计量。
离散趋势的描述统计量:全距、样本方差、样本标准差
全距(Range)也称极差,定义是:,是一个比较粗糙的描述离 散趋势的描述统计量,通过排序就可以获得,它只能说明数据 的分布范围,而不能准确刻画数据离中心的程度,因此实际中 不常用。由于全距涉及距离,因此,只适合间隔尺度变量计算。
Levene检验对数据进行方差齐次性检验时,不 强求数据必须服从正态分布,它先计算出各个观测 值减去组内均值的差,然后再通过这些差值的绝对 值进行单因素方差分析。如果得到显著性水平小于 0.05,那么就可以拒绝方差相同的假设。
6. SPSS中实现过程
研究问题 表5.1给出两个天津、济南两个城市某年个月份的平 均气温,根据对天津平均气温和济南平均气温进行 探索性统计分析,研究天津平均气温和济南平均气 温的基本特征。
第5讲 探索分析和交叉表分析
主讲人:杨七九 开设单位:信息科学与技术系
描述和频率分析回顾
集中趋势的描述统计量 :均值、中位数、众数 ,代表了数据的 Байду номын сангаас中位置
均值(Mean) :代表中心值或平均值的描述统计量,只适用 于间隔尺度变量计算
中位数(Median)是将数据排序后,排在第n/2位置上的案 例所对应的数值,由于中位数只是进行排序,因此间隔尺度和 顺序尺度变量都可以计算中位数,而名义尺度变量不能计算中 位数。
离散趋势的描述统计量刻画了数据离中心的分散程度,也把此 类统计量成为分布尺度(Scale)统计量,尺度越大,就越分散, 从另一个角度讲,数据越分散,离中心远的数据越多,中心的 代表性就越差,因此,也可以认为离散趋势的描述统计量是刻 画集中趋势的代表性的统计量。
分布形态的描述统计量 :偏度和峰
偏度是描述数据分布对称性的统计量,如果数据关于中心(均 值)的分布是对称的,此时称为分布对称或偏度为0,如果数 据大部分分布在中心左边,小部分分布在中心右边,说明此时 中心右边有偏大的值,即右边的值距离中心远,左边值距离中 心近,这样右边的少数距离能够“抵消”左边的多数距离。此 时,偏度为正,称为正偏或右偏分布,反之称为负偏或左偏分 布
4.正态分布检验
常用的正态分布检验是Q-Q图。
5.方差齐次性检验
对数据分析不仅需要进行正态分布检验,有时 候还需要比较各个分组的方差是否相同,这就要进 行方差齐次性检验。
例如,在进行独立右边的T检验之前,就需要 事先确定两个数据的方差是否相同。
如果通过分析发现各个方差不同,还需要对数 据进行方差分析,那么就需要对数据进行转换使得 方差尽可能相同。在探索分析中可以使用Levene检 验。
用于从左侧的变量列 表中选入因变量,一
般为连续变量
用于从左侧的变量列 表中选入因子变量,
一般为分类变量
用于从左侧的变量列表中选 入标签变量,用以在结果里
标识观测个案。
计算并输出比均值和中 位数更为定的数据中心
估计值,包括4个: Hubers、Andrews、 Hampels和Tukeys
主要用来判别数据中有 无明显异常值
1 定义和计算公式
定义:调用此过程可对变量进行更为深入详尽 的描述性统计分析,故称之为探索分析。它在一般 描述性统计指标的基础上,增加有关数据其他特征 的文字与图形描述,显得更加细致与全面,有助于 用户思考对数据进行进一步分析的方案。
2. 探索分析的内容包括下面几个方面
检查数据是否有错误:过大或过小的数据均 有可能是奇异值、影响点或错误数据。要找出这样 的数据,并分析原因,然后决定是否从分析中删除 这些数据。因为奇异值和影响点往往对分析的影响 较大,不能真实反映数据的总体特征。
Q-Q图(Q-Q plots),检验数据是否服从正态分 布。
【上机练习】
研究问题 20名10岁少儿的身高(cm)资料,数据如
峰度大于0,说明数据分布比标准正态分布更陡峭; 峰度小于0,说明数据分布不如标准正态分布陡峭; 等于0,说明数据分布陡峭程度和标准正态分布相当。 值得指出的是,在经济学和金融学中得到的数据,很多都具有
“尖峰后尾”的特点,即峰度大于0,偏度也大于0,在处理 这类数据时,要特别小心
5.1 探 索 分 析
对数据规律的初步观察:通过初步观察获得 数据的一些内部规律,例如,两个变量间是否线性 相关。
3.探索分析的考察方法
探索分析一般通过数据文件在分组与不分组的 情况下,获得常用统计量和图形。
一般以图形方式输出,直观帮助用户确定奇异 值、影响点、进行假设检验,以及确定用户要使用 的某种统计方式是否合适。
Q-Q图,图中斜线表示正态分布的理论值,而 “○”表示数据实际值,当数据确实是正态分 布时,数据实际值应该在理论线上或者附近, 没有明显的偏离,如果出现明显偏离,就好像 图中情况,说明数据不是正态分布。
箱式图(Boxplots),是利用最小值、25%分位 数、中位数、75%分位数和最大值五个数绘制而 成,可以描述数据分布的特征。
选中此项会输出含有:均值,中位数、 5%修整均数、标准误、方差、最小 值、最大值、全距、峰度系数、峰度 系数标准误、偏度系数及偏度系数标
准误
输出5个最大值与最小值,包 括观测量的标签
箱式图,图由箱体部分和线组成,
箱体上沿为数据75%分位数,下沿为 数据25%分位数,箱体中间的横线表 示50%分位数,即中位数,箱体上方 和下方横线之间的细线长度为1.5倍箱 体长度,超出横线范围用“●”表示的 称为离群点(Outlier),其值在1.5倍 箱体长度到3倍箱体长度之间,而超出 横线用“*”表示的成为极端值 (Extreme Value),其值在3倍箱体 长度以上,记号上的数值表示其案例编 号。从箱式图可以看出,数据有一些离 群点和极端值,呈现右偏分布。
在实际应用中,应该根据数据的特点决定使用哪种集中趋势描 述统计量,均值的特点是易受极端值影响,因此如果数据中有 特别大或特别小的值时,不推荐使用均值,应该使用中位数作 为集中趋势统计量。
离散趋势的描述统计量:全距、样本方差、样本标准差
全距(Range)也称极差,定义是:,是一个比较粗糙的描述离 散趋势的描述统计量,通过排序就可以获得,它只能说明数据 的分布范围,而不能准确刻画数据离中心的程度,因此实际中 不常用。由于全距涉及距离,因此,只适合间隔尺度变量计算。
Levene检验对数据进行方差齐次性检验时,不 强求数据必须服从正态分布,它先计算出各个观测 值减去组内均值的差,然后再通过这些差值的绝对 值进行单因素方差分析。如果得到显著性水平小于 0.05,那么就可以拒绝方差相同的假设。
6. SPSS中实现过程
研究问题 表5.1给出两个天津、济南两个城市某年个月份的平 均气温,根据对天津平均气温和济南平均气温进行 探索性统计分析,研究天津平均气温和济南平均气 温的基本特征。
第5讲 探索分析和交叉表分析
主讲人:杨七九 开设单位:信息科学与技术系
描述和频率分析回顾
集中趋势的描述统计量 :均值、中位数、众数 ,代表了数据的 Байду номын сангаас中位置
均值(Mean) :代表中心值或平均值的描述统计量,只适用 于间隔尺度变量计算
中位数(Median)是将数据排序后,排在第n/2位置上的案 例所对应的数值,由于中位数只是进行排序,因此间隔尺度和 顺序尺度变量都可以计算中位数,而名义尺度变量不能计算中 位数。
离散趋势的描述统计量刻画了数据离中心的分散程度,也把此 类统计量成为分布尺度(Scale)统计量,尺度越大,就越分散, 从另一个角度讲,数据越分散,离中心远的数据越多,中心的 代表性就越差,因此,也可以认为离散趋势的描述统计量是刻 画集中趋势的代表性的统计量。
分布形态的描述统计量 :偏度和峰
偏度是描述数据分布对称性的统计量,如果数据关于中心(均 值)的分布是对称的,此时称为分布对称或偏度为0,如果数 据大部分分布在中心左边,小部分分布在中心右边,说明此时 中心右边有偏大的值,即右边的值距离中心远,左边值距离中 心近,这样右边的少数距离能够“抵消”左边的多数距离。此 时,偏度为正,称为正偏或右偏分布,反之称为负偏或左偏分 布
4.正态分布检验
常用的正态分布检验是Q-Q图。
5.方差齐次性检验
对数据分析不仅需要进行正态分布检验,有时 候还需要比较各个分组的方差是否相同,这就要进 行方差齐次性检验。
例如,在进行独立右边的T检验之前,就需要 事先确定两个数据的方差是否相同。
如果通过分析发现各个方差不同,还需要对数 据进行方差分析,那么就需要对数据进行转换使得 方差尽可能相同。在探索分析中可以使用Levene检 验。
用于从左侧的变量列 表中选入因变量,一
般为连续变量
用于从左侧的变量列 表中选入因子变量,
一般为分类变量
用于从左侧的变量列表中选 入标签变量,用以在结果里
标识观测个案。
计算并输出比均值和中 位数更为定的数据中心
估计值,包括4个: Hubers、Andrews、 Hampels和Tukeys
主要用来判别数据中有 无明显异常值
1 定义和计算公式
定义:调用此过程可对变量进行更为深入详尽 的描述性统计分析,故称之为探索分析。它在一般 描述性统计指标的基础上,增加有关数据其他特征 的文字与图形描述,显得更加细致与全面,有助于 用户思考对数据进行进一步分析的方案。
2. 探索分析的内容包括下面几个方面
检查数据是否有错误:过大或过小的数据均 有可能是奇异值、影响点或错误数据。要找出这样 的数据,并分析原因,然后决定是否从分析中删除 这些数据。因为奇异值和影响点往往对分析的影响 较大,不能真实反映数据的总体特征。