第2讲.SPSS描述性统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
整体分析与设计的内容
输出反映数据集中 程度的统计量。
输出反映数据离散程度的统计 量。
输出描述数据分布 形状及特征的统计 量。
SPSS频数分析
整体分析与设计的内容
“图表”按钮对应的对话框: 注: 1)选择直方图选项,则不能再设置图表值 选项。 2)在选中直方图选项后,可以进一步选择 在直方图上显示正态曲线。 3)仅适用于连续型的数值型变量。 “格式”按钮对应的对话框:
因变量列表,即待分析变量列表。可从 左侧列表中选择一个或多个变量。
因子列表,用作数据分组分析。如果选 择了多个变量,则组合分组。 标注个案,可选择一个变量做标签。当 发现异常值时,可利用该变量做标记。 若不选这个变量,系统默认以id变量为 标签。
SPSS探索性统计分析
二、按钮对应的界面介绍
统计量对话框
SPSS频数分析 SPSS频数分析概述:
整体分析与设计的内容
频数分析是描述性统计中最常用的方法之一,他能够了解变量 取值的状况,对把握数据分布特征非常有用。 频数分析过程是专门为产生频数表而设计的。它不仅可以产生 详细的频数表,还可以按要求给出某百分位的数值以及常用的 条形图、饼图等统计图。 一、操作(实践数据:产品的销售量.sav) 1)菜单“分析→描述统计→频率”。 2)对话框中,左侧选择一个或多个 待分析变量,移入右侧。 3)“显示频率表格”,勾选该复选 框,可输出频数分析表。
SPSS频数分析
二、几个重要的设置对话框 “统计量”按钮对应的对话框:
1)四分位数:显示25%、50%、 75%的分位数。 2)割点:勾选后可输入数值A, 将数据平分为A等分。例如,输 入5,表示输出20%、40%、 60%、80%的百分位数。 3)百分位数:选中后,可激活 右侧的文本框和列表。可输入、 更改和删除自定义的百分位数。
SPSS探索性统计分析
三、输出结果
整体分析与设计的内容
箱图:1)中间粗线为中位数;2)方框
两端分别表示上四分位数(75%)和下四分 位数(25%);3)两者之间的距离为四分 位数间距。--可知,整个方框内包括了中间 50%的样本数据;4)方框外的上、下两个 细线分别表示除去异常值外的最大、最小值; 5)箱图的上、下两端的圆圈和星号,表示 异常值。 基本概念:1)上四分位数 和 下四分位数 之间的差,称为四分位数差(IQR, InterQuartile Range)。 2)大于上四分位数的1.5倍四分位数差,或 小于下四分位数的1.5倍四分位数差,称为 异常值。 3)极端异常值,是超出3倍四分位数差的 值
频数分析表。Frequency表示变
量值落在某个区间(或类别) 中的次数;Percent是各频数占 总样本数的百分比;Valid Percent是有效百分比; Cumulative Percent是累积百分 比,指各百分比逐级累加起来 的结果。
SPSS的频数分析
整体分析与设计的内容
从图形特征看,数据呈右偏分布。历史销售数据总体数值偏 大;同时,最大值“27”差不多是最小值“14”的一倍,说明 这种产品的销售量不是很稳定,具有较大的波动性。
整体分析与设计的内容
输出前面所讲述的各个描述统计量,并可设置均值的 置信区间。 求出中心趋势的最大似然比的稳健估计量。 界外值要求输出显示5个最大值与最小值。在输出窗 口被表明为极端值。 输出结果显示5%,10%,25%,50%,75%,90%和95% 的百分位数。 从所有分析中,将因变量或分组变量中带有缺失值的观测 量予以剔除。
SPSS探索性统计分析
三、ห้องสมุดไป่ตู้出结果
整体分析与设计的内容
基本信息汇总,无缺失值。
北方城市温度标准差大于南方城市,说 明北方城市一年温度变化较南方大。从 分布形态上来看,南方城市为尖峰、右 偏特征;北方城市表现为平峰,左偏特 征。
SPSS探索性统计分析
三、输出结果
整体分析与设计的内容
M估计量:1)Huber,稳健估计量;
例子中来看:两者差距较大,差异性明 显。南方温度均值都高于北方,数据呈 正偏态分布,平均值受影响较大。
2)Tukey,复权估计量; 3)Hampel, 非稳健估计量;4)Andrew,波估计量。
茎叶图。1)Frequency表示观测值频
数;2)Stem(茎)表示实际观测值除 以图下方茎宽(Stem Width)的整数部 分;3)Leaf(叶),表示观测值除以茎 宽的小数部分。4)“Each Leaf”:表示 每片叶子代表n个观测量。 茎叶图在反映整体趋势的同时,还能反 映具体的数值大小,因此,在分析小样 本时优势明显。
均值(Mean):反映了某变量所有取值的集中趋势或平均水平。
x1 x2 ... xn x x n n
均值往往会受到异常大和异常小的数值影响,所以对于严重的偏态分 布,均值会失去应有的代表性。 众数(Mode):分布数列中最常出现的标志值,频数或频率最大。 众数适用于单峰对称的情况。对于多峰的分布则不适用。 中位数(Median):指将分布数列中各单位的标志值依其大小顺序 排列,位于中间位置的标志值称为中位数。 中位数来描述连续变量,会损失很多信息。例如,其他变量比中位 数大多少或小多少等。
“选项”对话 框
从当前分析中,将有缺失值的观测量均予以剔除。
将分组变量中的缺失值单独分组进行统计。
SPSS探索性统计分析
二、按钮对应的界面介绍
“图”对话框
整体分析与设计的内容
箱图。1)按因子水平分组,每个因变量生成一个单独 的箱图,便于组间比较。2)不分组:所有因变量生成 一个复合的箱图。
描述性图。分茎叶图和直方图两种。
当偏度值为0,说明数据对称分布;当偏度值大于0,表示变量取值 右偏,在直方图中有一条长尾拖在右边;当偏度值小于0,表示变 量取值左偏,在直方图中有一条长尾拖在左边。 峰度(Kurtosis):用来描述变量取值分布形态陡缓程度的统计量, 是指分布图形的尖峰程度。 当数据分布和标准正态分布陡缓程度相同时,峰度为0;峰度大于 0说明数据分布比正态分布陡峭,为尖峰分布;峰度小于0为平峰 分布。 n
1 4 4 Kurtosis ( xi x) / S 3 n 1 i 1
SPSS的描述统计分析
二、操作
整体分析与设计的内容
描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中, 可以将原始数据转换为标准值,并以变量形式保存,供以后分析。 菜单:“分析→描述统计→描述” 。 示例数据: 奥斯卡获奖者年龄.sav
标准化处理,同时产生相应的Z得分, 并作为新变量保存在数据窗口。新变 量为 原变量名+前缀Z。 标准化的计算公式:
Xi X Zi S Xi 是变量 X 的第i个取值;S 是标准差。
SPSS的描述统计分析
三、输出分析
整体分析与设计的内容
N栏显示男、女样本容量相同;从均值上看 女<男;男的全距 和标准差都小于女的,说明男演员获奖年龄波动幅度小于女 演员;从峰度和偏度看,两组数都不服从正态分布。
第二章 SPSS描述性统计分析
本章主要内容:
SPSS频数分析
SPSS描述统计分析 SPSS探索性分析 SPSS列联表分析
统计分析的目的,是研究总体的数量特征。但 是,实践中能够得到的往往是从总体中随机抽 取的一部分观察对象,它们构成了样本。通过 对样本样本的研究,来对总体的实际情况作出 可能的判断。 因此,在数据收集、整理完毕,进行深入分析 之前,首要的工作就是去了解数据的整体情 况,随后才能做深入的推断。 为了实现上述的分析,往往有两种实现方式: 1)数值计算,通过数值来准确的反映数据的 基本统计特征;2)图形绘制,即绘制常见的 基本统计图形,通过图形来直观展现数据的分 布特点。通常,两种方式混合使用。 SPSS的许多模块均可完成描述性分析,但专 门为该目的而设计的几个模块则集中在菜单栏 的“分析→描述统计”子菜单中。
SPSS的描述统计分析
整体分析与设计的内容
2、刻画离散程度的描述性统计量 离散程度是指一组数据远离其中心值的程度,即考察数据分布的 疏密程度。
全距(Range):也称“范围”,是数据中最大值和最小值之差, 又称“极差”。 Range = 最大值 - 最小值
全距说明了数据的整体变动范围,但不能反映其间变量分布情况。 标准差(Standard Deviation):指变量取值距离均值的平均离散 程度的统计量。 2 1 n S ( xi x) n 1 i 1 方差(Variance):是标准差的平方。 方差在使用上存在一点不足:量纲不统一。
SPSS探索性统计分析
二、操作
整体分析与设计的内容
探索性数据分析过程用于计算指定变量的探索性统计量和有关的图 形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验 图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据 进行变换,以表明和检验连续变量的数值分布情况。
菜单:“分析→描述统计→探索”(示例数据:中国南北城市温 差.sav)
SPSS列联表统计分析
整体分析与设计的内容
一、方法原理 在实践中,研究者往往希望对两个甚至多个分类变量的频数分 析进行联合观察。例如,考察不同年龄阶段和不同行业的人群 购买商品房的意愿,就需要将年龄和行业这两个分类变量交叉 起来构成复合频数表,简称为列联表。 列联表是指一个频率对应两个变量的表(一个变量用来对行分 类,另一个变量用来对列分类),经常被用于分析调查结果, 其基本的任务有两个: 1)根据收集到的样本数据产生二维或多维交叉列联表。 2)在列联表的基础上,对两两变量之间是否存在相关性进行分 析。
SPSS的描述统计分析
整体分析与设计的内容
3、刻画分布形态的描述性统计量 分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。
偏度(Skewness):是描述变量取值分布形态对称性的统计量。
1 n 3 3 Skewness ( x x ) / S i n 1 i 1
SPSS探索性统计分析
一、方法原理
整体分析与设计的内容
探索性数据分析(Exploratary Data Analysis, 简称EDA)的基本思想 是从数据本身出发,而不拘泥于模型假设;采用灵活的方法来探讨数 据分布的大致情况,为进一步结合模型的研究提供线索,为传统的统 计推断提供良好的基础,并且减少盲目性。 在实践中,数据分析往往分两个步骤,即探索性数据分析和实证分 析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特 点,让分析者发现其中的规律,以便选择分析方法;而对于探索性数 据分析中发现的数据规律,分析者需要使用特定的统计模型进行实证 分析,以确定规律是否正确。 一般的,探索性分析主要考察以下内容: 1)检查数据是否有错,并决定是否删除异常数据。 2)获得数据分布特征。 3)对数据初步观察,发现一些内在规律。
输出显示正态概率与离散正态概率图。 幂估计:对每一组数据产生一个中位数的自然对数与四 分位数的自然对数的散列点图,达到方差齐次性要求的 幂次估计;并据此散布图,来估计将各组方差转换成同 方差所需的幂次。
转换:对原始数据进行变换。可在下拉列表中选 择转换的幂值。 未转换:不对数据进行转换,产生原始数据的散 布图。注:“无”是不产生该选项的图形。
SPSS的描述统计分析
整体分析与设计的内容
一、原理 统计量是研究随机变量变化综合特征的重要工具,描述性统 计量的分类如下:
对数据特征的描述
集中趋势 均值 众数 中位数 其他指标
离散程度 全距 标准差 方差 离散系数 其他指标
分布形态 偏度 峰度
SPSS的描述统计分析
整体分析与设计的内容
1、集中趋势 集中趋势是指一组数据向某一中心值靠拢的倾向。
将所有变量集中在一个图形中输出,以便比较。 每个变量单独输出一个图形。 控制频数表输出的分类数量,当频数表的分组数 大于设定值时,禁止其输出。用以避免产生巨型 表格。
SPSS的频数分析
三、输出结果分析
整体分析与设计的内容
基本统计信息汇总表。N表示进行统计分析的样
本总量;Valid表示有效样本量:Missing表示 缺失样本数目。 Percentiles列出了销售数据的四分位数