第三章 spss描述性统计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n
旅游与管理工程学院
• 联合频数与边缘频数 • 表中fij为联合频数;FXj为列边缘频数;FYi 为行边缘频数;n为总观测数量。 • 联合频率与边缘频率 • fij/n为联合频率;FXj/n为列边缘频率; FYi/n为行边缘频率。 • 条件频率 • fij/FXj为X条件Y频率[P(Y=i|X=j)]; fij/FYi为Y条件X频率[P(X=j|Y=i)]。
旅游与管理工程学院
• 若总体中的个体可按两个属性A与B分类,A有r个等级 A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大 小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj, nij称为 频数,将r×c个nij排列为一个r行c列的二维列联 表,简称r×c表。若所考虑的属性多于两个,也可按类似的 方式作出列联表,称为多维列联表。 • 最常用的列联表为两个变量的列联表。一个为行变量,其分 类数为r个;一个为列变量,其分类数为c个。一个r行c列的 列联表称为r×c列联表。
同 ;峰度大于 0,其数据分布比正态分布更陡峭;
峰度小于0,其数据分布比正态分布更平坦。
旅游与管理工程学院
偏度( Skewness )
是描述数据分布对称性的统计
量 ,而且也是与正态分布的对称性相比较而得到的。如果
分布的偏度等于0 ,则其数据分布的对称性与正态分布相 同 ;如果偏度大于0,则其分布为正偏或右偏,即在峰的 右边有大的偏差值,使右边出现一个拖得较远的尾巴;如 果偏度小于 0,则为负偏或左偏,即在峰的左边有大的偏 差值,使左边出现一个拖得较远的尾巴。
旅游与管理工程学院
三、正态分布理论
1、.概念
正态分布又称高斯(Gauss)分布,是最常见、最重要 的一种连续型分布,表现为中间高,两端低,左右完全对称 的图形。
旅游与管理工程学院
2、图形 正态分布密度函数
1 ( X )2 f (X ) exp( ) 2 2 2
其中参数

为均值,
旅游与管理工程学院
3、分布形态的量度 频数 (Frequency) : 就是一个变量的各 个观测值出现的次数。比如某班语文考试的成绩 ,可以统计出各分数值的人数。 峰度(Kurtosis) : 是描述某变量所有取值 的分布形态陡缓程度的统计量,而峰度对陡缓程 度的度量是与正态分布进行比较的结果。如果峰 度等于 0 ,其数据分布的陡缓程度与正态分布相
低收入
高收入
旅游与管理工程学院
第二节 单变量描述性分析
• 一、 频数分析过程 • 二、数据描述分析过程 • 三、数据探索过程
旅游与管理工程学院
一、 频数分析过程 • 频数分布表是描述性统计中最常用的方法之一, SPSS频数分析过程就是专门为产生频数表而设计 的,它不仅可以产生单变量详细的频数表,显示 文件中指定变量特定值发生的频数,还可以获得 某些描述统计量或按要求给出某百分位点的数值 以及常用的条图、圆图等统计图。 • 分析实例:见统计学成绩.sav
旅游与管理工程学院
二、描述性统计分析指标
• 集中趋势的量度(measures of central tendency) :共性 • 离散程度 的量度(measures of variability):异质 性 • 分布形态的量度
旅游与管理工程学院
1、集中趋势的量度
• 集中趋势(平均数值)是对整个群体的数值的最好的代 表。 • 有三种形式的平均数值:平均值(mean)、中位数( median)、众数(mode)。 其中,最常用的是平均值 。
旅游与管理工程学院
标准误,即样本均数的标准差,是描述均数抽 样分布的离散程度及衡量均数抽样误差大小的尺度 ,反映的是样本均数之间的变异。标准误不是标准 差,是多个样本平均数的标准差。 标准误用来衡量抽样误差。标准误越小,表明 样本统计量与总体参数的值越接近,样本对总体越 有代表性,用样本统计量推断总体参数的可靠度越 大。因此,标准误是统计推断可靠性的指标。 此外,还需要特别指出的是,标准误还可以 指样本标准差、方差等统计量的标准差,不仅仅只 是样本均数的标准差。
其次,在估计总体的方差时,使用的是离差平方和。 只要n-1个数的离差平方和确定了,方差也就确定了;因为 在均值确定后,如果知道了其中n-1个数的值,第n个数的值 也就确定了。这里,均值就相当于一个限制条件,由于加了 这个限制条件,估计总体方差的自由度为n-1。 例如,假如 n=1个观测值,可以计算均值,但无法计算标准差,只有当n 超过1时,才能计算标准差,所以,对于标准差,实际上只 有(n-1)个信息。
旅游与管理工程学院
• 单击探索按钮,默认置信区间为95%,采用茎叶图 ,采用默认设置即可
旅游与管理工程学院
旅游与管理工程学院
茎叶图,整数位为茎,小数位为叶。 这样可以非常直观的看出数据的分布范围及形态
旅游与管理工程学院
第三节 列联表及多选题频数分析
• • 列联表分析 多选题频数分析
旅游与管理工程学院
旅游与管理工程学院
2、描述性统计分析:
所谓描述性统计分析,就是对一组数据的各种特征
进行分析,以便于描述测量样本的各种特征及其所代表 的总体的特征。描述性统计分析的项目很多,常用的如
平均数、标准差、中位数、频数分布、正态或偏态程度
等等。这些分析是复杂统计分析的基础。 平均数、标准误 标准差、方差 频数分布、峰度、偏度 探索分析 中位数、众数、全距 四分位、十分位、百分位数 标准分数及其线性转换 交叉列联表分析
旅游与管理工程学院
多边图
1800
1600
1400
1200
1000
800
Count
600 400 16-20 21-30 31-40 41-50 51-60 61-70
年龄组
Cases weighted by W EIGHT
旅游与管理工程学院
线性图
Dot/Lines show counts
750
500
旅游与管理工程学院
算术平均数
算术平均数等于所有样本数据的总 和除以数据个数。算术平均值是描述 样本数据中心趋势最常用的统计量。
在分组条件下,其公式为:
x1f1 x 2f 2 x 3f 3 xnfn xf x f f
旅游与管理工程学院
2、离散程度
• 离散程度 (异质性 )反映的是数值之间是如 何的不同。 • 同样均值不同差异程度 。如: 7,6,3,3,1 3,4,4,5,4 4,4,4,4,4 • 有五个离散程度的量度指标:全距(range) 、平均差(Average Difference)标准差( standard deviation)、方差(variance)和 标准误。 其中,最常用的是标准差。
一、列联表分析
• 列联表又称交互分类表,所谓交互分类,是指同时依据两个 变量的值,将所研究的个案分类。交互分类的目的是将两变 量分组,然后比较各组的分布状况,以寻找变量间的关系。
• 如果是按两个标志对一组观察值进行交叉分组所 得到的频数分布表,表中列出同时联系于横行和 纵行某特定标志名称的观察值数目,在表的右边 栏列出各行频数的合计,在表的底行列出各列频 数的合计,在两者交叉处,即表的右下角,列出 频数总计,这类表就是列联表。
高收入
旅游与管理工程学院
异质性(标准差)
群体A的收入分布
群体B的收入分布
频 数
群体C的收入分布
低收入
均值
高收入
旅游与管理工程学院
偏度
群体A收入分布 正向倾斜
群体B收入分布 无倾斜 群体C收入分布 负向倾斜
频 数
低收入
高收入
旅游与管理工程学院
峰度
群体C的收入分布


群体B的收入分布
群体A的收入分布
旅游与管理工程学院

列X 行Y 1 2 … r 合计 (列边缘) 1
列链表的构造
2 c 合计 (行边缘) FY1=∑f1j FY2=∑f2j … FYr=∑frj
f11 f21 … fr1
f12 f22 … fr2
… … … …
f1c f2c … frc
FX1=∑fi1
FX2=∑fi2
FXc=∑fic
所夹的面积为1。理论上:

68.27%;
范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的
1.645
90%;
1.96
95%;
2.58
99%。
旅游与管理工程学院
3、 标准正态分布及其应用
标准正态分布:均值为0,标准差为1的正态分布 只要变量 X ~ N ( , 2 ) ,就可经下式转换为 0 、 1 的标准正态分布,记作 u ~ N (0,1) 。此变 换也称为标准化变换,或称 变换。
旅游与管理工程学院
标准差(方差)
标准差(σ)与方差(σ 2 )是反 映数据离散趋势最常用的统计量。 在分组条件下,标准差的公式为:

(x
x )2 f f
标准差是方差方差的算术平方根。
旅游与管理工程学院
严格地讲,在方差和标准差的计算中,分母应取n-1,
因为数据变异的自由度是n-1。但在大样本情况下,使用n和
C ou n t
250
0 1 2 3 4 5 6
年 龄组
旅游与管理工程学院
2、图型显示的频数分布特征 • • • • • 频数分布的特征可以有4个指标来显示: 均值 标准差 偏度(skewness) 峰度(kurtosis)
均值
旅游与管理工程学院


低收入
A群体的平均收入 B群体的平均收入 C群体的平均收入
旅游与管理工程学院
旅游与管理工程学院
• 单击统计量按钮,在弹出的对话框中勾选均值和标准差
旅游与管理工程学院
• 单击图标按钮,在弹出的对话框中选择直方图和显示正态分 布曲线
旅游与管理工程学院
旅游与管理工程学院
其他采用默认设置,点击确定
旅游与管理工程学院
二、数据描述分析过程

描述分析过程是连续资料统计描述应用最多 的一个过程,他可对变量进行描述性统计分析, 计算并列出一系列相应的统计指标。这和其他过 程相比并无不同。但该过程还有个特殊功能就是 可将原始数据转换成标准正态评分值并以变量的 形式存入数据库供以后分析。
n-1差别不大。 自由度df是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自 由度。 统计学上的自由度包括两方面的内容: 首先,在估计总体的平均数时,由于样本中的 n 个数 都是相互独立的,从其中抽出任何一个数都不影响其他数据 ,所以其自由度为n。
旅游与管理工程学院
u
u
x

旅游与管理工程学院
百度文库
四、用图形显示数据 1、常用图形 • 柱状图 • 多边图 • 线性图
旅游与管理工程学院
柱状图
1800
1600
1400
1200
1000
800
Count
600 400 16-20 21-30 31-40 41-50 51-60 61-70
年龄组
Cases weighted by W EIGHT
旅游与管理工程学院
• 顺次点击描述分析-描述,将统计学考试成绩变量调入选入 对话框,在选项中对分析指标进行选择
旅游与管理工程学院

分析结果
旅游与管理工程学院
三、数据探索过程
• 主要用于对资料数据的性质、分布状况等完全不清楚时的进 行分析,故称探索性分析。在常用的描述性统计指标的基础 上,它又增加了有关数据详细分布特征的文字与图形描述, 如茎叶图、箱式图等,显得更加详细全面。还可以为以方差 齐性为目的的变量变换提供线索,有助于用户制定继续分析 的方案。
旅游与管理工程学院
第三章 描述性统计分析
旅游与管理工程学院
第一节 描述性统计理论 • 一、描述性统计(Descriptive Statistics) • 1、概念: • 描述性统计就是组织、描述和总结所收集到 的一组数据的特征。 • 需要注意的是,它所描述的是这组数据本身 的分布特征,并不能深入了解统计数据的内部规 律。 SPSS的许多模块都可完成描述性统计分析, 但专门为该目的而设计的几个模块则集中在描述 统计菜单中,他们就是计算各种统计量或绘制统 计图来实现描述功能。
2
为标准差,由此决定的正态分布记作
N (, )
旅游与管理工程学院
正态分布概率密度曲线示意图
旅游与管理工程学院
不同均值正态分布示意图
旅游与管理工程学院
1.5
1
不同标准差的正态分布示意图
旅游与管理工程学院
正态曲线下面积的分布规律:
通过对密度函数积分我们可以知道正态曲线下,横轴
相关文档
最新文档