数据的统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
等; 统计表:将统计指标组成表格,可同时呈现多种统计指标,
并进行复杂的样本分组、合并计算; 统计图:按照统计指标的大小将其绘制成一张图形,对于连
续变量数据,常用直方图、箱图加以展示,对于分类变量, 常用条图、饼图加以展示。
变量的类型
Nominal变量 (名义型)
Ordinal变量 (定序型)
Scale变量 (定 距定比型)
全距又称为极差,是一组数据中最大值(Maximum)与 最小值(Minimum)之差.
极差衡量的是变量分布的变异范围或离散幅度。 它仅仅取决于两个极端值的水平,不能反映其间的变量分布。 它容易受个别极端值的影响,并不稳定。
全距一般只用于预备性检查,目的是大体上了解数据的分 布范围。
R X max X min
n
(xi x)2
S 2 i1 n 1
n
(xi x)2
S i1 n 1
方差和标准差的适用范围:
✓由于方差和标准差的计算涉及到每一个变量值,所以它们 反映的信息在离散指标中是最全面、最可靠的变异描述指标。
✓ 由于涉及每一个变量值,方差和标准差也会受极端值的影 响,当数据中有明显的极端值时不宜使用。
分类变量
可视作分类变量, 也可处理后视作 连续变量
连续变量
5
集中趋势是指一组数据向某一中心值靠拢的倾向,是关于 中心位置的描述。
在统计学中,关于数据分布的中心位置的统计量被称为位 置统计量(Location Statistic)。
常用的位置统计量有:
均数——适用于正态分布和对称分布资料; 中位数——适用于所有分布类型的资料。 众数——适用于所有分布类型的资料。
算术均数(Arithmetic Mean)是最常用的描述数据分布的 集中趋势的统计量。总体均数用μ表示,样本均数用X表示。
X X1 X 2 … X n
Xi
n
n
均数的最重要意义在于它高度浓缩了数据,使大量的观测数 据变为一个代表性数值。但它掩盖了各个观测数据之间的差 异性,且对极端值比较灵敏,在某些情况下也有一定欺骗性。
✓ 只有均数能反映集中趋势时才能使用方差和标准差来反映 离散趋势。因此,方差和标准差的适用范围应当是正态分布。
百分位数(Percentile)是一种位置指标,用Px表示。一个 百分位数将一组观察值分为两部分,理论位置有x%的观察值 比它小,(100-x)%的观察值比它大。
四分位数即三个数据的总称,分别是P25、P50和P75分位数。 这三个分位数将全部总体单位按标志值的大小等分为四部分。 分别记为Q1、Q2和Q3。 四分位数间距即(Q3 —Q1)
均数适用范围: ✓ 单峰和基本对称的分布情况下适用于描述集中趋势。 ✓ 严格讲均数只适用于定距变量,但有时对于定序变量,求 平均等级也可使用均数。
中位数(Median)是将总体各单位的标志值按大小顺序 排列,处于中间位置的那个标志值。剩下的值一半比它大, 一半比它小。设标志值X1 X 2 X3 X n 则中位数M=X (n1)/2 当n为奇数时 M=( X n/2 X ) n/21 / 2 当n为偶数时
数据的分布形态主要指数据分布是否对称,偏斜程度如何, 分布陡缓程度等。
选择众数和中位数来代表。
正偏或右偏分布
众数中位均数
X
三值合一
对称分布
均数中位众数数
负偏或左偏分布
由于均数较易受极端值的影响,因此可以考虑将数据排序 后,按一定比例去掉两端的数据,只使用中部的数据来求均数, 即截尾均数。
如果截尾均数和原均数相差不大,则说明数据不存在极端值, 或者两侧极端值的影响正好抵消;反之,则说明数据中有极端 值,此时截尾均数能更好地反映数据的集中趋势。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数。
4.1 连续变量的统计描述 4.2 分类变量的统计描述 4.3 多选题的统计描述 4.4 统计图的呈现
描述性统计分析:用少量数字(即描述指标)概括大量原 始数字,对数据进行描述;
推断性统计分析:从样本信息回推总体特征。
统计描述中可用的工具
各种初步汇总描述方法:分组汇总、百分位数刻画 各种统计描述指标:均数、标准差、四分位数间距、百分比
四分位数间距( Q3 - Q1 )的适用范围:
✓ 四分位数间距包括了中间50%的观察值,因此既排除了两 端极端值的影响,又能够反映较多数据的离散程度,是当方 差、标准差不适用时较好的离散程度描述指标。
✓ 四分位数间距越大表明中间的数据越分散,越小表明中间 的数据越集中,在描述数据的离散程度上比极差的稳定性要 高。
众数不受极端值影响,但对资料的使用不完全,使用众数反 映连续变量会损失很多信息。
✓ 当数据为对称分布或接近对称分布时: 应选择均值作为集中Hale Waihona Puke Baidu势的代表值,因为此时均值与众
数和中位数的差异很小,而又是全部数据的综合,因此具有 很好的代表性。
✓ 当数据为偏斜度较大的非对称分布时: 均值此时受极端值的影响,而偏离数据的集中点;此时应
中位数是位置平均数,因此不受极端值的影响。
中位数适用范围: ✓ 非基本对称的分布情况下可使用于中位数描述集中趋势。 ✓ 中位数对于定序变量、连续变量都可以使用。 ✓ 中位数只考虑居中位置,因此用于描述连续变量会损失很 多信息。所以对于对称分布的资料,往往优先考虑均数。
众数(Mode)是样本数据中出现频次最大的那个数字。
方差:即平均了每个数据的离均差的平方值。可用于不同 含量样本数据分布离散程度的比较。
方差越大,数据分布的离散程度越大。
标准差:将方差开方得到标准差。标准差度量了偏离平均 数的大小,相当于平均偏差,可直接地、概括地、平均地 描述数据变异的大小。
标准差越小,表明数据越整齐,变异程度越小。标准差越 大,表明数据分布越分散,变异程度越大。
离散趋势是指一组数据远离其中心值的程度,是关于数据 波动范围的描述。
在统计学中,关于数据离散趋势的统计量被称为尺度统计 量(Scale Statistic)。
常用的尺度统计量有:
全距——适用于所有分布类型的资料 标准差、方差——适用于正态分布资料 四分位数间距——适用于所有分布类型的资料
相关文档
最新文档