偏度和峰度概念的认识误区
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测量结果可表示为:
70.24
x= ∫ x·f(x)·dx
(16)
69.84
将 已 知 数 据 代 入 式 (16)得 :
x=69.9887mm
测量结果的标准不确定度可表示为:
# u=
70.24
∫
(x-
x" )2·f(x)·dx
69.84
(17)
将 已 知 数 据 代 入 式 (17)得 :
u=0.1468mm
0.1579
0.1562
0.1724
本文方法 0.1468
5 结论
本文提出了一种基于最大熵方法的测量不确定度贝叶 斯 评 估 模 型 。该 模 型 将 最 大 熵 和 贝 叶 斯 两 种 方 法 的 优 点 有 机
结合, 其中采用最大熵方法确定样本信息的概率密度函数含 有较少的主观假设, 贝叶斯评估充分利用了先验信息, 评估 方法合理。采用本文方法所计算的测量不确定度可靠性高, 精度优于其它方法。
布在众数两边的对称偏斜性, 国内有许多统计教科书就是这
样写的。实际上, 分布在众数两边的对称偏斜性对偏度值的
影响是比较有限的, 对偏度值影响较大的倒是分布在其中一
4.2 测量不确定度的计算
由上所述, 求得被测量后验信息的概率密度函数以后,
即 可 利 用 式 (16)和 (17)求 出 测 量 结 果 的 估 计 值 及 其 不 确 定 度 。
方图。从直观上看,
图 2 的分布较图 1
在众数两边似乎更
图1
为偏斜, 但根据式
( 2) 的计算结果, 图
1 和图 2 分布的偏
度 分 别 为 2.4572 和
0.7053, 即 图 1 分 布
的偏度明显大于图
2 分布的偏度, 其原
图2
因就在于图 1 的分
布较图 2 在右方向的尾部有更明显的拉长趋势 ( 相对于左
( 责任编辑/浩 天)
统计与决策 2008 年第 12 期( 总第 264 期) 145
知识丛林
个方向上的尾部有拉长趋势的程度。因此,
正 ( 负) 偏度往往更多反映的是分布在右
( 左) 方向的尾部比在左( 右) 方向的尾部有
拉长的趋势。
设 x1, …,xn 是来自总体 x 的一个样本 , 则总体 x 的偏度可估计为
尾, 图 1 分布的右尾较图 2 离均值更远) 。本例说明了将偏度
描述为反映分布在众 数两边的对称偏斜性 的一个量是欠妥当 的。
2 峰度概念的
认识误区
图3
峰度是另一个反映随机变量分布形状的量, 随机变量 x
的峰度定义为
g2=
E[x- E(x)]4 [Var(x)]2
-3
( 3)
它度量了分布尾部的厚度。同偏度一样, 峰度也是一个
设 x1,…,xn 是 一 组 样 本 数 据 或 一 组 有 限 总 体 数 据 , 则 其
峰度的计算公式为
n
! g$ 2=
(n-
n(n+1) 1)(n- 2)(n-
3)s4
i
=
1
(xi-
x)4-
3
(n- 1)2 (n- 2)(n-
3)
( 4)
其中 x 和 s 的含义同前。
在统计学( 包括概率论与数理统计) 教科书中经常看到
表 3 中给出了通过不同评估方法得到的结果, 从数据对
比看出: 采用本文方法所估计的测量不确定度精度优于其它
百度文库
三 种 方 法 。本 文 得 到 的 结 果 同 样 还 可 以 作 为 以 后 计 算 测 量 结
果的先验信息。
表3 评估方法 计算结果
不同评估方法的结果比较( mm)
A 类评估方法 最大熵方法 贝叶斯方法
参考文献: [1]王中宇, 张海滨, 刘智敏. 测量不确定度最大残差系数的一种新算
法[J]. 计量学报, 2006, 27(3). [2]国家质量技术监督局. 测量不确定 度 评 定 与 表 示 指 南[M]. 北 京 :
中国计量出版社 2000. [3]吴乃龙, 袁素云. 最大熵方法. 长沙: 湖南科学技术出版社, 1991. [4]薄晓静, 陈晓怀. 基于贝叶斯理论的测量不确定度 A 类评定[J]. 工
( 1)
它度量了分布的偏斜程度及偏向, 是一个无量纲的数
值 。 若 g1>0, 则 称 x 的 分 布 是 正 偏 ( 或 右 偏 ) 的 ; 若 g1<0,则 称 x 的分布是负偏( 或左偏) 的。|g1|越大, 说明分布偏斜得越厉 害 。偏 度 常 常 习 惯 地 被 不 太 确 切 地 认 为 是 反 映 了 随 机 变 量 分
n
n
! # ! 其中
x= 1 n
i
xi 是样本均值,
=1
s=
1 n- 1
i=
(xi- x")2
1
是样
本标准差。若 n 个数据 x1,…,xn 组成一个有限总体, 则该总体
的偏度也按式( 2) 计算。本文后面的计算结果及图形都是使
用 SAS9 的 INSIGHT 菜单子系统得到的。
表1
x:
36.9 36.8 43.2 22.4 15.7 32.9 25.4 15.2 33.7 26.2
布。但由式( 4) 计算得到的峰度值却为g$ 2=- 0.1996, 小于正态 分布的峰度值 0。
参考文献: [1]王学民编著.应用概率统计[M].上 海 : 上 海 财 经 大 学 出 版 社 , 2005,
( 10) .
( 责任编辑/李友平)
146 统计与决策 2008 年第 12 期( 总第 264 期)
33 35 27 13 16 53 61 11 33 70
46 45 53 20 35 33 10
6
24 80
75 77 70 44 60 12 72 53 77 54
49 11 11 20 18 21 21 35 28 84
例1 图1和
图 2 是容量均为
100 的 两 组 数 据 ( 数
据见 表 1) 的 频 数 直
y:
35 72 49 48
9
21 44 18 26 30
7
14
6
36 23 37 72 40 16 50
35 19 24 35 17 54 50 40 13 48
30
8
10 109 41 17 66 56 47 53
58 36 10 28 13 30 63 79 17 76
55 101 42 25 27 17 29 65 19 15
没有量纲的数值。峰度 g2 的取值范围是[ - 2,∞] 。正态分布的 峰度为零。人们以正态分布为标准, 若 g2>0, 则说明随机变量 X 分 布 的 尾 部 比 正 态 分 布 的 尾 部 粗 , 并 且 g2 值 越 大 , 倾 向 认 为 尾 部 越 粗 ; 若 g2<0, 则 说 明 X 分 布 的 尾 部 比 正 态 分 布 的 尾 部细, 且|g2|值越大, 倾向认为尾 部 越 细 。 峰 度 g2 可 用 来 比 较 已标准化了的各随机变量分布的尾部厚度。
[J]. 北京航空航天大学学报,2006, 32(11). [8]PK. Li and B. Liu. The entropy of fuzzy variables. In Proceed-
ings of the Fourth International Conference on In formation and Management Science ,Kunming, China, 2005. [9]Eulalia Szmidt, Janusz Kacprzyk. Entropy for intuitionistic fuzzy set[J]. Fuzzy Set and Systems,2001, 118(3).
34.3 43.5 32
7 36.9 32.3 25.4 27.4 19.3 21.3
32.1 45.2 15.2 34.4 39.5 32.7 9.7 40.6 32.4 33.2
37.5 47.9 22.7 13.5 29.7 32.4 35.9 38.6 26.6 42.7 3.7 36.1 33.2 47.3 33.3 38.7 38.8 32.1 41.8 27 38.4 35.1 24.8 22.1 37 37.8 40.4 26.4 38.8 42.8 45.3 33 43.9 35.2 24 7.9 17.1 22.5 39 60 29.6 40.6 17.9 34.8 34.6 30.7 45 24.7 16.7 70 34.2 37.2 28.2 14.2 51.5 33 43.7 11.2 54.9 90 41.3 24.9 45.4 9.3 32.4 36.1 39.5 40.8 35.1 130
人们经常用偏度、峰度来描述随机变量或一组数据的分 布形状, 但在教学和实践中对这两个概念的认识上常常存在 着较大的误区, 错误认识也常出现在统计学( 包括概率论与 数理统计) 方面的教科书中。
1 偏度概念的认识误区
随机变量 x 的偏度定义为
基金项目: 上海市重点学科建设资助项目( B803)
g1=
E[x- E(x)]3 [Var(x)]3/2
业计量, 2004, 14(4). [5]JL. Fan and Ma YL. Some new fuzzy entropy formulas. Fuzzy
Sets and Systems, 2002, 128(1). [6]王中宇, 夏新涛, 朱坚民. 测量不确定度的非统计理论[M]. 北京:
国防工业出版社, 2000. [7] 孟晓风, 季宏, 王国华, 钟波. 计算故障先验概率的最大熵方法
将 峰 度 描 述 为 反 映 分 布 在 众 数 附 近 “峰 ”的 尖 峭 程 度 的 一 个
量。事实上, 这种说法是错误的, 我们可以通过下面的例 2 看
清这一点。
例 2 图 3 是将 150 个数据( 数据见表 2) 经标准化后画
出的密度直方图, 并拟合上了标准正态密度曲线。从图中可
以 看 出 , 分 布 在 众 数 附 近 “峰 ”的 尖 峭 程 度 要 远 高 于 正 态 分
知识丛林
偏度和峰度概念的认识误区
王学民
( 上海财经大学 统计系, 上海 200439)
摘 要: 偏度和峰度的概念常常引起误解, 甚至这种误解也常出现在概率统计的教科书中。文章 对这两个概念的理解做了准确的阐述, 并列举了两个例子来分别说明两个概念的认识误区。
关键词: 偏度; 峰度; 认识误区 中图分类号: O212.2 文献标识码: A 文章编号: 1002- 6487( 2008) 12- 0145- 02
n
! g$ 1=
(n-
n 1)(n-
2)s3
i
=
(xi- x)3
1
( 2)
表2 3.5 4.1 59.9 97.2 3.2 52.2 91.7 17.3 45.4 19.6 50 47.9 46.9 46.8 46.6 27 22.5 69.9 39.3 6.9 16.9 86.6 21.4 33.4 70.2 50 50 49.5 45.5 48.2 41.6 13.8 64.2 62.4 2.5 16.1 91.1 19.1 86.4 88.4 50 50 46.9 48.5 47.1 98.6 46.2 46.6 8.1 58.8 78.3 14.1 16.5 30.9 46.3 50 50 50 47.8 50.1 13.8 0.3 96.3 35.4 46.5 7.6 59.8 72.7 67.6 27.1 50 50 50 47.7 50 48.1 31 91.1 22.8 78.3 79.7 89 95.8 88.3 34.1 50 48.5 46.6 50 46.6 59.3 96.6 34.9 28.4 80.9 20 40 37.9 77 32.6 50 49.2 48.1 50 46.9 82.1 41.3 74.1 16.1 67.3 39.5 48.5 11 53.1 12.1 50 50 47.1 50.2 46.8 70.3 47.1 35.4 72.6 23.9 43.1 52.4 94.2 27.9 57.8 47 47.1 50 51.3 47 81.8 54.1 37 68.8 40.7 13.2 84.4 40.5 77 52.3 46.5 46.2 48.1 48.1 50