信息熵权法及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例:会堂有20排、每排20个座位。找一个人。 甲告诉消息(A):此人在第10排; 乙告诉消息(B):此人在第10排、第10座。
总不确定性 ln N = ln 400 = 5 . 991 1 1 P ( A) = , I = − ln = 2 . 996 20 20 1 1 P(B) = , I = − ln = 5 . 991 20 × 20 400
i =1
n
1 ∫∫L∫ dt1dt2 L dtn = n! Ω
0
1 1
1
0
1
1
0
1
∫∫L∫ (−t ln t ) dt dt
Ω i i 1 n
2
L dt n
n
1 n +1 1 = ∫∫L∫ [−(1 − ∑ ti ) ln(1 − ∑ ti )] dt1dt2 L dtn = ∑ (n + 1)! i = 2 i Ω i =1 i =1 H n +1 =
I = −c ⋅ log a p
I = − ln p
为应用方便,可取c=1,a=e,单位为奈特(nat)
如何体现不确定性的消除? 信息量函数 I= -lnp 如何体现不确定性的消除?
M = p, 其中 N为基本事件总数, 设P ( A) = N M为事件 A所包含的基本事件数 将N看成总的不确定性, M为事件 A所包含的不确定性 从而获知事件 A发生后,共消除的不确 定性为 N − M 将变量取对数后,不影 响数值大小的单调性, 又能和事件发生的概率 联系起来 ln 将 ln N看成总的不确定性, M为事件 A所包含的不确定性 从而获知事件 A发生后,共消除的不确 定性为 ln N − ln M = − ln p
由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数
信息熵(entropy )的概念
• 设离散型随机变量X的概率分布为
x1 X p ( x) = p 1 x2 p2 L L xn pn x n +1 p n +1 pi = 1
wenku.baidu.com
0 < p i < 1,
公理1:信息量是事件发生概率的连续函数; 公理 :信息量是事件发生概率的连续函数; 公理2:信息量是有限值; 公理 :信息量是有限值; 公理3:如果事件 和事件 的发生是相互独立的, 和事件B的发生是相互独立的 公理 :如果事件A和事件 的发生是相互独立的,则 获知事件A和事件 和事件B将同时发生的信息量是单独获知两 获知事件 和事件 将同时发生的信息量是单独获知两 事件发生的信息量之和。 事件发生的信息量之和。 设事件发生的概率为P, P 则满足上述公理的信息量函数为
( x1 , x 2 ) ∈ G =
1 y = G 的面积 L 一般情况 y =
V
∫∫
G
∫∫
G
f ( x 1 , x 2 ) dx 1 dx
2
f ( x 1 , x 2 ) dx 1 dx
2
∫∫
G
dx 1 dx
2
y = f ( x1 , x 2 , L , x n )
( x1 , x 2 , L , x n ) ∈ V
∫∫L∫ H
V
n +1
( p1 , p2 ,L , pn ) dp1dp2 L dpn
1 2 n V
∫∫L∫ dp dp L dp
n +1 i =1 i i 1 2 V
∫∫L∫ ∑ (− p ln p ) dp dp L dp = ∫∫L∫ dp dp L dp
1 2 n V
n
n + 1 n +1 1 1 n +1 1 = ∑ i / n! = ∑ i (n + 1)! i = 2 i =2
应用1:识别假币
枚外形相同的硬币, 有12枚外形相同的硬币,其 枚外形相同的硬币 中一枚是假币( 中一枚是假币(重量略有不 ),如何用没有砝码的天 同),如何用没有砝码的天 平用最少次数找出假币? 平用最少次数找出假币?
每个硬币可能是真,也可能是假, 每个硬币可能是真,也可能是假, 且假币可能重一些,也可能轻一些, 且假币可能重一些,也可能轻一些, 故共有24种可能 不确定性为ln24。 种可能, 故共有 种可能,不确定性为 。
平均信息熵及其应用
丁勇
南京医科大学数学教研室
物质、能量和信息是构成客观世界的三大要素。 物质、能量和信息是构成客观世界的三大要素。 信息(information)是什么? 信息(information)是什么? 至今信息还没有一个公认的定义 一般定义:常常把消息中有意义的内容称为信息。 一般定义:常常把消息中有意义的内容称为信息。
例:会堂有20排、每排20个座位。找一个人。 甲告诉消息:此人在第10排; 乙告诉消息:此人在第10排、第10座。
是否存在信息量的度量公式 ?
Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory".
熵的性质
• • • • • 连续非负性 对称性 扩展性 可加性 极值性:
H n = ln n
当p1 = p2 = L = pn时, 即事件发生的可能性相同时, 熵取得最大值
• 1948年,Shannon提出了熵的概念,并以 此作为信息的度量,宣告了信息论作为 一门科学学科的诞生。 • 近年来,随着计算机应用的发展和信息 时代的来临,信息论理论和应用的研究 更显示出其重要意义。
问题的解决
• 提出了平均信息熵的概念 • 推导了计算公式、性质 • 给出了应用:作为信源提供信息 量多少的评价依据。
平均值概念的推广
一元函数 1 y = b − a 二元函数 y = f (x) x ∈ [a, b]

a
b
f ( x ) dx =

a
b
f ( x ) dx /
∫ dx
a
b
y = f ( x1 , x 2 )

n +1 i =1
• X的信息熵定义为“加权平均信息量”
I i = − ln p i H n +1 = − ∑ p i ln p i
i =1 n +1
信息熵的直观意义
X P H 甲赢 0.9 乙赢 0.1 0.325 X P H 甲赢 0.5 乙赢 0.5 0.693
变量的不确定性越大,熵也就越大, 变量的不确定性越大,熵也就越大,把它搞清楚 所需要的信息量也就越大。 所需要的信息量也就越大。 一个系统越是有序,信息熵就越低;反之, 一个系统越是有序,信息熵就越低;反之,一个 系统越是混乱,信息熵就越高。所以, 系统越是混乱,信息熵就越高。所以,信息熵也可以 说是系统有序化程度的一个度量。 说是系统有序化程度的一个度量。
(1 + , 0 , L , 0 ) (1 − , 0 , L , 0 )
L ( 0 , L , 0 ,1 + ) L ( 0 , L , 0 ,1 − )
将硬币分成3份 其中 部分在 将硬币分成 份,其中2部分在 天平的两边。实验结果有3种可 天平的两边。实验结果有 种可 能性:假币在天平左边、右边、 能性:假币在天平左边、右边、 不在天平上。 不在天平上。 当3种可能性概率相同时, 种可能性概率相同时, 种可能性概率相同时 熵最大, 熵最大,因此每次实验提供 的最大信息熵为ln3。 的最大信息熵为 。设至 少秤k次 少秤 次, k次实验提供的 次实验提供的 信息熵最多为kln3, 信息熵最多为 可得k至少为 有ln24=kln3可得 至少为 。 可得 至少为3。
基因型最大熵概率分布 为
AA p2
Aa
aA
aa
p (1 − p ) p (1 − p ) (1 − p ) 2
另一方面,设第一代基 因概率分布为 A a p 1− p 则第二代基因型 ( AA , Aa , aA , aa )的概率为 ( p 2 , p (1 − p ), p (1 − p ), (1 − p ) 2 )
最大似然估计即为最小
熵估计
应用3: 应用 :群体遗传学
记两个等位基因为 设基因型概率分布为 A, a ;
A a
A a
AA Aa aA aa b b a 1− a − b 2 2 1b 1b b 则基因 A 的概率为 + =a+ a+ 22 22 2 问在基因 A 的概率确定 (设为 p )的情况下 , 基因型分布的熵何时最 大?
1948年,美国数学家、信息论的 年 美国数学家、 创始人Shannon在题为“通讯的 在题为“ 创始人 在题为 数学理论”的论文中指出: 数学理论”的论文中指出:“信 息是用来消除随机不定性的东 应用概率论知识和逻辑 西”。并应用概率论知识和逻辑 方法推导出了信息量的计算公式 方法推导出了信息量的计算公式
平均信息熵公式
• 公式:
H
n
=

H n ( X ) / ln n
• 问题:该值多大才算提供较多的信息量?
问题的设想
• 提出平均信息熵作为评价依据。
• 以学习成绩比较为例,众所周知,成绩好坏, 除了与最高分比较,更多的是与平均成绩比较, 当某个学生的成绩超过平均成绩时,说明该生 的成绩较好,否则说明应该发奋努力了。 • 在信息论中也是如此,当信源提供的信息量达 到或超过平均信息熵时,可认为已提供了较多 的信息。
信息能否度量 ?
认识问题的过程: 认识问题的过程: 当我们对一问题毫无了解时, 当我们对一问题毫无了解时,对它的 认识是不确定的,在对问题的了解过程中, 认识是不确定的,在对问题的了解过程中, 通过各种途径获得信息, 通过各种途径获得信息,逐渐消除了不确 定性,获得的信息越多, 定性,获得的信息越多,消除的不确定性 也越多。我们可以用消除不确定性的多少 也越多。我们可以用消除不确定性的多少 来度量信息量的大小。 来度量信息量的大小。
m

i =1 i
n
k k P ( X = ~i ) = p1k1 p 2 2 L p mm x
∑k
i =1
ln p i = − n ( − ∑
i =1
m
ki ln p i ) n
当 n 较大时,频率近似为概 ln L ≈ − n ( − ∑ p i ln p i )
i =1 m
k 率, i ≈ p i n
∑p
i =1
n
i
=1
∫∫ L ∫ H
V
n +1
( p1 , p 2 , L , p n ) dp 1 dp 2 L dp n
1 2
∫∫ L ∫ dp dp
V n
L dp n
V = { ( p1 , p 2 , L , p n ) | p i > 0 , ∑ p i ≤ 1 }
i =1
Ω = { (t1 , t 2 , LL , t n ) | ti > 0, ∑ ti ≤ 1 }
由此可见,无论第一代基因型概率分布 为何值,第二代基因型熵即达到最大
A a 多对等位基因 也有相同的结论 B b B b A a
Hardy–Weinberg 平衡 (H–W平衡)定律
一个随机交配的群体中,等位基因 频率保持不变,基因型频率至多经过一 个世代也将保持不变。
问题的提出
• 在信息论中,如何评价信源提供信息量 的多少,是一个值得探讨的问题。 • 现在用的是相对率的概念,是以信息熵 与最大信息熵之比 作为依据的。
基因型概率分布为
AA a
Aa b 2
aA b 2
aa 1− a − b
解 : 基因型分布的熵为 b b b b f ( a , b ) = − a ln a − ln − ln − (1 − a − b ) ln( 1 − a − b ) 2 2 2 2 b 即在 a + = p 条件下 , 求函数 f ( a , b ) 最大值 2 解得 : a = p 2 , b = 2 p (1 − p )
应用2: 应用 :熵与参数估计的似然函数
设 X 的分布律为 P ( X = x i ) = p i (θ ) ~ 、 ~ 、 、 ~ 为来自总体的样本,将 x x L x
1 2 n
i = 1, 2 , L , m 相同的写在一起 ,
设 x i 有 k i 个, k1 + k 2 + L + k m = n 似然函数为 L = 取对数 ln L =
n
∫∫ L ∫
f ( x 1 , x 2 , L , x n ) dx 1 dx 2 L dx
∫∫ L ∫ dx
V
1
dx 2 L dx
n
平均信息熵的定义
已知信息熵 H n +1 ( p1, p 2, , p n ) = − ∑ p i ln p i L
i =1 n +1
0 < p i < 1, 定义平均信息熵为 H n +1 =
相关文档
最新文档