最大熵原理与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1/12 1/ 24 1/ 24
22
The Kangaroo Problem
• Information: 1/3 of kangaroos have blue eyes, and 1/3 of kangaroos are left-handed
• Problem: On the basis of this information alone, estimate what proportion of kangaroos are both blueeyed and left-handed
大自然好像对较大熵的情况更偏爱。
• 在满足给定约束的条件下,事物总是力图 达到最大熵。
13
最大熵原理(离散情况)
n
• 熵 H pi log pi
i 1
其中, pi P( X xi )
• 约束
n
pi 1
i 1
n
pi gr (xi ) ai , r 1,L , m i
14
离散最大熵分布定理
8
最大熵原理的描述:
在寻找满足某些约束的概率分布时, 选择满足这些约束具有最大熵的概率分布。
9
约束所提供的信息是不完整的,称作部分信息; 部分信息有若干种形式: • 随机变量矩的约束 • 概率分布形状的约束
10
利用最大熵原理主要有以下两个依据: • 主观依据 • 客观依据
11
• Δ主观依据。 • “不充分理由原理”,也叫“中性原理”:
23
解::
X: 眼睛红,不红; Y:左撇子,非左撇子;
H(XY) H(X ) H(Y)
H(X ) H(1/ 3) H(Y) H(1/ 3)
24
解::
最大熵条件;
H(XY) H(X ) H(Y)
p(x red, y left) 1 1 1/ 9 33
25
The Kangaroo Problem: 2 x 2 Truth Table
• 满足约束达到最大熵的概率分布
m
pi Z 1 exp[
r
g r
( xi
)], i
1,L
,n
r 1
n
m
其中 Z exp(0 ) exp[ r gr (xi )]
i 1
r 1
m
0
r g r ( xi )
pi e
r 1
15
最大熵:
m
H max ln Z ra r
r 1
16
•证 求有约束极值X (a3) 1/ 4
pY (b1) 2 / 3, pY (b2) pY (b3) 1/ 6
求使H(XY)达到最大值的XY的联合分布.
21
例
解:: H(XY) H(X ) H(Y)
1/3 1/6 1/6
1/12
1/ 24
1/
24
最大熵原理来 最大熵测量 熵集中原理 最小交叉熵原理 最大熵原理应用
1
最大熵原理
2
最大熵原理
• 起源于统计力学
• 1957年,统计物理学家Jaynes根据信息 熵的概念提出了一个利用部分信息确定随机
变量集合概率分布的方法,称为最大熵原理。
3
最大熵原理
• 信息论提供了一个基于部分知识建立概率分布的构造
由于抛掷次数很多,所以各点出现的频率 近似等于出现的概率。假定在每次抛掷后,骰 子6个面中的每一个面朝上的概率都相同,即 为1/6。这里我们利用了“不充分理由原理”, 因为除知道骰子有6个面外,我们没有其他任 何别的信息。
5
最大熵原理
基本思想: • 求满足某些约束的信源事件概率分布时,应
使得信源的熵最大 • 可以使我们依靠有限的数据达到尽可能客观
的效果 • 克服可能引入的偏差。
6
一般的最大熵原理应用于良好定义的 假设空间和无噪情况且不完整的数 据的推断问题。
7
最大熵原理应用于多个领域:
• 信号检测与处理 • 自然语言处理 • 生物医学 • 环境水利 • 气象学 • 经济学
Is there some function of the {pi} which when maximised yields this preferred solution?
26
例
某学校学生中,30%爱好音乐,60%爱 好体育,10%爱好书法,问音乐、体育和书 法都爱好的学生所占比例是多少?
27
例1 做1000次抛掷骰子的试验,求抛掷点 数的平均值。 解
Normalisation: Constraints:
p1+ p2 + p3 + p4 = 1
p1+ p2 = 1/3; p1+ p3 = 1/3
Solution uses a single variable, 0 ≤ x ≤ 1/3 but how to choose? Common sense says x = 1/9 (i.e. no correlation of attributes)
如果对所求的概率分布无任何先验信 息,没有任何依据证明某种事件可能比任 何其他事件更优先,只能假定所有可能是 等概率的。 • 对“不充分理由原理”进行扩展--最大熵原理。
12
Δ客观依据。 • Jaynes提出熵集中定理:
满足给定约束的概率分布绝大多数集 中在使熵最大的区域。具有较大熵的分布 具有较高的多样性,所以实现的方法数也 更多,这样越有可能被观察到。 • Max Plank指出:
n
n
L pi log pi (0 1)( pi 1)
i 1
i 1
m
n
r[ pi gr (xi ) ar ]
r 1
i 1
待定常数 i ,i 0,1, , m
17
令 L / pi 0
m
pi Z 1 exp[ r g r ( xi )]
r 1
m
Z 1
gi ( xi ) r
r 1
Z exp( 0 ) r exp( r )
18
n
m
Z exp[ r gr ( xi )]}
i 1
r 1
nm
gr ( xi ) r
i1 r1
n
m
gr ( xi )
gk ( xi ) k
ar i1 n
k 1 m
gr ( xi ) r
i 1 r 1
19
20
例
随机变量集合X,符号集A={a1,a2,a3},随机变量集合Y , 符号集B={b1,b2,b3}.满足:
性准则,并导致被称作最大熵估计的一种统计推断方法。 这是根据给定信息得到的最小可能偏差的估计。 • 如果把统计力学看成统计推断的一种形式,而不是一种 物理学理论,那么就会发现通常的计算原则,从确定分 割函数开始,都是最大熵原理的直接结果。
4
最大熵原理
• 统计力学的所有已知结果,无论是平衡 的还是不平衡的,基本上都是最大熵原 理推导出的结果 。