最大熵模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3
…
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
>
<
>
1
2
3
4
• Why最少2次?
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5 • Let: yi是第i次使用天平所得到的结果:
y i Y 1 . 3 . 其 : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 用天平称n次,获得的结果是:y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我y2…们要yn通组过合y最1 y多2…可y能n找有出一x个。对所应以的:x每取个值y。1 • 因为x取X中任意一个值的时候,我们都要能
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
称硬币-Version.2
《数据结构》:Huffman编码问题。
1
2
3
4
5
1/3 1/3 1/9
1/9
• 左边比右边轻 ቤተ መጻሕፍቲ ባይዱ 右边比左边轻 • 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? (不再是小学生问题:P)
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率 是三分之一,比其他硬币的概率大,我们 首先“怀疑”这两个。第一次可以把这两 个做比较。成功的概率是三分之二。失败 的概率是三分之一。如果失败了,第二次 称剩下的三个。所以,期望值是:
够找出x,因此对于任意一个x的取值,至少 要理…有…一个y1 y2… yn与之对应。根据鸽笼原
Yn X
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5
• Let: Yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 为什么用log? • “表达能力”与“不确定度”的关系?
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然,H(Y)
与Y的具体内容无关,只与|Y|有关。 • 两个Y(就是:y1y2)的表达能力是多少? • y况1可。以两表个达并三列种,情一况共,有y:2可3*以3表=9达种三情种况情
(乘法原理)。因此:
H y1H y2H (Y)H (Y)H (Y Y)
注Y意 YY : Y
称硬币(cont.)
“表达能力”与“不确定度”的关H系X?lo5g1.46
H(Y) lo3g
• 都表达了一个变量所能变化的程度。在这个变 量是用来表示别的变量的时候,这个程度是表 达能力。在这个变量是被表示变量的时候,这 个程度是不确定度。而这个可变化程度,就是 一个变量的熵(Entropy)。
• 用y1 y2… yn表达x。即设计编码:x-> y1 y2… yn • X的“总不确定度”是:H XloX glo5g • Y的“表达能力”是: H YloYglo3g • 至少要多少个Y才能准确表示X?
HXlo5g1.46
H(Y) lo3g
称硬币(cont.)
• Why???
H H X Y llo oY X g g llo o3 5g gH H(YX)lloo53gg1.46
一个直观的解决:
p (y i a |x 1 .x .ny 1 .y .n )p (y p i( x 1 a .,x x .n 1 .y 1 x ..n y y .n 1 .)y .n )
问• 题(xa1xg2a…in!xn y1y2…yi-1)?
What’s Entropy?
An Example: • 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3
…
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
最大熵模型 与
自然语言处理
MaxEnt Model & NLP
laputa c-
NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系(背景) • 最大熵模型的介绍(熵的定义、最大熵
模型) • 最大熵模型的解决(非线性规划、对偶
问题、最大似然率) • 特征选取问题 • 应用实例 • 总结与启发
他的硬币轻。有一个天平,天平每次能比较两堆硬币, 得出的结果可能是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 问:至少要使用天平多少次才能保证找到假硬币? (某年小学生数学竞赛题目:P)
称硬币(cont.)
• 答案:2次 • 一种方法:
1+2 ? 3+4
<
>
=
1?2
5
3?4
<
NLP与随机过程
NLP:已知一段文字:x1x2…xn(n个词) 标注词性y1y2…yn 标注过程:
已知:x1x2…xn 已知:x1x2…xn y1 已知:x1x2…xn y1 y2 已知:x1x2…xn y1 y2 y3
…
求:y1 求:y2 求:y3 求:y4
NLP与随机过程
yi可能有多种取值,yi被标注为a的概率有多少? 随机过程:一个随机变量的序列。
• 显然:熵与变量本身含义无关,仅与变量的可 能取值范围有关。
称硬币-Version.2
假设有5个硬币:1,2,3,…5,其中一个是假的,比其他的 硬币轻。已知第一个硬币是假硬币的概率是三分之一; 第二个硬币是假硬币的概率也是三分之一,其他硬币是 假硬币的概率都是九分之一。
有一个天平,天平每次能比较两堆硬币,得出的结果可能 是以下三种之一: