最大熵模型与自然语言处理MaxEntModelNLP 94页PPT文档

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

与Y的具体内容无关，只与|Y|有关。 • 两个Y(就是：y1y2)的表达能力是多少? • y况1可。以两表个达并三列种，情一况共，有y：2可3*以3表=9达种三情种况情
（乘法原理）。因此：
H y1H y2H (Y)H (Y)H (Y Y)
注 YY ： Y
称硬币(cont.)
称硬币-Version.2
《数据结构》：Huffman编码问题。
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》：Huffman编码问题。
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》：Huffman编码问题。
p(x1)p(x2)1
已知：
4
p( yi ) 1
i 1
“学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语……
“学习”被标为定语的可能性很小，只有0.05p(y4)0.05
当“学习”被标作动词的时候，它被标作谓语的概率为
引0.9入5这个新的知识： p(y2|x1)0.95
求：y4
…
NLP与随机过程
yi可能有多种取值，yi被标注为a的概率有多少? 随机过程：一个随机变量的序列。
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
特征(Feature)
特征：(x,y) y:这个特征中需要确定的信息 x:这个特征中的上下文信息
注意一个标注可能在一种情况下是需要确定的信息，在另一种情况下是上下文信息：
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率是三分之一，比其他硬币的概率大，我们首先“怀疑”这两个。第一次可以把这两个做比较。成功的概率是三分之二。失败的概率是三分之一。如果失败了，第二次称剩下的三个。所以，期望值是：
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
问题again!
• (x1x2…xn y1y2…yi-1)？
What’s Entropy?
An Example： • 假设有5个硬币：1,2,3,4,5，其中一个是假的，比其
他的硬币轻。有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一：
• 左边比右边轻 • 右边比左边轻 • 两边同样重问：至少要使用天平多少次才能保证找到假硬币? （某年小学生数学竞赛题目:P）
见
已知与未知的关系—例子
已知： “学习”可能是动词，也可能是名词。可以被标为主语、
谓语、宾语、定语…… 令x词1表。示“学习”被标为名词， x2表示“学习”被标为动
令y宾1表语示，p “(yx学41表)习示”p 被定(标x 语2为)。主得1语到，下面y2的表表示4 示被p：(标yi为) 谓1语， y3表示
• 用天平称n次，获得的结果是：y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我yn组们合要最通多过可y1能y2有… 一yn找个出对x应。的所x以取：值每。个y1 y2… • 因为x取X中任意一个值的时候，我们都要能
够找出x，因此对于任意一个x的取值，至少要有一个y1 y2… yn与之对应。根据鸽笼原理……
H (X|Y)H (X)
• Condition Reduces Entropy (C.R.E.) • 知识（Y）减少不确定性（X） • 证明（略）。用文氏图说明：
X
(X&Y)
Y
I: Complete Knowledge Space
已知与未知的关系
对待已知事物和未知事物的原则： • 承认已知事物（知识）； • 对未知事物不做任何假设，没有任何偏
“表达能力”与“不确定度”的关H系X？lo5g1.46
H(Y) lo3g
• 都表达了一个变量所能变化的程度。在这个变量是用来表示别的变量的时候，这个程度是表达能力。在这个变量是被表示变量的时候，这个程度是不确定度。而这个可变化程度，就是一个变量的熵（Entropy）。
• 显然：熵与变量本身含义无关，仅与变量的可能取值范围有关。
NLP与随机过程
问题：
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
1/9
1/9
999 999
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
称硬币-Version.3,4,…∞
更广泛地：如果一个随机变量x的可能取值为 X位=y{有x1,c种x2取,…,值x）k}。n的要期用望n位值y至: y少1y为2…：yn表示（每
i k1pxxilop lg o x1 c g xii k1pxxlio lc og pg x1 xi
i 1
“学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语……
“学习”被标为定语的可能性很小，只有0.05
我们引入这个新的知识： p(y4)0.05
除此之外，仍然坚持无偏见原则： p(x1)p(x2)0.5
p(y1)p(y2)p(y3)0.3 95
已知与未知的关系—例子
称硬币-Version.2
假设有5个硬币：1,2,3,…5，其中一个是假的，比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一；第二个硬币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一。
有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一：
• 左边比右边轻 • 右边比左边轻 • 两边同样重假设使用天平n次找到假硬币。问n的期望值至少是多少？（不再是小学生问题:P）
p( y2 | x1) 0.95
最大熵模型
Maximum Entropy
一般模型：mH a(Y x|X) p(x,y)log1
p P
x,y
p(y|x)
P={p|p是X上满足条件的概率分布}
What is Constraints? --模型要与已知知识吻合 What is known? --训练数据集合
i 1
如果仅仅知道这一点，根据无偏见原则，“学习”被标为名词的概率与它被标为动词的概率相等。
p(x1)p(x2)0.5
p (y 1 ) p (y 2 ) p (y 3 ) p (y 4 ) 0 .25
已知与未知的关系—例子
p(x1)p(x2)1
已知：
4
p( yi ) 1
NLP与随机过程
问题：
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
一个直观的解决：
p (y i a |x 1 .x .ny 1 .y .n )p (y p i( x 1 a .,x x .n 1 .y 1 x ..n y y .n 1 .)y .n )
p(y4)0.05
最大熵模型 Maximum Entropy
1
maxH(Y | X )
p(x, y)log
xyxy11,,xy22,y3, y4
p( y | x)
p(x1) p(x2) 1
p( y1) p( y2) p( y3) p( y4) 1
p( y4) 0.05

1
p x

1即
log
p
1
x

0

p x log
p
1
x

0

p x log
x X
1
p x

0
H X 0
熵的性质
• 证明：
H(X)logX
详细证明略。求条件极值就可以证明了（求偏导数，条
件是：所有的概率之和为1）结论：均匀分布的时候，熵最大
HXx Xpxlop g1 x
熵的性质
0HXloX g
• 第一个等号在X为确定值的时候成立（没有变化的可能）
• 第二个等号在X均匀分布的时候成立。
熵的性质
• 证明：
H X p x log
x X
1
p x
x :1 px 0
0H(X)
一般地，我们令c为2（二进制表示），于是，X 的信息量为：
k
HX pxxil
i1
opg x1 xi
What’s Entropy?
• 定义:
k
HX pxxil
i1
1
opg xxi
• X的具体内容跟信息量无关，我们只关心概率分布，于是H(X)可以写成：
最大熵模型与
自然语言处理
MaxEnt Model & NLP
laputa NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系（背景） • 最大熵模型的介绍（熵的定义、最大熵
模型） • 最大熵模型的解决（非线性规划、对偶
Conditional Entropy
• 有两个变量：x,y。它们不是独立的。已知y，x的不确定度又是多少呢?
H X|Yx,y X Ypx,ylopg x 1|y
H (X |Y ) H (X) Y H (Y ) H (X|Y)H (X)
Conditional Entropy
Yn X
称硬币(cont.)
• Let: x是假硬币的序号： x X 1 ,2 ,3 ,4 ,5
• Let: Yi是第i次使用天平所得到的结果：
y i Y 1 . 3 其 . : 1 表中； 2 表示； 3 表示示
• 用y1 y2… yn表达x。即设计编码：x-> y1 y2… yn • X的“总不确定度”是：H XloX glo5g • Y的“表达能力”是： H YloYglo3g • 至少要多少个Y才能准确表示X？
问题、最大似然率） • 特征选取问题 • 应用实例 • 总结与启发
NLP与随机过程
NLP:已知一段文字：x1x2…xn（n个词）标注词性y1y2…yn 标注过程：
已知：x1x2…xn
求：y1
已知：x1x2…xn y1
求：y2
已知：x1x2…xn y1 y2
求：y3
已知：x1x2…xn y1 y2 y3
称硬币(cont.)
• 答案：2次 • 一种方法：
1+2 ? 3+4
<
>
=
1?2
5
3?4
<
>
<
>
1
2
3
4
• Why最少2次?
称硬币(cont.)
• Let: x是假硬币的序号： x X 1 ,2 ,3 ,4 ,5 • Let: yi是第i次使用天平所得到的结果：
y i Y 1 . 3 其 . : 1 表中； 2 表示； 3 表示示
1?2
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
用反证法可以证明，这个是最小值。（假设第一个和第二个硬币中有一个要称两次的话……）
称硬币-Version.2
《数据结构》：Huffman编码问题。
1?2
1
2
1/3
1/3
3?5 1/3
111 111 3
4
5
/ / / / / / 1/9
除此之外，仍然坚持无偏见原则，我们尽量使概率分布平均。
但问题是：什么是尽量平均的分布？
最大熵模型
Maximum Entropy
• 概率平均分布〈=〉熵最大 • 我们要一个x和y的分布，满足：
p(x1)p(x2)1
p(y2|x1)0.95
4
p( yi ) 1
i 1
• 同时使H(Y|X)达到最大值
HXlo5g1.46
H(Y) lo3g
称硬币(cont.)
• Why???
H H X Y llo oY X g g llo o3 5g gH H(YX)lloo53gg1.46
• 为什么用log? • “表达能力”与“不确定度”的关系？
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然，H(Y)