最大熵模型与自然语言处理MaxEntModelNLP 94页PPT文档
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与Y的具体内容无关,只与|Y|有关。 • 两个Y(就是:y1y2)的表达能力是多少? • y况1可。以两表个达并三列种,情一况共,有y:2可3*以3表=9达种三情种况情
(乘法原理)。因此:
H y1H y2H (Y)H (Y)H (Y Y)
注 YY : Y
称硬币(cont.)
称硬币-Version.2
《数据结构》:Huffman编码问题。
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》:Huffman编码问题。
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》:Huffman编码问题。
p(x1)p(x2)1
已知:
4
p( yi ) 1
i 1
“学习”可能是动词,也可能是名词。可以被标为主语、 谓语、宾语、定语……
“学习”被标为定语的可能性很小,只有0.05p(y4)0.05
当“学习”被标作动词的时候,它被标作谓语的概率为
引0.9入5这个新的知识: p(y2|x1)0.95
求:y4
…
NLP与随机过程
yi可能有多种取值,yi被标注为a的概率有多少? 随机过程:一个随机变量的序列。
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
特征(Feature)
特征:(x,y) y:这个特征中需要确定的信息 x:这个特征中的上下文信息
注意一个标注可能在一种情况下是需要确 定的信息,在另一种情况下是上下文信 息:
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率 是三分之一,比其他硬币的概率大,我们 首先“怀疑”这两个。第一次可以把这两 个做比较。成功的概率是三分之二。失败 的概率是三分之一。如果失败了,第二次 称剩下的三个。所以,期望值是:
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
问题again!
• (x1x2…xn y1y2…yi-1)?
What’s Entropy?
An Example: • 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其
他的硬币轻。有一个天平,天平每次能比较两堆硬币, 得出的结果可能是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 问:至少要使用天平多少次才能保证找到假硬币? (某年小学生数学竞赛题目:P)
见
已知与未知的关系—例子
已知: “学习”可能是动词,也可能是名词。可以被标为主语、
谓语、宾语、定语…… 令x词1表。示“学习”被标为名词, x2表示“学习”被标为动
令y宾1表语示,p “(yx学41表)习 示”p 被定(标x 语2为)。 主得1语到,下面y2的表表示4 示被p:(标yi为) 谓1语, y3表示
• 用天平称n次,获得的结果是:y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我yn组们合要最通多过可y1能y2有… 一yn找个出对x应。的所x以取:值每。个y1 y2… • 因为x取X中任意一个值的时候,我们都要能
够找出x,因此对于任意一个x的取值,至少 要有一个y1 y2… yn与之对应。根据鸽笼原理……
H (X|Y)H (X)
• Condition Reduces Entropy (C.R.E.) • 知识(Y)减少不确定性(X) • 证明(略)。用文氏图说明:
X
(X&Y)
Y
I: Complete Knowledge Space
已知与未知的关系
对待已知事物和未知事物的原则: • 承认已知事物(知识); • 对未知事物不做任何假设,没有任何偏
“表达能力”与“不确定度”的关H系X?lo5g1.46
H(Y) lo3g
• 都表达了一个变量所能变化的程度。在这个变 量是用来表示别的变量的时候,这个程度是表 达能力。在这个变量是被表示变量的时候,这 个程度是不确定度。而这个可变化程度,就是 一个变量的熵(Entropy)。
• 显然:熵与变量本身含义无关,仅与变量的可 能取值范围有关。
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
1/9
1/9
999 999
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
称硬币-Version.3,4,…∞
更广泛地:如果一个随机变量x的可能取值为 X位=y{有x1,c种x2取,…,值x)k}。n的要期用望n位值y至: y少1y为2…:yn表示(每
i k1pxxilop lg o x1 c g xii k1pxxlio lc og pg x1 xi
i 1
“学习”可能是动词,也可能是名词。可以被标为主语、 谓语、宾语、定语……
“学习”被标为定语的可能性很小,只有0.05
我们引入这个新的知识: p(y4)0.05
除此之外,仍然坚持无偏见原则: p(x1)p(x2)0.5
p(y1)p(y2)p(y3)0.3 95
已知与未知的关系—例子
称硬币-Version.2
假设有5个硬币:1,2,3,…5,其中一个是假的,比其他的 硬币轻。已知第一个硬币是假硬币的概率是三分之一; 第二个硬币是假硬币的概率也是三分之一,其他硬币是 假硬币的概率都是九分之一。
有一个天平,天平每次能比较两堆硬币,得出的结果可能 是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? (不再是小学生问题:P)
p( y2 | x1) 0.95
最大熵模型
Maximum Entropy
一般模型:mH a(Y x|X) p(x,y)log1
p P
x,y
p(y|x)
P={p|p是X上满足条件的概率分布}
What is Constraints? --模型要与已知知识吻合 What is known? --训练数据集合
i 1
如果仅仅知道这一点,根据无偏见原则,“学习”被标 为名词的概率与它被标为动词的概率相等。
p(x1)p(x2)0.5
p (y 1 ) p (y 2 ) p (y 3 ) p (y 4 ) 0 .25
已知与未知的关系—例子
p(x1)p(x2)1
已知:
4
p( yi ) 1
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
一个直观的解决:
p (y i a |x 1 .x .ny 1 .y .n )p (y p i( x 1 a .,x x .n 1 .y 1 x ..n y y .n 1 .)y .n )
p(y4)0.05
最大熵模型 Maximum Entropy
1
maxH(Y | X )
p(x, y)log
xyxy11,,xy22,y3, y4
p( y | x)
p(x1) p(x2) 1
p( y1) p( y2) p( y3) p( y4) 1
p( y4) 0.05
1
p x
1即
log
p
1
x
0
p x log
p
1
x
0
p x log
x X
1
p x
0
H X 0
熵的性质
• 证明:
H(X)logX
详细证明略。 求条件极值就可以证明了(求偏导数,条
件是:所有的概率之和为1) 结论:均匀分布的时候,熵最大
HXx Xpxlop g1 x
熵的性质
0HXloX g
• 第一个等号在X为确定值的时候成立 (没有变化的可能)
• 第二个等号在X均匀分布的时候成立。
熵的性质
• 证明:
H X p x log
x X
1
p x
x :1 px 0
0H(X)
一般地,我们令c为2(二进制表示),于是,X 的信息量为:
k
HX pxxil
i1
opg x1 xi
What’s Entropy?
• 定义:
k
HX pxxil
i1
1
opg xxi
• X的具体内容跟信息量无关,我们只关 心概率分布,于是H(X)可以写成:
最大熵模型 与
自然语言处理
MaxEnt Model & NLP
laputa NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系(背景) • 最大熵模型的介绍(熵的定义、最大熵
模型) • 最大熵模型的解决(非线性规划、对偶
Conditional Entropy
• 有两个变量:x,y。它们不是独立的。已 知y,x的不确定度又是多少呢?
H X|Yx,y X Ypx,ylopg x 1|y
H (X |Y ) H (X) Y H (Y ) H (X|Y)H (X)
Conditional Entropy
Yn X
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5
• Let: Yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 用y1 y2… yn表达x。即设计编码:x-> y1 y2… yn • X的“总不确定度”是:H XloX glo5g • Y的“表达能力”是: H YloYglo3g • 至少要多少个Y才能准确表示X?
问题、最大似然率) • 特征选取问题 • 应用实例 • 总结与启发
NLP与随机过程
NLP:已知一段文字:x1x2…xn(n个词) 标注词性y1y2…yn 标注过程:
已知:x1x2…xn
求:y1
已知:x1x2…xn y1
求:y2
已知:x1x2…xn y1 y2
求:y3
已知:x1x2…xn y1 y2 y3
称硬币(cont.)
• 答案:2次 • 一种方法:
1+2 ? 3+4
<
>
=
1?2
5
3?4
<
>
<
>
1
2
3
4
• Why最少2次?
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5 • Let: yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
1?2
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
用反证法可以证明,这个是最小值。 (假设第一个和第二个硬币中有一个要称两次的话……)
称硬币-Version.2
《数据结构》:Huffman编码问题。
1?2
1
2
1/3
1/3
3?5 1/3
111 111 3
4
5
/ / / / / / 1/9
除此之外,仍然坚持无偏见原则,我们尽量 使概率分布平均。
但问题是:什么是尽量平均的分布?
最大熵模型
Maximum Entropy
• 概率平均分布〈=〉熵最大 • 我们要一个x和y的分布,满足:
p(x1)p(x2)1
p(y2|x1)0.95
4
p( yi ) 1
i 1
• 同时使H(Y|X)达到最大值
HXlo5g1.46
H(Y) lo3g
称硬币(cont.)
• Why???
H H X Y llo oY X g g llo o3 5g gH H(YX)lloo53gg1.46
• 为什么用log? • “表达能力”与“不确定度”的关系?
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然,H(Y)
(乘法原理)。因此:
H y1H y2H (Y)H (Y)H (Y Y)
注 YY : Y
称硬币(cont.)
称硬币-Version.2
《数据结构》:Huffman编码问题。
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》:Huffman编码问题。
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
称硬币-Version.2
《数据结构》:Huffman编码问题。
p(x1)p(x2)1
已知:
4
p( yi ) 1
i 1
“学习”可能是动词,也可能是名词。可以被标为主语、 谓语、宾语、定语……
“学习”被标为定语的可能性很小,只有0.05p(y4)0.05
当“学习”被标作动词的时候,它被标作谓语的概率为
引0.9入5这个新的知识: p(y2|x1)0.95
求:y4
…
NLP与随机过程
yi可能有多种取值,yi被标注为a的概率有多少? 随机过程:一个随机变量的序列。
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
特征(Feature)
特征:(x,y) y:这个特征中需要确定的信息 x:这个特征中的上下文信息
注意一个标注可能在一种情况下是需要确 定的信息,在另一种情况下是上下文信 息:
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率 是三分之一,比其他硬币的概率大,我们 首先“怀疑”这两个。第一次可以把这两 个做比较。成功的概率是三分之二。失败 的概率是三分之一。如果失败了,第二次 称剩下的三个。所以,期望值是:
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
问题again!
• (x1x2…xn y1y2…yi-1)?
What’s Entropy?
An Example: • 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其
他的硬币轻。有一个天平,天平每次能比较两堆硬币, 得出的结果可能是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 问:至少要使用天平多少次才能保证找到假硬币? (某年小学生数学竞赛题目:P)
见
已知与未知的关系—例子
已知: “学习”可能是动词,也可能是名词。可以被标为主语、
谓语、宾语、定语…… 令x词1表。示“学习”被标为名词, x2表示“学习”被标为动
令y宾1表语示,p “(yx学41表)习 示”p 被定(标x 语2为)。 主得1语到,下面y2的表表示4 示被p:(标yi为) 谓1语, y3表示
• 用天平称n次,获得的结果是:y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我yn组们合要最通多过可y1能y2有… 一yn找个出对x应。的所x以取:值每。个y1 y2… • 因为x取X中任意一个值的时候,我们都要能
够找出x,因此对于任意一个x的取值,至少 要有一个y1 y2… yn与之对应。根据鸽笼原理……
H (X|Y)H (X)
• Condition Reduces Entropy (C.R.E.) • 知识(Y)减少不确定性(X) • 证明(略)。用文氏图说明:
X
(X&Y)
Y
I: Complete Knowledge Space
已知与未知的关系
对待已知事物和未知事物的原则: • 承认已知事物(知识); • 对未知事物不做任何假设,没有任何偏
“表达能力”与“不确定度”的关H系X?lo5g1.46
H(Y) lo3g
• 都表达了一个变量所能变化的程度。在这个变 量是用来表示别的变量的时候,这个程度是表 达能力。在这个变量是被表示变量的时候,这 个程度是不确定度。而这个可变化程度,就是 一个变量的熵(Entropy)。
• 显然:熵与变量本身含义无关,仅与变量的可 能取值范围有关。
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
1/9
1/9
999 999
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
称硬币-Version.3,4,…∞
更广泛地:如果一个随机变量x的可能取值为 X位=y{有x1,c种x2取,…,值x)k}。n的要期用望n位值y至: y少1y为2…:yn表示(每
i k1pxxilop lg o x1 c g xii k1pxxlio lc og pg x1 xi
i 1
“学习”可能是动词,也可能是名词。可以被标为主语、 谓语、宾语、定语……
“学习”被标为定语的可能性很小,只有0.05
我们引入这个新的知识: p(y4)0.05
除此之外,仍然坚持无偏见原则: p(x1)p(x2)0.5
p(y1)p(y2)p(y3)0.3 95
已知与未知的关系—例子
称硬币-Version.2
假设有5个硬币:1,2,3,…5,其中一个是假的,比其他的 硬币轻。已知第一个硬币是假硬币的概率是三分之一; 第二个硬币是假硬币的概率也是三分之一,其他硬币是 假硬币的概率都是九分之一。
有一个天平,天平每次能比较两堆硬币,得出的结果可能 是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? (不再是小学生问题:P)
p( y2 | x1) 0.95
最大熵模型
Maximum Entropy
一般模型:mH a(Y x|X) p(x,y)log1
p P
x,y
p(y|x)
P={p|p是X上满足条件的概率分布}
What is Constraints? --模型要与已知知识吻合 What is known? --训练数据集合
i 1
如果仅仅知道这一点,根据无偏见原则,“学习”被标 为名词的概率与它被标为动词的概率相等。
p(x1)p(x2)0.5
p (y 1 ) p (y 2 ) p (y 3 ) p (y 4 ) 0 .25
已知与未知的关系—例子
p(x1)p(x2)1
已知:
4
p( yi ) 1
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
一个直观的解决:
p (y i a |x 1 .x .ny 1 .y .n )p (y p i( x 1 a .,x x .n 1 .y 1 x ..n y y .n 1 .)y .n )
p(y4)0.05
最大熵模型 Maximum Entropy
1
maxH(Y | X )
p(x, y)log
xyxy11,,xy22,y3, y4
p( y | x)
p(x1) p(x2) 1
p( y1) p( y2) p( y3) p( y4) 1
p( y4) 0.05
1
p x
1即
log
p
1
x
0
p x log
p
1
x
0
p x log
x X
1
p x
0
H X 0
熵的性质
• 证明:
H(X)logX
详细证明略。 求条件极值就可以证明了(求偏导数,条
件是:所有的概率之和为1) 结论:均匀分布的时候,熵最大
HXx Xpxlop g1 x
熵的性质
0HXloX g
• 第一个等号在X为确定值的时候成立 (没有变化的可能)
• 第二个等号在X均匀分布的时候成立。
熵的性质
• 证明:
H X p x log
x X
1
p x
x :1 px 0
0H(X)
一般地,我们令c为2(二进制表示),于是,X 的信息量为:
k
HX pxxil
i1
opg x1 xi
What’s Entropy?
• 定义:
k
HX pxxil
i1
1
opg xxi
• X的具体内容跟信息量无关,我们只关 心概率分布,于是H(X)可以写成:
最大熵模型 与
自然语言处理
MaxEnt Model & NLP
laputa NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系(背景) • 最大熵模型的介绍(熵的定义、最大熵
模型) • 最大熵模型的解决(非线性规划、对偶
Conditional Entropy
• 有两个变量:x,y。它们不是独立的。已 知y,x的不确定度又是多少呢?
H X|Yx,y X Ypx,ylopg x 1|y
H (X |Y ) H (X) Y H (Y ) H (X|Y)H (X)
Conditional Entropy
Yn X
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5
• Let: Yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 用y1 y2… yn表达x。即设计编码:x-> y1 y2… yn • X的“总不确定度”是:H XloX glo5g • Y的“表达能力”是: H YloYglo3g • 至少要多少个Y才能准确表示X?
问题、最大似然率) • 特征选取问题 • 应用实例 • 总结与启发
NLP与随机过程
NLP:已知一段文字:x1x2…xn(n个词) 标注词性y1y2…yn 标注过程:
已知:x1x2…xn
求:y1
已知:x1x2…xn y1
求:y2
已知:x1x2…xn y1 y2
求:y3
已知:x1x2…xn y1 y2 y3
称硬币(cont.)
• 答案:2次 • 一种方法:
1+2 ? 3+4
<
>
=
1?2
5
3?4
<
>
<
>
1
2
3
4
• Why最少2次?
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5 • Let: yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
1?2
3?5 1/3
1
2
3
4
5
1/3 1/3 1/9
1/9
1/9
用反证法可以证明,这个是最小值。 (假设第一个和第二个硬币中有一个要称两次的话……)
称硬币-Version.2
《数据结构》:Huffman编码问题。
1?2
1
2
1/3
1/3
3?5 1/3
111 111 3
4
5
/ / / / / / 1/9
除此之外,仍然坚持无偏见原则,我们尽量 使概率分布平均。
但问题是:什么是尽量平均的分布?
最大熵模型
Maximum Entropy
• 概率平均分布〈=〉熵最大 • 我们要一个x和y的分布,满足:
p(x1)p(x2)1
p(y2|x1)0.95
4
p( yi ) 1
i 1
• 同时使H(Y|X)达到最大值
HXlo5g1.46
H(Y) lo3g
称硬币(cont.)
• Why???
H H X Y llo oY X g g llo o3 5g gH H(YX)lloo53gg1.46
• 为什么用log? • “表达能力”与“不确定度”的关系?
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然,H(Y)