最大熵模型简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P {p | Ep( f j ) E~p( f j ),1 j k}
H ( p) p(x) log2 p(x)
x
p* arg max H ( p)
最大熵模型
❖ 例如: 给定一个词
假定已知存在四种词性:名词、动词、介词、指代词 ❖ 如果该词在语料库中出现过,并且属于名词的概率为70%,则判断
Generative Model vs. Discriminative Model
❖ Generative Model (GM): P(Y|X)=P(X|Y)P(Y)/P(X),通 过求解P(X|Y)和P(Y)来求解P(Y|X)
❖ Discriminative Model (DM): 对P(Y|X)直接建模
纲要
❖ 最大熵原理 ❖ 最大熵模型定义 ❖ 最大熵模型中的一些算法 ❖ 最大熵模型的应用 ❖ 总结 ❖ 思考题
最大熵模型(Maximum Entropy
Model)

假设有一个样本集合 (x1, x2 ,... xn )
特征(j对f1, pf2的...制fk )约可以表示为
,我们给出k个特征 , Ep( f j ) E~p( f j )
p(X=3)=p(X=4)=p(X=5)=p(X=6)=0.1
最大熵原理
❖ 最大熵原理:1957 年由E.T.Jaynes 提出。 ❖ 主要思想:
在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最 大的概率分布。
❖ 原理的实质:
前提:已知部分知识 关于未知分布最合理的推断=符合已知知识最不确定或最随机的推断。 这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我 们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法 作出。
❖ 随机变量X、Y的联合分布是p(x,y),它们的联合熵(Joint
Entropy)为
H(
X,Y)源自xyp(x,
y)
log
p(
x,
y)
x
y
p(
x,
y)
log
1 p(
x,
y)
❖ 条件熵(Conditional Entropy)
H (Y | X ) p( x)H (Y | X x) p( x) p( y | x) log p( y | x)
p(X=3)=p(X=4)=p(X=5)=p(X=6)=1/8 分布三p3: 只有已知条件p(X=1)+p(X=2)=0.6
H(p1)=1/6*log6*6=log6≈2.58 H(p2)=2*1/4*log4+4*1/8*log8=2.5 p1vs p2: 分布一具有更大的熵(信息量),即具有更大的不确定性。 p3*=argmax(H(p3)), 此时 p(X=1)=p(X=2)=0.3,
x
x
y
xy
p(
x,
y)
log
p(
y
|
x)
xy
p( x,
y)
log
1 p( y
|
x)
❖ 互信息(Mutual Information)
有人称红色方框内式子为互
I( X ,Y ) H ( X ) H ( X | Y )
信息I(x,y)或者点互信息,
xy
p( x,
y) log
p(x, y) p(x) p( y)

Ep( f j ) 表示在概率分布为p时特征 f j 的期望。E~p( f j )表示特征 f j 的 样本期望值。
Ep( f j ) p(x) f j (x)
x
Ep%( f j ) p%(x) f j (x)
x
最大熵模型
❖ 无任何先验知识:
p*(x) 1 , x A | A|
❖ 存在先验知识:(求满足一组条件的最优解问题)
将I(X,Y)称为平均互信息。 一个是对变量的具体值求值, 一个是对随机变量求值,请
注意区分
一个例子
❖ 一个6面的骰子,各面的点数分别为1,2,…,6,令X表示抛 出后朝上的点数。
分布一p1:p(X=1)=p(X=2)=…=p(X=6)=1/6 分布二p2:p(X=1)=p(X=2)=1/4,
纲要
❖ 最大熵原理 ❖ 最大熵模型定义 ❖ 最大熵模型中的一些算法 ❖ 最大熵模型的应用 ❖ 总结 ❖ 思考题
纲要
❖ 最大熵原理 ❖ 最大熵模型定义 ❖ 最大熵模型中的一些算法 ❖ 最大熵模型的应用 ❖ 总结 ❖ 思考题
最大熵原理(Maximum Entropy Principle) ❖ 信息熵:熵的概念最先在1864年首先由克劳修斯提出,
p* argmax H( p)
其中, p P,P表示所有可能的概率分布。
最大熵原理
❖ 特征:用来表示从样本中获得的统计证据。也就是 使得熵最大的概率分布p必须受到特征的限制。通常 为一个二值函数。
❖ 例如:在词性标注中,可定义特征如下:
f (x,t) 10((如oth果erx) 我 & t pron)
GM
DM
Gaussians Mixtures of Gaussians HMM Naïve Bayes Bayesian Network MRF(马尔科夫随机场)
Logistic Regression SVMs kNN MaxEnt(最大熵模型) MEMM(最大熵马尔科夫模型) CRF(条件随机场模型) Voted Perceptron Neural Network
1948年美国电器工程师香农(Shannon,C.E)在《通信的数 学理论》中,把“熵”用来表示一个随机事件的“不确 定性”或信息量的量度。
信息量
消除
随机事件的不确定性
概率分 布
熵(Entropy)
❖ 一个离散随机变量X,其概率分布函数为p(x),则X 的熵定义为:
H(X
)
x
p(x) log
p( x)
一些现象
❖ 热力学:热学中一个重要的基本现象是趋向 平衡态,这是一个不可逆过程,即朝熵增加 的方向转变。
❖ 社会学:共产主义 ❖ 经济学:消除垄断 ❖ 哲学:中庸 ❖ 家庭:婆家、娘家
❖ ……
最大熵原理
❖ 一个正确的概率分布p应该满足下面两个条件: (1)服从样本数据中的已知统计证据。 (2)使熵最大化。
x
p(x) log
1 p( x)
❖ 由于H只与p(x)有关,所以有时也写成H(p)
❖ 通常对数以2为底, H代表了X的信息量,也可以认 为是对X进行二进制编码所需要的平均编码长度
❖ 性质: 0 HX log X
› X只取某个确定值的时左边等号成立 › X为均匀分布时右边等号成立
联合熵、条件熵、互信息
相关文档
最新文档