条件随机场模型及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M i ( x) [ M i ( yi 1 , yi | x)] M i ( yi 1 , yi | x) exp(Wi ( yi 1 , yi | x)) Wi ( yi 1 , yi | x) wk f k ( yi 1 , yi , x, i )
k 1 K
这样,给定观测序列 x,标记序列 y 的非规范化概率可以通过 n+1 个矩阵的乘积 表示,于是,条件概率 Pw(y|x)是
P(Y )
1 c(Yc ) Z c
其中,Z 是规范化因子,由下式给出:
Z c(Yc )
Y c
规范化因子保证 P(Y)构成了一个概率分布。函数 c(Yc ) 称为势函数。这里 要求势函数 c(Yc ) 是严格正的,通常定义为指数函数:
c(Yc ) exp{E(Yc )}
3.2 条件随机场的参数化形 设 P(Y|X)为线性链条件随机场,则在随机变量 X 取值为 x 的条件下,随机 变量 Y 取值为 y 的条件概率具有如下的形式:
P( y | x ) 1 exp( k t k ( yi1 , yi , x, i) l sl ( yi , x, i)) Z ( x) i ,k i ,l
其中,
Z(X) exp( k tk ( yi1 , yi , x, i) l sl ( yi , x, i))
y i ,k i ,l
式中,tk 和 sl 是特征函数,λk 和 μl 是对应的权值。Z(X)是规范因子,求和是在所 有可能的输出序列上进行的。 上面的两个式子是线性链条件随机场模型的基本形 式,表示给定输入序列 x,对输出序列 y 预测的条件率。tk 是定义在边上的特征 函数, 称为转移特征。 依赖于当前和前一个位置。 sl 是定义在结点上的特征函数, 称为状态特征, 依赖于当前位置。 tk 和 sl 都依赖于位置, 是局部特征函数。 通常, 特征函数 tk 和 sl 取值为 1 和 0;当满足特征条件时取值为 1,否则为 0.条件随机 场完全由特征函数 tk,sl 和对应的权值 λk 和 μl 确定。线性链条件随机场也是对数 线性模型。 条件随机场的对数模型可以做相应的简化,以使它的形式看起来比较简洁。 设有 K1 个转移特征,K2 个状态特征,K=K1+K2,记
t k ( yi 1 , yi , x, i), f k ( yi 1 , yi , x, i) sl ( yi , x, i),
n
k 1,2,..., K1
k K1 l , l 1,2,..., K 2
然后对转移与状态特征在各个位置 i 求和,记作:
f k ( y , x) f k ( yi1 , yi , x, i),
Pw ( y | x)
n1 1 M i ( yi 1 , yi | x) i 1 Z w ( x)
其百度文库,
Zw (X) (M1 ( x), M 2 ( x),..., M n1 ( x)) start,stop
4. 条件随机场的概率计算问题
类似于隐马尔科夫模型, 条件随机场模型主要有三个问题。第一个就是条件 随机场的概率计算问题。也就是在给定条件随机场 P(Y|X),输入序列 x 和输出 序列,输出序列 y,计算条件概率 P(Yi=yi|x),P(Yi-1=yi-1,Yi=yi|x)以及相应的数学期 望的问题。为了方便起见,像隐马尔科夫模型那样,引进向前-向后向量,递归 地计算以上概率及期望值。这样的算法称为前向-后向算法。 对每个指标 i=0,1,…,n+1,定义前向向量 αi(x):
i 1
k 1,2,..., K
用 wk 表示特征 fk(y,x)的权值,即
k , wk l ,
于是条件随机场可以表示为:
P( y | x )
k K1 l , l 1,2,..., K 2
k 1,2,..., K1
K 1 exp( wk f k ( y, x)) Z ( x) k 1
其中,
iT ( yi | x) i ( yi | x)
Z ( x)
iT1 ( yi1 | x) M i ( yi1 , yi | x) i ( yi | x)
Z ( x)
T Z ( x) n ( x) 1
5. 条件随机场的学习算法
条件随机场的学习算法是条件随机场模型的第二个问题。 条件随机场模型实 际上是定义在时序数据上的对数线性模型, 其学习方法包括极大似然估计和正则 化的极大似然估计。具体的优化实现算法有改进的迭代尺度法 IIS、梯度下降法 以及拟牛顿法。 5.1 迭代尺度算法
( 0 y | x)
1, y start 0, otherwise
iT ( x) iT1 ( x) M i ( x)
同样,对每个指标 i=0,1,…,n+1,定义前后向量 βi(x)
1, y n1 stop 0, otherwise i ( x) M i1 ( x) i 1 ( x)
3. 条件随机场的定义与形式
3.1 条件随机场的定义 一般的条件随机场定义:设 X 与 Y 是随机变量,P(X|Y)是在给定 X 的条件 下 Y 的条件概率分布。 若随机变量 Y 构成一个由 G=(V,E)表示的马尔科夫随 机场,即 P(Yv|X,Yw,w≠v)=P(Yv|Yw,w-v), 对任意的节点 v 成立, 则称条件概率分布 P(Y|X) 为条件随机场。式中 w—v 表示在图 G 中与结点 v 有变连接的所有节点 w,w≠v 表示节点 v 以外的所有结点,Yv,Yu 与 Yw 为结点 v,u,与 w 对应的随机变量。在 定义中并没有要求 X 与 Y 具有相同的结构。但是在实际中,一般假设 X 和 Y 具 有相同的图结构。 下面主要介绍一种特殊的条件随机场模型, 即无向图为如下图 1 所示的线性链的 情 况 。 即 G=(V={1,2,…,n},E={(i,i+1)}),i=1,2,…,n-1. 在 此 情 况 下 , X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn),最大团是相邻两个结点的集合。线性链条件随 机场有下面的定义。
n ( 1 y n 1 | x)
由这两个定义可以得到
T Z ( x) n ( x) 1 1T 1 ( x)
按照上述定义,很容易计算标记序列在位置 i 是标记 yi 的条件 概率和在位 置 i-1 与 i 是标记 yi-1 和 yi 的条件概率:
P(Yi yi | x) P(Yi yi , Yi 1 yi 1 | x)
~ 输入:特征函数 t1,t2,…,tK1, s1,s2,…,sK2;经验分布 P ( x, y) ;
ˆ ; 模型Pw ˆ 。 输出:参数估计值 w
(1) 对所有 k∈{1,2,…,K},取初值 wk=0 (2) 对每一 k∈{1,2,…,K}: (a) 当 k=1,2,…,K1 时,令 k 是方程
其中
Z(X) exp( wk f k ( y, x))
y k 1
K
若以 w 表示权值向量,即
w (w1 , w2 ,..., wK )T
F(y,x)表示全局特征向量,即
F ( y, x) ( f1 ( y, x), f 2 ( y, x),..., f K ( y, x))T
则,条件随机场可以写成向量 w 与 F(y,x)的内积形式:
Pw ( y | x) 1 exp( w F ( y, x)) Z w ( x)
其中,
Z w (X) exp( w F ( y, x))
y
为了以后计算方便,下面将给出条件随机场的矩阵形式。引入特殊的起点和 y0=start,yn-1=stop,这时 pw(y|x)可以通过矩阵形式表示。对于观测序列 x 的每一 个位置 i=1,2,…,n+1,定义一个 m 阶矩阵(m 是标记 yi 取值的个数) 。
2. 概率无向图模型
由于条件随机场是在给定一组输入随机变量条件下, 另一组输出随机变量的 条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场[3]。因此在 本节首先介绍马尔科夫随机场,即概率无向图模型。 2.1 概率无向图模型定义 图是由结点及连接结点的边组成的集合。结点和边分别记作 v 和 e,结点和 边的集合分别记作 V 和 E, 图记作 G= (V,E) 。 无向图是指图的边是没有方向的。 概率图模型是由图表示的概率分布。设有联合概率分布 P(Y),Y∈Y 是一组 随机变量。由无向图 G=(V,E)表示概率分布 P(Y),即在图 G 中,结点 v∈V 表示一个随机变量 Yv,Y=(Yv)v∈V;边 e∈E 表示随机变量之间的概率依赖关系。 给定一个联合概率分布 P(Y)和表示它的无向图 G.首先定义无向图表示的随 机变量之间存在的成对马尔科夫性、局部马尔科夫兴和全句马尔科夫性。这三个 性质是等价的[4]。 概率无向图模型的定义:设有联合概率分布 P(Y),由无向图 G=(V,E)表示, 在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概 率分布 P(Y)满足成对、局部或全局马尔科夫性,就称此联合概率分布为概率无 向图模型或马尔科夫随机场模型。 2.2 概率无向图模型的因子分解 团与最大团: 无向图 G 中 任何两个结点均有边连接的结点子集称为团。 若 C 是无向图 G 的一个团,并且不能再加进任何一个 G 的结点使其称为一个更 大的团,则称此 C 为最大团。 将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的 乘积形式的操作,称为概率无向图模型的因子分解。给定概率 模型,舍弃无向 图为 G,C 表示 G 上的最大团,YC 表示 C 对应的随机变量。那么概率无向图模 型的联合概率分布 P(Y)可写作图中所有最大团上的函数 c(Yc ) 的乘积形式,即
y i 1
yi
yi 1
xi 1
xi
xi 1
图 1 线性链条件随机场 线性链条件随机场:设 X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)均为线性链表示的随机 变量序列,若在给定随机变量序列 X 的条件下,随机变量序列 Y 的条件概率分 布 P(Y|X) 构 成 条 件 随 机 场 , 即 满 足 马 尔 科 夫 性 P(Yi|X,Y1,…,Yi-1,Yi+1,…,Yn)=P(Yi|X,Yi-1,Yi+1), i=1,2,…n,(在 i=1 和 n 时只考虑单边)。 则称 P(Y|X)为线性链条件随机场。在标注问题中,X 表示输入观测序列,Y 表示 对应的输出标记序列或状态序列。
条件随机场模型介绍及其应用
1. 条件随机场模型介绍
条件随机域(场) (Conditional Random Fields) ,简称 CRF 或 CRFs,是一 种判别式的概率图模型。条件随机场是在给定随机变量 X 条件下,随机变量 Y 的马尔科夫随机场。原则上,条件随机场的图模型布局是可以任意给定的,但比 较常用的是定义在线性链上的特殊的条件随机场,称为线性链条件随机场。因为 其不论在训练、推论或是解码上,都存在效率较高的算法可供演算。 条件随机场最早由 John D. Lafferty 等[1]在 2001 年提出,结合了最大熵模型 和隐马尔可夫模型的特点,是一种概率无向图模型。它常用于序列标注等问题, 比如可以用于分词(Segmentation) 、词性标注(Part of Speech)和命名实体识别 (Named Entity Recognition)任务。一般序列分类问题常常采用隐马尔可夫模型 (HMM)[2],但隐马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫 性假设。 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确 性, 而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使 用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力,能够较好地解 决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求 得全局的最优解。