词性标注

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在词性标记集已确定,并且词典中每个词都有确定词性的基础上,对一个输入词串转换成相应词性标记串的过程叫做词性标注。

词性标注需要解决的问题
如何判定兼类词在具体语境中的词性。

对未登录词需要猜测其词
兼类词对句法分析的影响:尽管兼类词在词汇中所占比例并不很高,但由于它们出现的比例较高,因而对于句法分析会造成直接影响。

词性标注方法:
概率方法
基于隐马尔可夫模型的词性标注方法
机器学习规则的方法
基于转换的错误驱动词性标注方法
从统计模型角度考虑词性标注问题
1给定一个词串W=w1w2...wn,如果T=t1t2...tn是W对应的词性标记串。

所谓对W进行词性标注就是在给定W和带有词性标注信息的词表条件下,求T的过程。

2假设W存在多个可能的词性标记串T1,T2,...Ti,对W进行词性标注就是在已知W的条件下求使P(T|W)最大的词性标注串T',即求:
3T'=argmax P(T|W)
例如词串“把/ 这/ 篇/ 报道/ 编辑/ 一/ 下/”中有些词有多个词性标记(兼类词),因此该词串对应的词性标注串有多个。

全部标记结果等于各个词的词性标注数目的乘积,即4×1×1×2×2×2×3=96。

词性标注的任务就是从多个可能性中找出可能性最高的词性标注串T’
上例中对应的词性标注串是“prvnvmq”
对于一个词性标注系统来说,它所“认为”的可能性最高的词性标注串T'可能是正确的,也有可能是错误的。

为了表示方便,做如下约定:
Wi:表示一个词串;
wi:表示一个具体词语;
Ti:表示一个词性标注串;
ti:表示一个具体词性标记;
隐马尔可夫模型(Hidden Markov Model,HMM)是描述连续符号序列的条件概率统计模型,可定义为五元组λ=(S,V,A,B,π),其中
S代表一个状态集合S={1,2,...,N}
V代表一个可观察符号的集合V={v1,v2,...,vM}
A代表状态转移矩阵(N行×N列)A=[aij],其中
aij=P(qt+1=j | qt=i), 1≤i,j≤N,即从状态i转移到下一个状态j的概率
B是可观察符号的概率分布B={bj(k)},其中bj(k)是在状态j是输出观察符号vk的概率,即bj(k)=P(vk | j),1≤j≤N, 1≤k≤M.
π代表初始状态的概率分布π={πi},表示在时刻1选择状态i的概率,即πi=P(q1=i)
一个确定的HMM,其状态数是确定的,每个状态可能输出的观察值数目也是确定的,参数A,B,π可通过统计样本得到。

词性标注和HMM之间的关系
1词性序列相当于HMM的状态序列
2给定词串是可观察符号的序列
在给定观察值W和模型参数λ的情况下,求状态序列T,使该状态序列T“最好地解释”观察值序列W
T' = argmax P(T|W,λ) (公式1)
根据条件概率公式可知:
P(T|W,λ)=P(T,W|λ)/P(W|λ) (公式2)
对所有情况,λ是一样的,因此可省略λ,故得P(T|W)=P(T,W)/P(W)=P(T)P(W|T)/P(W) (公式3)
公式3中P(W)是词串的概率,对所有可能的词性标注结果来说P(W)都是一样的,对P(T|W)的值的比较没有影响,因此可忽略P(W),故公式1可演化为:
T' = argmax P(T|W,λ)=argmax P(T)P(W|T)(公式4)
其中:
P(T)=P(t1|t0)P(t2|t1,t0)P(t3|t2,t1,t0)...P(ti|ti-1,ti-2,...,t0) (公式5)
根据一阶马尔可夫假设,当前词性标记只和它之前的一个词性标记有关,于是得到:P(T)=P(t1|t0)P(t2|t1)P(t3|t2)...P(ti|ti-1) (公式6)
公式6表明P(T)实际上是词性标注串中两两相邻的词性标注的转移概率的乘积。

两个词性标记之间的转移概率P(ti|ti-1) 可通过训练语料库中词性频度估算(HMM中的参数A)
P(ti|ti-1) =训练语料中ti在ti-1之后出现的次数/ 训练语料中ti-1出现的总次数(公式7)
P(W|T)是已知词性标注串T的条件下词串W的概率,即
P(W|T)=P(w1|t1)P(w2|t2,t1,w2,w1)...P(wi|ti,ti-1,...,t1,wi,wi-1,...,w1) (公式8) 根据独立性假设,已知词性标注串的条件下词串的条件概率只跟各个词和对应的词性标注有关,则公式8可简化为:
P(W|T)=P(w1|t1)P(w2|t2)...P(wi|ti) (公式9)
P(wi|ti) 可根据训练语料中的词性频度和词语频度估算:
P(wi|ti) =训练语料中wi的词性被标记为ti的次数/ 训练语料中ti出现的总次数(公式10)
根据以上公式,可求所有的P(T|W)=P(T)P(W|T),比较P(T|W)可得使P(T|W)最大的词性标注串T'
计算效率分析:
1针对一个给定词串W,计算所有的P(T|W),其效率很低
2假设词性标注数目为N(对应于HMM的状态个数),给定词串W有M个词,考虑最坏的可能性,则全部可能的词性标注串(对应于HMM的状态序列)有NM个
3随着词串的增加,计算复杂性呈“指数”增长
4VOLSUNGA算法和Viterbi算法采用动态规划的方法大大提高了词性标注的效率
基于转换的错误驱动的词性标注方法:一种基于规则的词性标注方法。

通过机器学习的方法学习“改错”规则。

转换规则的组成
改写规则:将一个词性转换成另一个词性
激活环境:激发改写规则的条件
转换规则(T1)
改写规则:将一个词性从动词(v)改为名词(n);
激活环境:该词左边第一个词的词性是量词(q),第二个词的词性是数词(m);
转换举例
改写之前的带有词性标注的句子:
他/r 做/v 了/u 一/m 个/q 报告/v
使用规则T1改写之后的句子
他/r 做/v 了/u 一/m 个/q 报告/n
基于转换的错误驱动词性标注方法根据转换规则将错误的词性改为正确词性。

需要注意的是转换规则是有确定顺序的,当使用这些规则去标注新的语料时,也是按照该顺序进行标注。

转换规则模板是用于生成具体的转换规则的模板。

开始时,由人来定义转换规则模板,并根据该模板生成一条条用于词性标记的转换规则。

所谓机器学习就是从这些转换规则中学习有助于提高词性标注正确率的那些规则。

基于转换的词性标注所需的前提条件:
1词性标记集
2转换规则模板及一系列转换规则
3一个达到一定规模的已标注语料库C0
4语料库C0对应的未标注版本C0_raw(生语料库)
5一个用于初始词性标注器
初始词性标注器可以是任意的词性标注器,其词性标注的正确率并不重要。

因为基于转换的词性标注器将会根据转换规则去改正错误的词性标记。

如基于HMM的词性标注器
或简单词性标注器(只取频度最高的词性标记)
甚至可以将所有词性都标记为名词
基于转换的词性标注的核心是学习转换规则
基于转换的错误驱动的词性标注方法:
(1) 一个事先标注好词性标记的语料库C0作为学习时的训练语料库;
(2) 一个词性标记集和一套转换规则模板;
(3) 一组候选转换规则;
(4) 一个初始标注器;
(5) 一个以评价函数为核心的学习器;
(6) 通过学习得到一个有序转换规则集;
(7) 首先用初始标注器对生语料库进行初始标注,然后用学到的规则集修改标注结果。

相关文档
最新文档