词性标注

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在词性标记集已确定，并且词典中每个词都有确定词性的基础上，对一个输入词串转换成相应词性标记串的过程叫做词性标注。

词性标注需要解决的问题
如何判定兼类词在具体语境中的词性。

对未登录词需要猜测其词
兼类词对句法分析的影响:尽管兼类词在词汇中所占比例并不很高，但由于它们出现的比例较高，因而对于句法分析会造成直接影响。

词性标注方法：
概率方法
基于隐马尔可夫模型的词性标注方法
机器学习规则的方法
基于转换的错误驱动词性标注方法
从统计模型角度考虑词性标注问题
1给定一个词串W=w1w2...wn,如果T=t1t2...tn是W对应的词性标记串。

所谓对W进行词性标注就是在给定W和带有词性标注信息的词表条件下，求T的过程。

2假设W存在多个可能的词性标记串T1,T2,...Ti,对W进行词性标注就是在已知W的条件下求使P(T|W)最大的词性标注串T',即求：
3T'=argmax P(T|W)
例如词串“把/ 这/ 篇/ 报道/ 编辑/ 一/ 下/”中有些词有多个词性标记（兼类词），因此该词串对应的词性标注串有多个。

全部标记结果等于各个词的词性标注数目的乘积，即4×1×1×2×2×2×3=96。

词性标注的任务就是从多个可能性中找出可能性最高的词性标注串T’
上例中对应的词性标注串是“prvnvmq”
对于一个词性标注系统来说，它所“认为”的可能性最高的词性标注串T'可能是正确的，也有可能是错误的。

为了表示方便，做如下约定：
Wi：表示一个词串；
wi：表示一个具体词语；
Ti：表示一个词性标注串；
ti：表示一个具体词性标记；
隐马尔可夫模型(Hidden Markov Model，HMM)是描述连续符号序列的条件概率统计模型,可定义为五元组λ=(S,V,A,B,π),其中
S代表一个状态集合S={1,2,...,N}
V代表一个可观察符号的集合V={v1,v2,...,vM}
A代表状态转移矩阵(N行×N列)A=[aij]，其中
aij=P(qt+1=j | qt=i), 1≤i,j≤N,即从状态i转移到下一个状态j的概率
B是可观察符号的概率分布B={bj(k)},其中bj(k)是在状态j是输出观察符号vk的概率，即bj(k)=P(vk | j),1≤j≤N, 1≤k≤M.
π代表初始状态的概率分布π={πi},表示在时刻1选择状态i的概率，即πi=P(q1=i)
一个确定的HMM,其状态数是确定的，每个状态可能输出的观察值数目也是确定的，参数A,B,π可通过统计样本得到。

通过机器学习的方法学习“改错”规则。

转换规则的组成
改写规则：将一个词性转换成另一个词性
激活环境：激发改写规则的条件
转换规则(T1)
改写规则：将一个词性从动词(v)改为名词(n)；
激活环境：该词左边第一个词的词性是量词(q)，第二个词的词性是数词(m)；
转换举例
改写之前的带有词性标注的句子:
他/r 做/v 了/u 一/m 个/q 报告/v
使用规则T1改写之后的句子
他/r 做/v 了/u 一/m 个/q 报告/n
基于转换的错误驱动词性标注方法根据转换规则将错误的词性改为正确词性。

需要注意的是转换规则是有确定顺序的，当使用这些规则去标注新的语料时，也是按照该顺序进行标注。

转换规则模板是用于生成具体的转换规则的模板。

开始时，由人来定义转换规则模板，并根据该模板生成一条条用于词性标记的转换规则。

所谓机器学习就是从这些转换规则中学习有助于提高词性标注正确率的那些规则。

基于转换的词性标注所需的前提条件：
1词性标记集
2转换规则模板及一系列转换规则
3一个达到一定规模的已标注语料库C0
4语料库C0对应的未标注版本C0_raw(生语料库)
5一个用于初始词性标注器
初始词性标注器可以是任意的词性标注器，其词性标注的正确率并不重要。

因为基于转换的词性标注器将会根据转换规则去改正错误的词性标记。

如基于HMM的词性标注器
或简单词性标注器(只取频度最高的词性标记)
甚至可以将所有词性都标记为名词
基于转换的词性标注的核心是学习转换规则
基于转换的错误驱动的词性标注方法：
(1) 一个事先标注好词性标记的语料库C0作为学习时的训练语料库；
(2) 一个词性标记集和一套转换规则模板；
(3) 一组候选转换规则；
(4) 一个初始标注器；
(5) 一个以评价函数为核心的学习器；
(6) 通过学习得到一个有序转换规则集；
(7) 首先用初始标注器对生语料库进行初始标注，然后用学到的规则集修改标注结果。