中文词语分析一体化系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要研究方法与相关系统II
• 当前主要的中文词语分析系统
– 哈工大统计分词系统 – 自动化所三元统计模型 – 清华大学SEGTAG系统
• 词典中的每一个重要的词都加上了切分标志 • 无条件切出qk类词;完全切分ck类词;其他无交 叉歧义的切之,否则全切分。 • "动态规划"和"全切分搜索+叶子评价"
∴ 评价函数或者决策函数如下:
(W,T)*= arg max[Σ ln P(ti|ti-1) + Σ ln P(wi|ti)]
W ,T
13
基于多层HMM的一体化方法IV
• 一体化需要解决的主要问题
– 排歧问题
– 未登录词的概率问题P(wi|ti)
P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)?
student …
6
×
5
×
5 = 150 :
2
4
问题背景与难点分析 III
• 中文词语分析的主要难点
– 歧义
• 交叉歧义(86%): 结合成分子时 • 组合歧义(14%): 这个人手上有痣; 我们缺人手 • 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过
5
问题背景与难点分析 IV
基于N-最短路径的词语粗分II
我们的研究思路 —基于多层HMM的一体化方法
• 目标:
分词、词性标注的一体化;未登录词与普通词处理的 一体化;评估体系一体化。
• 基本思想:
采取HMM模型,建立切分词图。词语粗分阶段,先得出N 个概率最大的切分结果。然后,利用角色标注方法识别未登 录词,并计算其概率,将未登录词加入到切分词图中,之后 视它为普通词处理,最终进行动态规划优选出N个最大概率 切分标注结果。 11
2
问题背景与难点分析
• 问题背景
汉语的书面语是按句分开的,词与词之间没有 明确的分隔标记。 词是最小的能够独立活动的有意义的语言成 分。 中文信息处理只要涉及句法、语义(如检索、 翻译、文摘、校对等应用),就需要以词为基本 单位。句法分析、语句理解、自动文摘、自动 分类和机器翻译等,更是少不了词的详细信 3 息。
张华平 刘 群
zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28
纲要
• 问题背景与难点分析 • 主要研究方法与相关系统 • 我们的研究思路—基于多层HMM的一体化 方法 • 基于N-最短路径的词语粗分 • 基于角色标注的未登录词识别 • 计算所中文词语一体化分析系统ICTCLAS • 结论
=P(T)P(W|T)/P(W) P(W)/P(C) = P(T)P(W|T)/P(C)
(字串C出现的概率P(C)为一常数,不影响结果,可以忽略) 12
基于多层HMM的一体化方法III
• 利用隐马模型展开P(T)P(W|T),并引入共现概率
P((W,T)|C) =Π P(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2)
14
基于N-最短路径的词语粗分
• 基本思想
根据词典,建立字串词语切分有向无环图。 每个词对应图中的一条有向边,并赋给相应的边 长(权值)。然后针对该切分图,在起点到终点 的所有路径中,求出长度值按严格升序排列(任 何两个不同位置上的值一定不等,下同)依次为 第1, 第2,…,第i,…,第N的路径集合作为 相应的粗分结果集。如果两条或两条以上路径长 度相等,那么他们的长度并列第i,都要列入粗 分结果集,而且不影响其他路径的排列序号,最 15 后的粗分结果集合大小大于或等于N。
8
主要研究方法与相关系统III
– Microsoft Research多国语言处理平台NLPWin 中的中文词语分析词系统
• 双向的Chart Parsing,使用了语法规则并以概率模 型作导向 • 切词-句法分析一体化
– 北大计算语言所分词和词类标注系统
• 分词和词类标注结合起来 • 基于规则的标注排歧与基于语料库统计模型的排歧 结合 • 处理过程包括了自动切分和初始词性标记、切分歧 义字段识别、组词和标注预处理、词性标记排歧、 9 切分和词性标注后处理
问题背景与难点分析 II
• 分词的必要性
evidence physics price products understand school barber theory subject physics
物
body
science
理
study
学
credit
物理学
physicist
image
…
reason …
基于多层HMM的一体化方法II
• 利用噪声-信道模型,建立目标评估函数
(W,T)*= arg max P((W , T Baidu Nhomakorabea | C )…….……………………(0)
(W ,T )
其中 C:原始字串;W:切分的词串;T:词性标注序列
∵
P(C|W)=1→P(CW)=P(W)
P((W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C)
主要研究方法与相关系统IV
• 现有方法的一些潜在不足(待探讨):
– 规则与统计的结合,更大意义上是一种组合,两种处理 出现在系统中相对独立的两个不同阶段。 – 排歧、识别未登录词更多的是利用规则,难以量化。即 使量化,也很难和普通词实现真正量值上的比较。 – 歧义字段、未登录词作为特殊情况处理,后期处理中没 有与普通词统一。 – 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣 称的那样理想,尤其是在未登录词、歧义字段存在的情 况里。 10
– 未登录词问题
• 干扰作用
克林顿对内塔尼亚胡说 龚学平等领导
• 最终识别
– 多样性 – 复杂性 – 上下文干扰
6
主要研究方法与相关系统
• 当前主要的研究方法
– 基于规则的方法 • 最大匹配法(Maximum Matching)正向、逆向、 双向 • 最优路径(+词频选择)法(最少分词法) – 基于统计的方法 (N元语法,HMM) – 基于规则和基于统计相结合 – 其他的一些方法 (压缩,自监督,基于转移的错误 驱动方法等) 7