中文常用分词算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



例子

( 甲 ) 分词结果:/上海/计划/ N /本 /世纪/末/实现/人均/国内/生产/总 值/五千美元/。 ( 乙 ) 字标注形式:上/ B 海/ E 计/ B 划/ E N / S 本/ s 世/ B 纪/ E 末/ S 实/ B 现/ E 人/ B 均/ E 国/ B 内/ E 生/ B 产/ E 总/ B 值/ E 五/ B 千/ M 美/ M 元/ E 。/ S





例子
结合
成分
子时
S






E
合成
分子
基于字标注的分词

构词法 规定每个字最多只有四个构词位置:即 B( 词 首 ) , M ( 词中 ) , E( 词尾 ) 和 S( 单独成 词)


基于字标注的分词(续)

所有的字根据预定义的特征进行词位特性的学 习,获得一个概率模型 在待分字串上,根据字与字之间的结合紧密程 度,得到一个词位的标注结果 根据词位定义直接获得最终的分词结果

谢谢!
直到匹配成功或者n三亚酒店预定三亚酒店预定三亚酒店预定例子结合合成成分子时分子所有的字根据预定义的特征进行词位特性的学习获得一个概率模型在待分字串上根据字与字之间的结合紧密程度得到一个词位的标注结果世纪末实现人均国内生产总值五千美元
中文分词技术 徐茂兴
中文分词技术

简单的模式匹配方法 基于规则的方法 基于统计的方法


双向匹配

比较正向与反向的结果,决定正确的结果 三亚 酒店预定 三亚酒店 预定 三亚 酒店 预定



最少分词算法

分词结果中含词最少 有向图问题 找出所有可能的路径





有向图中寻找最短路径
基于统计语言模型的分词

待切分句子 S W=w1 w2 w3 …… wn (1<=n<=N) W* = argmax P(W | S) 找出所有可能的切分路径 计算每条路径权值 权值最大的路径作为最终分词结果


基于匹配

正向最大匹配 逆向最大匹分词辞典 从前往后走,先匹配长度为 N 的字符串; 如果失败, N­­ (去掉串尾字),再匹配;直 到匹配成功,或者 N 为 0 ; 继续;



逆向最大匹配

与正向类似 从句子末尾往前匹配 每次匹配失败,去掉字符串头的字
相关文档
最新文档