中文分词

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生成式分词(Cont.)
Naïve N-gram分词模型
学习过程(利用MLE估计) P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1) 分词过程
P (W | O ) = max P ( w | O ) = max P ( w1w2 ...wT | o1o2 ...oT )
机械分词
FMM/BMM:把句子从左向右(从右向左)扫描一遍,遇到字 典里有的最长词就标识出来,遇到不认识的字串就分割成单 字词。 词典
• • • • • • • • • •
实例
• 小沈阳演出收入分成均为9:1 小沈阳演出收入分成均为9:1 分成均为 – FMM:小沈阳/演出/收入/分成/均/为/9:1 (正确) FMM:小沈阳/演出/收入/分成/ 正确) – BMM:小沈阳/演出/收入/分成/均/为/9:1 (正确) BMM:小沈阳/演出/收入/分成/ 正确) • 小沈阳演出收入分成都是9:1 小沈阳演出收入分成都是 分成都 – BMM:小沈阳/演出/收入/分成/都/是/9:1 (正确) BMM:小沈阳/演出/收入/分成/ 正确) – FMM:小沈阳/演出/收入/分/成都/是/9:1 (错误) FMM:小沈阳/演出/收入/ 成都/ 错误)
中文分词概述(Cont.)
分词难点(需要重新处理) 分词难点(需要重新处理)
需求多种多样
切分速度:搜索引擎VS单机版语音合成 结果呈现: 切分粒度要求不同:机器翻译VS搜索引擎 分词重点要求不同:语音合成VS搜索引擎 唯一结果VS多结果:语音合成VS搜索引擎 新词敏感度不同:语音合成VS搜索引擎 处理对象:书面文本(规范/非规范)VS口语文本 硬件平台:嵌入式VS单机版VS服务器版
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W:分词结果 O:待分词文本
生成式分词(Cont.)
句子 分词 词典
学习 素材
产生式 学习算法
分词 知识库
产生式 切分算法
切分 结果
生成式分词(Cont.)
分词过程实例
第一步:全切分
生成式分词(Cont.)
词典从哪里来?
机械分词(Cont.)
全切分:获得文本所有可能的切分结果,得到所 有切分单元
搜索引擎中
机械分词(Cont.)
优点
程序简单易行,开发周期短 没有任何复杂计算,分词速度快
不足
不能处理歧义 不能识别新词 分词精度不能满足实际的需要(规范文本 80%,互联网文本在70% 左右)
统计分词
生成式统计分词 判别式统计分词
生成式分词(Cont.)
给定字符串S=s1s2…sn , 找最优的类序列 C=c1c2…cm 使得P(C|S) 最大
P(C | S ) =
m 1 n 1
m n m P(C1 )×P( S1 |C1 ) n P( S1 )
P(C1m | S1n ) = P(C1m ) × P(S1n | C1m)
学习过程 学习类的上下文知识 学习类的生成知识
奥巴马 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 诺基亚C5 尼康D700 新浪
中文分词概述(Cont.)
分词难点 普通词与新词互用
高明表演真好(演员)/他的表演很高明 汪洋到深圳检查工作/洞庭湖一片汪洋
普通词与新词交织在一起
克林顿对内 对内塔尼亚胡说 对内 胡说 胡锦涛听取龚学平等 平等同志的汇报 平等
生成式分词(Cont.)
分词过程 第一步:逐字全切分 第二步:根据新词触发知识(姓氏表、地名关 键字、机构名关键字等),触发新词候选绑定 第三步:绑定形态词、仿词 第四步:对所有候选词形成的词网格,进行 Viterbi解码,寻找最优路径
生成式分词(Cont.)
优点
在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较 高的切分正确率(>=95%)
(
)
其中,pθ ( y | x ) ∝ exp ∑ λk f k ( e, y |e , x ) + ∑ µk g k ( v, y |v , x ) v∈V , k e∈E ,k 约束:E p [ f i ] = E p [ f i ] % E p [ f i ] = ∑∑ f k y ti , y ti−1 , xti %
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
P (江泽民 | c = PN 3) ≅ P (江 | F ) × P(泽 | G1 ) × P (民 | G2 )
P ( S1 S 2 ⋅ ⋅ ⋅ S n | c = FPN ) ≅ P ( S1 | FPI ) × ∏ P(Si | FPM) × P ( S n | FPE )
i=2 i = n -1
i =1 t =1 N N T
(
) ( )
T i E p [ f i ] = ∑∑ p ( y | x ) ∑ f k yt , yt −1 , xti i =1 y t =1
判别式分词(Cont.)
训练
CRF 模型是指数模型,可以用quasi − Newton方法来解方法 目标函数: L = ∑ log pθ s
生成式分词
原理
首先建立学习样本的生成模型,再利用模型对预测结 果进行间接推理 两个假设前提
马尔可夫假设 • 当前状态出现的概率仅同过去有限的历史状态有关,而与 其他状态无关。具体到分词任务,就是文本中第i个词出 现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。 输出独立性假设 • 当前状态的输出仅仅取决于当前状态本身,而与其他状态 无关。
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
分词技术发展
机械分词(查词典) 机械分词(查词典) 梁南元教授提出,典型算法有: 北京航天航空大学 梁南元教授提出,典型算法有: FMM/BMM 全切分 统计分词 产生式统计分词 判别式统计分词 理解分词 仅仅是人们期望, 仅仅是人们期望,不能投入实用
Class-based Ngram Ngram分词评价
能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题
解决之道:Class-based Ngram
在统一的框架下进行分词与新词识别 将词分为若干类
词典词:教师(词典处理) 仿词:2000年(规则处理) 新词:范路(基于类的新词识别) 形态词:高高兴兴(规则处理) 不同类型的词用不同处理方法,最后利用Ngram框架寻找全 局最优切分结果
小沈阳 沈阳 演出 分成 成都 都 均 为 是 9:1
机械分词(Cont.)
词典 • • • • • • • • 内塔尼亚胡 胡说 说 的 的确 确实 实在 在理 实例
内塔尼亚胡说的确实在理
– – FMM:内塔尼亚胡/ 的确/实在/ FMM:内塔尼亚胡/说/的确/实在/理(错误) 错误) BMM:内塔尼亚/胡说/ 确实/在理(错误) BMM:内塔尼亚/胡说/的/确实/在理(错误)
优势
能充分利用各种来源的知识 需要较少的训练语料 解码速度更快 新词识别性能好
判别式分词(Cont.)
由字构词
把分词问题转化为确定句中每个字在词中位置问题 每个字在词中可能的位置可以分为以下三种
词首B(日本
占领 了 东三省) 词中M(游泳 比赛 菲尔普斯 独占鳌头) 词尾E(中国队 抢占 了 风头)
中文分词一席谈
suntian@gmail.com
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
中文分词概述
什么是分词? 什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如 句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音 汉字处理:拼音输入法、手写识别、简繁转换 … 信息检索: 信息检索:Google 、Baidu … 内容分析: 内容分析:机器翻译、广告推荐、内容监控 … 语音处理: 语音处理:语音识别、语音合成 … …
j=1 m
生成式分词(Cont.)
类别 PN2 (两字人名) PN 人名 PN3(三字人名) FPN (外国人名) 实例 李鹏 江泽民 布什 G2 LN 地名 CLN (中国地名) FLN (外国地名) 北京市 巴黎 外国人的第一个字 FPI 外国人的中间字 FPM 外国人的结尾子 ON 机构名 CON (中国机构名) 东北大学 FPE 外国地名第一个字 FLI FON (外国机构名) 词典词 形态词 仿词 欧佩克 开心 FLE 高高兴兴 2000年 FOI 外国机构名中间字 FOM 外国机构名第一个字 外国地名的第二个字 FLM 外国地名结尾字 标 记 人名中姓 F PN2中字 G PN3 中第一个字 G1 PN3 中第二个字 描述
中文分词概述(Cont.)
分词难点 歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣 我们公司人手
真歧义(几种切分都可以)
乒乓球拍/卖/完了 乒乓球/拍卖/完了 /拍卖/
中文分词概述(Cont.)
分词难点 新词层出不穷
人名、地名、机构名
• 不足
需要很大的训练语料 新词识别能力弱 解码速度相对较慢
统计分词
生成式统计分词 判别式统计分词
判别式分词
原理
在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假 设。 由字构词的分词理念,将分词问题转化为判别式分类问题
典型算法
Maxent SVM CRF Perceptron
判别ቤተ መጻሕፍቲ ባይዱ分词(Cont.)
特征所涉及的语言学知识列表 字的上下文知识 形态词知识:处理重叠词、离合词、前后缀 仿词知识:2000年 成语/惯用语知识 普通词词典知识 歧义知识 新词知识/用户词典 新词的全局化知识
判别式分词(Cont.)
CRF建模
i i % max Ο (θ ) = max ∑ log pθ y ( ) | x ( ) ∝ ∑ p ( y | x ) log pθ ( y | x ) i =1 x, y N
P(克林顿 | c = FPN ) ≅ P(克 | FPI ) × P(林 | FPM ) × P(顿 | FPE )
生成式分词(Cont.)
学习过程( MLE ) 原始训练语料:刘翔/nr 是 一个 优秀 运动员 转换为训练类的上下文模型语料:PN 是 一个 优秀 运动员 转换为训练类的产生模型语料:F刘 G翔
分词结果形式化
分词结果:毛/B新/M年/E2/B0/M0/M0/M年/E毕/B业/E/于/B东/B北 /M大/M学/E 还原:毛新年/2000年/毕业/于/东北大学
判别式分词(Cont.)
句子
学习 素材
判别式 学习算法
分词 知识库
判别式 学习算法
切分 结果
判别式分词(Cont.)
特征选择 设H是预定义条件的集合,T是一组可选标注集, 条件随机场的特征函数定义为:
j =1 N
( (
( j)
|o
( j)
))
λ2 −∑ 2 k 2σ
k
其中,后一项为高斯先验因子,起到数据平滑的作用,
第二步:Viterbi动态规划,找到贯穿句子的路径并计算 每条路径的概率
P1=P(说|他)*P (的|说)*P(确实|的)*P(在理|确实)*P($End|在理) P2=P(说|他)*P (的确|说)*P(实在|的确)*P(理|实在)*P($End|理)
第三步:选择概率最大的路径 为切分结果
生成式分词(Cont.)
生成式分词(Cont.)
人名的实体模型
P( S1S 2 | c = PN 2) ≅ P( S1 | F ) × P( S 2 | G )
P(李鹏 | c = PN 2) ≅ P(李 | F ) × P(鹏 | G)
P( S1S 2 S3 | c = PN 3) ≅ P( S1 | F ) × P(S2 | G1 ) × P ( S3 | G2 )
相关文档
最新文档