自然语言理解-词法分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国科技大学计算机学院
19
词性标注(pos tagging)
• 语法体系—— 词性标记集的确定 ������ • 一词多类现象 • Time flies like an arrow. Time/n-v flies/v-n like/p-v an/Det arrow/n • 把这篇报道编辑一下 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v
独立性假设,一元语法
wi在语料库中出现的次数 P( wi ) 语料库中的总词数
University of Science and Technology of China
中国科技大学计算机学院
14
最大概率法分词
词语 … 有 有意 概率 … 0.0180 0.0005
P(W1) = P(有) * P(意见) * P(分歧) = 1.8 × 10-9
University of Science and Technology of China
中国科技大学计算机学院
20
未登录词
• 中外的人名,地名(“雪村”,“老张”,“莎士比亚”, “叙利亚” ); • 中外组织机构单位名称和商品品牌名 ( "希望电脑","国 际乒联","非常可乐"); • 专业领域的大量术语("线性回归","韦特比算法"); • 新词语,缩略语(“卡拉OK”,“E时代”,“打假”,“哈 韩族”); • 汉语重叠形式、离合词的分析
University of Science and Technology of China
中国科技大学计算机学院
9
分词歧义的类型
一、交集型歧义
如果 AB 和 BC 都是词典中的词,那么如果待切分字串中包含 “ABC”这个子串,就必然会造成两种可能的切分:“AB/ C/ ” 和 “A/ BC/ ”。这种类型的歧义就是交集型歧义。比如“网球场”就 可能造成交集型歧义(网球/ 场/ : 网/ 球场/)。
University of Science and Technology of China
中国科技大学计算机学院
6
最大匹配法分词示例(续)
(8)S1不为空,于是从S1左边取出候选子串W="是三个学时"; (9)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个 课"; ( 10 )查词表,W 不在词表中,将W 最右边一个字去掉,得到W="是三 个"; (11)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三" ( 12)查词表,W 不在词表中,将W 最右边一个字去掉,得到W=“是”, 这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ ”,并将 W从S1中去掉,此时S1="三个学时"; (13)S1不为空,从S1左边取出候选子串W="三个学时"; ( 14 )查词表,W 不在词表中,将W 最右边一个字去掉,得到W="三个 课"; (15)查词表,W不在词表中,将W最右边一个字去掉,得到W="三个"; ( 16)查词表,W 不在词表中,将W 最右边一个字去掉,得到W=“三”, 这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ ”,并 将W从S1中去掉,此时S1="个学时";
University of Science and Technology of China
中国科技大学计算机学院
16
最大概率分词算法示例
(1)对“有意见分歧”,从左到右进行一遍扫描,得到全部候选词: “有”,“有意”,“意见”,“见”,“分歧”; (2)对每个候选词,记录下它的概率值,并将累计概率赋初值为0; (3)顺次计算各个候选词的累计概率值,同时记录每个候选词的最佳左 邻词: P'(有)=P(有), P'(有意) = P(有意), P„(意见)=P‟(有) × P(意见),(“意见”的最佳左邻词为“有”) P„(见)=P‟(有意) × P(见),(“见”的最佳左邻词为“有意”) P'(意见)>P'(见) (4)“分歧”是尾词,“意见”是“分歧”的最佳左邻词,分词过程结 束, 输出结果:有/ 意见/ 分歧/
中国科技Biblioteka Baidu学计算机学院
12
最大概率法分词
基本思想是: (1)一个待切分的汉字串可能包含多种分词结果 (2)将其中概率最大的那个作为该字串的分词结果
路径1: 0-1-3-5 路径2: 0-2-3-5
该走哪条路呢?
University of Science and Technology of China
设定最大词长 MaxLen = 5 S2= " "
词语 … 计算语言学 课程
分词词表
学时 …
University of Science and Technology of China
中国科技大学计算机学院
5
最大匹配法分词示例(续)
(1)S2="";S1不为空,从S1左边取出候选子串W="计算语言学"; (2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计 算语言学/ ”,并将W从S1中去掉,此时S1=“课程是三个学时"; (3)S1不为空,于是从S1左边取出候选子串W="课程是三个"; (4)查词表,W不在词表中,将W最右边一个字去掉,得到W="课 程是三"; (5)查词表,W不在词表中,将W最右边一个字去掉,得到W="课 程是"; (6)查词表,W不在词表中,将W最右边一个字去掉,得到W="课 程" (7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/ 课 程/ ”,并将W从S1中去掉,此时S1=“是三个学时";
University of Science and Technology of China
中国科技大学计算机学院
8
最大匹配法分词的问题
一、最大词长的确定
( 1 )词长过短,长词就会被切错(“中华人民共和 国”) (2)词长过长,效率就比较低
二、掩盖了分词歧义
A.“有意见分歧” (正向最大匹配和逆向最大匹配结果不 同) 有意/ 见/ 分歧/ 有/ 意见/ 分歧/ B.“结合成分子时” (正向最大匹配和逆向最大匹配结果 相同) 结合/ 成分/ 子时/
例如:“爱人民英雄” 顺向扫描的结果是:“爱人/ 民/ 英雄/”, 通过查词典知道“民”不在词典中,于是进行回溯,将“爱人”的 尾字 “人 ”取出与后面 的 “民”组 成“人民” ,再查词典 ,看 “爱”,“人民”是否在词典中,如果在,就将分词结果调整为: “爱/ 人民/ 英雄/”
University of Science and Technology of China
中国科技大学计算机学院
10
分词歧义的类型(续)
一、链长:交集型歧义字段中含有交集字段的个数, 称为链长。 ������ ������ ������ ������ ������ ������ 链长为1: 和尚未 链长为2: 结合成分 链长为3: 为人民工作 链长为4: 中国产品质量 链长为6: 努力学习语法规则 …… 双向最大匹配法可 以发现链长为奇数 的交集型歧义,但 无法发现链长为偶 数的交集型歧义
University of Science and Technology of China
中国科技大学计算机学院
7
最大匹配法分词示例(续)
(17)S1不为空,从S1左边取出候选子串W="个学时"; (18)查词表,W不在词表中,将W最右边一个字去掉,得到 W="个课"; (19)查词表,W不在词表中,将W最右边一个字去掉,得到 W=“个”, 这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ ",并将W从S1中去掉,此时S1="学时"; (20)S1不为空,从S1左边取出候选子串W="学时"; (21 )查词表,W 在词表中,将W 加入到 S2 中, S2=“计算语 言学/ 课程/ 是/ 三/ 个/ 学时/ ",并将W从S1中去掉,此时S1=""。 (22)S1为空,输出S2作为分词结果,分词过程结束。
P(W1)<P(W2)
P(W1)>P(W2)
University of Science and Technology of China
中国科技大学计算机学院
18
汉语自动分词的困难
• 分词规范 • 分词歧义 • 未登录词识别 “联合国教科文组织”是1个词吗?
University of Science and Technology of China
中国科技大学计算机学院
13
最大概率法分词
• S: 有意见分歧 • W1: 有/ 意见/ 分歧/ • W2: 有意/ 见/ 分歧/
Max(P(W1|S), P(W2|S)) ?
P( S | W ) P(W ) P(W | S ) P(W ) P( S )
P(W )= P(w1, w2, …, wn) ≈ P(w1)× P(w2)×… × P(wn)
University of Science and Technology of China
中国科技大学计算机学院
17
最大概率法分词的问题
一、并不能解决所有的交集型歧义问题 “这事的确定不下来” W1= 这/ 事/ 的确/ 定/ 不/ 下来/ W2= 这/ 事/ 的/ 确定/ 不/ 下来/ 二、无法解决组合型歧义问题 “做完作业才能看电视” W1= 做/ 完/ 作业/ 才能/ 看/ 电视/ W2= 做/ 完/ 作业/ 才/ 能/ 看/ 电视/
二、组合型歧义
如果AB和A、B都是词典中的词,那么如果待切分字串中包含 "AB"这个子串,就必然会造成两种可能的切分:"AB/ " 和"A/ B/ "。 这种类型的歧义就是组合型歧义。比如"个人"就可能造成组合型歧 义( (我) 个人/ : (三) 个/ 人/ )。
University of Science and Technology of China
中国科技大学计算机学院
2
汉语分词
1、从字符串中识别出词(word segmentation) “分”词—— “合”词 ������ 2、分词的基本方法 最大匹配法(Maximum Match based approach) 概 率 方 法 (Probability approach to Word Segmentation)
词法分析
刘贵全
gqliu@ustc.edu.cn
University of Science and Technology of China
中国科技大学计算机学院
1
词法分析
• 汉语分词
– 分词算法 – 汉语自动分词的困难
• 词性标注 • 未登录词的识别
University of Science and Technology of China
P(W2) = P(有意) * P(见) * P(分歧) = 1 × 10-11 P(W1) > P(W2)
意见
见 分歧
0.0010
0.0002 0.0001


University of Science and Technology of China
中国科技大学计算机学院
15
最大概率分词算法
1) 对一个待分词的字串S,按照从左到右的顺序取出全 部候选词w1, w2 , … ,wi, … , wn ; 2) 到词典中查出每个候选词的概率值P(wi) ,并记录每 个候选词的全部左邻词; 3) 按照公式1计算每个候选词的累计概率,同时比较得 到每个候选词的最佳左邻词; 4) 如果当前词wn是字串S的尾词,且累计概率P'(wn)最大, 则wn就是S的终点词; 5) 从wn开始,按照从右到左顺序,依次将每个词的最佳 左邻词输出,即为S的分词结果。
University of Science and Technology of China
中国科技大学计算机学院
3
最大匹配法
长词优先原则
University of Science and Technology of China
中国科技大学计算机学院
4
最大匹配法分词示例
S1=“计算语言学课程是三个学时"
二、混合型歧义: 这样的人才能经受住考验
University of Science and Technology of China
中国科技大学计算机学院
11
最大匹配法解决分词歧义的能力
能发现部分交集型歧义 无法发现组合型歧义
对最大匹配法进行扩展:增加歧义词表,规则等知识库
对于某些交集型歧义,可以通过增加回溯机制来改进最 大匹配法的分词结果。
相关文档
最新文档