中文文本自动分词与标注
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Part II
基於联想-回溯方法的汉 基於联想 回溯方法的汉 语自动分词系统
系统结构及分词方法 分词知识库建构
简介
本节介绍一个基於联想-回溯方法的汉语自动分词系统: ABWS(Association-Backtracking Word Segmentation)
简称为AB算法 不过分依赖於词表,而是较多利用汉语本身的知识,如:构词法, 句法等 提出一些处理歧义结构的实用分词规则,以提高分词速度和分词 正确率 由於分级建库和两次扫描增加了时间与空间复杂度,但对小规模 语料处理上还是可行的. 主要是采用切分标记法和多次列举的方法:经实用中测试,分词 正确率可达98%左右.
2.字串频率统计 字串频率统计
计算各字串序列的所有长度大於1的子字串在局部上下文200字 左右(经验值)中的出现次数,并根据字串频率和字串长度做加 权函数 W = F * L3(F为字串频率亦即此子字串在上下文中出现 的次数;L为字串长度).若计算出来的权重超过给定的预设值, 则此子字串将这些词语存入临时词库中 Sliding Window 当前字串之前后各二十个字串 将 String 以 Hashing 方式存入 Slot
中文文本自动分词与标注
第9章 章
汉语自动分词软件系统
CPTWT Presentation R95921094 杨祝晋
摘要
自80年代初提出汉语自动分词系统以来,已经提出了 多种分词方法 例如:正向最大匹配,逆向最大匹配,穷多层次列举, 邻接约束,联想-回溯,词频统计,专家系统,类神 经网路等方法. 不同的分词方法模拟了分词行为的不同面向,取得了 不同的成效,并且已应用在不同用途的中文讯息处理 系统上. 本次报告主要介绍二种分词软体系统
4. 实验结果与分析 实验结果与分析(3/3)
切分标记将长字串分割为短字串,大幅度减少了字串的子字串数量. 设字串S的长度为 n ( n > 1 ),则S包含 n * ( n + 1 )/2 个子字串 若将S分为两个短字串,长度分别为 m ( 0 < m < n )和 n –m,则两个 短字串所拥有的子字串数之和为 m * ( m + 1 ) / 2 + ( n - m) * ( n – m + 1 ) / 2 比S 所含的子字串数少 m * (n – m )个,即一个长串分成两个短 字串后,子字串总数减少的数目恰好等於两个短字串的长度乘积. 例如:长字串长度为10,含子字串数为 55,二个短字串的长度各为 5, 含子字串数为30,子字串数共减少了 5 * 5 = 25个 子字串的数量减少为频率统计节约了时间. 切分错误的主要原因是某个子字串由於在上下文中多次出现而获得较高的 权重值,以至於被切分成词. 例如:在「聚合分析」,「组合分析」虽然经常出现,但「合分析」 的权值可能更高,可被切成「聚」「合分析」,「组」「合分析」. 因为多次源自文库接出现,使这几个词串联而成的词串的权重值很高,因而 被成一个词.
分词知识库的建构
特徵词词库
所谓特徵词,泛指那些具有可作为分割标志的某种特徵 的词,主要包括词缀,虚词,重叠词,连绵词等. 使用频度高,或可用规则描述 为了避免歧义切分,我们建立每个词的联想网络,列出 该特徵词的例外情形,并附有相对应的处理规则.这些 规则有的提炼於构词法,构形法以及词的搭配关系,有 的则源於大量的实验数据.现以词缀为例加以说明 例如:「子」一般认为是后缀词素,故将它收在特徵词 词库中
Outline
字串频率统计和词形匹配相结合的分词系统
系统结构及其各种模型的主要功能 实验结果及分析
基於联想-回溯方法的汉语自动分词系统
系统结构及分词方法 分词知识库的多层次建构
Part I
字串频率统计和词形匹配 相结合的分词系统
系统架构介绍 实验结果分析与讨论
系统结构及处理流程
系统 架构图
切分标记资料库 原文 单字数词词典
三个处理模型:
初步处理模型,字串频率统计模型,分词处理模型
二个资料库:
切分标记库,词缀集
四个词典:
单字数词词典,单字量词词典,临时词典,静态常用词词典
1. 初步处理模型
初步处理模型
原文分成较短的字串序列集 显式切分标记:标点,数字,外文,其他非汉字符号 隐式切分标记:出现频率高,构词能力差的单字词 隐式切分标记 (客观)
4. 实验结果与分析 实验结果与分析(2/3)
分析与讨论
切分精准度高:因为这些词的频率较高得以识别,或是这些 词的频率够低,当他们周围的词均已得到正确切分后,自然 将该字串合成一个词 设立临时词典可使分词过程利用全域上下文的频率统计结果, 正确切分依靠局部上下文所无法解决的切分问题 例如:如果利用了临时词典中「军事基地」,可避免切分 成「军事」「基地」.
说明
本系统中其基本思想可描述为:首先将待切分的汉字符号串序 列依特徵词词库分割为若干子串,每个子串或为词或为词群; 然后利用实词库和规则库再将词群细分为词.分词时,我们利 用了一定的语法知识.联想回溯机制同时作用於分割和细分两 个阶段,旨在有效地解决歧义组合结构的切分问题. 联想网络描述每个虚词的构词能力,联想推理则是利用相对应 的联想网络判定该虚词究竟是单独成词还是作为构词成分构成 了其他的词. 当一个句子的切分虽以在句法平面中确定时,我们便借助於语 义及上下文信息来进行判定.回溯机制主要用於处理语义歧义 句子的切分.如「原子能发电」可切分为:原子能/发/电,原子 /能/发/电.本系统利用回溯机制依次对各种分法进行测试,直 至找到正确答案为止.不难看出,联想和回溯机制,提供了自 动检错和自动纠错的功能.
例如:「观看」玛丽「的」「表演」,玛,丽两个字均 不是词,且「玛丽」做为一个字串的频率小於3,则将 「玛丽」视为一个词
4. 实验结果与分析 实验结果与分析(1/3)
实验结果
本系统对十篇中文文章,包括科技文献,新闻报导,政 论,故事等题材 进行了分词实验 分词正确率平均达 98.4 % 平均分词速度为每秒236个字 (IBM-PC386)
ABWS系统架构图 系统架构图
系统 架构
输入 初步处理模型 分割模型 细分模型 人工干预
输出
规则调用模型
特徵 词库
实词 词库
规则 库
系统五大功能模组(1/3) 系统五大功能模组
1. 预先处理模型
将原文依各种分解成独立的,可被切分程序直接处理的字串序列, 并保留原文中的所有部分,如:标点符号,数字,字母等 非汉字符号冠以特殊标记处理
1. 初步处理模型 字串 序列 单字量词词典
词缀集
2. 字串频率统计 候选词 字串序列
临时词典
静态常用词词典
3. 分词处理模型 分词 序列
系统结构说明
系统对原文进行三遍扫描:
第一遍,利用切分标记将原文分成较短字串序列 第二遍,根据每个短字串的子字串在上下文中的频率计算其权重 值,权重值大的子字串视为候选词 第三遍,利用候选词和常用词典对短字串进行切分
每个 Slot 内容序对 = 该字之 Sliding Window 序号 + 该字在字串中的序号
字串频率计算说明
单字 语 言 链结串列表 (5,1) -> (14,6) -> (25,2) -> (37,12) (5,2) -> (25,3) -> (37,13) -> (38,4)
「语言」的频率计算为 3 权重函数:3 * 23 = 24 权重值大於 Threshold Value 时,则该字串被认定为词,需加入 加入 临时词库,待分词结束后自动清除 临时词库 频率大於 Threshold Value 且不被其他字串完全覆盖则被视为潜 在的候选词 候选词
分词知识库的建构
实词词库
使用率高:常用词 覆盖率高:收集专业词语 由於固定搭配的词组,成语,俗语以及古汉语的残留成 分在现代汉语占有相当比例,且这些固定用语通常具有 特定的含义,按常规的方法进行切分显然是不合理的, 例如:「桃李满天下」不应再分为「桃李/满/天下」. 因而,词库中应适当地收录这些成分.
S 为 T 的子字串,且 S 的频率不大於 T的权重值时,称 T完全覆盖S 的子字串, 的 例如:「俄罗斯」(权值81),「俄罗」各出现3次;则称「俄罗斯」 完全覆盖「俄罗」
3. 分词处理模型
同时借助各字串的候选词集(局部资讯),临时词库(全 域资讯),和一部含 5000 常用词的词典(背景资讯), 对字串进行切分. 经此分词后仍未做标记的相邻单字视为一个权重值很 低的词
2. 分割模型
以特徵词库中的词作为词切分标记,依靠联想规则将一个字串分 割为多个更小的子字串 对特徵词库中不同类型的词采用不同的处理方法 如对前缀或前置字,分割标志设在该字之后,对重叠词,连绵词 等其他特徵词,分割标志设在该词的两端.
系统五大功能模组(2/3) 系统五大功能模组
3. 细分模型
依据实词词库将分割模型得到的子字串切分为语词 当遇到歧义组合结构或产生拒分现象时,便分别转向4 和5
Thanks for your attention
�
4. 规则调用模型
用(3)提示的信息,调用相对应的规则处理歧义组合结 构,或调用通用规则切分出类型词,如:数字词.
系统五大功能模组(3/3) 系统五大功能模组
5. 人工干预模型:常由词典收词不足引起
修改实词词库 当人工干预是由词库收词不足或不当而引起时,我们便在词库中增加新词 或修改词库中的内容.人名,地名常常会引起这种人工干预. 例如:「台湾女歌星王秀如一曲"千言万语"赢得全场热烈掌声」,若 「台湾」未收入词库,则需人工干预将其加入词库. 追加临时词库 上例中,人名「王秀如」同样需要人工干预,但因「王秀如」是低频词, 故不将其加入实词词库,而是收入临时词库,待一段文字处理完后将其删 除. 修改规则库 当人工干预是由句法歧义句段引起时,其原因在於规则库的不完善,此时 我们便修改已有的规则或增加新的规则. 修改特徵词词库 特徵词词库中的词绝大多数不是绝对的,假如情况考虑不周,也将引起人 工干预.例如:「葡萄牙外长取消北京之行同两国关系现状无关」,「葡 萄」是作为连绵词存放在特徵词词库中的,若未考虑到例外词「葡萄牙」 则「葡」字处必导致人工干预,此时,我们需将例外词「葡萄牙」加入.
分词知识库的建构
规则库
交集型歧义字段切分规则 组合型歧义字段切分规则 前缀词规则 后缀词规则 重叠词规则
分级建库的优点
特徵词静态数目少,但均为高频词,在第一次扫描时便将其分 割出来,提高了分词速度 由於利用规则描述了一些无法逐条收入词库的词(重叠词,数词 等),一方面压缩了词库规模,另一方面又增强了词库的使用效 果,提高了分词的正确率 多数歧义组合是由特徵词引起的,针对特徵词制定详尽的联想 规则,既是切实可行,又可更有效地解决歧义组合结构的切分. 并且针对语法功能不同的特徵词和实词分别制定规则以可以提 高规则的有效性 知识库的三个层次间既相互联系又相互独立,因此在程序调试 进行期间,哪一层次发生问题,便单独修改哪个层次,管理和 维护较为方便.各库都是以动态方式建造的,可随时向其中添 加词和规则
例如:「的」 的
平均每二十五个字就会出现一次 构词能力并不强 本系统共收入 181 条规则
隐式切分标记
「的」字的规则:
LR L* R* 有*放矢 无*放矢 有*是 别* 似* 是* 有* 目* 一语破* 众矢之* *确 *话 *上#
判断方式:
若 LR 判断满足且 L* 判断满足 在切分标记的左边将字串切开 若 LR 判断满足且 *R 判断满足 在切分标记的右边将字串切开 「单字数词 + 单字量词」 将量词视为切分标记,在量词的左右两边将字串切开 此系统共收集了 115 个常用量词