分词方法基于字符串匹配的分词基于理解的分词基于统计的分词

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
பைடு நூலகம்
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页 中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排 在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结 果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影
响页面的返回结果。
正向最大匹配法(由左到右的方向) 逆向最大匹配法(由右到左的方向) 最少切分(使每一句中切出的词数最小) 双向最大匹配法(进行由左到右、由右到左两次扫描)
正向最大匹配法(由左到右的方向)
又称作MM算法 其基本思想为:假定分词词典中 的最长词有i个汉字字符,则用被 处理文档的当前字串中的前i个字 作为匹配字段,查找字典。若字 典中存在这样的一个i字词,则匹 配成功,匹配字段被作为一个词 切分出来。如果词典中找不到这 样的一个i字词,则匹配失败,将 匹配字段中的最后一个字去掉, 对剩下的字串重新进行匹配处 理…… 如此进行下去,直到匹 配成功,即切分出一个词或剩余 字串的长度为零为止。这样就完 成了一轮匹配,然后取下一个i字 字串进行匹配处理,直到文档被 扫描完为止。
分词算法分类
现有的分词算法可分为三大类:
基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行 分词,如:最大匹配法、最小分词方法等。这类方法简单、分 词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的 一致性等问题使其难以适应开放的大规模文本的分词处理。 第二类基于统计的分词方法则基于字和词的统计信息,如把相 邻字间的信息、词频及相应的共现信息等应用于分词,由于这 些信息是通过调查真实语料而取得的,因而基于统计的分词方 法具有较好的实用性,基于CRFs的分词方法就是有此延伸而来 。
中文在基本文法上有其特殊性:
与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文 汉字之间没有。
在中文里,“词”和“词组”边界模糊
中文分词概况
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达 到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来 明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
一般
成熟 一般 较准 一般
分词算法
逐词遍历法: 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字 搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都 要将词典遍历一遍。这种方法效率比较低,大一点的系统一般 都不使用 基于知识理解的分词方法。 该方法主要基于句法、语法分析,并结合语义分析,通过对上 下文内容所提供信息的分析对词进行定界,它通常包括三个部 分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的 句法和语义信息来对分词歧义进行判断。这类方法试图让机器 具有人类的理解能力,需要使用大量的语言知识和信息。 由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织 成机器可直接读取的形式。因此目前基于知识的分词系统还处 在试验阶段。
基于匹配的分词方法
逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相 同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。 逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个 字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的 一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个 词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成 逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。 由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以, 逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用 正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是 “硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的 分词结果“硕士 / 研究 / 生产”。 最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的 语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会 造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配 法和逆向最大匹配法相结合的分词方案。也就是双向匹配法
三种分词算法的差异
分词方法
歧义识别 新词识别
需要词典 需要语料库 需要规则库
基于字符串匹配的分词 基于理解的分 词 差 强 差 强 需要 不需要 不需要 不需要 不需要 需要
基于统计的分词
强 强
不需要 需要 不需要
算法复杂性
技术成熟度 实施难度 分词准确性 分词速度
容易
成熟 容易 一般 快
很难
不成熟 很难 准确 慢
基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充
分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识 别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹 配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹 配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结 合的一体化方法。
中文分词相关研究
吕先超 20150108
目录
中文分词概况
分词算法 分词难点 已经存在的项目 基于CRFs的中文分词算法
中文分词概况
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个 单独的词。词是最小的能够独立活动的有意义的语言成分,分词就是将连续的字序 列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之 间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单 划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不 过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词是汉语自然语言 处理的基础性任务,分词的准确度直接影响到后续处理任务,分词的速度影响一些系 统的实际应用"因此,中文词语分析是中文信息处理的基础与关键。
相关文档
最新文档