分词方法基于字符串匹配的分词基于理解的分词基于统计的分词
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
பைடு நூலகம்
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页 中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排 在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结 果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影
响页面的返回结果。
正向最大匹配法(由左到右的方向) 逆向最大匹配法(由右到左的方向) 最少切分(使每一句中切出的词数最小) 双向最大匹配法(进行由左到右、由右到左两次扫描)
正向最大匹配法(由左到右的方向)
又称作MM算法 其基本思想为:假定分词词典中 的最长词有i个汉字字符,则用被 处理文档的当前字串中的前i个字 作为匹配字段,查找字典。若字 典中存在这样的一个i字词,则匹 配成功,匹配字段被作为一个词 切分出来。如果词典中找不到这 样的一个i字词,则匹配失败,将 匹配字段中的最后一个字去掉, 对剩下的字串重新进行匹配处 理…… 如此进行下去,直到匹 配成功,即切分出一个词或剩余 字串的长度为零为止。这样就完 成了一轮匹配,然后取下一个i字 字串进行匹配处理,直到文档被 扫描完为止。
分词算法分类
现有的分词算法可分为三大类:
基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行 分词,如:最大匹配法、最小分词方法等。这类方法简单、分 词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的 一致性等问题使其难以适应开放的大规模文本的分词处理。 第二类基于统计的分词方法则基于字和词的统计信息,如把相 邻字间的信息、词频及相应的共现信息等应用于分词,由于这 些信息是通过调查真实语料而取得的,因而基于统计的分词方 法具有较好的实用性,基于CRFs的分词方法就是有此延伸而来 。
中文在基本文法上有其特殊性:
与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文 汉字之间没有。
在中文里,“词”和“词组”边界模糊
中文分词概况
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达 到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来 明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
一般
成熟 一般 较准 一般
分词算法
逐词遍历法: 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字 搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都 要将词典遍历一遍。这种方法效率比较低,大一点的系统一般 都不使用 基于知识理解的分词方法。 该方法主要基于句法、语法分析,并结合语义分析,通过对上 下文内容所提供信息的分析对词进行定界,它通常包括三个部 分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的 句法和语义信息来对分词歧义进行判断。这类方法试图让机器 具有人类的理解能力,需要使用大量的语言知识和信息。 由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织 成机器可直接读取的形式。因此目前基于知识的分词系统还处 在试验阶段。
基于匹配的分词方法
逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相 同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。 逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个 字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的 一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个 词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成 逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。 由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以, 逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用 正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是 “硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的 分词结果“硕士 / 研究 / 生产”。 最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的 语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会 造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配 法和逆向最大匹配法相结合的分词方案。也就是双向匹配法
三种分词算法的差异
分词方法
歧义识别 新词识别
需要词典 需要语料库 需要规则库
基于字符串匹配的分词 基于理解的分 词 差 强 差 强 需要 不需要 不需要 不需要 不需要 需要
基于统计的分词
强 强
不需要 需要 不需要
算法复杂性
技术成熟度 实施难度 分词准确性 分词速度
容易
成熟 容易 一般 快
很难
不成熟 很难 准确 慢
基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充
分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识 别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹 配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹 配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结 合的一体化方法。
中文分词相关研究
吕先超 20150108
目录
中文分词概况
分词算法 分词难点 已经存在的项目 基于CRFs的中文分词算法
中文分词概况
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个 单独的词。词是最小的能够独立活动的有意义的语言成分,分词就是将连续的字序 列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之 间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单 划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不 过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词是汉语自然语言 处理的基础性任务,分词的准确度直接影响到后续处理任务,分词的速度影响一些系 统的实际应用"因此,中文词语分析是中文信息处理的基础与关键。
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页 中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排 在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结 果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影
响页面的返回结果。
正向最大匹配法(由左到右的方向) 逆向最大匹配法(由右到左的方向) 最少切分(使每一句中切出的词数最小) 双向最大匹配法(进行由左到右、由右到左两次扫描)
正向最大匹配法(由左到右的方向)
又称作MM算法 其基本思想为:假定分词词典中 的最长词有i个汉字字符,则用被 处理文档的当前字串中的前i个字 作为匹配字段,查找字典。若字 典中存在这样的一个i字词,则匹 配成功,匹配字段被作为一个词 切分出来。如果词典中找不到这 样的一个i字词,则匹配失败,将 匹配字段中的最后一个字去掉, 对剩下的字串重新进行匹配处 理…… 如此进行下去,直到匹 配成功,即切分出一个词或剩余 字串的长度为零为止。这样就完 成了一轮匹配,然后取下一个i字 字串进行匹配处理,直到文档被 扫描完为止。
分词算法分类
现有的分词算法可分为三大类:
基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行 分词,如:最大匹配法、最小分词方法等。这类方法简单、分 词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的 一致性等问题使其难以适应开放的大规模文本的分词处理。 第二类基于统计的分词方法则基于字和词的统计信息,如把相 邻字间的信息、词频及相应的共现信息等应用于分词,由于这 些信息是通过调查真实语料而取得的,因而基于统计的分词方 法具有较好的实用性,基于CRFs的分词方法就是有此延伸而来 。
中文在基本文法上有其特殊性:
与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文 汉字之间没有。
在中文里,“词”和“词组”边界模糊
中文分词概况
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达 到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来 明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
一般
成熟 一般 较准 一般
分词算法
逐词遍历法: 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字 搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都 要将词典遍历一遍。这种方法效率比较低,大一点的系统一般 都不使用 基于知识理解的分词方法。 该方法主要基于句法、语法分析,并结合语义分析,通过对上 下文内容所提供信息的分析对词进行定界,它通常包括三个部 分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的 句法和语义信息来对分词歧义进行判断。这类方法试图让机器 具有人类的理解能力,需要使用大量的语言知识和信息。 由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织 成机器可直接读取的形式。因此目前基于知识的分词系统还处 在试验阶段。
基于匹配的分词方法
逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相 同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。 逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个 字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的 一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个 词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成 逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。 由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以, 逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用 正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是 “硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的 分词结果“硕士 / 研究 / 生产”。 最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的 语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会 造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配 法和逆向最大匹配法相结合的分词方案。也就是双向匹配法
三种分词算法的差异
分词方法
歧义识别 新词识别
需要词典 需要语料库 需要规则库
基于字符串匹配的分词 基于理解的分 词 差 强 差 强 需要 不需要 不需要 不需要 不需要 需要
基于统计的分词
强 强
不需要 需要 不需要
算法复杂性
技术成熟度 实施难度 分词准确性 分词速度
容易
成熟 容易 一般 快
很难
不成熟 很难 准确 慢
基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充
分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识 别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹 配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹 配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结 合的一体化方法。
中文分词相关研究
吕先超 20150108
目录
中文分词概况
分词算法 分词难点 已经存在的项目 基于CRFs的中文分词算法
中文分词概况
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个 单独的词。词是最小的能够独立活动的有意义的语言成分,分词就是将连续的字序 列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之 间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单 划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不 过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词是汉语自然语言 处理的基础性任务,分词的准确度直接影响到后续处理任务,分词的速度影响一些系 统的实际应用"因此,中文词语分析是中文信息处理的基础与关键。