中文分词技术综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

描是指从待切分语句的末尾开始扫描。双向扫描是正向扫描和逆向扫描的组合。匹配原则主要有
分 ¨ 。在中文中，与词之间不存在分隔符，词词
本身也缺乏明显的形态标记，因此，中文信息处理
的特有问题就是如何将汉语的字串分割为合理的词语序列，即中文分词，因而分词是中文自然语言处理的第一步，是不同于其他语言的自然语言这处理系统的重要特点，是影响自然语言处理在也
的时间代价。
２汉语词法分析技术
中文分词分为人工分词与机器自动分词两
种Ｊ。人工分词存在分词不一致和处理速度慢
的缺陷。对此，们尝试用计算机代替人工分词，人称为自动分词。目前，汉语自动字，政：张中文分词技术综述
５５
解决未登陆词识别问题的最原始的办法就是调用人工干预模块处理，此解决方案总是不能令人但满意。为此，已有很多人致力于未登陆词识别的
的分词方法的优点是：１不受待处理文本的领（）域限制；２不需要一个机器可读词典。缺点是：（）（）１需要大量的训练文本，以建立模型的参数；用（）方法的计算量都非常大；３分词精度与训２该（）练文本的选择有关。
５４
安阳师范学院学报
２１００钽
中文分词技术综述
周宏宇，张政
（阳师范学院，南安阳４５０）安河５００
［摘
要］中文分词是中文信息处理的基础，分词系统也是中文信息处理中的一个主要组成部分，中文文本的分对
去掉，下的字符串作为新的匹配字段，剩进行再次
匹配。重复以上过程，到切分出所有词为止。直最小匹配法的基本思想是使待切分语句分词后得到的词最少。逐词匹配法是指把词典中的词按由长到短的顺序在待切分语句中进行搜索和匹配，直到把所有的词都切分出来为止。最佳匹配法的基本思想是词典中的词条按照词频的大４，序排＂￣Ｊｌｂ列，以求缩短分词词典的检索时间，而降低分词从
词处理目前已经应用到了中文自然语言理解、献检索、索引擎以及文本挖掘系统等领域。本文对现有的中文分词技文搜
术进行了综述，分析了现有分词方法的技术特点，指出了部分分词方法存在的优缺点。［键词］关分词；中文信息处理；分词方法［中图分类号］Ｐ９．Ｔ３１１［文献标识号］Ａ［文章编号］６１— ３０２１）２— ０４— ３１７５３（００００５０
和混合方法。２１基于词典的中文分词方法．
［收稿日期］０９— １— ６２００２
词典中没有登录这些词，引起自动切词的困难。会
［作者简介］周宏宇（９Ｏ）河南安阳人，阳师范学院助教，１８一，安主要从事科学工程计算与计算机模拟。
最大匹配、最小匹配、逐词匹配和最佳匹配。最大匹配法的基本思想是：待切分语句的ｍ个汉字取作为匹配字段，中ｍ为机器可读词典中最长词其条的汉字个数；找机器可读词典并进行匹配。查若能匹配，则将这个匹配字段作为一个词切分出来；若不能匹配，将这个匹配字段的最后一个字则
１中文分词的必要性
词是最小的能够独立活动的有意义的语言成
基于词典的中文分词方法的三个要素为分词词典、本扫描顺序和匹配原则Ｊ文。文本的扫描
顺序有正向扫描、向扫描和双向扫描。正向扫逆描是指从待切分语句的开头开始扫描，而逆向扫
２３中文分词混合方法．
三大类的方法：于词典的方法、于统计的方法基基
当使用基于词典的中文分词方法进行中文信
息处理时不得不考虑未登录词的处理。未登录词
指词典中没有登录过的人名、名、构名、名地机译
及新词语等。当采用匹配的办法来切词时，由于
中文信息处理中应用的重要因素。分词系统是中
文信息处理中的一个主要组成部分，中文自然是语言理解、文献检索、索引擎以及文本挖掘系统搜
中最基本的一部分。汉字的简体／繁体转换、信息
检索和信息抽取、索引擎、ｂ文本挖掘、本搜Ｗｅ文分类、文本校对等中文信息处理系统都首先需要分词作为其最基本的模块，因而对汉语词法分析技术的研究就显得至关重要。