海量中文智能分词技术白皮书

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

技术白皮书

★保密★技术白皮书

项目名称：__海量中文智能分词基础件______

开发单位：_天津海量信息技术有限公司 ____

序言 (2)

第一章产品概述 (3)

1.1产品简介 (3)

1.2产品的适用范围 (3)

1.3产品结构 (3)

第二章产品技术特点 (4)

2.1分词准确率高 (4)

2.2分词效率高 (4)

2.3功能接口丰富，使用灵活方便 (4)

第三章产品功能介绍 (5)

3.1分词功能模块的介绍 (5)

3.2开发接口 (5)

3.3功能列表 (6)

第四章典型应用 (7)

4.1KM知识管理系统 (7)

4.2搜索引擎 (7)

4.3辞书出版 (7)

4.4信息服务 (8)

4.5网站信息发布 (8)

第五章产品性能指标 (8)

第六章运行环境 (8)

6.1WINDOWS (8)

6.2LINUX (9)

6.3UNIX (9)

第七章成功案例 (9)

7.1商务印书馆 (9)

7.2慧聪搜索引擎 (10)

7.3其他案例 (10)

序言

1.什么是中文分词?

中文分词就是将连续的字序列按照一定的规范切分成词序列的过程。众所周知，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比之英文要复杂的多、困难的多。

2.中文分词的应用

中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。

通过近几年互联网的发展,互联网上的信息也在急剧膨胀，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不可用，例如：“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，如果都作为一个词来处理，结果是检索“和服”的相关信息，会将他们都检索到。很显然，检索到第一条信息是不恰当的。

通过引入分词技术，可以使机器对信息的整理更准确、更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被当作一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。

3.中文分词的意义和作用

要想说清楚中文分词的意义和作用，就不得不提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说，智能计算就是让机器“能看会想，能听会讲”。要想实现这样的一个目标，首先就要让机器理解人类的语言，只有机器理解了人类的语言文字，才能使人与机器的交流成为可能。

对于自然语言来讲，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过渡到短语划分、概念抽取以及主题分析，以至于自然语言理解，最终达到智能计算的最高境界，实现人类的梦想。

中文分词是中文信息处理系统的基础，有着极其广泛的实际应用。从基本的输入系统，到文字处理，以及语音合成，文本检索，文本分类，自然语言接口，自动文摘等等，无处不渗透着分词系统的应用。分词系统的完善与应用，必将促进中文信息处理系统的广泛应用，换言之，也就提高了中文软件对于中文的处理能力，这也将使得计算机用户的日常工作的效率得以提高。

第一章产品概述

1.1 产品简介

海量中文智能分词基础件是海量在中文智能分词技术基础之上推出的分词准确、高效、接口方便灵活，便于二次开发的软件包，以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括：目标系统架构咨询、辅助开发、技术培训、售后支持等。

海量中文分词融合了多种先进、经典的分词方法，采用独特的算法调度机制，形成复方的分词算法。海量分词技术很好的解决了中文分词的两大技术难题，即：歧义切分和新词识别。分词效果因此而获得大幅提升：分词准确率达到99.7％（北大语料封闭测试），同时，通过对分词底层代码的优化分词效率达到每分钟2000万汉字（测试环境为：PC单机 CPU：Amd 2500+；内存512M DDR），使得分词真正达到实用化的水平。

海量中文智能分词基础件在保留海量中文分词技术的优秀性能的前提下，提供了方便灵活的调用接口，以便于在其基础上的二次开发。

1.2 产品的适用范围

作为中文信息处理的核心和汉语自然语言理解的基础，海量中文智能分词基础件有着广泛的应用前景。主要应用领域有：

1）信息检索领域

如：全文检索、主题检索

2）汉字处理领域

如：智能拼音输入、手写识别输入、中文OCR 识别、自动校对、简繁转换

3）语音处理领域

如：语音合成、语音识别

4）内容识别与分析领域

如：信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘5）自然语言理解领域

如：机器翻译、自然语言接口

1.3 产品结构

第二章产品技术特点

多年以来，中文分词技术一直是阻碍中文信息处理技术进一步发展的瓶颈。因为词是能独立活动的有意义的最小语言单位。在词的界定方面，中文不同于西文之处在于，西文词之间是有自然分隔符的，而中文却不具备，需要通过一定的技术手段进行处理，才能将词准确的分离出来，这就是分词技术。所以，西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域，而对于中文，只有越过这个技术瓶颈问题，分词的准确率足够高、分词速度足够快，中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。

分词是中文信息处理从字符处理水平向语义处理水平提升的关键技术之一，是中文智能计算技术的基础。

目前，中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题，海量中文智能分词技术在这两方面都有所突破。通过研究发现，中文自动分词准确率低主要受以下几方面因素的困扰：1）词表收录

2）分词规范

3）新词识别

4）歧义切分

从纯技术角度来看，新词识别和歧义切分是困扰分词的两大技术难点。海量中文智能分词采用复方概念平衡各算法，使海量分词在大规模语料测试中的准确率达到了99.7%（北大语料封闭测试），分词效率2000 万字/分钟（测试环境为：PC单机 CPU：Amd 2500+；内存512M DDR），该指标目前处于国内领先水平，已经达到实用要求。正因如此，海量承担了2000 年度国家863 计划课题——“智能信息内容分析方法研究”。

海量在中文分词技术基础之上推出了海量中文智能分词基础件，作为国内最优秀的中文智能分词产品，海量中文智能分词基础件具有以下特点：

准切分准确率99.7%（北大语料封闭测试）

快2000万字/分钟（测试环境为：PC单机 CPU：Amd 2500+；内存512M DDR）

活丰富的功能接口，使用灵活方便，例如：系统外挂分词规范，用户可自定义。

2.1 分词准确率高

海量分词算法借鉴复方的概念，集成各种算法解决同一个问题，发展了受限的隐马尔科夫模型, 使知识库的冗余大幅降低。同时，在歧义切分和新词识别上投入了很大的力量。海量分词综合采用了最大匹配法、逆向最大匹配法、单扫描分词法、有穷多层次列举法、二次扫描法、全切分、字标注的分词方法等等多种分词方法，规则和统计相结合，最终是多种切分方案的选优，从而获得较为准确的分词结果。

通过在北大语料库中的评测，其分词准确率达到99.7％。

2.2 分词效率高

为了使分词能够达到实际应用的目的，海量对于该产品进行了效率优化工作。主要体现在：

1）对于分词算法进行优化，特别是调度算法的优化设计，可以有效的降低计算的复杂度；

2）对于分词基础件进行代码级的优化，从程序的逻辑设计以及执行步骤上进行优化，关键环节用汇编进行了翻写，从而可以最大程度的提升分词效率。

通过以上的效率优化工作，分词效率达到每分钟2000万字，其测试环境为：PC单机 CPU：Amd 2500+；内存512M DDR

2.3 功能接口丰富，使用灵活方便

海量中文智能分词基础件提供了丰富的接口，以满足不同用户的需求。主要接口包括：分词初始化，码制选择，是否检索优化，是否需要格式化，分词模式，加载用户自定义词典以及其他附加信息的输出等等。通过这些接口的组合使用，可以满足目前所有的分词调用需求。