自然语言处理技术中的中文分词研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１自然语言处理技术概述
1.1 自然语言处理技术的发展历程语言在人类社会的形成和发展过程中有至关重要的作用，只有掌握自然语言，人与人之间才能更好地沟通和交流。在人类的大脑皮层中有专门处理自然语言的区域，这也是人类智慧的根源和开发人工智能的关键。自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称，其目标是给计算机配备各种语言知识，使其能够接受人们采用自然语言给它输入的命令，理解人们所要表达的意思，实现从一种语言到另一种语言的翻译等功能。用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。最早的自然语言理解方面的研究工作是机器翻译。1949 年，美国人威弗首先提出了机器翻译设计方案。 20 世纪 60 年代，国外对机器翻译曾开展大规模的研究工作，耗费了巨额费用，但人们当时显然是低估了自然语言的复杂性，语言处理的理论和技术均不成熟，所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典，翻译时一一对应，技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单，很多时候还要参考某句话前后的意思。大约 90 年代开始，自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是：（1）对系统的输入，要求研制的自然语言处理系统能处理大规模的真实文本，而不是如以前的研究性系统那样，只能处理很少的词条和典型句子，只有这样，研制的系统才有真正的实用价值；（2）对系统的输出，鉴于真实地理解自然语言是十分困难的，并不要求系统能深层理解自然语言文本，但要能从中抽取有用的信息，例如，对自然语言文本进行自动提取索引词，过滤、检索、
自动提取重要信息，进行自动摘要等。 1.2 自然语言处理技术的主要研究问题自然语言处理的研究分为基础性研究和应用性研究两部分，这两类研究都是从语音和文本两方面进行的。基础性研究主要集中在语言学、数学、计算机科学等领域，比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等。应用性研究主要集中在一些需要应用自然语言处理技术的领域，比如信息检索、文本分类、自动文摘、机器翻译等。作为计算机科学与数学建设所用的计算机语言，通过建立形式化的计算模型来分析、理解和处理自然语言的学科，自然语言处理致力于处理人和机器之间的交流沟通问题。目前科学家们已研制出了能处理计算机文本和语音的自然语言处理系统，最终将会开发出能理解并生成人类语言的计算机系统。 1.3 自然语言处理技术的应用场景自然语言处理技术研究的最终目的在于应用，如机器翻译、智能检索、自动文摘、信息检索等。下面仅从机器翻译、搜索引擎两方面介绍国内企业对于自然语言处理技术的使用情况。 1.3.1 机器翻译
— ６１ —
计算机工程应用技术
型的应用事例。 1.3.2 中文搜索引擎
p;Communication
2016 年第 19 期
表达成了“高兴”的意思。所以，研究中文分词，如何提高分词的准确率，是很重要的一个问题。 2.3 意义解决了中文分词这个难题，可以为后面的研究打下一个很好的基础。当自然语言处理技术的每一个小的方向都提高了以后，就能方便快捷地与计算机使用自然语言进行沟通，我们的生活也将变得更加丰富多彩。
20 世纪 90 年代以来，国内机器翻译研究有了长足的进步。目前正在从事机器翻译研究的高校包括北京大学、清华大学、哈尔滨工业大学等，研究所包括中国科学院计算技术研究所、自动化研究所等，公司有译星公司、华建公司等。这些单位的研究成果在产品开发中得到了充分运用。例如，译星、高立、通译等全自动翻译系统，采用全自动机器翻译技术，有简单的全自动翻译功能，采用的主要技术不是全自动的机器翻译，而是翻译记忆（TM）技术。很多网站提供的在线翻译服务，为网上阅读者快速理解和使用外文资源提供了方便，Google 公司的快速翻译就是典
中文搜索引擎是以网络上的中文信息为主要对象，可提供信息的自动收集、索引和检索等服务的数据库服务系统有特色，其采用的自然语言处理技术却大致相近，包括以下几种。（1）中文自动分词技术。目前大多数搜索引擎采用的都是关键词匹配查询方法。关键词查询的前提是将查询任务分解为关键词，中文与西文的不同在于中文需要人为进行分词，完善的中文自动分词技术可以有效排除各种歧义，提高分词的准确率，从而提高查询准确率。（2）短语自动识别技术。通常情况下，用户所提出的查询请求以短语形式呈现，如用户要查询“北京的建筑”，应将“北京”和“建筑”联合起来作为一个短语查询，过滤掉那些只有“北京”或只有“建筑”的文档。因此，短语识别技术是搜索引擎公司常用的自然语言处理技术。（3）同义词处理技术。对专用领域的搜索引擎，人工构造同义词表的方法能有效解决同义词问题。而对一般领域的搜索引擎，需要从语料中自动取得同义词，在给出一个关键词的情况下，搜索引擎应能自动查找，找到其同义词。
2016 年第 19 期
信息与电脑 China Computer&Communication
计算机工程应用技术
自然语言处理技术中的中文分词研究
陈开昌
（西安高级中学，陕西西安 710021）
摘要：中文分词是自然语言处理处理的基础，有着极其广泛的实际应用。可以说，在各类中文信息处理软件（系统）中，中文分词都是不可或缺的环节。随着互联网在中国的兴起，对中文信息处理提出更高要求，即在语义层面上处理中文，这使得中文分词算法的研究显得更加困难 , 中文分词技术的发展显得更为重要。关键词：自然语言处理技术；中文分词；正向最大匹配算法中图分类号：TP391.1 文献标识码：A 文章编号：1003-9767（2016）19-061-03