自然语言处理两千字

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

自然语言处理

信计1101 郭东旭 20111399

早在计算机还未出现之前，英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出，在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。

人类的逻辑思维以语言为形式，人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。

一.什么是然语言处理

美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》（Advances Computers）第47卷的《从人—机交互的角度看自然语言处理》一文中，曾经给自然与然处理提出了如下定义：“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。”这个定义被广泛的接受，它比较全面的地表达了计算机对自然语言的研究和处理。

简单来说，自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科，它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术，通过可计算的方法对自然语言处理的各级语言单位（字，词，语句，篇章等）进行转换，传输，存储，分析等加工处理的学科，是一门融合了语言学，计算机学，数学等学科于一体的交叉性学科。

互联网技术的发展，极大地推动了信息处理技术的发展，也为信息处理技术不断提出新的需求，语言作为信息的载体，语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

二.自然语言处理的发展历史

自然语言处理的发展大致经历了4个阶段：1956年以前的萌芽期；1957-1970年的快速发展期；1971 -1993年的低谷的发展期和1994年至今的复苏融合期。

萌芽期(1956年以前)

1956年以前，可以看作自然语言处理的基础研究阶段。一方面，人类文明经过了几千

年的发展，积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件，同时也是自然语言处理的理论基础。另一方面，阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础，促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。

由于来自机器翻译的社会需求，这一时期也进行了许多自然语言处理的基础研究。1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着，他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。上世纪50年代初，Kleene研究了有限自动机和正则表达式。1956年，Chomsky又提出了上下文无关语法，并把它运用到自然语言处理中。他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。而这两种不同的自然语言处理方法，又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。

另外，这一时期还取得了一些令人瞩目的研究成果。比如，1946年Köenig进行了关于声谱的研究。1952年Bell实验室语音识别系统的研究。1956年人工智能的诞生为自然语言处理翻开了新的篇章。这些研究成果在后来的数十年中逐步与自然语言处理中的其他技术相结合。这种结合既丰富了自然语言处理的技术手段，同时也拓宽了自然语言处理的社会应用面。

●快速发展期(1957-1970)

自然语言处理在这一时期很快融入了人工智能的研究领域中。由于有基于规则和基于概率这两种不同方法的存在，自然语言处理的研究在这一时期分为了两大阵营。一个是基于规则方法的符号派(symbolic)，另一个是采用概率方法的随机派(stochastic)。

这一时期，两种方法的研究都取得了长足的发展。从50年代中期开始到60年代中期，以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究，60年代末又进行了形式逻辑系统的研究。而随机派学者采用基于贝叶斯方法的统计学研究方法，在这一时期也取得了很大的进步。但由于在人工智能领域中，这一时期多数学者注重研究推理和逻辑问题，只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络，所以，在这一时期中，基于规则方法的研究势头明显强于基于概率方法的研究势头。这一时期的重要研究成果包括1959年宾夕法尼亚大学研制成功的TDAP系统，布朗美国英语语料库的建立等。1967年美国心理学家Neisser提出认知心理学的概念，直接把自然语言处理与人类的认知联系起来了。

●低速的发展期(1971 -1993)

随着研究的深入，由于人们看到基于自然语言处理的应用并不能在短时间内得到解决，而一连串的新问题又不断地涌现，于是，许多人对自然语言处理的研究丧失了信心。从70年代开始，自然语言处理的研究进入了低谷时期。

但尽管如此，一些发达国家的研究人员依旧不依不挠地继续着他们的研究。由于他们的出色工作，自然语言处理在这一低谷时期同样取得了一些成果。70年代，基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。80年代初，话语分析(Discourse Analysis)也取得了重大进展。之后，由于自然语言处理研究者对于过去的研究进行了反思，有限状态模型和经验主义研究方法也开始复苏。

●复苏融合期(1994年至今)

90年代中期以后，有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是90年代中期以来，计算机的速度和存储量大幅增加，为自然语言处理改善了物质基础，使得语音和语言处理的商品化开发成为可能；另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。这样，自然语言处理的社会需求更加迫切，自然语言处理的应用面也更加宽广，自然语言处理不再局限于机器翻译、语音控制等早期研究领域了。

三.自然语言处理的研究内容

自然语言处理的范围涉及众多方面，如语音的自动识别与合成，机器翻译，自然语言理解，人机对话，信息检索，文本分类，自动文摘，等等。我们认为，这些部门可以归纳为如下四个大的方向：

●语言学方向

本方向是把自然语言处理作为语言学的分时来研究，它之研究语言及语言处理与计算相关的方面，而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。

●数据处理方向

是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发，近些年来则有大规模的语料库的涌现。

●人工智能和认知科学方向

在这个方向中，自然语言处理被作为在计算机上实现自然语言能力的学科来研究，探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。