计算机科学前沿论文

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

自然语言理解

软件工程ZY1201 杨锋 0121210680109

中文摘要：

自然语言理解是人工智能研究重要的领域之一，同时也是目前前沿的难题之一。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是未来人工智能的核动力。因此理解自然语言理解以及自然语言理解技术的含义，阐述自然语言理解的研究及其相关应用，综述自然语言理解技术研究方向变化并对自然语言理解的发展前景进行分析和展望，是十分有意义的。

随着计算机科学的不断发展和成熟，计算机应用开始迈人知识处理、语言理解阶段，人们对计算机的智能提出了新的要求随着社会的日益信息化，人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。

英文摘要：

Natural language understanding concerns with process of comprehending and using languages once the words are recognized. The objective is to specify a computational model that matches with humans in linguistic tasks such as reading, writing, hearing, and speaking. To develop a natural language understanding model, it is required to use knowledge from many disciplines including Linguistics, psycholinguistics, philosophy, and computational linguistics. It is necessary to understand how language works, combine all the approaches to produce complex theories and realize such complex theories as computer programs. Testing of these programs will give a clue as to which of the cases fail so that the programs can be improved. By doing this process repeatedly we can finally get to know how human language processing occurs.

正文：

自然语言俗称人机对话。人工智能的分支学科。研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研制第 5代计算机的主要目标之一，就是要使计算机具有理解和运用自然语言的功能。

自然语言理解是一门新兴的边缘学科，内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学，而以语言学为基础。自然语言理解的研究，综合应用了现代语音学、音系学语法学、语义学、语用学的知识，同时也向现代语言学提出了一系列的问题和要求。本学科需要解决的中心问题是：语言究竟是怎样组织起来传输信息的？人又是怎样从一连串的语言符号中获取信息的？这一领域的研究将涉及自然语言，即人们日常使用的语言，包括中文、英文、俄文、日文、德文、法文等等，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通

信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

特征

用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解，后者称为自然语言生成。因此，自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多，而对自然语言生成研究得较少。但这种状况近年来已有所改变。

自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字（符）、词、词组、句子、段，……还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。一般情况下，它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说，从总体上说，并不存在歧义。这也就是我们平时并不感到自然语言歧义，和能用自然语言进行正确交流的原因。但是一方面，我们也看到，为了消解歧义，是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来；又如何找到合适的形式，将它们存入计算机系统中去；以及如何有效地利用它们来消除歧义，都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的，还有待长期的、系统的工作。以上说的是，一个中文文本或一个汉字（含标点符号等）串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来，一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。

因此，自然语言的形式（字符串）与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看，我们必须消除歧义，而且有人认为它正是自然语言理解中的中心问题，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示.歧义现象的广泛存在使得消除它们需要大量的知识和推理，这就给基于语言学的方法、基于知识的方法带来了巨大的困难，因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就，但在能处理大规模真实文本的系统研制方面，成绩并不显著。