自然语言处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言处理
2002.11.09
中国科学院计算技术研究所
1.综述
.1.1. 绪论
.1.1.1.背景,目标
.1.1.1.1. 研究自然语言的动力
1.语言是思维的裁体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在这样的社会需求下,自然语言理解作为语言信息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。
2.由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。
.1.1.1.2. 什么是计算语言学
计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
计算语言学(Computational Linguistics)有时也叫计量语言学(Quantitative Linguistics), 数理语言学(Mathematical Linguistics), 自然语言理解(Natural Language Understanding), 自然语言处理(Natural Language Processing), 人类语言技术(Human Language Technology)。
.1.1.1.3. 图灵测验
在人工智能界,或者语言信息处理领域中,人们普遍认为可以采用著名的1950年描述的图灵试验(Turing Test )来判断计算机是否“理解”了某种自然语言。
.1.1.1.3.1.Turing模仿游戏(Imitation Game)
●场景:男性被试、女性被试、观察者,
3者在3个不同的房间,房间号分别为X, Y, O
●规则:观察者用电传打字机与被试们通信,
男性被试欺骗观察者、女性被试帮助观察者。
●目标:观察者要判断出X房间里被试的性别。
.1.1.1.3.2.Turing测试(Turing Test)
●场景:被试人、计算机、观察者
3者在3个不同的房间,房间号分别为X, Y, O
●规则:观察者用“某种方式”与被试人和计算机通信
计算机欺骗观察者、被试人帮助观察者
●目标:观察者要判断出被试人在那个房间
.1.1.1.3.3.全Turing测试(Total Turing Test)
●场景:被试对象(人或计算机)、观察者,
观察者可以看到被试对象
●规则:观察者可以任意与被试对象通信
●目标:观察者要判断出被试对象是人还是计算机
.1.1.1.3.4.参考文献
1.A. M. Turing,COMPUTING MACHINERY AND INTELLIGENCE,/~asaygin/tt/ttest.html连接的/departments/cog-sci/courses/1998/cs101/texts/Computing-machinery.htm l
2.曹存根,《AI历史和问题》讲义,中科院计算所
3.Roland Hausser,Foundations of Computational Linguistics,Springer,1999
.1.1.2.研究历史
.1.1.2.1. 20世纪50年代
NLP于20世纪50年代早期开始于美国,当时美国害怕在空间竞赛中落败,需要翻译大量俄文科技文献,于是开发机器翻译系统,特别是俄英机器翻译系统,做法是采用词到词的翻译。由于成本高而效率低,渐渐撤去了资金支持。
.1.1.2.2. 20世纪60年代
60年代开发的自然语言理解系统,大都没有真正意义上的语法分析,而主要依靠关键词匹配技术来识别输入句子的意义。在这些系统中设计者事先存放了大量包含某些关键词的模式,每个模式都与一个或多个解释(又叫响应式)相对应。系统将当前输入句子同这些模式逐个进行匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成分对句子意义会有什么影响。
SIR
SIR(Semantic Information Retrieval)是1968年B.Raphael完成的,这是他在美国麻省理工学院的博士论文研究工作的一部分。系统用LISP语言编程。这是一个理解机器的原型,因为它能把用户通过英语告诉它的事实记住,然后通过对这些事实的演绎来回答用户提出的问题。
SIR有能力接受英语的一个受限子集,它把输入句子同如下类型的24种关键词模式进行匹配:
* is *
* is part of *
Is * * ?
How many * does * have ?
What is the * of * ?
当符号“*”同输入句子中的一个名词相匹配时,该名词前面允许带有像a,the,every,each等冠词、量词或数词的修饰语。每当匹配到一种模式,便会在程序中触发相应的动作。STUDENT
1968年美国麻省理工学院的博士研究生D.Bobrow完成了另一个基于模式匹配的自然语言理解系统STUDEN丁。系统能理解和求解中学代数题。
ELIZA
1968年,J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,或许是这些基于“模式匹配”的自然语言系统中最有名一个。系统模拟一位心理治疗医生(机器)同一位患者(用户)的谈话。
TG
Noam Chomsky 创建了generative transformational grammar。机器翻译中开始使用句法分析。
.1.1.2.3. 20世纪70年代
进入70年代以后,一批采用句法—语义分析技术的自然语言理解系统脱颖而出,在语言分析的深度和难度方面都比早期系统有了长足的进步。这个时期的代表作是LUNAR,SHRDLU和MARGIE系统。
LUNAR
LUNAR是第一个允许用普通英语同计算机数据库对话的人---机接口,是1972年美国BBN公司的W.Woods负责设计的。系统用来协助地质学家查找、比较和评价阿波罗—11飞船带回的月球岩石和土壤标本的化学分析数据。
SHRDLU
SHRDLU系统是1972年Terry Winograd设计的,这是他在美国麻省理工学院的博士学位研究工作。SHRDLU是一个在“积木世界”中进行英语对话的自然语言理解系统。系统模拟一个能操纵桌子上一些玩具积木的机器人手臂,用户通过人—机对话方式命令机器人捏弄那些积木块,系统则通过屏幕来给出回答并显示现场的相应情景。
这个系统是想说明让计算机理解语言是可以做到的;
MARGIE
MARGIE(Meaning Analysis,Response Generation,and lnference on Eng1ish)是由R.Schank及其学生们在美国斯坦福大学的人工智能实验室里建立的一个系统,目的是提供一种自然语言理解过程的直觉模型。