人工智能[第七章自然语言理解]山东大学期末考试知识点复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章自然语言理解
1.1 自然语言及其理解
1.自然语言概述
自然语言是音、形、义结合的词汇和语法体系,是人类实现思维活动的物质表现形式。词汇和语法体系是构成自然语言的两大要素,两者缺一不可。词是构成自然语言的最基本单位,语法则是用来支配和控制词以构成有意义的、可理解的语句,进而再由语句按照一定的逻辑构成篇章的规则。
词汇分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,词素是构成词的最小的、有意义的单位。例如,在汉语中的“工人”这个词,就是由“工”和“人”这两个词素构成的,“工”有工作和做工的意义,而“人”则包含了有能力工作的自然人的意义。由词素构成词的规则称作构词法,如工+人→工人。而构造词形的规则称为构形法,如教师+们→教师们,teacher+s →teachers。构词法和构形法统称为词法。
除了词法之外,语法中的另一部分就是句法。句法就是利用词构造语句的规则,它由两部分构成,一部分称作词组构造法,另一部分称作造句法。词组构造法就是将词搭配成词组的规则,如蓝+帽子→蓝帽子。造句法则是将词或词组搭配成语句的规则。
2.自然语言理解
自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:
①回答有关提问。计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息中的有关问题。
②摘要生成。对于输入的文本信息,计算机能够产生相应的摘要。
③文本释义。能用不同词语和句型对输入的信息进行复述或解释。
④不同语言间的翻译。计算机能把用某一种自然语言表示的信息自动地翻译为另一种自然语言。例如,把英语翻译成汉语,或把汉语翻译成英语,等等。
无论计算机具有的什么样的特性,无论程序设计采用什么样的算法,只要具有上述功能之一,它就可以在机器翻译或机助翻译、文本理解、文本生成、自然语言接口等场合得到广泛的应用。
3.自然语言理解过程的层次
自然语言的分析和理解过程是一个层次化的过程。许多现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现自然语言本身的构成。
1.2 词法分析
词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的,英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works、worked、working、worker、workings、workable、workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。
下面给出英语词法分析的一个基本算法:
repeat
look for word in dictionary,
if not found,
then modify the word.
until word is found or no further roodification possible
其中word是一个变量,其初值就是当前词。当然更完整的词法分析还应当包括复合词的切分等,这里就不再进一步讨论了。
1.3 句法分析
句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。也就是说,句法分析的过程就是构造句法树的过程,对每个输入句子通过构造句法树来完成对它的分析。
分析自然语言的方法主要有两大类:一类是基于规则的方法,一类是基于统计的方法。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基(Chomsky)语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等。其中短语结构语法是各种理论和方法的基础。
1.短语结构语法理论与乔姆斯基语法体系
短语结构语法和乔姆斯基语法是描写形式语言和自然语言的有力工具。
(1)短语结构语法理论
一部短语结构语法G可以用一个四元组来定义:
G=(Vt,Vn,P,S)
其中,Vt是终结符的集合,终结符是指被定义的哪个语言的词或符号;Vn是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。Vt和Vn的并(∪)构成了符号集V,称为总词汇表,且Vt和Vn不相交,因此有:V=Vt∪Vn,Vt∩Vn=¢(¢表示空集);P为如下形式的有穷产生式集:
α→β
式中α↔V*VnV*,β↔V*,*表示它前面的字符可以出现任意次;S为非终结符表Vn的一个元素,称为起始符。
(2)约束的短语结构语法——乔姆斯基语法体系
短语结构语法具有很强的描述能力,它可用来描述任何一种可递归枚举的语言,而这些语言却可能不是递归的。用短语结构语法所构造的语言,可能不能编写出一个程序,用计算机实现对其进行自动句法分析。为了实现对语言的自动分析,要对短语结构语法进行一些限制或约束,使其所描述的语言是可递归的,这样就可以通过编写程序对这些语言进行自动分析。乔姆斯基语法体系就是一组受限的短语结构语法。
乔姆斯基曾定义了4种语法:0型语法、1型语法、2型语法和3型语法。
0型语法:是一种无约束的短语结构语法,前面已经作了介绍。
1型语法:也称作上下文有关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为
x→y
的产生式,符号串y中所包含的字符个数不少于字符串x中所包含的字符个数,而且x,y↔V*。
2型语法:也称作上下文无关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为
A→x
的产生式,其左侧必须是一个单独的非终结符,而右侧则是任意的符号串,即A ↔Vn,x↔V*。在这种语法中,由于产生式规则的应用不依赖于符号A所处的上下文,因此称为上下文无关语法。
3型语法:也称作正则语法,分左线性语法和右线性语法两种形式。在左线