自然语言处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言处理技术课程总结
自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。
自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。
一、常用技术分类
1、模式匹配技术
模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。
2、语法驱动的分析技术
语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文
无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN 文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。
3、语义文法
语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。
4、格框架约束分析技术
格框架是由一个头部和一组辅助概念组成的。头部一般是由主要动词构成,辅助概念也称“域”,以某种规范形式与头部相连。格框架定义规定了与头部相应的必有格、随意格和禁止格。在进行格框架约束分析技术时,输入的自然语言被转化为格内容,它既结合了语法驱动分析技术和语义文法分析技术的优点,又能够克服语义文法中不合文法的现象,解决语句的多义性问题。是计算机语言研究中的重大发展之一。
5、系统文法
系统文法是从多个层次分析自然语言的分析方法,它强调句子的整体结构。其主要是从语法、语义和语音等层次来分析自然语言。每一层次又有三种不同的分析,分别为功用说明、特征说明和组成成分结构分析。系统文法可以根据自然语言的功能特性和组成成分来分析自然语言,但也有系统结构复杂等缺点。
6、功能文法
功能文法是对句子的完全功能描述,它描述了自然语言的特征组合、功能分配、词语组成成分顺序,是一种既可以用于分析,也可以用于生成的文法。功能
文法的分析形式是分析自然语言的主动句规则、主谓一致规则,构成相应的字典入口形式。有一种与功能文法相似的文法系统为词功能文法,它则更强调词典的功能。
7、故事文法
故事文法的研究则显示计算机翻译输入的自然语言时,不仅仅从语句的语法、语义、结构的角度,还能够从整个故事的情节发展的角度将信息整合得准确到位。但此类文法一般只适用于处理较为简单的,文体较为形式化的故事描述,对于一些情节较为复杂的故事,则不一定能够精确描述。这种技术仍然有待进一步发展研究。
二、中文自然语言处理的关键技术
1、词法分析
词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。
2、句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。
3、语义分析
语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。
4、语用分析
语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。