NLG自然语言生成(搜集地内容)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 自然语言生成
自然语言生成是人工智能和计算语言学的分支,它的重点在于建成一个计算机系统,这
个系统能生成用英语或其他人类语言表示的可理解文本,它的输入是一些非语言表示的信
息,它会利用相关的语言知识和领域知识来自动地生成文件,报告,说明,帮助信息,以及
其它类型的文本。(《buiding natrual language generation systems》)。
1.1 自然语言生成与自然语言理解
事实上,自然语言生成是自然语言处理的一部分,自然语言处理大体包括了自然语言理
解和自然语言生成两个部分:自然语言理解是需要消除输入语句的歧义来产生机器表示语
言,而自然语言生成的工作过程与自然语言理解相反,即它是从抽象的概念层次开始,决定如何用语言来表示这个抽象的概念,通过选择并执行一定的语义和语法规则生成文本。(《自然语言生成综述》)
自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十
分困难的。(ambiguity)。
例如,一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字
可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无
论在上述的各种层次:字(符)、词、词组、句子、段,……还是在下一层次向上一层次转
变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数都是可
以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在歧义。这
也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以
完成的,还有待长期的、系统的工作。以上说的是一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示,所以一个中文文本或一个汉字(含标点符号等)串可能有多个含义同样也是自然语言生成的主要困难和障碍。(《WAPEDIA》)因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。从自然语言理解的角度看,我们必须消除歧义,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。而从自然语言生成的角度看,我们也要消除歧义,从抽象概念生成符合语义,语法,语用的无歧义文本,所以不论从哪方面看,自
然语言的魅力都给我们带来了巨大的困难。
历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。
1.2 自然语言生成的研究
从20世纪40年代算起,自然语言处理的研究已经接近有70年的历史,而自然语言生成正是在自然语言处理的发展中逐渐清晰化的其中一个部分,大概兴起于70年代早期,在1983年~1993年这十年期间,自然语言生成的研究取得了令人瞩目的成就。
自然语言生成迄今已走过了近四十年的历程,在这段时间里,从事该领域研究的专家们
不断提出新的理论和方法,设计出新的生成模型,使语言生成的研究不断取得新的进展。目
前语言生成的研究侧重于以下几个方面:在特定的语法理论框架内更加广泛深入地处理语言
现象,如 :生成系统。"在同一语法环境下生成多语言,例如英国大学的多语种生成系统(包括英语、德语、)日语、法语、荷兰语、西班牙语),上海交通大学的多语言天气预报发布系
统。面向实际应用的开发,如国内有北京交通大学和北京颐和园的导游系统、中国科技大学的机器人足球现场解说系统以及人机接口等;国外的有英国大学所设计的在线文件剪接系统。"在生成过程中对所要表达的信息进行语义和句法方面的聚合亦是目前研究重点之一。
当前语言生成的研究方向主要是在语言表示形式、信息内容规划以及语言生成模型等方面。
自然语言生成的研究将继续在诸多语言学科、计算机领域和其他学科的通力协作下获得新的
成果。(《自然语言生成综述》)
2 自然语言生成的内容
传统来说,自然语言生成的任务大致分为两个个部分:内容选择,即“应该表达什么”;以及内容表示,即“怎样去表达”。但随着自然语言生成的发展,我们还应解决一个问题,
那就是“为什么要用这种方式表达?”,所以提出了更为标准的自然语言生成结构,它由三
部分构成:内容(文本)规划(也称宏观规划),句子规划(微观规划)和句子实现。标准
自然语言生成结构见图1:(《Natural Language Generation》)
图1:自然语言标准生成结构
事实上还没有一个已实现的自然语言生成器完全的体现了图1中所有的模块,目前试
验性的尝试来完成这一结构的自然语言生成器有 ERMA (Clippinger 1974)和PAULINE (Hovy 1988) 。而大多数的自然语言生成器在不同的安排下只包含这一结构中的某些阶段而已,如Reiter (1994) 和 De Smedt, Horacek, and Zock(1995)。(《Natural Language Generation》)
2.1 自然语言生成体系结构
下面对自然语言生成体系结构的三个基本模块进行介绍。(《自然语言生成综述》,《Natrual Language Gneration:Requirment for construction》,《Natural Language Generation》,《Microplanning with Communicative Intentions:The SPUD System》)
2.1.1 内容规划
内容规划的任务主要包括内容确定和结构构造两个方面。内容确定的功能是决定生成的
文本应该表示什么样的问题,而结构构造则是完成对已确定内容的结构描述,即用一定的结构将所要表达的内容组织起来,并决定这些内容块是怎样按照修辞方法互相联系起来的,以便更加符合阅读和理解的习惯。通俗讲,就是输入是一个或多个交互目标,像[DESCRIBE HOUSE-15] 或[MOTIV ATEGOING-ON-V ACATION-12]之类的这种抽象的概念,经过内容规划,输出通常会是树结构,或者是一个有着更加详细的内容命题的列表,这些命题会用像
“and”,“therefore”,“however”这样的连接词连接起来。当然,每个命题都包含着一个单
子句所应该包含的信息。比如初始目标是[DESCRIBE HOUSE-15],那么它被简单扩展后
应该是像[GENERATE HOUSE-IDENTIFIER] [GENERA TE ADDRESS] [INTRODUCE FLOORPLAN] [ELABORA TE [GENERATE GROUND-FLOOR] “and”[GENERATE
TOP-FLOOR] “and” [GENERATE BASEMENT]] 这样的。
2.1.2 句子规划
通常,内容规划并没有完全指定输出文本的内容和结构,句子规划的任务就是进一步明
确定义规划文本的细节,具体包括选词(Lexicalization)、优化聚合(Aggregation)、指代表达式生成(Referring Expression Generation)等工作。
选词模块:在应用中,特定信息必须根据上下文环境、交互目标和实际因素(如人的知
识背景或作强调等特定处理)用词或短语来表示。选择特定的词、语法结构以表示规划文本
的信息意味着对规划文本进行消息映射。有时只用一种选词方法用来表示信息或信息片段,
在多数系统中允许有多种选词方法。
优化聚合模块:为了能够消除句子间的冗余信息,增加可读性以及能从子句构造更复杂
的句子,在句子规划中应用了聚合技术,通常按照粒度区分有句子、词汇、语义、修辞和概
念等聚合。即决定内容规划输出的结构怎样才能映射到像句子和段落那样的语言结构。聚合就是使用修改,联合短语,以及其它语言结构等方法来将信息打包到较少的句子中(当然这可能会使得这些句子反映的信息更为复杂一些),聚合依赖一些应用操作,这些操作的作用
是会检测将要表达的信息之间的联系,比如,有的信息会重复指向共同的参与者(如Doe is a patient,DOE is a female),这样就要组织相关材料信息到一个嵌套的语义结构了(得到Doe is a female patient)。
指代表达式生成:决定什么样的表达式,句子或词汇应该被用来指代特定的实体或对象。
在实现选词和聚合之后,对指代表达式生成的工作来说,就是让句子的表达更具语言色彩,
对已经描述的对象进行指代以增加文本的可读性。
句子规划的输出是文本描述(Text Specification),但其仍然不是最终输出文本,仍有句