自然语言生成中的句子结构优化处理_李锦乾
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 W IN.CO M 的执行
(1)W IN.CO M 首先加载V M M 32.V X D 。V M M 32.V XD 是W indow s 95操作系统的核心,它的作用与W IN 386.EX E 在W IN 3.X 增强模式下的作用相当。在V M M 32.VX D 的前面是虚拟机器管理器V M M ,后面是多个虚拟设备驱动程序的集合。V M M 是W in-do w s 95最为重要的操作系统组件,它包含了实现系统基本功能的程序,如中断处理、虚拟内存操作、进程间的通讯等等。
(2)W 对系统设备进行初始化。W 对V M M 32.V X D 中的虚拟设备驱动程序进行初始化,同时也加载系统注册文件(Registry )和SY ST EM.IN I 中的虚拟设备驱动程序V XD ,并对所有相应设备
进行初始化。
(3)由Windo w s 95SHEL L 载入K ERN EL 内核,初始化内核,载入GDL.EX E 、GD I 32.DD L 、U SER.EX E 、U SER 32.DDL 等执行程序和动态链接库,加载字体驱动程序。完成系统的最后初始化。
参考文献
1Andrew Sch ulman ,Wind ow s 95开发指南,电子工业出版
社,1995.1。
2段爱民、史林、张岩,Windows 95技术应用,清华大学出版
社,1995.10。
附:W INDOW S 95系统启动过程流程图:
本课题得行到国家自然科学基金(项目编号:69673008)、上海市科委科技发展基金(项目编号:96297002)及德国大众基金资助。
收稿日期:1997年11月6日
自然语言生成中的句子结构优化处理
李锦乾 张冬茉 姚天方
(上海交通大学计算机系 上海 200030)
摘要 本文介绍多语种文本生成系统中的句子结构优化处理,采用基于语义的规则驱动方法来消除句子之间的信息冗余,从而使生成的文本更加自然流畅,可读性强。这种方法独立于具体语言,不受语种限制,具有极好的移植和扩展能力,在自然语言生成系统中具有广泛的研究价值。句子优化的主要类型、算法的构造以及规则的定义方法均在文中作了详细的说明。
关键词:自然语言生成 句子优化 语义驱动规则 文本结构树1 概述
自然语言生成是当前计算语言学中相当活跃的一个领域,有着极其重要的应用价值。一般的生成系统可从结构上分为三大模块:宏观规划,微观规划和表层生成。其中,宏观规划决定文本的篇章结构及其内容安排,并采用恰当的树形结构来表示;表层生成把树形结构的计算机内部文本进行线性化输出,产生语法正确的文本。介于它们之间的微观规划是联系二者的桥梁,对于文本的风格、句子的形成起到关键作用。微观规划主要包括两方面的工作:一是语言资源映射,根据一定的规则添加语义、语法信息,满足表层生成的需要;二是句子结构优化,通过进一步调整输入树的结构,使每一句话的内容合理,结构清晰。由于宏观规划是从知识库中获得需要表达的信息,而一般的知识库在构造时为保持信息的完全而高度冗余,这导致宏观规划的输出呈现较多的冗余,有必要进行进一步的调整以使生
成的文本具有更好的可读性。本文着重介绍多语种文本生成中句子结构优化方法,该方法独立于具体的语言,可以同时对多种目标语言进行处理,目前应用于上海交通大学计算机系(SJT U )和德国人工智能研究中心(D FK I)合作开发的多语种天气预报自动生成系统(M LW F A )中,该系统可以同时生成汉语和英语的天气预报文本[Huang et al,1997]。
句子结构优化是自然语言生成中极为重要的一个问题,国际上已经进行了很多有价值的探讨。[Dalianis &H ov y 1993]很好地总结了前期的工作并提出了电话服务领域的八条优化规则。[Dalianis 1996]是目前最为深入的研究,定义了优化的概念(称为Ag g rega tio n),并就不同的优化类型(句法、词法和引用)分别进行了分析。然而,目前可以见到的大部分工作均只是着眼于英语文本的生成,难以应用到汉语生成中,适用于多语种生成的方法则更是凤毛麟角。2句子优化的基本类型
为了确定句子优化的主要任务,我们分析了近千篇不同类型和季节的天气预报文本。事实说明,句子优化在人工作者的文章中极为普遍:汉语文章中三分之二的句子存在某种类型的优化,而此比例在英文文章
中还要更高些。我们发现,句子优化的对象以两相邻句
子为宜,这种操作根据两个句子的谓词是否相同具有不同的对策。
谓词相同时主要有以下几种类型:
●缩合:如果两个句子主语一致,可以合并为一个句子。若句中另有其它成分也相同,应该进行必要的省略。例如:
1)It w ill be rainy this after no o n at the do w ntow n sectio n .
2)It w ill be sunny to mor ro w at the do w ntow n sectio n .
可缩为:3)It will be r ainy this af ternoo n a t th e dow ntow n section and sunny to mor ro w 。
●合并:两个相邻的句子如果仅有一个成分不同而其它部分完全相同,可以将其合并为具有复合成分的一个句子。例如:
4)上海中心气象台发布未来24小时上海市天气预报。
5)上海中心气象台发布未来24小时长江口区天气预报。
合并后:6)上海中心气象台发布未来24小时上海市和长江口区天气预报。
●插入语:为了达到强调、修正语义,修饰文本的目的,或者为了消除歧义,可以根据需要在句子中插入一些短语。常见的插入语有:as w ell as (以及),both /all(都),respectiv ely (分别)。例如:
7)小明买了一本书。小刚买了一本书。可优化为:
8)小明和小刚分别买了一本书。
如果没有“分别”这个词,句子就成为“小明和小刚买了一本书”意义就不一样了。再举一个例子:
9)本市今天最高温度和最低温度分别为22℃和9℃。倘若不这样,则只能写成:
10)本市今天的最高温度是22℃,最低温度是9℃。显然逊色多了。
●领域限制:在天气预报文本经常会出现一些习惯用语或固定措辞,这在优化时也必须考虑进去。比如说,存在两句话都描述同一时间和地点的天气情况,则应用“转”字将其合为一体:
11)今天下午晴转多云。
12)It will be sunny to cloudy skies this a fter-noo n.
两个句子谓词不同时,它们不能合并,但依然可以通过改写词汇的方式达到优化的目的。这主要有两类情况:
●省略:若两个句子的时间或地点状语相同,应把省略第二个状语以避免重复。例如:
13)T here will be light sho w er tonig ht in Shang-
hai .T he wind will reach for ce 4to night in Sha ng hai .
应改为:14)Ther e w ill be ligh t sho wer to nig ht in Sha ng hai.T he wind will reach for ce 4.
●指代:两个句子的施事或受事相同时,可把第二个句子的相应成分换用一定的代词,这样有利于突出句子的辖域。例如:
15)张三是学生。张三喜欢打球。
可优化为:16)张三是学生。他喜欢打球。此外还有其它一些优化类型,这里就不一一细举了。总而言之,句子优化是一项极为复杂的工作,要仔细区分句意的细微差别,细化优化任务,这样才能达到最佳效果。
3M LW F A 中的句子规划器
3.1文本结构的计算机内部表示
在M LW FA 系统中,一篇文章在计算机内部使用树形结构来表示。M LW F A 中的句子规划器的输入是schema 树[M c Keow n 1985],输出是经过处理后得到的词汇依赖树,可以作为基于T AG 理论[Joshi 1985]的表层生成器的输入。它们都是某种类型的文本结构树(Tex t Structure T r ee )我们定义树中的结点分为五种基本类型:Ro ot 、Schema 、Pr edicate 、Arg u-m ent 以及M odifie r [王纤1997]。其中,Roo t 是树的根结点,表示一篇文章。每个Roo t 下面有若干个Schema 子结点,一个Schema 表示一个段落或句群。Schema 下面的子结点可以继续是Schema ,也可以是Predi-ca te
。一棵以Predicate 为根的子树表示一个句子,它是文章的基本单位。句子中的每一个基本语义成分均是Pr edica te 的一个子结点,用Ar gument 来表示;若A r-g ument 中含有修饰成分,则用子结点M o difier 标识。A rg ume nt 或M odifie r 是树的叶子结点。树中的每一个结点中都含有若干个槽,用来标识各种信息供生成使用。
3.2句子规划器的结构
图1M LW FA 中句子规划器的结构及句子内容优化所地位
M LW F A 中句子规划器的结构如图1所示。我们将句子规划分为两个部分:句子优化和语言资源映射。其中语言资源映射将确定每个以谓词为中心的句子中的所有实词在句子中的位置、形态等语法信息并添加适当的虚词以使句意连贯通顺。我们为每个谓词定义若干个句子结构类(Sentence St ructure Cla sses),每