【推荐下载】语篇结构标注研究的综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语篇结构标注研究的综述
【摘要】欢迎浏览,小编为你提供的一篇关于语篇结构标注研究的综述的英美文学论文!
语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。
目前,已经建成并公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。
语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论,扩展了修辞关系集,为RST理论的运用提供了广阔的前景。
本文综述该语料库建设的研究成果。
.概述
随着计算机技术的普及和发展,语料为机器可读成为语料库建设的最基本的要求之一。
要达到语料机读化这一目的,关键在于语料的标注。
所谓标注,就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便计算机的识读。
语料标注的类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇结构
等。
从当前的研究现状来看,虽然语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。
目前,已经建成并已公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。
在这基础上研究小组还进行了自动篇章标注算法、自动文摘、机器翻译等具体应用工程方面的研究。
该参照篇章语料库的建成不但为篇章结构标注建立了理论体系,而且为语篇结构的应用研究开辟了新的领域。
本文将综述该参照篇章语料库建设的研究成果。
1.理论支撑的建立
根据Carlson(2001)的介绍,用于话语分析的理论有很多,如Groz和Sidner(1986)Mann 和Thompson(1987)等都提出了自己的篇章分析理论,但这些理论主要用于单个的文本分析,往往着眼于语篇的某一个方面,如指代关系、语篇的风格、语篇的多维性以及某一理论在语篇中的体现等,很少被用于大规模的语料分析或语料标注。
在建立参照语料库时,Carlson(2001)等研究者将Mann和Thompson (1987)提出的修辞结构理论(RST)用于大批量的语篇标注和语篇分析。
他们认为用修辞结构理论(RST)对语篇进行标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文本本身的特征;先前的研究表明该理论可以使不同的标注者在标注不同的文本时达到一定的统一;用该理论标注的语篇树形图对构建自然语篇生成系统、自动文摘系统、文本测评系统起着关键的作用,也可以用来增强机器翻译的自然性。
参照篇章语料库的建成确立了篇章结构标注的理论
基础。
2.基本语篇单位的确定
语篇结构标注的另一成就是确定了英语基本语篇单位。
在确定基本语篇单位时,不同的研究者往往运用不同的理论。
Givon(1983)认为从句应该成为语篇的基本单
位,Sacks(1974)认为谈话的话轮应该成为语篇的基本单位,Polanyi(1988)坚持语篇应该以自然句为切分单位,Grosz和Sindner(1986)认为语篇的基本单位应该从语篇的上下文中获取,它是由一定的符号所反映的信息载体,能反映事物的单个状态或部分状态,最有影响的修辞结构理论认为从句应该是语篇的基本单位,不管从句有没有语法标记或词汇标记。
然而,在具体标注时,Marcu等研究者对基本语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都属于基本语篇单位,包括起状语作用的非谓语动词词组;充当主语、宾语、补语的从句不属于基本语篇单位;定语从句、后置的名词修饰短语或将其他基本语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语篇标记的短语作为基本语篇单位,如由in spite of(尽管),according to(根据)等引导的短语。
Marcu的切分方法综合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理论,在确定基本语篇单位时考虑到词汇、句法、语义和在句中的位置等因素。
3.修辞关系的扩展
当初,Mann和Thompson(1987)提出修辞结构理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义出其他的关系类型。
Marcu(2000)根据标注的语料库总结出53种单层核心关系和25种多层核心关系,78种定义关系又分成16个组别,每组都具有相同的修辞功能。
就如同当初的定义关系集一样,这些关系覆盖了基本语篇单位、语段乃至整个语篇。
通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。
【摘要】英美文学毕业论文怎么写,小编为你提供一篇关于浅谈浅析夕阳意象的崇高二美,作为您的参考,希望您喜欢!
夕阳是英汉诗歌中一个常见的典型意象。
面对夕阳西下,诗人不同的审美角度会产生不同的情感心理。
赞美者有之,感伤者有之。
依据朗吉努斯、康德等西方美学家对崇高的论述,对英汉诗歌中夕阳意象所呈现的崇高美进行了探讨分析。
古往今来,人们对于滋润万物生长的太阳有着特殊的崇拜意识。
两千多年前古希腊就有太阳神阿波罗驾驶金色马车自东向西的传说。
诗人们大量将夕阳镶入他们的作品里,寄托了他们强烈的生命意识,展现了他们深层的精神世界及其独特而丰富的情感心理。
由于社会、政治、经济、文化背景不同,诗人的心态、审美情趣不同,这种日暮黄昏的夕阳情结也就呈现出多种意蕴。
伤感是夕阳意象所呈现的诗人一个特定的情感心理,大量的夕阳意象诗作中,或是嗟叹时光流逝,或是忧国忧民,亦或写尽羁旅行役,离愁别绪。
欲少留此此琐兮,日忽忽其将暮。
与之相,反,在胸襟宽广、拼搏进取者的眼中,朝阳与夕阳同样的美丽; 日之夕矣,牛羊下来,面对柔和宁静的黄昏美景,诗人倾诉着对温馨爱情、人伦亲情的向往;有的则于淡淡的忧伤之中,依然满怀美好的理想与希望。
依据朗吉努斯、康德等美学家关于崇高美的界定,本文对英汉诗歌中夕阳。
意象所呈现他崇高美及其共性进行了探讨分析。
一崇高一伟大心灵的回声
朝阳象征着美丽与希望,除了偶见如约翰多恩(John Donne)在《太阳升起》(The Sun Rising)中诅咒你这繁忙的老傻瓜,不守规矩的太阳搅了情人的美梦以外,几乎所有的诗人都去热情地赞美它。
然而也有不少诗人对夕阳情有独钟,他们以宽广的胸怀描绘出一幅幅壮美而崇高的夕阳图画。
初唐诗人卢照邻写道: 龙衔宝盖承朝日,风吐流苏带晚霞,在他眼中,风吐流苏的晚霞与灿烂的朝阳一样绚丽多彩。
李白登宣城谢眺楼,面对秋野斜阳歌唱的江城如画里,山晚望晴空展示了其博大的胸怀,而他的另一首诗西山太白峰,夕阳穷攀登则表现了诗人在夕阳背景下不畏艰险,奋发向上的拼搏精神。
朗吉弩斯在他着名的《论崇高》一文中宣告: 崇高是伟大心灵的回声!英国浪漫主义诗人华兹华斯(Wordsworth)在《抒情歌谣》(Lyrical Ballads)序言中说: 诗是人和自然的表象。
中国的
诗歌理论认为, 诗言志。
我们从一个人的作品里便可以感受到作者的胸怀和气魄。
与崇高的气象相反,英国另一位浪漫主义诗人约翰济慈的黄昏景色则是欢快灿烂的,他在着名的《秋颂》中这样写道:
当波状的云把将逝的一天映照,
以胭红抹上残梗散碎的田野,
这时呵,河柳下的一群小飞虫就同奏哀音,它们忽而飞高,
忽而下落,随着微风的起灭;
篱下的蟋蟀在歌唱;在园中红胸的知更鸟就群起呼哨;
而群羊在山圈里高声咩叫;
丛飞的燕子在天空呢喃不歇。
夕阳映照,微风吹拂,在丰收的田野上,飞虫、蟋蟀、知更鸟以及群羊、丛飞的燕子共同演奏了一首秋之声交响乐。
这又是多么的优美!英国诗人、美学家马克阿肯赛德在他的美学理论长诗《想像的快乐》中认为:
不同的心灵
喜爱不同的事物:一个只追求,
巨大,惊奇,与狂野;
另一个感叹和谐,优雅
和最柔顺的优美
二崇高一种表达无限的企图
华兹华颠认为诗的主题在于热情地歌颂天性的永恒部分。
在《丁登寺》中,他说他感到落日的余晖、广袤的海洋、新鲜的空气、蔚蓝的天空和人心,已经远为深刻地融合在一起,这是一种绝妙的感觉,激励着一切有思想的事物。
诗人在这首诗中追忆自然山水给他甜蜜的感受,宁静的心境,在景物中感受到崇高的思想融合着雄伟。
这与我国初唐四杰之一的王勃《腾王阁序》中落霞与孤骛齐飞,秋水共长天一色。
渔舟唱晚,响穷彭蠡之滨;雁阵惊寒。
声断衡阳之浦有异曲同工之处。
叔本华认为这种崇高的客体与主体之间是一种和谐的关系,也即夏夫茨伯里所说的大美。
对崇高进行诗化处理的是爱德华扬的《夜思》中的第九夜。
他在其中描绘了:
海河山树林石,
耸岬、以及幽深的
地洞,
黑脊、高穹,还有宽广的裂缝,
造化所成,或时间所铸
尽管这一切对于别人来说看起来已经很伟大了,可爱德华扬却感到还很不够。
伟大并不应该是在地球的表面上发现的,而应该属于宽广的天空,那片心灵高贵的牧场。
他在无限的空间的概念上又加上了时间的无限,他说:
那无际的空间啊,这些漂泊的人
在其中永不停息地流浪,仿佛听到她说
还有一个姐妹,那永不停止的时间
黑格尔说, 崇高是一种表达无限的企图。
那些看似无限的对象之所以崇高是因为它们能够激起人无限的想像。
人的胸怀也似乎因为对象的崇高而被无限地扩大,正如《楞严经》上所说:当知虚空生汝心内,犹如片云点太清里。
三、崇高一天大、地大、心亦大
无论是传统诗歌还是现代诗歌,单纯写夕阳的总在少数,诗人在进行夕阳形象塑造的同时,更是将夕阳下或人或物诸如山川田野、行云流水、花鸟虫鱼等诸种意象进行细致具体的勾勒,在这些意象的群体合力作用下,全方位、多视角、深层次的营造更加完美的深厚的审美意境,而所有这一切根本目的都在于揭示诗人的感情和精神世界。
美国诗人亨利朗费罗的《金色夕照》这样写道:
波平似镜,映照天宇,
水天金色一片,
彼岸隐现,云影缓移,
遥望依稀一线。
岩如行云。
云如山岩,
化作异彩漂浮;
波光潋滟,注目中流,凝泊一叶扁舟。
在这明快、如歌的柔板中,诗人寓理于象,托物言情,抒情里透着哲学的冷峻,写景中凝着人生的沉思:
因而在人生暮年,
桑榆之景隐现时,
愿天地孕育的光华,
将天地融为一体。
心灵洋溢着宁谧,
在沉静的心悦中升华,
性灵与天地交融,
不分何处天上何处地下。
客体之所以崇高,是因为有一个崇高的主体在欣赏它,康德认为,客体的崇高是主体把对因自己心灵的崇高而产生的敬意在不自觉的情况下置换到了客体的身上,从而使客体显得崇高。
因而在诗中,夕阳的崇高便是人的崇高,人心的崇高。
审美客体的价值在于它对主体的意义。
崇高的审美客体应不仅能够激起主体的美感,而且还应使主体得到道德或者是理性上的满足。
审美的实践也恰恰是这样,尤其是在文学与艺术中,很少有那种纯粹的美或者崇高。
自然景物可以是崇高的,但是比自然更崇高的是人的心灵。
于是当性灵与天地交融的时候,那种人生暮年的崇高使诗人不分何处天上何处地下。
孔子说:诗歌可以兴,可以观,可以群,可以怨。
诗歌是心灵和感情的抒发。
夕阳无限好,只是近黄昏、当李商隐看到理想濒临破灭时,他并没有绝望,在刹那间摆脱了患得患失的心情,虽有些失望感伤却对未来满怀向往。
生命转瞬即逝,诗人以天意怜幽草,人间重晚情来安慰自己,王勃、刘禹锡则分别以东隅已逝,桑榆毕晚和莫道桑榆晚,为霞犹满天来激励自己,而苏轼更有山头斜照却相迎, 谁道人生再无少? 的豪迈气派,表现了其积极向上豁然超达的乐观精神。
美国现实主义女诗人埃米丽狄金森在《我不能停下来等待死亡》中,不仅描写了死亡的片刻,而且还发挥其想象力刻画了通往永恒的捷径:即人生的归宿。
在狄金森看来,日落
是老年的象征,而它只不过是人生旅途的一个驿站而已。
死亡是生命的结束,也是生命的开始。
沃尔特惠特曼为纪念林肯之死而写下的《当紫丁香最近在庭院开放的时候》,作者以其浪漫主义的豪迈气派,不仅热情讴歌了黄昏落日的壮丽,而且把它看作是希望的象征。
那将是新生的春天和农田和房舍的图画,
图画里有四月间日落时候的黄昏,有清澄而明亮的烟霞。
有壮丽的燃烧在空中,燃烧在天上的摇曳下沉的落日的万道金光。
接下来他又写道:
看哪,最美的太阳是这么宁静这么岸然,
蓝色和紫色的清晓吹拂着和风,
无限的光辉是那么温柔清新,
正午的太阳神奇的沐浴着一切,
随后来到的美丽的黄昏,和受欢迎的夜和星光,
全都照临在我的城市之上,包裹了人民和大地。
伟大的灵魂在诗歌中得以不朽和永恒。
在诗人看来,夕阳不再是日之暮、岁之暮、人生之暮乃至时代之暮的象征,恰恰相反,它预示着新的一天、新的一年、新的一生乃至新的时代的来临。
夕阳是即将失去的象征,也是重新开始的象征。
天地万物,莫不如此循环往复,从这个意义上讲,自然是永恒的,人生是圆满的。
四结语
据文献记载,蔡齐利可能是在西方美学中第一个论述崇高的,但现存最早的崇高论则属于朗吉努斯。
他认为崇高由两大部分组成,即诗人(作者)的精神(心灵或品质)和他的修辞技巧。
此后西方美学中便有很多着名的美学家对它进行过论述,如博克,康德,叔本华,黑格尔等,总体来说西方美学认为崇高是冲突的,当然叔本华是一个例外。
而中国虽然很早就有了崇高的观念,但相对比较零散,缺乏像西方那样长篇的专着。
中国文化由于对和
的思想的推崇,认为崇高可以是和谐的,但到目前为止,这一理论还有待发展和完善。
中西文化对崇高的理解和侧重虽然有所不同,如静与动,冲突与和谐等,在彼此的诗作里却是各种崇高都同时存在的,如诗中所述: 天下夕阳望相似,中外诗人一样情。
正如席勒所认为的那样,优美与崇高对于我们来说都是必不可少的。
优美的诗歌给人以安闲的美感,如劳作后的小憩,使人忘记忧愁与悲伤;崇高的诗行带给人的却是激情与力量,让我们在放松之后能够重新启航,也使我们能够在面对生活的挫折时继续保持昂扬的斗志,从而最终到达人生理想的彼岸。
本文由为您提供的!
4.标注标准和方法的制定
为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人工标注的方法。
他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。
在正式标注之前,他们都接受专门的语篇结构标注培训,培训包括3个阶段。
在第一阶段,向标注者介绍修辞结构理论和语篇分析工具。
在培训的第二阶段,标注者开始探索语篇结构的特征。
在培训的最后一个阶段,标注小组谋求在构建语篇总结构图
时保持一致,尽量减少分歧。
最终,标注小组研制出两个基本策略用于文献分析并建立相关的语篇结构图。
策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇结构图。
以这种方式建立树型结构图,标注者必须预测到随后的语篇结构。
然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。
另一策略是将文本分析与建立语篇结构两项任务同时进行,很可能是成块地标注而不是循序渐进地一步一步地增加。
以这种策略进行标注,标注者一次可以切分很多语篇单位,并为每个自然句建立结构图,然后将相邻的自然句连接起来,构成较大的语段结构树。
最终的语篇结构树是通过连接语篇结构中主要语块而建成的。
5.标注质量的检验
标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。
为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。
5.1效度检验
效度检验从两个方面进行,即句法和语义。
句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。
语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇结构树的层次。
为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。
所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章结构地位。
分析器和图形扫描仪经常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇结构树。
5.2标注一致性
在整个语料库的建设过程中,研究者一直设法保证标注者之间内部的一致性。
首先,他们研制出一种算法,该算法可以计算出语篇层级结构的Kappa数据。
(Kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。
)如果Kappa数据大于0.8,就意味着具有较高的一致性;如果数据值在0.6和0.8之间,就意味着较好的一致性。
6.标注语料库的挖掘
借助于以RST理论为支撑的语篇标注语料库,研究者可以对语篇进行三个层次的分析,即语篇标记词功能的分析、不同类型的语篇结构图的描述和比较、语篇中从句间修
辞关系的描述和比较。
6.1篇章连词的研究
篇章连词功能研究一直是理论语言学和计算机语言学研究的主题,而且网络语料库方便了研究者对关联词语的研究,但利用丰富的标注语料库资源进行分析的研究不多。
语篇结构标注语料库可以使研究者在多种语境中对关联词进行元语言分析,使人们能了解到它们在语篇中出现的频数、在句中的位置、所发挥的篇章修辞作用、核心性、辅助性等方面信息。
例如,研究小组总结了since和as在语篇中的功能。
经研究发现,就这两个词在语篇中出现的频率而言,在语篇中起连接两个基本语篇单位修辞作用的情况只有1/3,因为它们往往在命题层面上发挥作用而不是在语篇层面上。
就它们在语篇中发挥的修辞作用而言,as涉及到的关系类型远远地多于since,但两者所引导的语篇单位往往都处于辅助位置而非核心位置。
6.2语篇结构图的描述和比较
除了Lancaster大学的OBC语料库(Garside等,1987;Biber等,1998,转自Carlson,2001)提供的语体或语域研究,以及TDT语料库(Wayne,2000,转自Carlson,2001)提供的话题确
认研究之外,能帮助研究者对语篇进行全面分析的语言资源不多。
然而,以RST理论为支撑的语篇结构标注语料库,勾画出每一份文献的多层次的语篇修辞结构图,据此可以对结构树的各个层次进行分析。
例如,结构树的抽象层面,对修辞关系和文献的内容进行非词汇化的概括,为研究交际意图带来很多方便。
又如,语篇研究结果表明在文本的总体框架上新闻类语篇不同于故事类,因为新闻类语篇的结构多呈倒三角形,但这些研究很难解释产生差异的根本性原因。
语篇结构树可以弥补这一缺陷,这些树使研究者清楚地看到在实现作者的交际意图时、在体现篇章的互文性时,同样的句式在不同的文本中发挥的作用是不同的,在有的文献中起核心作用,而在有的文献中起辅助作用。
事实上,这些结构树很清楚地反映出,即使是同一类型的语篇,随着语境的改变、主题的变化,文本的结构也会发生相应的变化。
6.3语篇内修辞关系的研究
通过对标注语料库的分析和挖掘,研究者发现从句间的修辞关系在文本中发挥作用的频率是很不一样的。
例如,研究者发现详述-补充修辞关系使用的频率最高,因为作者在表达过程中往往要借助于前面的背景,通过对前面的背景补充说明来阐发新的观点。
与此类似的还有列举关系和解析关系。
修辞关系的元语言分析使人们能了解到它们在语篇中出现的频数、在句中的位置、核心性、辅助性等方面信息。
除此之外,语篇结构树还勾画了修辞关系如何发挥语篇衔接与连贯的功能。
例如,研究者通过对篇章标注语料库的分析发现, 列举关系不但起到举例的作用,而且在连接平行语篇单位、平行语段和平行语篇时发挥巨大的作用。
事实上,这一研究结果验证了Halliday和Hasan(1976)的
观点,即平行结构是一种语篇衔接手段。
6.4应用性研究
语篇结构标注语料库为文献检索、自动剖析、自动文摘、自动翻译等提供相关数据,例如,研究小组所设计的在线文件剪接系统。
借助于篇章结构标注语料库,研究者发现并非所有的句子都是基本语篇单位,也不是所有的语篇单位都具有相同的作用,有的属于核心的,有的属于辅助的,有的在实现作者的交际意图时、在体现篇章的互文性时发挥关键作用,有的并没有。
以此类推,篇章中的词汇、短语也有核心与辅助之别。
篇章结构标注语料库可以帮助创建一个以篇章结构为指导、以词汇短语有界和无界合并为手段的文件剪接系统。
同时,篇章结构标注语料库帮助创建了一个以篇章结构为指导、以机械文摘为基本手段、再配合消除冗余、可读性加工的综合自动文摘系统。
7.结论
2001年,由Daniel Marcu博士主持的研究小组以RST理论为支撑创立了语篇标注语料库。
研究小组所标注的385篇华尔街报文章皆取自宾州树库,篇幅长度不等,从31个词到2,124个词,总词数达到176,000,平均每篇文章458个词。
文章的内容涉及到各种话题,如财政报道、商业新闻、文化点评、编者按、读者来信等。
语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论、扩展了修辞关系集、为RST理论的运用提供了广阔的前景。