美英报刊英语标注语料库建设研究_郑志恒
新闻英语语料库研制与应用的探索性研究
第一, 新闻英语 语料库作 为一种研究 手段 , 通过 积累大 量 的语言素 材 , 充分地观察 和描写新 闻英 语 , 为新 闻英语 的
[ 作者简介] 王伟 ( 1 9 8 3 - ) ,男 ,硕士 ,讲师 ,研究方 向为英语教学、翻译理论 与实践 。
新 闻英语 的内容包罗万 象 , 千差万别 , 但 其展现 的语言
和结构 具有 明显的规律 和特点 。本 文尝试 根据专 门用途英 语 的研 究成果 , 利用 语料库 的研究方法 , 探讨 新 闻英语 语料
专 门用 途英语 产生于 2 0 世纪 6 0 年代 , 它 并非人们 事先
无论在 国外还是 国内 , 利用语料库 开展语 言研究 早已引 起许多研究者 的兴趣 。Hu n s t o n 曾指出 , 在过去几十年来 , 语 料库 以及对语料 库 的研究 对语言研究 以及语 言应用研究 进 行 了一 场革新 。 Th o ma s 等人也 表示 , 基于语料库 的研究 不 再是计算机专 家的独 有领域 , 它 正在对语 言研究的许 多领域 产生愈 来愈大 的影响 。 ( 黄 昌宁 , 2 0 0 7 : 1 ) 语料库 基于大量 真 实 的语 言材料 , 而不 是研究者 主观臆断 的语言 , 可 以提高 研 究结论的客观可信度 , 是新闻英语教学研究的有效途径之一 。
用途英语里社会用途英语 的一个分支 。许 明武 ( 2 0 0 3 : 2 1 ) 把
三、 新 闻英语 语料库 的研 制方 案
新 闻英语语料库是专用语料库 中的一种 , 它按 照一定 的 语言学 原则 , 运用科学 的抽样方 法 , 收集 自然 出现的新 闻文 本, 而建成 的具有一定 容量 的大型 电子文 本库 。因此 , 新 闻 英语语料库 的建设需要一个 系统科学 的研制方案 , 因为这 是 语料库建设 的前提 , 直接关系到语料库今后 的研究价值和使
基于语料库的中美英语新闻语篇立场标记语研究开题报告
基于语料库的中美英语新闻语篇立场标记语研究开题报告一、研究背景随着社交媒体和网络技术的不断发展,新闻信息的传播速度越来越快。
中美英语新闻的异质性和差异性逐渐凸显,其语言特点和立场表达方式也日益复杂。
在这种背景下,如何有效地理解和分析中美英语新闻中的语篇立场,成为了一个重要的问题。
语篇立场标记(stance markers)是用于表达说话者或作者的态度、情感、观点、偏见或政治取向的语言现象。
在新闻领域,语篇立场标记的研究具有实际应用和理论价值。
了解新闻语篇中的立场标记,可以帮助我们更准确地理解新闻事件的内涵,更好地进行新闻媒体的选择和评价。
二、研究目的和意义本研究旨在探讨中美英语新闻语篇中的立场标记,并对其进行分类和分析。
通过语料库的收集和语料分析的方法,选取中美英语新闻样本,结合文本分析和计量分析的方法,探究新闻语篇中的立场标记在中美英语语境中的异同和差异,以及其在新闻报道中的功能和意义。
本研究的意义如下:1. 为实现更好的新闻报道和媒体评价提供理论和方法支持。
2. 为加深中美英语语言和文化之间的交流和合作提供参考。
3. 为学术研究提供范例和启示,有助于深入理解语言学和跨文化交际领域的相关问题。
三、研究内容和方法本研究的主要内容和方法如下:1. 收集中美英语新闻语料,并对其进行预处理和整理。
2. 对新闻语料中的立场标记进行识别和分类。
3. 分析和比较不同语境中的立场标记使用情况和类型分布。
4. 探讨立场标记在新闻报道中的功能和表达意义。
5. 采用文本分析和计量分析的方法,对语料数据进行统计和图表展示。
四、研究预期结果1. 本研究将对中美英语语境中的立场标记进行全面的探究和分类,揭示出立场标记在不同语境下的功能和表达意义。
2. 通过对语料数据的分析和挖掘,本研究将为新闻媒体的选择和评价提供更为准确和全面的依据。
3. 本研究可以为学术研究提供范例和启示,为深入理解语言学和跨文化交际领域的相关问题提供参考。
语料库相关源
语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。
(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。
当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。
近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。
然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。
不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。
鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。
一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。
语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。
按照语料的语种,语料库可以分成单语、双语和多语语料库。
双语和多语语料库还可分为平行语料库和可比语料库。
平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。
可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。
关于双语语料库的作用,不少专家从不同角度进行了探讨。
基于文化导向英文报刊教学:历史、现状与未来论文
基于文化导向的英文报刊教学:历史、现状与未来【摘要】21世纪文化的全球性和多元化要求外语教学重视学习者文化素养和文化能力的培养。
英文报刊作为教学资料的重要价值被越来越多的人认识。
本文在阐述了国内外报刊教学的背景与现状的基础上,对我国英文报刊教学实践与研究现状进行了分析,指出了目前英文报刊教学存在的问题,提出文化导向教学是英文报刊教学发展的新方向。
【关键词】英文报刊;文化;语言;英语教学随着改革开放的深入和国际间交往的日益频繁,文化呈全球化、多元化特征。
外语教学担负起培养学习者文化素养的重任。
英文报刊教学因其复合性、实用性、时代性和发展性(端木义万,2005:39)而越来越受到人们的重视。
本文在阐述了国内外报刊教学的背景和现状的基础上,对我国英文报刊的教学实践与研究现状进行了分析,指出了它目前存在的问题,提出文化导向教学应成为英文报刊教学发展的新方向。
一、英文报刊教学的背景分析在国外,早在上世纪30年代,“报刊教育”(newspaper in education简称nie)的概念就被提出,其目的是通过报刊教育发展学习者的综合语言运用能力。
美国将“报刊教育”正式列入国家级研究项目已有几十年的历史。
美国的一项调查资料显示,“报刊教育”对少数民族和母语为非英语的学生效果特别明显。
英国学者保罗﹒桑德森列出八条理由指出报刊适合学生教学使用。
比利时也在20世纪90年代开始报刊教育国际项目,目前已有50多个国家开展报刊教育。
在国内,英文报刊作为教学资料的重要价值被越来越多的人认识。
英文报刊选读类课程由国家教委定为高校专业英语的选修课始于1990年,到2005年,已有80%的高校开设了英文报刊选读课程。
《高等学校英语专业教学大纲》(2000)和《大学英语课程要求》(2004)都明确将读懂英美报刊列为英语阅读水平的标准之一。
1998年,全国80多所高校联合成立“全国高校英文报刊教学研究会”并多次召开英文报刊教学研讨会,对英文报刊的教学与研究起了很大的推动作用。
英语语料库建设及应用研究:现状与趋势
英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。
这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。
20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。
经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。
这种研究方法需要大量收集某种语言中的语句,组成一个语料库。
美国当代英语语料库(COCA)在词汇教学中的应用价值
美国当代英语语料库(COCA)在词汇教学中的应用价值张仁霞【摘要】本研究介绍了美国当代英语语料库(COCA)在英语词汇教学中的利用价值:充实单词语义,建立图式;学习单词搭配,归纳语义偏好;培养学生语体意识,学会恰当使用单词;发现单词的同义词近义词;真实语料和语境中习得词汇,培养观察归纳思维能力。
COCA对于学生进行英语词汇网络自主学习是很有价值的语料库资源和工具。
【期刊名称】齐齐哈尔大学学报(哲学社会科学版)【年(卷),期】2015(000)004【总页数】4【关键词】语料库;COCA;词汇教学□学科教学研究近年来,计算机和网络技术的迅猛发展为英语教学创造了新的条件,大大提高了英语教学的效率。
教学中引入网络语料库手段,将极大丰富英语教学的手段。
COCA—美国当代英语语料库 (Corpus of Contemporary American English) 是美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
关于其系统介绍,可以参考《美国当代英语语料库(COCA)——英语教学与研究的良好平台》[1]专业语料库需要购买昂贵的软件或者注册费用,繁忙的教学使得教师们无暇自建语料库,所以提到语料库,很多英语教师望而却步,加上多数具有“技术恐惧症”,认为语料库望尘莫及。
英语教师和学习者要观察当今美语使用变化的情况,COCA 提供了在线免费使用的良好平台。
它是由杨伯翰大学 Mark Davies 教授开发的高达 4.5 亿词汇库容的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
其界面主要是为语言学家和语言学习者了解单词、短语以及句子结构的频率及进行相关信息比较而设计。
它具备了一个好语料库的三项最基本条件:规模、速度以及词性标注。
[2] 它收集的数据涵盖了最近22 年(1990 年到2012 年)美国的口语、小说、流行杂志、报纸和学术期刊五大类型的语料,并且每种类型基本呈均匀平衡分布。
值得一提的是,COCA 具有其它语料库不可企及的突出优势,它是一种动态的语料库资源,没有最后的版本,处于不断更新与发展中,每年约2000 万词汇,而且今后每年至少更新两次。
英美文学语料库构建及其应用价值探析
T n sa ec es ol eT n sa b i 6 0 0 C ia a ghn ah rC lg , aghnHee0 3 0 , hn ) T e
Abtat ri n meia i rtr h eurdsbeis adA r nLt a ei terq i uj fE gi ao. o su t gt op so is ad r th c e u s e c s r n h B th
为此 ,笔者认 为建立文学语料库,并应用于英荚文学教 学, 是改善英美文学课程边 缘化 问题的有效途径 。 保持和提
升 英 美 文 学 的传 统 地 位 ,并 使 专业 教育 与人 文 教 育相 结 合 ,
问卷 町以看…, 人部分院系采用多媒体技术辅助英美文 学教
学 。互动 式 的 教 学于 段 更 加 强 '师 生之 问 的相 互 沟 通 ,也促 r
《 高等学校英语专业英语教学人纲 》[把英美文学课确 1 】 定为必修课,提出 “ 文学课程的 目的在于培 养学 生阅读、欣 赏、 理解英语文学原著的能力,掌握文学批评 的基本知识和 方法 ,开阔思维,拓宽知识结构 。通过 阅读和分析一定数量
的英 美 文 学作 品, 促进 学生 语 言 本 功 和人 文 素 质 的提 高 , 增 强学 生 对 西 方文 学 及 文 化 的 丫解 ” 。这 一指 导思 想 明确 了 开 设 英 荚 文 学 课 程 的 目的 不 仅 仅 足 使 学 生 获 得 必 要 的 文 学 知识 、 解 英 荚 义化 ,更 重要 的是 提 高 和 培 养 学 生 的 自主 学
_ ,失 去 了它 的 文化 之 根 。 以如 何 保 持 和 提 高学 生 学 习 T具 所
传统英 美文学课程的兴趣,改进教学方法,是英美文学教师
美国当代英语语料库(COCA)在词汇教学中的应用价值
t o e x p l o r e t h e s y n o n y ms o f wo r d s ;p r o mo t i n g t h e a c q u i s i t i o n o f wo r d s i n r e l a c o n t e x t wi t h r e l a d a t a S O a s t o e n h ne a e t h e a b i l i t y o f o b s e r - v a t i o n a n d s u mma r i z a t i o n .A c o n c l u s i o n i s ma d e t h a t C OC A i s a v a l u a b l e c o pu r s r e s o u r c e nd a a t o o l f o r s t u d e n t s t o c o n d u c t o n l i n e a n — t o n o mo u s l e a r n i n g o f E n g l i s h v o c a b u l a r y .
《 齐齐哈尔大学学报 》 ( 哲学社会科学版) J o u r n l a o f Q i q i h a r U n i v e r s i t y ( P h i &S o c S c i )
2 0 1 5 年4 月
Ap r . 2 01 5
口 学 科 教 学 研 究
Ke y wo r ds: C O p US:COCA ; v r o c bu a l a y r t e a c hi n g
近年来 , 计算机和 网络技术的迅猛发展上最大的英语平衡语料库 。其 界面主要是为语言学家和语言学 习者 了解单词 、 短语以及句 子结构的频率及进行相 关信息 比较 而设 计 。它具 备 了一个 好语 料库的三项最基本条件 : 规模 、 速度 以及词性标注 。 _ 2 它
语料库标记与标注以中国英语语料库为例
语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。
我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。
接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。
在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。
我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。
通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。
二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。
语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。
在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。
语料库可以按照不同的标准进行分类。
按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。
原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。
编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。
按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。
通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。
专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。
按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。
生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。
语料库研究
语料库研究语料库是语言学研究中重要的工具,它是收集、存储和分析大量实际语言使用的文本样本。
通过使用语料库,研究者可以揭示语言的规律和特点。
本文将探讨的概念、历史背景、用途及其在语言学领域中的重要性。
的概念始于20世纪50年代的美国语言学家Harris,他提出了“语言学应该研究的不是语言本体,而是语言的使用”。
随后,逐渐发展成为语言学研究的重要分支。
语料库的建立需要收集大量的实际语言使用样本,这些样本可以是书面文本、口语录音、网络文本等。
经过标注和加工后,语料库成为了研究语言规律的有力工具。
具有广泛的应用领域。
在语音识别和自然语言处理领域,语料库为机器学习提供了必要的训练样本。
在语言教学中,语料库可以帮助学习者了解实际语言使用情况,提高语言交际能力。
在社会语言学中,语料库可以揭示社会群体之间的语言差异和变化。
在语言变异与变化研究中,语料库能够帮助研究者观察和分析语言的演变过程。
在语言学研究中的重要性不可忽视。
通过对大规模语料库的分析,研究者可以得到更真实、准确的语言使用情况。
语料库分析可以帮助揭示语言的内部规律和结构,探讨语言的变化和演化,发现语言的普遍特征和泛化规律。
通过利用语料库,语言学研究可以更加客观、科学地进行,结果更有说服力。
除了研究语言学,还可以应用于其他学科领域。
在心理学中,通过对语料库的分析,可以研究语言与思维、情绪之间的关系。
在社会科学中,语料库可以用于研究新闻报道、政策文件等的语义分析。
在文学研究中,语料库可以揭示作家的写作风格和文学作品的特点。
然而,也面临一些挑战和问题。
首先,语料库的建立需要大量的时间、人力和资源,收集、标注与整理都是耗费精力的工作。
其次,语料库的样本选择可能存在偏见,不同领域、不同文体的样本数量可能不均衡。
再次,由于语料库的数据量庞大,如何从中提取有用的信息并进行合理的分析也是一个挑战。
综上所述,在语言学以及其他学科领域具有重要意义。
通过,我们可以了解语言的实际使用情况,揭示语言的规律和特点,更好地理解语言的本质。
《道德经》汉英平行语料库的建设及其应用
《道德经》汉英平行语料库的建设及其应用作者:张丽娟来源:《北方文学》2018年第36期摘要:本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库软件的检索方法,定量分析两个英译本的类形符比、平均句长,词汇密度等方面的不同,为《道德经》的英译研究提供新的解释和描述视角。
关键词:《道德经》;语料库;创建和应用随着计算机技术和翻译研究的不断发展和深入,语料库不断应用到翻译的各个方面。
这些研究主要分为两类,一是基于语料库的翻译研究,一是翻译语料库的介绍与创建。
本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库的研究方法,定量分析两个英译本的译者风格,为《道德经》的英译研究提供新的解释和描述视角。
一、《道德经》英译研究综述老子是道家的创始人,他的思想对中国哲学的发展影响深刻,所著《老子》又称《道德经》,全书五千多字,共81章,前37章卷上为《道经》,后44章卷下为《德经》。
它是中国历史上第一步具有完整体系的哲学著作,老子的《道德经》全球发行量和翻译语言的数量都仅次于《圣经》。
《道德经》早在公元7世纪唐朝就由玄奘翻译成梵文(张文莉,2017),世传《道德经》英译最早是在1868年由传教士湛约翰翻译的,姚达兑(2017)发现更早的英译手稿在1859年由裨治文翻译,而第一个中国人自己翻译的《老子道德经》是在1936年胡子霖完成的(吴心海,2012),截止2010年《道德经》西译本达到643种,英译本有200种(张文莉,2017)。
河南社科院副研究员丁巍(2004)在《老学典籍考:二千五百年来世界老学文献总目》中,将二千五百年来的中外老学典籍文献汇聚成总括性专题书目。
《总目》共5编102万字,内收中国语言系2048个文种、东方语言系503个文种、西方语言系618个文种以及老学论文4297篇。
中外语言类期刊英文摘要中的话语标记语研究
中外语言类期刊英文摘要中的话语标记语研究作者:叶晓玲来源:《读与写·教育教学版》2018年第06期摘要:话语标记以关联理论为基础,是当代语用学研究的重要课题。
基于自建的国内语言类核心期刊英文摘要(子库1)的语料库与国际语言类核心期刊英文摘要语料库(子库2),基于王立非的话语标记语分类对比研究两个语料库中话语标记语的使用特点和规律。
研究发现,子库1中的附加性话语标记语明显多于子库2,而子库2中的对等性话语标记与要多于子库1。
关键词:话语标记英文摘要语言类期刊中图分类号:H319 文献标识码:A 文章编号:1672-1578(2018)06-0012-011 引言作为学术论文的重要组成部分,摘要对于传递文本信息具有至关重要的作用。
随着学术信息爆炸式的增长和学术圈内竞争的加剧,摘要还具有宣传促销正文的作用(Hyland2005)[1]。
本研究基于自建国内语言类核心期刊英文摘要的语料库与国外语言类核心期刊英文摘要语料库,探讨中国语言学论文作者的英文摘要中话语标记语的使用情况,并且与英语本族语作者的英文摘要语料进行比较。
文献显示,不少国内外学者都对书面语和口语的话语标记语作过研究。
其中,书面语的话语标记语的研究主要集中于:新闻语篇、文学作品学生英文写作三个主题,但至今未见有关英文摘要中话语标记语的研究报道。
本文尝试调查中国语言学类、计算机类核心期刊英文摘要的话语标记语的使用特点,并与国外同类核心期刊英文摘要对比,分析不同类型摘要的话语标记的使用特点,以期为国内学者撰写英文摘要提供启示。
2 话语标记语的界定和分类2.1 话语标记语的定义何自然、冉永平(1999)认为,话语标记语传递的不是命题意义或语义意义,不构成话语的语义内容,而只是为话语理解提供信息标记,从而对话语理解起引导作用的程序性意。
本研究中的话语标记语指书面语中出现的用于衔接语篇、传达语篇信息、引导话语理解的标记词、短语或小句。
2.2 话语标记语的分类有对话语标记语研究的出发点和侧重点不同,各学者对于对于话语标记语的分类也不尽相同。
华人《道德经》中英平行语料库的构建分析
华人《 道德经》 英译研 究以及 国 内翻译语料库创 建的现状 , 本研 究采取 以译 者为 中心 的视 角 , 从语料 库类型 、 规 模以及语料搜 集加 工等方面规 划 了华人 的《 道德经》 中英平行语料库 , 并指 出了构建 中所存在 的问题。 关键词 : 华人 ; 《 道德 经》 ; 英译 ; 语料 库
Hale Waihona Puke 化交 流 的升 级 与 凝 缩 。2 0 0 2年 7月 , 文化 部 原
部长 孙家 正 首次 指 出 : “ 要 以更 加 开放 的姿 态 融人 国际社会 ……实 施 ‘ 走 出去 ’ 战 略 … …大力 传播 当
代 中 国文 化 … …” , [ 2 1 随 后 党 的十 六 大 报 告 强 调 : “ 实施 ‘ 走出去 ’ 战略 ……文 化 建 设 要 立 足 于改 革
照版) ” , 五洲传播 出版社 出版 了中国文化系列 , 黄
山书社 出版 了“ 中 国红 ・ 汉英对照” 系列 , 新 世界 出
版 社 出版 了 “ 中 国文 学 ” 丛书, 外语 教学 与研 究 出
基金项 目: 河南 省哲 学社 会科 学规 划项 目( 2 0 1 6 B Y Y 0 1 6 ) 作者简介 : 温军超( 1 9 7 9 -) , 男, 河南西平人 , 许 昌学 院外 国语学院讲师 , 硕士。
却不多 , 而且基于语料库 的研究更是少见。有鉴 于此 , 本文在对华人《 道德经》 英译语料库创建必 要性进行梳理的同时 , 参考国内的相关研究 , 尝试 创建 国内第一个华人《 道德经》 中英平行语料库 ,
并分 析创 建过 程 中遇 到的 困难 和挑 战。
一
、
华 人《 道德经 》 英 译语 料库创 建 的必 要性
美英报刊英语标注语料库建设研究_郑志恒
2007年第2期总第102期外语研究Fo reig n Language s Research2007,№2Serial№102美英报刊英语标注语料库建设研究郑志恒(国际关系学院,江苏南京210039)摘 要:本文介绍了国外新闻英语语料库的研究现状,并着重探讨美英报刊英语标注语料库的建设原则和涉及的语料库理论、新闻学和统计学理论。
本文指出语料库建设并非是语料的堆砌,只有建立在相应理论的基础上并通过科学的统计方法建成的语料库才具有研究价值。
同时,本文初步探讨了报刊英语语料库的实际应用。
关键词:报刊英语;语料库;标识;索引中图分类号:H087 文献标识码:A 文章编号:1005-7242(2007)02-0032-071.引言最早的语料库是20世纪60年代初夸克(Randolph Quirk)等通过“Survey of English Usage”创建的现代英语语料库。
著名的《英语语法大全》(A Comprehensi ve Grammar o f the English Language,Longman1985)就建筑在这个语料库的基础之上,对英语语言学界产生了深远影响。
80年代之后,语料库语言学成为一门新兴语言学分支学科,在语言教学、二语习得、方言学、句法和语义、音系学、翻译研究和个人自主学习等方面开辟了广阔的发展前景。
改革开放后,计算机软硬件技术不断提高,国外引进的图书馆资源日益丰富。
充分发掘学术资源,采用计算机软件进行半自动化信息处理和人工干预校正的模式,自行创建一个适合个人研究需要的中型语料库已成为可能。
本文以笔者自行创建的100万词次的美英报刊英语标注语料库(N ewspaper English Corpus,N EC)为基础,探讨语料库建设中的理论应用、合理方法和具体步骤。
2.自建语料库的原因及意义2.1研究用途和目的不同英语报刊是杜撰新词的巨大工厂和消费新词的庞大机器(端木义万2000),其语言紧跟时代发展潮流,比较充分地反应了现代英语语言的发展特征和趋势。
中英句子对齐双语语料库建设——技术报告
“中英句子对齐双语语料库建设”技术报告中科院自动化研究所模式识别国家重点实验室北京1000801研究目标和内容本课题的研究目标是:对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工,建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。
具体研究内容包括:●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,并进行必要的预处理。
●参照都柏林核元数据元素集制订了双语语料文本标注规范,在973标准讨论会上进行讨论通过。
●大规模文本句子对齐方法:面向多领域多体裁,采用基于双语词典的句子对齐方法进行了文本对齐,并对如何提高对齐精度做了进一步的研究和探讨。
●自动评价:对双语文本句子对齐结果实现自动评价。
目前完成的句子对齐双语语料库可以有以下几方面的应用:➢作为重要的语言资源,为基于统计的各种双语语言建模、分析提供必要的训练数据。
➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。
2相关研究现状国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究。
加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。
有关汉外双语语料库建设及其研究,香港科技大学收集和加工了香港立法委员会的会议记录,形成汉英双语语料库[3]。
此外,北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。
但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究。
实现各个层次的对齐是双语语料库建设的一项重要内容。
本文主要讨论汉英双语句子级对齐技术。
句子对齐方法基本可以分为三类:◆基于长度的方法:最初由Brown[1]和Gale[2]提出,其依据是两种语言译文的长度满足一定比例关系。
他们在英法双语的加拿大议会会议录上取得了较好的对齐效果;清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐,获得的试验结果。
《基于语料库的英汉词汇隐喻模式的对比研究》评介
《基于语料库的英汉词汇隐喻模式的对比研究》评介
林立峰
【期刊名称】《海外英语》
【年(卷),期】2017(000)020
【摘要】《基于语料库的英汉词汇隐喻模式的对比研究》以Metalude1隐喻知识库为模板,通过检索多个在线语料库和一些英汉词典,建立了一个英汉平行对应隐喻词汇语料库,并以该为基础开展英汉词汇隐喻的对比研究。
该书综合运用比较词源学、认知隐喻学、历时文化语义学、符号学以及语料库语言学的分析,从历时和共时两个角度重新审视和分析英汉词汇化情感隐喻的内在模式及其所反映的人类情感概念系统与人类精神文化的交互影响,为解读人类认知的复杂性提供了一个新的视角,同时也有助于概念隐喻的发展。
【总页数】2页(P205-206)
【作者】林立峰
【作者单位】福建师范大学外国语学院
【正文语种】中文
【中图分类】H05-5
【相关文献】
1.基于语料库的方位词“西”的英汉词汇隐喻对比 [J], 戴凌靓
2.英汉词汇化情感隐喻探索的新模式——评《隐喻,词源和文化:基于语料库的探索和方法论反思》 [J], 吴建平;戴光荣
3.语言实证中的英汉隐喻文化之旅——评《基于语料库的英汉词汇隐喻模式的对比研究》 [J], 戴凌靓
4.《基于语料库的英汉词汇隐喻模式的对比研究》评介 [J], 林立峰
5.《基于语料库的英汉词汇隐喻模式的对比研究》评介 [J], 林立峰
因版权原因,仅展示原文概要,查看原文内容请购买。
语料库及语料库语言学基本理论研究
语料库及语料库语言学基本理论研究郑义;张志勇【期刊名称】《辽宁教育行政学院学报》【年(卷),期】2012(029)004【摘要】The emergence of corpora brought new changes to the foreign language teaching and research. The paper presents a general picture of corpus and corpus linguistics in the expectation that corpus and corpus linguistics can be applied in the practice of foreign language teaching and research in China.%语料库的出现,为语言的教学和研究开辟了一个更加广阔的新天地。
概括地介绍语料库的基础知识和语料库语言学所涉及的主要问题,旨在希望广大教育工作者意识到语料库及语料库语言学的重要作用,并将其应用到我国的外语教学和研究中去。
【总页数】3页(P71-73)【作者】郑义;张志勇【作者单位】沈阳师范大学,辽宁沈阳110034;沈阳师范大学,辽宁沈阳110034【正文语种】中文【中图分类】H0【相关文献】1.二十一世纪语料库语言学的新发展——《语料库语言学:方法、理论与实践》评述 [J], 司艳辉;葛晓帅2.语料库与语用学研究发展新趋势r——《语料库语言学与语用学年鉴(2015)》述评 [J], 杨子3.汉语共时语料库与追踪语料库:语料库语言学的新方向 [J], 邹嘉彦;邝蔼儿;路斌;蔡永富4.语料库语言学研究的新进展——《语料库语言学研究中的三角验证方法》评介[J], 张懂;5.谈语料库语言学应用的新发展─ICAME2000年悉尼国际语料库语言学研讨会综述 [J], 何安平因版权原因,仅展示原文概要,查看原文内容请购买。
基于语情语料库的主题标签研究——以汉语国际传播主题为例
基于语情语料库的主题标签研究——以汉语国际传播主题为
例
徐港
【期刊名称】《海外英语》
【年(卷),期】2022()9
【摘要】主题标签可为人工采集和智能采集语情信息提供检索词,提高检索效率。
基于自建的小型汉语国际传播主题语料库,借助LancsBox语料分析工具,分析该主题下的高频词;结合T值计算高频词的高频搭配。
据此可得到汉语国际传播主题下的主题标签。
为了验证主题标签检索文本的准确度,可选取其中一组标签为检索词在光明网上搜集新闻语料,并创建验证语料库。
借助QUITA文本计量工具,计算两个语料库文本的h点及主题集中度。
经检验发现,两个语料库在主题集中度这一指标上没有显著差异,说明采用主题标签检索出来的新闻语篇具有很高的话题拟合性,利用主题标签进行搜索可以提高检索效率。
【总页数】4页(P96-98)
【作者】徐港
【作者单位】武汉大学文学院
【正文语种】中文
【中图分类】H109.4
【相关文献】
1.基于语料库的外宣英译策略研究--以汉语公示语的英译为例
2.基于中介语语料库的汉语单音动词研究——以制作义动词为例
3.汉语语流音变研究的新发现——“基于语篇语料库的语音标注与研究”成果简介
4.基于语料库的汉语二语习得研究——以表疑问的"几"和"多少"为例
5.基于汉语单语语料库的翻译教学探索——以BCC语料库为例
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007年第2期总第102期外语研究Fo reig n Language s Research2007,№2Serial№102美英报刊英语标注语料库建设研究郑志恒(国际关系学院,江苏南京210039)摘 要:本文介绍了国外新闻英语语料库的研究现状,并着重探讨美英报刊英语标注语料库的建设原则和涉及的语料库理论、新闻学和统计学理论。
本文指出语料库建设并非是语料的堆砌,只有建立在相应理论的基础上并通过科学的统计方法建成的语料库才具有研究价值。
同时,本文初步探讨了报刊英语语料库的实际应用。
关键词:报刊英语;语料库;标识;索引中图分类号:H087 文献标识码:A 文章编号:1005-7242(2007)02-0032-071.引言最早的语料库是20世纪60年代初夸克(Randolph Quirk)等通过“Survey of English Usage”创建的现代英语语料库。
著名的《英语语法大全》(A Comprehensi ve Grammar o f the English Language,Longman1985)就建筑在这个语料库的基础之上,对英语语言学界产生了深远影响。
80年代之后,语料库语言学成为一门新兴语言学分支学科,在语言教学、二语习得、方言学、句法和语义、音系学、翻译研究和个人自主学习等方面开辟了广阔的发展前景。
改革开放后,计算机软硬件技术不断提高,国外引进的图书馆资源日益丰富。
充分发掘学术资源,采用计算机软件进行半自动化信息处理和人工干预校正的模式,自行创建一个适合个人研究需要的中型语料库已成为可能。
本文以笔者自行创建的100万词次的美英报刊英语标注语料库(N ewspaper English Corpus,N EC)为基础,探讨语料库建设中的理论应用、合理方法和具体步骤。
2.自建语料库的原因及意义2.1研究用途和目的不同英语报刊是杜撰新词的巨大工厂和消费新词的庞大机器(端木义万2000),其语言紧跟时代发展潮流,比较充分地反应了现代英语语言的发展特征和趋势。
所以,对现代美英报刊语言进行深入研究的语料应该来自最新的报刊英语语言构建的语料库。
而现阶段已建成的具有一定规模的语料库主要是通用语料库,取材范围远远超出报刊本身,不适合作为现代报刊英语语言研究的普遍性语料。
2.2研究方法存在局限在英美等国已建成的语料库都已打上了鲜明的知识产权标签,如BNC必须用SA RA进行检索。
这类现成的语料库引擎“在分析方法、输出类型、分析范围等方面存在许多局限,因此,许多语言学问题不可能或是很难通过现成的分析软件做出答案”(Biber1998:254)。
一个完善的语料库包括电子文库和检索引擎两大部分,自建语料库可以双管齐下,满足研究要求,避免上述多种局限性。
3.国外新闻英语语料库研究现状报刊英语语料库属于新闻英语语料库的一个重要分支,是根据统计学理论、语料库语言学理论和新闻学理论,运用科学的抽样方法(Sampling),收集报刊中(不包括杂志)自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。
从其本质上讲,报刊英语语料库实际上是通过对报刊中自然语言运用的统计学抽样,以一定大小的语言样本代表报刊英语中所确定的语言运用总体。
报刊英语语料库同报刊的大型电子文档(archives)有着最本质的区别。
“在当代语言学领域,语料库不能简单理解为任意话语的集合,它是依据科学的抽样原则而选择的有限话语集,语料库要以计算机可处理的形式储存,要具有代表性,而且要最大限度地反映研究对象的特点。
”(M cEnery&Wilson2001:33)目前国外已经建成分别针对不同研究用途的若干新闻英语语料库。
3.1路透社语料库(Reuters Co rpus)路透社语料库由英国路透社在2000年开发完成,收集了1996年8月20日至1997年8月19日路透社发布的新闻文本,总容量达984兆字节,规模达2亿词次。
收录新闻语篇样本806,791篇,包含了9,822,391个自然段,11,522,874个语句。
路透社语料库采用目前国际流行的通用标记语言体系XM L(the eXtensible M ake-up Language扩展标记语言,SGM L的子集),具有扩展性、开放性、结构化、互操作性和支持多国语言的特点。
文本类型从三个方面进行赋码界定:工业码(Industry Code)、区域码(Region Code)和主题码(T opic Code)。
路透社语料库的创建为英国通讯社语言的学术研究提供了参照。
3.2北美新闻文本语料库(N orth American New s Tex t Corpus)由美国宾夕法尼亚大学语言学数据协会(Linguistic Data Consortium,LDC)的David G raff组织开发完成的北美新闻文本语料库主要应用在信息检索和语言建模两方面。
该库采用世界通用的标准化标注语SGM L 体系(Standard Generalized M ake-up Language),规模达3亿5千万词次。
库样本主要来自《洛杉矶时报》、《华盛顿邮报》和《纽约时报》3.3罗斯托克英语报刊历史语料库(Rostock H isto rical English New spape r Corpus)德国罗斯托克大学的K ristina Schneider组织开发的罗斯托克英语报刊历史语料库主要用于英语新闻业的研究,如英语报刊、新闻写作方式的历时演变。
该库样本全部来源于60家英国报纸,从1700年至2000年,以大约相隔一代人的时间30年为间隔进行等距抽样。
库的结构分布以两条小报轴线(popular line:dow n-market papers&mid-market papers)和一条大报轴线(quality line:up-market papers)为标准,每条轴线上的每个时期分布20,000词次的样本,全库规模达600,000词次。
罗斯托克英语报刊历史语料库为英语新闻语言的原型研究(prototypical study)和不同时期不同报刊语言的平行比较研究提供了可靠依据。
3.4M ETER语料库(M Easuring TEx t Reuse Corpus)英国设菲尔德大学在英国工程物理科学研究会的资助下开发了M ET ER语料库,这是一个对比语料库(Comparable Corpus),用于研究通讯社新闻文本和英文报纸新闻文本之间的微妙关系以及新闻文本再使用的过程、原则、识别法则和自动量化方法。
该项目研究的意图是希望能够将“通讯社-英文报纸”这一文本转换的特定关系进行扩展并为文本语源和解释(text derivation and paraphrase)提供一定的参照。
库样本来源于英国报联社(British Press Association,PA)和9家采用PA原始通讯稿的英国全国性报纸。
语料库分两层标注,首先标注报纸文本和PA文本的关系,然后在400篇有再使用成分的文本中针对再使用程度标注到词汇层面。
除以上纯学术研究性质的新闻语料库外,还有美国国防部高级研究规划署(DA RPA)开发的用于连续语音识别系统(Continuous Speech Recognition Sy stem)研究的《华尔街日报》口语语料库和英国剑桥大学发布的剑桥版英国口音《华尔街日报》口语语料库。
4.NEC语料库的设计原则语料库的设计是语料库建设中最关键的阶段,因为这一步直接影响到语料库的科学性、语料库的研究目的和用途以及基于语料库所进行研究的结果的准确性。
4.1语料库的规模语料库的规模分为词次(tokens)、库文本数量(number of text s)、层间样本数量(number of samples)和库样本容量(sample size)四个层次。
(Biber et al1998&Kennedy1998)各层次间比例需要合理分配,保持平衡。
总体而言,10万词次的语料库可以满足音韵学研究,形态学研究的语料库需要达到50万词次,而句法学研究则需要50万到100万词次的语料库。
(Kennedy1998)早期的Brown和Lob语料库都是100万词的容量。
“百万词级的标准语料库,由于其语料的代表性、采样的随机性和各种语体比例的合理性,迄今仍然是语言研究的重要工具。
”(杨惠中2002:30)综合考虑库规模各层次间的合理配置,NEC语料库的规模被设定为100万词次的标准语料库,该规模足以满足报刊英语研究的绝大多数需求。
在规模方面另一个需要关注的是库样本容量。
根据Biber的系统研究,容量在2000-5000词次的样本对除语篇研究外的大多数语言学研究课题都适用。
(K ennedy1998)Brow n和Lob语料库就采用了2000词次的随机抽样。
报刊文本语篇容量远远小于杂志语篇容量,所以在大多数情况下样本容量将小于2000词次。
N EC 语料库对达不到2000词次的样本采取再次抽取同一份报纸上相同分类或者相同语体的文本进行弥补,使得样本容量在2500词次左右以达到语言学研究标准。
对少数超过3000词次的大容量样本,如重要事件的特稿,由于考虑到语料库的整体精确性,NEC语料库统一采取截尾处理。
4.2语料抽样乔姆斯基指出语料库永远无法解决无尽的语言事实和有限的语料样本之间的矛盾,而语料库研究方法就是用有限的语料代表整体语言事实。
要解决这个矛盾,在确定语料库规模的基础上需要根据统计学理论进行科学抽样,使建成的语料库达到总体效度的标准。
“总体效度是指一个实验的结果能被推广到实验样本所属的更大群体(即总体)的程度。
”(Gall et al1996:184)从语料库建设方面讲就是使语料库具有充分的代表性,使容量有限的语料库语料样本可以最大程度上代表容量无限的语言运用总体。
要达到总体效度有两方面要求,一是研究样本要有足够的抽取量,以“减少样本与作为样本来源的总体之间产生不同特征的概率”(同上);二是样本的抽取要根据一定的原则,以便可以使研究结果推广到总体。
也就是说影响语料库代表性的两个重要因素无非是语料库规模和抽样过程。
4.1部分已经讨论了第一方面的要求,即语料库需要具备适合研究的足够规模。
下面讨论第二方面要求,即如何使抽样步骤更加科学有效,以保证语料库的代表性。
4.2.1抽样范围NEC语料库的语料全部从英美8家主流全国性报纸中抽取。
由于语料库的建设目的是为主流标准英美报刊语言的研究提供数据,所以采取全国发行的大报(quality new spaper,也称“宽页”[broadsheet]或严肃报纸)中的语篇语料,对于小报(popular press或tabloid)和地区性报纸将不作考虑。