语料库语言学与中国外语教学_桂诗春
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010年11月November 2010
第33卷第4期Vol.33No.4
现代外语(季刊)
Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学
桂诗春
冯志伟杨惠中何安平卫乃兴李文中梁茂成
[编者按]
为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东
外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。
[中图分类号]H319
[文献标识码]A
[文章编号]1003-6105(2010)04-0419-08
语料库语言学的发展前景与资源共享
广东外语外贸大学
桂诗春
1.语料库语言学的发展前景
语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown.
Flob ,
BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。
我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of
Mathematical Linguistics ),当时还是前计算机
时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in
mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,
Brown 的语料库在1967年才面世,美国心理
学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需
语料库语言学与中国外语教学
1.双语料库的建设
我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚才提到宾西法尼亚大学的
Linguistic Data Consortium (我建议最好翻译为“语言数据联盟”,简称LDC ),是一个很好的供语料库语言学研究者进行交流互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。重要的是,在这些语料中还包括一些标注
过的语料,如宾州树库(Penn Treebank ),布拉格依存树库(Prague Dependency Tree Bank ),命题库(PropBank ),宾州话语树库(Penn
Discourse Treebank ),修辞结构库(RSTBank )和TimeBank (我不知道TimeBank 这个名称如何翻译为中文)。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervised
machine learning )来处理那些在传统上非常复杂的自动句法剖析(automatic syntactic parsing )和自动语义分析(automatic semantic
双语语料库的建设与用途
国家教育部语言文字应用研究所
冯志伟
要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。这也牵涉到许多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。
2.资源共享问题
语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。共享的方法有
多种:一是免费提供,最典型的例子是George
Miller 领衔制作的英语大型词汇数据库Wordnet 受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。他们认为这不是一个商品,应该为公众所有。二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国Brigham Young 大学的Mark Davies 在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的
ICAME (International Computer Archive of Modern and Medieval English ),美国的LDC (The Linguistic Data Consortium ),等等。一些语料库工具,如TACT 、LEXA ,Wordcruncher ,Wordsmith 、Antconc 也都很容易在网上获取。资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。
420