中国英语学习者语料库CLEC(桂诗春杨惠中)doc资料
基于语料库近义词辨析:以动词cause和generate为例
基于语料库近义词辨析:以动词cause和generate为例展雪梅;张发祥【摘要】近义词辨析一直是英语学习的重点和难点.以近义词cause和generate 为例,通过检索它们在本族语料库BROWN和中国学习者英语语料库CLEC中的使用情况,从标准频率、类连接、词义、搭配的角度来分析它们的区别及实际用法,进而分析中国英语学习者误用的原因,并以此说明语料库检索工具对于近义词辨析具有重要的辅助作用,同时对于英语教学和英语习得也具有重要的意义.【期刊名称】《黑龙江教育学院学报》【年(卷),期】2011(000)011【总页数】4页(P148-151)【关键词】语料库;近义词;cause;genera【作者】展雪梅;张发祥【作者单位】河南科技大学外国语学院,河南洛阳 471003;河南科技大学外国语学院,河南洛阳 471003【正文语种】中文【中图分类】H314.1基于大量真实的语言材料,语料库语言学从调查信息的分布频率入手来研究语言在现实使用中的规律和模式。
词汇教学是语料资源和研究手段应用于外语教学时间最早和成果最多的一个领域,它在外语教学中占有举足轻重的地位。
英语近义词词义之间有什么细微区别、怎样使用一直是英语作为外语教学的难点。
随着语料库语言学被引进到国内,利用语料库进行英语教学研究也日益增多。
其中笔者所了解到的对词汇搭配与教学方面的研究也见诸各专业学术期刊、杂志,如:杜爱玲的《基于语料库的SEEM用法研究》、濮建忠的《英语词汇教学中的类联、搭配及词块》、王颖的《KEEP一词的语料库研究》、熊建国的《DOUBT的语料库研究及其对英语教学的一点启示》和杨贝的《中国英语学习者与本族语学生写作中HAVE用法比较》、邓耀臣的《学习者语料库与第二语言习得研究述评》、沈岚的《Corpus-based Vocabulary Planning in English Teaching 2007》等[1]。
本文运用语料库方法,分析比较cause和generate在英语为母语的语料库LOCNESS和中国英语学校者语料库(Chinese Learner English Corpus,CLEC)中的运用方法[2],以此为例来研究利用语料库对英语近义词教学的新思路和方法。
36134402
第30卷 第5期 广东海洋大学学报V ol.30 No.52010年10月 Journal of Guangdong Ocean University Oct. 2010收稿日期:2010-05-12基金项目:广东海洋大学人文社会科学研究资助项目第一作者:庄 萍,女,1965年生,本科,硕士,高级讲师,研究方向:英语语言文学与应用语言学。
基于语料库的名词单复数失误研究庄 萍(广东海洋大学 外国语学院,外国语言与教学研究所,广东 湛江 524088)摘 要:利用中国学习者英语语料库,结合定量和定性研究方法,对中国英语学习者作文里英语名词单复数失误的现象进行了研究,发现:1)学习者的母语干扰是造成名词单复数失误的主要原因;2)中国学习者名词单复数失误最多的是名词复数形式使用不足;3)名词单复数失误与学习者英语水平相关主要表现在:低水平学习者使用失误的名词多数为常用的简单的名词,水平较高的学习者使用失误的名词多数是较复杂的抽象或物质名词。
并探讨了基于语料库的研究对英语教学所带来的启示。
关键词:语料库;名词的数;错误分析;语言迁移中图分类号:H319 文献标志码:A 文章编号:1673-9159(2010)05-0076-07A Corpus-based Study on the Errors of Number of English NounsZHUANG Ping(Faculty of Foreign Languages ,Foreign Language and Teaching Research Institute ,Guangdong Ocean University, Zhanjiang 524025,China )Abstract: This paper is a corpus-based study on the errors of number of English nouns committed by Chinese English learners in writing. It makes use of the Chinese Learner English Corpus (CLEC) and adopts both the qualitative and quantitative methods.Based on the results of the error analysis ,this study mainly finds out: 1) most errors of number of English nouns committed by Chinese learners are attributable to mother tongue interference; 2) most errors of noun number committed by Chinese learners are the errors of underuse of the plural markers due to L1 transfer; 3) the errors do have something to do with the English proficiency of the Chinese learners: the nouns with number errors used by ST2 and ST4 students are mostly simple nouns ; while the nouns with number errors used by ST6 students are difficult abstract or material nouns. In conclusion, some suggestions concerning the pedagogical implications of corpus-based study to English teaching in China are made. Key words : corpus; number of nouns; error analysis; language transfer很多研究者利用语料库对学习者的错误进行分析研究。
错误分析和对比分析
6
究中作为一种研究方法而创建的一个术语。
语言之间的一致性和分歧性,特别 是分歧性。为了说明问题,对比分 析有时也要涉及辞源和语言的某些 历史演变。
about us
Constrastive analysis is based on the following four assumptions:
1.second language learning二语 学习
the weak version
emphasizes the
only recognizes the
prediction
of
significance
of
difficulties
in
interference across
learning a second
languages and tries
language.(预测)
意义:一套严密的
局限性:学习者的困
方法和程序-深入
难和难点是多元的;
了解语言,应用于
对理论上的批评:心
语言教学,加强针
理学-不能预测的自然
对性-负迁移;一
条件下.语言学-忽视语
种语言的分析方法:
言的创造性,只能表
观察和分析学习语
层的对比;对难度等
言系统的良好起点。
级和偏误预测的批评。
Second method
1.Identifying overt and covert errors(显性和隐性的 误差) 2.Providing interpretations and constructing wellformed sentences in the target language.
3.Providing pairs of ill-formed orInappropriate sentences and reconstructed well-formed sentences inthe target languagefor comparison.
基于语料库的中国英语专业学习者冠词使用错误分析
基于语料库的中国英语专业学习者冠词使用错误分析[摘要]英语冠词是英语中出现频率最高的虚词,因此,能否正确掌握冠词的使用是判断二语学习者英语水平的关键指标之一。
从已有的研究发现来看,中国英语专业学习者与其他二语学习者一样,在英语冠词系统的习得中面临很大的困难。
造成这一现象的原因有三种:一是英语与汉语的区别,二是冠词本身的复杂语义及用法,三是学习者自身素质的差别。
[关键词]语料库冠词误用分析[中图分类号]h314.2[文献标识码]a[文章编号]2095-3437(2012)01-0092-02本文是以:“中国英语学习者英语语料库”(clec——收集了包括中学(st2)、大学英语4级(st3)和6级(st4)、英语专业低年级(st5)和高年级(st6)在内的5种cll的语料一百多万词,并对言语失误进行标注。
)以及其子语料库st5和st6为数据来源,通过语境共现的索引形式kwic (key words in context),对国内一些大学英语专业学生(st5,st6)英语冠词误用情况进行一系列地分类、标注、检索、分析和讨论。
采用的检索软件为antconc3.2.0beta2,该软件易于操作并且功能强大,适合普通的用户使用。
在“中国英语学习者英语语料库”(clec)以其子语料库st3, st4, st5, st6中,中国英语专业学习者对三类冠词的使用频率大致相同。
从使用频率看来,无论是非英语专业学习者还是英语专业学习者,对定冠词the的使用频率最高,其次是不定冠词a,最后是an。
接下来是鉴定clec中学生犯的冠词错误。
当前的研究将会采用clec中的错误标签(error tag),鉴别clec中的冠词误用。
在clec 中有关冠词的言语失误的分类有七种:ad3(副词), aj3(形容词短语), np1(名词形式), np2(固定词组), np6(数), np7(冠词), wd4(缺少), wd5(冗余)。
进过一系列的手工挑选和三位英语母语者核实确认后,检索结果如下表。
中国EFL学习者对thus的使用情况分析
中国EFL学习者对thus的使用情况分析【摘要】Thus 虽然词形简单,但由于其具有多种意义和用法,且同义词居多,常使得中国EFL学习者对之使用望而却步。
本研究利用中国学习者语料库(CLEC)分析中国EFL学习者对thus一词的使用情况,并与操母语者的语料库(Brown)进行对比,以期发现两者之间的异同,解释造成此种使用特点的原因,并据此探究中国二语习得课堂的高效教学模态,以期向中国的英语教学提供一些可供参考的建议。
【关键词】THUS;中国EFL学习者;对比分析;语料库0 引言随着语料库的蓬勃兴起,特别是桂诗春、杨惠中(2003)建立起中国英语学习者语料库以来,国内已有不少研究者通过对比分析二语习得者的语料和本族语者的语料来探究我国学生英语中介语的习得状况,其中有不少是对英语高频词的对比研究。
例如杨贝(2002),刘学敏(2005),张萍、周敏(2007),韩瑞娟(2011)。
此外,还有一些是专门针对高频词so的研究,例如李晓玲(2005),张宁(2006),宋京生(2007),雷春仪(2008)。
但纵观国内基于语料库的相关词汇研究,我们发现thus的使用情况却没有引起相关学者的注意。
笔者在进行大学英语写作助教的工作中发现,很多学生对thus一词的使用感到困扰,或者根本就不会去用thus,而是用其多种同义词取而代之,例如therefore、so、hence等。
那么,中国EFL学习者对thus一词的使用情况究竟如何是本文需要探讨的地方。
本研究主要基于中国学习者语料库(CLEC)来分析中国EFL学习者对thus一词的使用情况,并通过英语本族语者语料库(Brown)进行对比分析,找出两者之间的使用差异,阐述造成这种差异的可能性原因以及基于此对中国英语二语教学提出一些可供参考的意见。
1 研究方法1.1 研究对象本文研究主要以中国英语学习者语料CLEC(Chinese learner English Corpus)中的ST2、ST3、ST4、ST5和ST6五个子语料库为研究对象。
基于语料库的中国英语学习者写作中的指称照应使用研究
基于语料库的中国英语学习者写作中的指称照应使用研究作者:杨子建来源:《科学与财富》2020年第32期摘要:指称照应,作为语篇中一种重要的衔接手段,对语篇的衔接和连贯有着不可置疑的作用。
本文以CLEC中的三个子语料,即中学生语料,大学非英语专业一二年级和三四年级语料为研究对象。
基于语料库的科学准确的分析方法,对中学生,大学非英语专业的学生在英语写作中指称照应的使用情况进行分析,通过分析发现,中国英语学习者过多的使用人称指称照应,第一和第二人称使用最多,三个水平的英语学习者在使用指称照应的情况上几乎一致。
关键词:照应;衔接手段;写作;语料库分析本文以中国英语学习者高中生和大学非英语专业一到四年级学生作为研究对象,基于语料库的科学客观理性的分析方法,对研究对象写作中的指称照应使用情况进行分析并研究中国英语学习者在写作中指称照应的运用特点。
以高年级非英语专业的大学生使用指称照应衔接手段的情况和低年级的,非英语专业的大学生和中学生指称照应衔接手段使用情况进行对比,分析他们之间使用指称照应衔接手段的不同之处,以发现指称照应衔接手段在写作衔接中所起的作用。
一、指称照应的界定和分类1.概念界定根据韩礼德,衔接是一种谋篇意义,是非结构性成分体现的跨句意义联系[1]。
韩礼德将衔接手段分为照应、替代、省略、连接、词汇衔接手段。
照应作为衔接手段的一种,对语篇的语义连贯和衔接起着巨大的作用。
在语篇中,如果对于一个词语的解释不能从词语本身获得,而必须参照另一个词语,这就产生了照应关系。
[2]韩礼德和哈桑将指称照应分为外指和内指,外指是由情景指称发展而来,内指则是由语篇指称发展而来。
内指又可以分为回指和下指。
外指照应是指语篇中某个成分的参照点,不在语篇本身内部,而需要到情景语境中去寻找,情景语境给受话者提供可识别和理解的外指照应所指对象,因此,外指指称并不具备语篇衔接功能。
内指照应是语言成分的参照点存在于语篇上下文;只有内指照应发挥语篇衔接的作用。
英语语料库建设及应用研究:现状与趋势
英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。
这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。
20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。
经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。
这种研究方法需要大量收集某种语言中的语句,组成一个语料库。
(整理)言语失误标注 原1
翻译语料的言语失误标注原则鉴于目前国内的学习者语料库如杨惠中老师和桂诗春老师(CLEC),SWECL(Spoken and written English of Chinese Learners), 大学英语口语语料库(卫乃兴)等所用的标准均为error-tagging system. 为了保持统一和可对比性,便于以后对我国不同类型的英语学习者的语料进行对比,故我们决定采用统一体系,然后在一些不同之处作说明。
CLEC的标注体系“采取两级分类,第一级是大类,每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等”这个赋码相对简单合理,易于系统操作。
由于错误标注是手工操作,参与标注的人比较多,如果分类表过于繁复,就难于掌握,届时标注的准确性和连贯性皆难以得到确保。
因此,在实际操作层面,可操作性在很大程度上确定了标注的准确性和统一连关性,也是学习者语料库建库成败的关键。
语语料库标注的一大问题(Hunston, 2003)。
不仅是一如何其他的标注方式如扬达复老师提出的从五个纬度标注,此外,一些错误的类型难以判断,特别是一种错误引起另一种错误,或者错误的本身可以从不同的层面上进行界定,在这种情况下,统一遵循学习者预料的客观性。
作为学习者语料,这是进行中介与对比研究的基础,标注是一项必不可少、又费时费力的浩大工程。
这是进行对比分析的依据,同时也对中介语研究的关键步骤。
同时为了确保标注的正确性和统一性,除对标标注小组成员进行培训,熟悉赋码,还定期会面,讨论标注过程中出现的一些问题,这些讨论一方面有助于统一对某些错误的认识,同时也有助于市的一些分析变得更加深入和丰富。
句子之间的标注以衔接词和连词为主,另一在现有的格式上好操作的标注体现在叙述性人称代词的使用,如。
其他语言层面的标注没有进行,语篇标注的其他层面,如语用角度的言语行为等。
语料库语言学与中国外语教学_桂诗春
2010年11月November 2010第33卷第4期Vol.33No.4现代外语(季刊)Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成[编者按]为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。
期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。
以下是根据专家发言,整理后的主要内容。
[中图分类号]H319[文献标识码]A[文章编号]1003-6105(2010)04-0419-08语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春1.语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。
但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。
究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown.Flob ,BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。
在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。
我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。
首先是数学和统计学。
Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook ofMathematical Linguistics ),当时还是前计算机时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language inmass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。
桂诗春著作列表
桂诗春著作列表 超星图书馆网站上找到 2010 年 9 月 13 日星期一搜索方式: 找到与 (作者 桂诗春 相关的中文图书 31 种,用时 0.006 秒 当前为第 1 页 作者=桂诗春 作者 桂诗春) 相关的中文图书 用时《基于语料库的英语语言学语体分析》作者:桂诗春著 页数:124 出版日期:2009.12 简介:著名应用语言学家桂诗春教授集多年语言学教学与研究之经验, 在本书中 以“使用语料库和语料库过程来发现那些帮助我们弄懂语言怎样建立语篇的方 式的语言型式”为主要目的,深入地分析了面向语言学和应用语言学教学的“英 语语言学语料库”。
研究通过 100 万词的语言学样本归纳出其语言特征, 供我国 英语教师和研究生阅读语言学著作和撰写语言学论文作参考。
并附有光盘,包 含词频排列表、词频... 分类: 分类 全部->语言、文字->常用外国语《桂诗春英语教育自选集》作者:桂诗春著 页数:462 出版日期:2007 主题词:英语-语言教学-文集 分类: 分类 全部->语言、文字->常用外国语《桂诗春自选集》作者:桂诗春著 页数:399 出版日期:2006 简介:本书为作家自选,将代表其应用语言学研究领域最高水平的、有代表性的 学术论文结集出版。
主题词:应用语言学-文集 分类: 分类 全部->语言、文字->语言学《实验心理语言学纲要:语言的感知、理解与产生》作者:桂诗春编著 页数:383 出版日期:2001.05 分类: 分类 全部->语言、文字->语言学《应用语言学研究》作者:桂诗春著 页数:353 出版日期:2000 简介:本书收入作者 1970 年~1980 年所写的论文 23 篇, 研究的内容分为三类: 应用语言学、心理语言学和语言测试。
主题词:应用语言学 应用语言学 分类: 分类 全部->语言、文字->语言学《新编心理语言学》作者:桂诗春编著 页数:679 出版日期:2000 简介:本书内容包括:绪论、语言的生物和生理基础、语言的心理机制、第一语 言习得、言语听辨、心理词汇、意义表征、句子理解、语篇理解、言语产生、 语言和思维、“认知”假设。
iWriteBaby中国学习者英语语料库的创建
iWriteBaby 语料库由北京外国语大学许家金总体设计,并完成相关的语料整 理校对工作。语料库建设的全过程得到北京外研在线数字科技有限公司、汇智明 德(北京)教育科技有限公司的资金和技术支持。语料库的整体设计得到梁茂成 教授的指导。
3. iWriteBaby 语料库在线检索平台
目前的单机版语料库软件已很难处理 800 万词规模的 iWriteBaby 语料库。因 此, 我 们 将 该 语 料 库 部 署 在“ 语 料 云 ” 在 线 平 台()。 该 云 平 台 可 以 实 现 WordSmith、AntConc、BFSU PowerConc 等 单 机 版 语 料 库 工 具的相应功能,例如词表、索引分析、搭配等。语料云是在大数据时代 BFSU PowerConc 的网络实现(许家金、贾云龙 2013;许家WriteBaby 语料库为 iWriteBaby 1.0 版。其中包含学习者英语作文 52,855 篇,计 8,299,066 词次(单词定义为 [a-zA-Z0-9-]+)。库中作文来自全国 69 所高校(其中重点大学与普通高校比例约为 1: 10)。它们来自全国 23 个省市自治 区,48 个不同的城市。这些学生分布在 154 个不同的学科专业。入库的作文题目 超过 1,000 个。
通过语料云的“工具”菜单找到“词表生成”,就可以创建 iWriteBaby 语料库 的词频表。图 1 中显示的是 iWriteBaby 中最常用的词汇。在词表结果中显示的库容 量为 8,293,751 词,与前文我们提供的总词数略有差别。这与该系统与我们的单词 定义不同有关。若使用该云平台,则库容信息及其他相应频数都应统一以系统提 供的数据为准。
CLEC中国英语学习者语料库
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
文献综述CLEC
2004年1.英语常用词搭配使用的对比:以health为例本文以单词health为例,使用语料库方法,探讨中国学习者对常用词的掌握深度,观察学习者对该词的使用特点对比库:BROWN语料库。
检索软件:Wordsmith2.中国英语学习者习得英语冠词的规律性初探——一项基于中国学习者英语语料库的研究英语冠词的构成较简单,但一直是中国英语学习者的难点。
文章试图从中国高中英语学习者产生的真实语料中探究其过渡语中英语冠词的规律性,从而寻找中国学习者学习英语冠词感到困难的原因所在。
无对照库3. 基于语料库的EFFECT搭配行为对比研究本文基于语料库研究,对中国学习者英语语料库和英语本族语语料库中常用词effect在其类联接内的搭配行为作对比分析。
对比库:LOB 检索软件:Micro Concord、TACT, WORDSMITH4. 中国学习者英语口语语料库与英语口语能力研究5. 中介语对比分析法及其对词汇教学的启示本文以adapt为实例探讨了基于语料库的中介语对比分析法的优越性及其对词汇教学的启示。
对比库:LOB/CCED6.中国英语专业学生使用频率副词的特点文秋芳、丁言仁本次研究试图探究中国英语专业学生在口语和笔语中使用频率副词的特点。
对比:BNC英语国家语料库检索:wordsmith7.用语料库方法对情态动词进行的对比研究本文通过对中国英语学习者语料库(CLEC)和英国国家语料库(BNC)以及国际英语学习者语料库(ICLE)中相关子语料库中情态动词分布频率的分析,结果表明中国英语学习者在掌握情态动词的用法时存在认识不足,使用过多的现象,并指出今后教学中应该注意的问题。
检索:wordsmith8.以语料库为基础的中国学习者英语失误分析的认知模型桂诗春本文根据CLEC(ChineseLearnerEnglishCorpus)对中国学习者英语失误分析提出一个认知模型。
模型建筑于MacWhinney的竞争模型和Skehan的语言学习认知观,提出把失误分为三个层面:在单词层面上的词汇感知失误(如拼写)、在词际层面上词汇语法失误(如替代)和在句子层面上的句法失误(如句子片断和结构缺陷),并使用实证性因子分析来检验。
基于 COCA、 BNC 和 CLEC 语料库辨析同义词--以learn与study为例
基于 COCA、 BNC 和 CLEC 语料库辨析同义词--以learn与study为例杨惠丽【摘要】正确运用英语词汇,尤其是同义词是学生英语学习的一个难点,而基于语料库进行教学方法的研究是语言教学的一个新趋势。
基于美国当代英语语料库( COCA)、英国国家语料库( BNC)、中国英语学习者语料库( CLEC)三个语料库从语域、类连接和搭配三个方面对动词同义词learn和study进行辨析,可以发现这learn与study在类连接、搭配方面存在明显差异,而在语域的运用方面差别不明显。
learn与study在不同语料库中存在语域方面的差异,而在类连接与动词搭配方面无显著性差异。
%The correct use of English vocabulary , especially a synonym is one of the students'difficulties in English learning , while the teaching methods research based on corpus is a new trend of language teaching .This paper, based on the Contemporary English Corpus (COCA), the British National Corpus (BNC), and Chinese Learners of English Corpus (CLEC), aims to analyze verb synonyms “learn” and“study” from registers, colliga-tion structures and collocation features , and finds that the two words have obvious differences in colligation struc-tures and collocation features , while little difference in registers .However , the usages of these two words in regis-ters have differences among these three corpora , while no significant differences in colligation structures and verb collocation.【期刊名称】《洛阳师范学院学报》【年(卷),期】2015(000)007【总页数】5页(P112-116)【关键词】语料库;同义词;learn;study;辨析【作者】杨惠丽【作者单位】郑州大学外语学院,河南郑州450001【正文语种】中文【中图分类】H313.2英语学习过程中,词汇知识在听、说、读写中都起着很关键的作用。
中国英语学习者语料库CLEC(桂诗春杨惠中)
中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计1070602言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
基于CLEC语料库的中国学习者错误分析
、
错 误分 析理 论
通过检索 ,此语 料库 共有 3 6 3个 词汇错 误 ,包括 词序
错误分析于 2 0世纪 6 0年代作为应用 语言学 的一个分 支发展起来 。差错分析理论通过分析学 习者在语 言使用 中 犯的错误 , 对其语言 学 习过程 中的难点进 行 科学预 测 。在 学科课时分配 中, 英语课程 学的课 时一般 比较紧张 , 为 了应 对平时的考核 , 有些 学校 放弃 开展英语 课程的实践教 学 ; 在
2 0 1 3年 8 月
湖 北 科 技 学 院 学 报
J o u r n a l o fHu b e i Un i v e r s i t y o fS c i e n c e a n d T
Vo 1 . 3 3, No . 8 Au g . 2 01 3
中的主导地位不太关注学生如何学的问题学生英语三教师可向学生传授检索软件如wordsmith程教学中创新潜能发挥的机会很少或者仅仅是进行简单用方法的英语课程学习训练阻碍了学习者创新能力的提高学生对语料库的作文进行检索分析作文中的错误类型和极性主动性受挫长此以往也使得学习热情大减
第3 3卷 第 8 期
中国英 语学 习者 英语 语料 库 ( C h i n e s e L e a r n e r E n g l i s h
“ 能够做 到” 等行 为动词 , 并 使用诸 如 “ 至少 完成 多少 次什 么动作” 、 “ 准确判 断率达 到 9 5 %” 等 的指标 予 以量 化。在
一
一
1 . 中 国学 习者英 语语 料 库 (C L E C ) ,S T 3子 语 料库 。 抽取 以 P r a c t i c e Ma k e s P e f r e c t 为题 目3 8 0篇 四级考 试作 文
言语失误标注 原1
翻译语料的言语失误标注原则鉴于目前国内的学习者语料库如杨惠中老师和桂诗春老师(CLEC),SWECL(Spoken and written English of Chinese Learners), 大学英语口语语料库(卫乃兴)等所用的标准均为error-tagging system. 为了保持统一和可对比性,便于以后对我国不同类型的英语学习者的语料进行对比,故我们决定采用统一体系,然后在一些不同之处作说明。
CLEC的标注体系“采取两级分类,第一级是大类,每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等”这个赋码相对简单合理,易于系统操作。
由于错误标注是手工操作,参与标注的人比较多,如果分类表过于繁复,就难于掌握,届时标注的准确性和连贯性皆难以得到确保。
因此,在实际操作层面,可操作性在很大程度上确定了标注的准确性和统一连关性,也是学习者语料库建库成败的关键。
语语料库标注的一大问题(Hunston, 2003)。
不仅是一如何其他的标注方式如扬达复老师提出的从五个纬度标注,此外,一些错误的类型难以判断,特别是一种错误引起另一种错误,或者错误的本身可以从不同的层面上进行界定,在这种情况下,统一遵循学习者预料的客观性。
作为学习者语料,这是进行中介与对比研究的基础,标注是一项必不可少、又费时费力的浩大工程。
这是进行对比分析的依据,同时也对中介语研究的关键步骤。
同时为了确保标注的正确性和统一性,除对标标注小组成员进行培训,熟悉赋码,还定期会面,讨论标注过程中出现的一些问题,这些讨论一方面有助于统一对某些错误的认识,同时也有助于市的一些分析变得更加深入和丰富。
句子之间的标注以衔接词和连词为主,另一在现有的格式上好操作的标注体现在叙述性人称代词的使用,如。
其他语言层面的标注没有进行,语篇标注的其他层面,如语用角度的言语行为等。
基于语料库语块习得模式论文
基于语料库的语块习得模式研究【摘要】语块是约定俗成的复合物,普遍存在于英语习得过程中,掌握大量的语块有助于提高英语写作水平。
在现代教学资源中,语料库在教学中的作用日益显现。
本文从语块的内涵出发,论述其对大学英语写作教学的作用,探讨基于语料库的语块习得模式。
【关键词】语料库语块习得写作教学引言语块习得的研究近年来受到二语写作研究的普遍关注。
altenberg发现,大约70%的日常口语都是由预制的语块组成的。
lewis(1993)认为,词汇是语言的基础,提倡在课堂上直接教授预制语块。
语料库语言学研究认为,那些出现频率高,不同程度词汇化的词串构成英语中基本的语言单位。
在传统英语教学中学生没有机会接触大量正在使用的英语表达方式,同时也没有大量自然真实的语言环境。
语料库的出现,可以给我们呈现词语搭配使用的频率和词语使用的语境。
我国在语块领域研究起步较晚,但近几年也取得了一定的成就。
杨玉晨、李红叶等学者探讨了语块的语用功能与分类及语块教学的优势,一致认为应用语块教学能够提高语言输出选词的地道度和流利度。
在英语学习的五项基本技能听、说、读、写、译中,写作是许多学生的弱项。
因此,研究基于语料库的语块习得对大学英语写作教学具有重要意义。
本文从语块的内涵出发,论述其对大学英语写作教学的作用,并探讨基于语料库的语块习得模式。
一、基于语料库的语块含义及分类基于语料库的语块最早是由becker (1975)和bolinger(1976)于上个世纪70 年代中期率先提出的。
wray(1999)也指出词块是“一串预制的连贯或不连贯的词或其他意义单位,它整体存储在记忆中,使用时直接提取,无需语法生成和分析”。
语块是英语中一种特殊的多词词汇现象,介于传统的语法和词汇之间,通常是固定或半固定、模式化了的块状结构。
就名称而言,英语中共有40 多种不同术语表示语块这一概念。
例如:词块(lexical chunks)、预制短语(prefabricated phrases)、词汇短语(lexical phrases)、等程式语( formulaic sequences)、板块(chunks)等等。
基于CLEC语料库对中国大学生介词错误的认知语义分析
本 研究 以介 词 a t , o n , i n为例 , 从 4个子 语 料 库 中提 取 出所 有这 三 个介 词 出错 的句 子 , C L E C 中介 词 错
的一 个基 本认 知原 则 , 也是 语言 组织 概念 内容 的一 个基 本认 知原 则 。 语 言学 家 L e o n a r d T a l m y最先将 图形 一背景 理论 引入 认知语 言 学研 究 当 中 , T a l my( 2 0 0 0 a _ 2 J , b ) 在其 专著 T o w a r d s a C o g n i t i v e S e m a n t i c s中把 图形 和 背景定 义 为 : 图形 是 一个 移动 的或 概念 上可 移 动 的实 体 , 它 的 路径 、 位 置或 方 向被认 为是 一个 变量 , 相关 的问题 就是 这个 变量 的具 体 的值 ; 背 景是 一个 参照 实体 , 它有 一个
分析 , 并 阐释 中 国大 学 生在介 词使 用上 出错 的原 因 。
2 语料来源 、 检 索工具及研 究方法
本 研究 采用 中国英语 学 习者语 料库 ( C L E C) , 该 语 料 库 收集 了包 括 中学 生 、 大 学 英语 四级 和六 级 、 专 业 英 语低 年级 和 高年 级在 内的 5种 学生 的语 料一 百 多 万词 , 并 对 言 语 失误 进 行 了标 注 。本研 究 从 C L E C中选
的 原 因进 行 深入 解释 。最 后 , 针 对 大学英 语 介词教 学 , 笔者 从认 知语 义 角度提 出 了一些 建议 。
l 图形 一背 景 理 论
U n g e r e r 和S c h mi d( 1 9 9 6 ) … 指 出 了认 知语 言 学研 究 语 言 的三 个 主要 路 径 : 语 言 的经 验 观 ( e x p e r i e n t i a l v i e w) 、 突 显观 ( p r o mi n e n c e v i e w ) 和注 意观 ( a t t e n t i o n a l v i e w ) , 其 中突显 观认 为 , 语言 结构 中信 息 的选择 和安 排
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国英语学习者语料库C L E C(桂诗春杨惠中)中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
言语失误分类表(总数:61)标注说明标准化处理后的各种失误频数及其比例失误类型 st2st3st3st4 st5 总计 百分比(%)fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9 111.4 274.3 278.5 42.9 86.1 793.2 1.33 np1 46.9 33.5 28.9 16.8 10.7 136.8 0.23 np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np835 65.4 47.9 13.4 7.4 169.1 0.28np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12 Sn5 9.5 14.6 17.4 2.5 4.9 48.9 0.08 Sn6 84.3 41.3 39.7 41.2 1.6 208.1 0.35 Sn7 49.3 55.9 63.6 23.5 3.3 195.6 0.33 Sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 5.25 Sn9 861.7 573.6 337.2 649.5 322.9 2744.94.6 总计 14105.2 16160.6 13935.9 8883.4 6633.8 59718.9100中国学习者最常见的言语失误类型st2 st3 st4 st5 st6 总计百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1 wd3 1102 1634.7 1815 757.1 359.8 5668.6fm3 1474.4 731.8 405.8 694.1 174.6 3480.7sn8 1103.6 446.3 862.1 493.2 231.9 3137.1sn9 861.7 573.6 337.2 649.5 322.9 2744.9wd4 585.6 829.8 443.8 403.3 427 2689.5wd2 324.6 929.6 772.8 226.9 242.6 2496.5vp6 1165.7 356 311.6 379.8 215.6 2428.7vp3 374 524.6 785.2 273.1 327 2283.9np6 374 654.4 481 358.8 354.1 2222.3wd5 410.6 613.1 518.2 265.5 171.3 1978.7fm2 349.3 448.9 438.9 226.9 328.7 1792.7sn1 419.3 596.8 576.9 118.5 42.6 1754.1wd7 261.8 430.8 261.2 228.6 209.8 1392.2vp1 259.4 325.9 498.4 103.4 200.8 1387.9sn2 424.9 389.6 303.3 132.8 76.2 1326.8cc3 168.7 514.2 417.4 75.6 112.3 1288.2np3 202.1 247.7 249.6 210.9 186 1096.3vp9 111.4 274.3 278.5 42.9 86.1 793.2np7 237.9 107.5 89.3 174.8 54.9 664.4pr1 82 236.5 205 89.9 18.9 632.3从上表可看出,1.词形的3种失误(拼写、构词、大小写)均在其中,而拼写更是居榜首,占失误中的17.47%。
3种失误合并共占20.57%。
2.词汇失误7种中有5种(替代、缺少、词类、冗余、歧义),占失误中的23.81%。
3.句法失误9种中有4种(结构缺陷、标点符号、不断句、片段),占失误中的15.01%。