基于语篇的中介语语料库回指偏误标注研究
基于语料库的中美英语新闻语篇立场标记语研究开题报告
基于语料库的中美英语新闻语篇立场标记语研究开题报告一、研究背景随着社交媒体和网络技术的不断发展,新闻信息的传播速度越来越快。
中美英语新闻的异质性和差异性逐渐凸显,其语言特点和立场表达方式也日益复杂。
在这种背景下,如何有效地理解和分析中美英语新闻中的语篇立场,成为了一个重要的问题。
语篇立场标记(stance markers)是用于表达说话者或作者的态度、情感、观点、偏见或政治取向的语言现象。
在新闻领域,语篇立场标记的研究具有实际应用和理论价值。
了解新闻语篇中的立场标记,可以帮助我们更准确地理解新闻事件的内涵,更好地进行新闻媒体的选择和评价。
二、研究目的和意义本研究旨在探讨中美英语新闻语篇中的立场标记,并对其进行分类和分析。
通过语料库的收集和语料分析的方法,选取中美英语新闻样本,结合文本分析和计量分析的方法,探究新闻语篇中的立场标记在中美英语语境中的异同和差异,以及其在新闻报道中的功能和意义。
本研究的意义如下:1. 为实现更好的新闻报道和媒体评价提供理论和方法支持。
2. 为加深中美英语语言和文化之间的交流和合作提供参考。
3. 为学术研究提供范例和启示,有助于深入理解语言学和跨文化交际领域的相关问题。
三、研究内容和方法本研究的主要内容和方法如下:1. 收集中美英语新闻语料,并对其进行预处理和整理。
2. 对新闻语料中的立场标记进行识别和分类。
3. 分析和比较不同语境中的立场标记使用情况和类型分布。
4. 探讨立场标记在新闻报道中的功能和表达意义。
5. 采用文本分析和计量分析的方法,对语料数据进行统计和图表展示。
四、研究预期结果1. 本研究将对中美英语语境中的立场标记进行全面的探究和分类,揭示出立场标记在不同语境下的功能和表达意义。
2. 通过对语料数据的分析和挖掘,本研究将为新闻媒体的选择和评价提供更为准确和全面的依据。
3. 本研究可以为学术研究提供范例和启示,为深入理解语言学和跨文化交际领域的相关问题提供参考。
基于语料库的新课标后中学英语教师课堂反馈语研究——中外课堂实例对比
2021年41期总第585期ENGLISH ON CAMPUS【摘要】《义务教育英语课程标准(2011年版)》强调学习外语的过程是一个积极主动的学习过程,运用多种学习策略发展语言、思维、交流合作等能力,关注学生情感和个性差异以人为本。
《普通高中英语课程标准(2017年版2020年修订)》也提出要着力发展核心素养,使学生具有理想信念、社会责任感、科学文化素养、终身学习能力、自主发展能力和沟通合作能力的培养目标。
本文借助华南师范大学外国语言文化学院英语教育教学语料库(CEEC)平台,通过分类、统计、对比和分析中外各10节英语课堂实例中的教师课堂反馈用语,发现国内教师与国外对比存在很多亮点与不足,希望能在此基础上对国内的EFL英语教师如何在课堂上实施反馈提供借鉴。
【关键词】教师课堂反馈;课程标准;国内外对比【作者简介】吴浚彦,广东技术师范学院。
一、引言Nunan认为,教师话语在课堂组织和习得过程中至关重要。
教师课堂反馈作为教师话语的一个组成部分,近年来受到了热烈的讨论。
西方对教师课堂反馈有很多研究,国内这方面的研究却很少。
此外,随着《义务教育英语课程标准(2011年版)》和《普通高中英语课程标准(2017年版2020年修订)》的发布,学生的情感、学习策略、自主发展能力和沟通合作能力在课堂上得到了强调,其中教师的反馈非常重要。
为了研究我国新课标实施后教师课堂反馈的特点,本文对国内外的15类英语课堂教师反馈用语进行了比较研究,初步探讨了新课标实施后我国教师反馈用语的特点,旨在研究国内外教师反馈用语的异同,国内教师反馈用语体现的教学策略,激发学生的兴趣,促进学习,尤其是学习策略和自主能力发展的有效性。
二、文献综述反馈是听者对信息的接收和理解所提供的信息的通用术语。
教师反馈一般可分为积极反馈和消极反馈,两者均有多种形式。
1.积极反馈。
积极反馈是指教师在学生做出反应后给予表扬,如“good”或“right”。
由于本文研究语言反馈而非语言信号,如点头或微笑不在讨论范围内。
对外汉语偏误汇总
对外汉语偏误汇总对外汉语偏误分析的综述随着汉语的国际地位的提升和学习人数的增多,汉语作为第二语言的学习,学习者在习得过程中,出现偏误现象,影响着教学和语用效果,本文主要从近几十年的对外汉语教学中的语音语调、汉字、语法(词法、句法)三个方面对偏误现象研究和分析进行梳理,做一下总结。
英国应用语言学家科德(S.P.Coeder)在1967年首先提出失误(mistake)和偏误(error)两种类型。
者对目的语的掌握情况和实际的语言能力,因此在研究中具有重要的意义。
偏误分析(Error Analysis)EA) 和第二语言习得(Second Language Acquisition)SLA) 研究是以1967 年Corder 论文TheSignificanee of Learner.s Errors 的发表为标志的。
1972 年,Selinker 提出/中介语理论,为深入研究/偏误和习得奠定了理论基础。
在中国,1984 年鲁健骥的5中介语理论与外国人学习汉语的语音偏误分析6的发表,标志着对外汉语教学界研究这一领域的开始。
一、语音语调的偏误分析(一) 双音节词偏误分析夏晴《韩国留学生学习普通话时二字组及其在语流中的声调偏误分析》(2006)在其论文中则侧重在语流中探讨韩国留学生的两字调偏误。
最后得出结论:韩国留学生在汉语声调的学习中,四声的习得情况最好,一声和二声其次,三声情况最为严重。
侯晓虹、李彦春《初级汉语水平韩国留学生汉语双音节词声调的发音规律研究》(2006)以巧名初级汉语水平的韩国留学生为对象,调查了他们在16种双音节词语组合模式的发音过程中声调的偏误问题。
并根据不同声调组合的不同难度情况,提出了相应的声调发音训练的对策。
董倩倩《日本留学生轻声声调习得偏误初探》(2012)指出:“轻声双音节词前字被误读成阴平的偏误所占比例最大。
并从音调和音高两方面分析了原因。
(二)调域调型偏误分析罗音《俄罗斯人学习汉语语音偏误分析》(2007)从静态声调和动态声调分析俄罗斯留学生汉语声调习得,指出俄罗斯留学生学习汉语语音时产生的偏误大部分是由于母语负迁移导致的。
语料库标注说明
语料库标注说明“HSK动态作⽂语料库”语料标注及代码说明“HSK动态作⽂语料库”从字、词、句、篇、标点符号等⾓度,对所收⼊的作⽂语料中存在的外国⼈使⽤汉语的中介语偏误进⾏全⾯标注。
1 、字处理(包括标点符号)[C]:错字标记,⽤于标⽰考⽣写的不成字的字。
⽤[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,⽤于标⽰把甲字写成⼄字的情况。
别字包括同⾳的、不同⾳⽽只是形似的、既不同⾳也不形似但成字的等等。
把别字移⾄[B]中B的后⾯,并在[B]前填写正确的字。
例如:提[B题]⾼、考虑[B虎]。
[L]:漏字标记,⽤于标⽰作⽂中应有⽽没有的字。
⽤[L]表⽰漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表⽰“悔”在原⽂中是漏掉的字。
农[L]药,表⽰“农”在原⽂中是漏掉的字。
[D]:多字标记,⽤于标⽰作⽂中不应出现⽽出现的字。
把多余的字移⾄[D]中D的后⾯。
例如:我的[D的],表⽰括号中的“的”是多余的字(原⽂中写了两个“的”)。
[F]:繁体字标记,⽤于标⽰繁体字。
把繁体字移⾄[F]中F的后⾯,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标⽰的是使⽤正确的繁体字,如果该繁体字同时⼜是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,⽤于标⽰异体字。
把异体字移⾄[Y]中Y的后⾯,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼⾳字标记,⽤于标⽰以汉语拼⾳代替汉字的情况。
把拼⾳字移⾄[P]中P的后⾯,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:⽆法识别的字的标记,⽤于标⽰⽆法识别的字。
每个不可识别的字⽤⼀个[#]表⽰。
例如:更[#][#]保存⾃⼰的⽣命,……[BC]:错误标点标记,⽤于标⽰使⽤错误的标点符号。
偏误分析周小兵
偏误分析周小兵第三讲偏误分析传统的偏误分析(error analysis)是跟对比分析联系在一起的,可服务于教学。
如,通过偏误分析来排列教学顺序,弥补教材的不足等。
做法是收集常见错误并进行分类,但没有心理学理论的指导。
随着学习研究的深入,人们发现偏误不仅跟母语干扰有关,还跟目的语规则泛化相连。
它还成为中介语研究、习得顺序研究中重要的组成部分。
一、偏误分析的程序以下以语法偏误研究为例,讨论偏误分析具体步骤。
,一,语料收集与选择偏误应是学习者的真实语料(书面/口头)。
偏误收集,可分为开放式和聚焦式两类。
1(开放式语料收集指没有具体目标的偏误收集。
研究者可随时随地收集各类偏误。
来源可以是各类作业,谈话,翻译文本,翻译影视节目等。
收集过程中要进行筛选工作,挑选出最有价值的偏误点。
2(聚焦式语料收集指确定偏误点之后的语料收集。
语料收集可分为两大类4小类。
(1)横向(cross-sectional)与纵向(longitude-sectional) 横向指研究者收集学习者某一特定阶段出现的偏误。
纵向指研究者收集学习者较长时间出现的偏误。
横向、纵向两种方法各有千秋。
横向方法虽然是短时间的,但可以收集较多学习者的偏误。
纵向方法虽然是长时间的,但只能收集较少学习者的偏误。
(2)自然与非自然自然法指通过谈话或作文来收集偏误。
非自然法指通过语法练习和测试来收集偏误。
前者(尤其是自由谈话)收集的语料比较自然、真实;学习者更关注表达内容,偏误频率比较高。
后者收集的语料不够自然、真实;学习者更关注表达形式,偏误频率没有那么高。
但研究者最想要的某一类或某几类偏误,在自然法收集的语料中比例不高;而在专门设计的语法练习、测试中却比较多。
非自然语料的收集有许多做法。
陈珺、周小兵(2005)为考察留学生使用度量差比句和“不比”句的情况,设计了以下两类试题:A类:请用每一题中的词组成一个完整的句子:1,分钟他我比三快B类:请用括号中的词完成下面的句子:2,甲:你要是没钱用~就先拿去用吧。
暨南大学中介语语料库X间偏误汇总
“之间”偏误汇总【6】:我的国家是欧州和亚州{[之间]}的? {【中下】【土耳其】} (混用,在…之间)【8】:土耳其在ou州和亚州{[之间]}的一个乔,如果不算底中海的话还是算在三州之间的很重要的地方所以土耳其的风竟美丽极了。
{【本三】【土耳其】} (混用,是…中间)【9】:土耳其是欧州和亚州{[之间]}。
{【本三】【土耳其】} (混用,在…之间)【13】:可是{[之间]}还发生过一些事情,两位姐姐嫁了,母亲肯定很高兴,遗憾我不在! {【华教本二A】【马达加斯加】} (中间)【38】:还有大学四年{[之间]},差不多获得了免学费。
{【中上】【日本】} (期间)【39】:那三年{[之间]},我的意识一直向着练习打排球,有的课上课时也不上了。
{【中级】【日本】} (期间)【40】:我寒假{[之间]}在日本一直打工了。
{【中级】【日本】} (期间)【41】:你们都知道,寒假{[之间]}有圣dan节和元旦。
{【中级】【日本】}(中间)【46】:我女友打算黄金周{[之间]}来到广州呆一个星期。
{【中下】【日本】}(期间)【62】:朋友{[之间]}有一位是中国人,我和她比较亲切。
{【中上】【柬埔寨】}(中间)【73】:我们也可以说,对她来说幸福就是饮食和家庭而不是男女感情{[之间]}。
{【华教本二B】【越南】} (错序)【94】:一年{[之间]}我学到不少知识,此外我还了解自己处理问题。
{【华教本二B】【老挝】} (中间/期间)【95】:我希望在四年{[之间]}我汉语水平更高,更进步。
{【华教本二B】【老挝】}(中间/期间)【105】:我不喜欢不公平,因为我们都是一样的人,为什么要无道理而分明是哪种人,和受到不同的对待,不管那是什么理由,什么关系{[之间]},我都难以接受。
{【华教本一B】【老挝】}(冗余)【121】:而且在学习{[之间]},学到了不少的新知识,让我很开心的学习,甚至给我将来的打算有所现实。
中介语假说与偏误分析-包包-2016
关系
• 偏误分析的理论基础是中介语理论, 偏误分析语言学习理论是从中介语假说的 基础上发展而来的。偏误分析是第二语言 习得中不可缺少的研究领域,它的研究成 果对我们认识中介语、理解语言习得的过 程起着重要作用,同时对语言教学实践也 有深远意义
偏 误 的 来 源 (一)
• 关于偏误分析已有大量的研究,偏误的来源是多方面的,这 里主要述说几个重要的来源:
1.语际迁移(interlingual transfer)即本族语知识向
第二语言迁移。如果继而学习其他语言,那么第一、第二语 言也会有不同程度的迁移。例如:一老师教的三年级美国学 生(已学过450学时的中文)在学习《早春二月》时,因母 语干扰而出现下列病句: (1)*萧先生是一位陌生的青年,又文嫂不要他看她和房间。 (2)*萧建秋和李先生是同学们和朋友们。 (3)*明天我要请她 一次。 (4)*萧建秋爱陶岚,但他要结婚文嫂。 (5)*文嫂的两个孩子是什么姓? (6)*文嫂的态度对萧建秋好不好? (7)*萧建秋从陶慕侃知道了李先生的不幸。 (8)*我们美国人开玩笑这样的人。
偏 误 的 来 源(四)
• (3)求助于权威
• 第二语言学习者遇到困难就求助于操母语的人,或查 词典。经常说how do you say——”。学英语的中国学 生常在表达一个比较成熟的观点时,因为不会用句法, 词汇量不够而梗咽。如:Allooduce me to introduce myself and tell you some of the···”翻字典,接着说: “some of the headlights of my past.”
hsk动态作文语料库偏误标注方法研究
hsk动态作文语料库偏误标注方法研究汉语言文学研究中的偏误标注方法有一百多种,对汉语来说,对应关系是主要标注形式,它对单字的标注起着至关重要的作用。
对一些特殊偏误进行细化也能够帮助我们更好地去理解和掌握。
本论文以“ hsk动态作文语料库”为例进行偏误分析,以增加偏误分析的真实性。
首先介绍偏误标注的原则,然后对偏误标注的方法、原则和过程进行阐述,最后提出对未来发展的建议。
在选择“ hsk动态作文语料库”时,因为该语料库包含中英文各类话题和体裁,数量大且覆盖面广,语料信息全面。
作为对汉语的研究具有一定代表性。
本文对一篇“ hsk动态作文语料库”中的中文部分进行了偏误标注,并将它们分为8个大类,详细分析了它们之间的联系和区别。
从标注的效果看,每一类都包含5条偏误,由此可见,对其他的类也进行分析很有必要。
在选词方面,这篇作文包括了对现代汉语中使用频率较高的大部分词语的标注,这对于今后汉语中词汇量的扩充和语言文字规范的实施有积极的促进作用。
1.选词原则(1)词汇要真实可靠。
在标注时,我们所收集到的都是各种规范书籍中出现的、真实存在的词汇,这样既保证了汉语的规范,又减少了对语料的依赖。
(2)词语所反映的意义要准确,这是偏误标注的根本。
(3)词语的搭配关系要合理。
这种合理不仅仅是对某一语句或者整个语段的合理,而是指整个语段内的合理。
(4)在使用新词汇时要考虑到其接受度,如果新词汇在理解上比较困难,那么它在使用上就会受到限制。
2.切词原则( 1)切词要符合汉语习惯。
切词主要是指对词语在各种语境下使用时的差异进行分析。
( 2)在对不同语境下的词语进行切词时,要结合相应的语境,尤其是对成语进行切词时,要考虑到成语在不同语境下的用法差异,这样才能保证切词正确。
(3)切词还需要考虑到词语之间的搭配关系。
只有把词语和短语的搭配情况弄清楚了,才能保证词语选择得恰当。
(4)在对词语的切词时,要考虑到词语的级别。
如果词语属于常用词汇,那么就要选择常用的词语;如果词语属于比较罕见的词汇,那么就要选择一些比较难理解的词语。
(整理)言语失误标注 原1
翻译语料的言语失误标注原则鉴于目前国内的学习者语料库如杨惠中老师和桂诗春老师(CLEC),SWECL(Spoken and written English of Chinese Learners), 大学英语口语语料库(卫乃兴)等所用的标准均为error-tagging system. 为了保持统一和可对比性,便于以后对我国不同类型的英语学习者的语料进行对比,故我们决定采用统一体系,然后在一些不同之处作说明。
CLEC的标注体系“采取两级分类,第一级是大类,每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等”这个赋码相对简单合理,易于系统操作。
由于错误标注是手工操作,参与标注的人比较多,如果分类表过于繁复,就难于掌握,届时标注的准确性和连贯性皆难以得到确保。
因此,在实际操作层面,可操作性在很大程度上确定了标注的准确性和统一连关性,也是学习者语料库建库成败的关键。
语语料库标注的一大问题(Hunston, 2003)。
不仅是一如何其他的标注方式如扬达复老师提出的从五个纬度标注,此外,一些错误的类型难以判断,特别是一种错误引起另一种错误,或者错误的本身可以从不同的层面上进行界定,在这种情况下,统一遵循学习者预料的客观性。
作为学习者语料,这是进行中介与对比研究的基础,标注是一项必不可少、又费时费力的浩大工程。
这是进行对比分析的依据,同时也对中介语研究的关键步骤。
同时为了确保标注的正确性和统一性,除对标标注小组成员进行培训,熟悉赋码,还定期会面,讨论标注过程中出现的一些问题,这些讨论一方面有助于统一对某些错误的认识,同时也有助于市的一些分析变得更加深入和丰富。
句子之间的标注以衔接词和连词为主,另一在现有的格式上好操作的标注体现在叙述性人称代词的使用,如。
其他语言层面的标注没有进行,语篇标注的其他层面,如语用角度的言语行为等。
如何利用语料库语言学方法研究学习者错误
法等方 面出现的偏离 目标语 结构
的错误 , 语篇层 面则 是上升 到了 篇章语 言学 的层次 , 主要是 针对
达到有代 表性这个 标准 ,在建设 语 料库 的时候 ,要 对需要研 究 的 对象有个 全局性 的认识 ,只有 当 研 究 中 所 使 用 的语 料 库 有 代 表
代表性 。如果在 建设语料 库 的时 候本身 考虑偏颇 , 那 么通 过对该 语料库 所代表语 言 、语 言变体或 文类 的研究 , 就 无法推广 到整个
衔 接 连 贯 方 面 出现 的 问 题 。
意义 。而在 另 一些研究 者看来 , 语料库语 言学并非语 言学的又一 个分 支学科 , 在更 大的程度上 只 是 一种研 究方法 , 这种方法 基于 大鼙 的真 实语 言, 得 出科学 的数 据统计结 果 , 可以 回答通过其 他 途径很难 回答的 问题 , 从 而丰富 和补充 了已有 的研究 方法 。 语 学 的研究对象 是人类 的 语言 , 而在 人类语言 中存 在着各 种各 样的变体 , 作为语言 的母语
理 沦 的 建 设 具 有 无 可 比拟 的 创 新
论型 的语 言学家 和实 证型 的语 言
学家 之间的合作应该 是双赢 的结
果。
本体层面是 指单词拼写 , 标点符 号错误等 , 本文层 面主要是本论
文研究 的词 汇错 误 , 以及语 义 , 句
语料 库语 言学研究 的是语料 库 的建设 、 标注、 评估 。L e m n i t z e r
基于中介语语料库的汉语意义被动句偏误分析
基于中介语语料库的汉语意义被动句偏误分析本文基于HSK动态作文语料库,通过数据统计、偏误分析、对比分析等方法,考察留学生意义被动句使用的偏误现象及成因,并提出相应的教学对策。
标签:中介语语料库意义被动句偏误分析一、引言意义被动句又称无标记被动句或受事主语句,它是汉语中一类较特殊的句式,这类句子的主语是受事,表示被动意义,但却不用被动标记。
意义被动句因没有特殊的语法形式标记,而语义上又可能存在多重含义,所以一向是外国留学生的学习难点,同时也是对外汉语中的教学难点。
意义被动句的研究多集中在本体研究中,如:李珠(1989)、王灿龙(1998)、邵桂珍(2001)、赵焕改(2007)等。
应用研究方面,吴门吉、周小兵(2005)和吕文华(2013)比较了意义被动句和“被”字句的习得难度,提出教学构想。
戴雨萍(2013)则考察了留学生意义被动句的习得情况。
本文主要采用北京语言大学研制的“HSK动态作文语料库”作为研究语料,对来自印尼、马来西亚、新加坡等15个国家的留学生的意义被动句的偏误进行考察。
笔者通过对语料库中的错篇进行抽样检索,检索A类文章25篇,B类文章50篇,C类文章50篇,共检索到意义被动句句例110条,其中偏误例句共有43条,偏误率达39.1%。
二、留学生意义被动句的使用偏误(一)不同等级留学生意义被动句的使用偏误根据HSK动态作文语料库留学生汉语水平的证书等级,笔者将语料进行分类,考察不同等级的汉语学习者意义被动句的使用偏误,详见表1:由上表可以看出,不同水平的留学生意义被动句使用的偏误情况很不一样。
A等级的学生偏误率是30.0%,而B等级、C等级的学生的偏误率均在40%以上,差距非常大。
可见,汉语水平越低,留学生意义被动句使用的偏误率就越高,并且在学习过程中可能还存在着倒退的现象。
(二)不同作文分数留学生意义被动句的使用偏误证书等级反映的是留学生汉语的综合水平,而作文分数反映的是留学生对书面语的组织能力。
回避与泛化_基于_HSK动态作文语料库_的_把_字句习得考察
回避与泛化
*
— — — 基于 “HSK 动态作文语料库 ” “把 ” 的 字句习得考察
张宝林
北京语言大学汉语水平考试中心
提要
“把” 本文是对外国人 字句习得情况的一个横向考察, 专门探讨参加高等汉语水平考试写作考
②
该语料库 1. 1 版已扩充至 11569 篇考生作文, 约 424 万字。
265
世界汉语教学 第 24 卷 2010 年第 2 期
表 1 “把” 字句的回避类型及其分布表
回避类型 回避类型再分类 “把” 单纯缺 “ 把” 残缺及 相关偏误 “把” 缺 及其宾语 “把” , 缺 同时有其他词语或语序错误 合计 “把” 该用 而误用其他词 “把” 误用及 相关偏误 “把” 该用 字句而误用其他句式 “把” 句子结构要求用 字句而未用 合计 数量 53 11 51 115 23 21 6 50 比例 ( % ) 46. 09 9. 56 44. 35 69. 7 46 42 12 30. 3
这一情况及这种非常生动的表达方式是赵淑作文语料库” “把” 张宝林: 回避与泛化— 的 字句习得考察
1993 ) 在这样的基础上, 确, 那么在此基础上描写的中介语就不可靠 。( 孙德坤, 我们很难对 外国人学习汉语的实际情况做出准确的判断 。这也许就是造成我们对外国人的汉语学习状 况不十分清楚, 甚至很不清楚的根本原因。 “把 ” 针对上述问题, 本文试图在较大规模的语料基础上对外国人习得 字句的情况进行 力求得出一个具有较大普遍性的结论 。 考察, “HSK 动态作文语料库” ( 1. 0 版 ) 来进行研究。 该语料库收集了自 具体说来, 本文依据 1992 年以来历年汉语水平考试高等考试中的部分作文答卷 , 共计 10740 篇、 约 400 万字②; 从字、 词、 句、 篇、 标点符号等角度对全部语料中存在的偏误进行了穷尽性标注 。 从目前来 看, 不论是语料规模, 还是标注的广度与深度, 该语料库都居于汉语中介语语料库建设的领 先地位。 一 “把” 字句的偏误类型 1. 1 “把” 字句相关数据 “HSK 动态作文语料库” ( 1. 0 版) 中按 “把” “把” 在 字检索, 共有带 字的句子 3587 句, 在 “把 ” “把 ” 语料库中分 180 页显示。考虑到 的不同词性问题, 又对 3587 个带 的句子进行了 随机抽样检查, 具体方法是每隔 5 页查看 1 页, 共查看 36 页, 即检查了 20% 的句子, 结果显 , “把” ( “把持 ” 、 “把握” ), 示:在这 20% 的句子中 作为动词语素的 2 个 作为名词语素的 3 个 (“ ), 把握” 作为量词的 9 个, 共计 14 个非把字句, 将之扩大 5 倍为 70 个, 再将 3587 个句子 “把” “错句” 字句;加上按 检索到的 461 个偏误句中的 165 个回 减去 70 个句子得到 3517 个 “把” “把” 避掉 的偏误句, 共有 字句 3682 句。 “把” “把” 在这 3682 个 字句中, 正确句 3221 句, 占 字句总数的 87. 48% ;偏误句 461 句, “把” 占 字句总数的 12. 52% 。 “把 ” “把 ” 在全部 461 个偏误句中, 该用 字句而没用, 即一般所谓回避 字句的共有 165 “把 ” “把 ” “把 ” 句, 占偏误句总数的 35. 79% 。不该用 字句却使用了 字句, 即 字句的泛化句 “把” “把 ” 有 161 句, 占偏误句总数的 34. 92% 。该用 字句, 也使用了 字句, 但句中存在其他 “把” 错误的共有 135 句, 占偏误句总数的 29. 28% , 这类问题归为 字句的其他偏误。 “把” 这样看来, 外国人习得 字句主要存在 3 种类型的偏误: 回避、 泛化、 其他偏误。 本 , “把” 文着重探讨回避与泛化问题 字句的其他偏误问题拟另文专述 。 1. 2 回避的类型 “把” “回避” “把” “把 ” 我们将 字句的 界定为:在该用 字句、 母语者一般会使用 字句的情 “把” 况下而二语者未用 字句的中介语现象。 “HSK 动态作文语料库” ( 1. 0 版 ) 的 165 个回避 “把 ” , “把 ” 在 字句的偏误句中 的残缺 ; “把 ” 及相关偏误有 115 句, 占 69. 7% , 是主要的偏误类型 的误用及相关偏误有 50 句, 占 30. 3% , 是相对次要的偏误类型。具体情况见表 1 。
基于中介语语料库的量词“位”的偏误分析
基于中介语语料库的量词“位”的偏误分析作者:姚远来源:《文教资料》2019年第20期摘 ; ;要:量词是现代汉语的一种特殊词类,量词教学在对外汉语教学中作用重大,且留学生多认为量词难学。
通过对中山大学汉字偏误标注的汉语连续性中介语语料库中使用量词“位”的数据统计,偏误类型主要有误加、误用、错用、错序、别字等。
偏误的原因包括母语负迁移、目的语知识泛化、学习策略和交际策略的影响、汉语本体复杂性等。
教师应规范课堂用语、书写规范汉字、调动课堂气氛和监督学生习得过程,促进对外汉语中量词“位”的教学。
关键词:量词 ; ;偏误类型 ; ;偏误原因引言现代汉语词类教学在对外汉语教学中意义重大,与其他语系不同,量詞是汉语中特有的一类词。
不少外国学生认为量词难学且容易出现偏误,因此对外汉语教学中对量词教学至关重要。
现代汉语词典中“位”的解释有六种,一是所处的地方:座位;二是职务的高低:地位;三是特指君主的地位:篡位;四是一个数中每个数码所占的位置:个位;五是量词,常用于人表尊重:诸位;六是姓。
根据对中山大学汉字偏误标注的汉语连续性中介语语料库(下文简称语料库)的分析,留学生大多使用“所处的地方”和“量词”这两个义项,且使用“位”做量词的数量占大多数,根据语料库数据分析留学生使用量词“位”产生的偏误,探究偏误产生原因,提供相应的教学策略。
一、偏误类型所谓量词,是指用来表示人、事物的计量单位或表示动作次数和发生时间总量的词。
黄伯荣、廖序东(1991)把量词分为名量词和动量词两大类,名量词又细分为专用名量词和借用名量词,动量词分为专用动力量词和借用动量词,“位”归在专用名量词中的个体量词里。
本文以黄伯荣、廖序东对量词的分类为依据,研究个体量词“位”在对外汉语教学中的应用。
中山大学中介语语料库收录了不同等级不同国家的留学生习得汉语时的情况,包括“字”“词”“句”等在用法、书写方面出现的偏误。
该语料库有利于分析留学生使用汉语出现的问题,更好地研究偏误现象。
关于对比分析、偏误分析及中介语三种理论的认识
关于对比分析、偏误分析及中介语三种理论的认识作者:付雅婧来源:《新教育时代》2014年第26期摘要:偏误是学习者在习得过程中当时的心理规则系统。
鲁健骥(1992)认为"偏误"是外国人在使用外语进行交际时使用的形式与所学外语的标准形式之间的差距。
这种差距表现在语音、词汇、语法、正字法、语篇及语用上。
偏误分析正是发现学习者发生偏误的规律的过程。
关键词:偏误分析 ; 对比 ; 中介语目前在对外汉语教学中教师对于外国人学习汉语的难点以及他们对病句的认识大多停留在语音、语法、词汇的语言要素的层面,由此忽视了篇章及语用层面,对于造成难点和病句的原因的分析,基本采用对比分析,将原因归于母语的负迁移。
当然只有母语干扰这一个原因还是远远不够的。
有时外国人在说汉语时,虽然语法上没有什么问题但就是让别人听起来怪怪的。
这一般是语用上出现了问题。
语音、词汇、语法、正字法如果没有出现问题我们只能说学习者在使用目的语时的形式上对了,而不能说它们是完全掌握了目的语的使用规则。
那么检测学习者是否掌握了目的语规则就需要涉及语用及篇章即语境和语用。
如果只是形式上对了却没有掌握变会出现前言不搭后语及语用上的不得体。
要判断一句话是否正确除了是否合乎语法规则还要看它在语境中是否有意义。
因此篇章和语用上的偏误也是我们对外汉语教学的重点。
在语言教学上,通过偏误分析会总结出除对比分析中总结出的母语干扰以外的其他造成偏误的原因。
这也要求我们在进行对外汉语教学时,研究外国人学习汉语的偏误的同时,既要多层面地收集学生的偏误不要只局限于语音、词汇、语法,又要多方面总结产生偏误的原因,不要只看到母语的干扰。
母语干扰是对比分析提出的造成外国人学习汉语的偏误的唯一原因,这是因为对比分析理论是通过对母语和目的语的对比来解释造成偏误的原因,这种方法只能解释属于母语干扰造成的那一类偏误,而偏误分析则能全方位、多方面地分析偏误的根源。
这也是为什么对比分析理论发展至后来出现了偏误分析理论。
第四讲 第三节 偏误分析
第三节偏误分析提问、讨论:学习第二语言时,为什么会出错?错误是由什么造成的?研究错误有意义吗?早在50年代,学习者的偏误分析就是作为语言教学研究的一部分。
但是,传统的偏误分析缺少严格的分析方法,而且缺少分析学习者语言偏误的理论框架。
直到70年代,Corder发表了一系列偏误分析的文章后,偏误分析才成为应用语言学研究领域公认的一部分。
1. 什么是偏误?偏误(Error)指的是语言学习者在语言学习过程中出现的偏离目的语规范、规则乃至用法限制的现象。
注意:把偏误和失误区分开来:失误指的是偶然产生的笔误或口误。
比如想说“甲”但临时因紧张或疏忽而说成了“乙”。
失误没有什么规律可言,即使是操本族语者也经常出现。
说话者一旦意识到了失误一般情况下都会马上自我改正,以后同样的错误也不一定再次出现。
由于这类错误不反映说话者的语言能力,所以不在偏误分析讨论的范围之内。
偏误是有规律的、经常的。
2. 什么是偏误分析?偏误分析(Error –analysis),又译为“错误分析”,指的是对偏误现象进行分类描写并展开归因研究的过程,目的在于揭示其来源,提炼学习者的中介语系统,从而了解第二语言习得的过程和规律。
早期的偏误分析主要是将常见错误搜集起来,从语言结构的角度进行归纳分类。
其目的主要是为方便教学项目的安排或课程的补习提供依据,它没有任何的理论框架,也不解释错误在第二语言获得中究竟有何作用。
因此,人们对错误既没有给予严格的定义,也没有从心理的角度来探讨其产生的原因。
到本世纪50年代,当对比分析开始盛行时,偏误分析更是受到冷落。
60年代末期,对比分析开始走下坡路,人们在第一语言获得研究的基础上开始对中介语进行研究,结果偏误分析又开始为人们所重视。
从60年代末开始,英国应用语言学家Corder发表了一系列的文章来讲偏误分析,并在80年代初出版了专著《偏误分析与中介语》。
偏误分析有助于对第二语言习得过程的了解,有助于对中介语的研究。
【国家社会科学基金】_语篇语义_基金支持热词逐年推荐_【万方软件创新助手】_20140804
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
科研热词 重复词语 语言学研究 语言处理 语料库驱动 语料库 语义序列 语义依据 话语话题 评价参数 认知取向 衔接 英语学术书评 网络系统 网络建设 结构话题 百年历史 新闻语篇 教学模式 搭配框架 指示代词 批评语篇分析 批评性阅读 句法依据 原型范畴 医学英语 功能表现 传记英语 中国语言学 《马氏文通》
科研热词 推荐指数 语法化 4 虚拟 4 群言体 4 网络语言 4 篇章构式 4 构式语义 4 写实 4 元话语 4 "v/a不死p" 3 通用型汉语中介语语料库 1 语篇功能 1 语篇 1 语料标注模式 1 语料库语言学 1 被动语态 1 目标 1 界面研究 1 界面 1 现状 1 漂移 1 模糊语言研究 1 意义单位 1 多界面 1 多形态短语 1 增元结构 1 变异 1 及物性假说 1 及物性 1 共选 1 介词结构 1 二语习得 1 xml 1 "v;a不死p" 1
2008年 序号 1 2 3 4 5 6 7
科研热词 语法化 话语标记 句法分布 介词短语 主观化 《金瓶梅词话》 "v来v去"
推荐指数 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5 6 7 8 9
科研热词 配价 语篇语义 语义分析 褒贬指向 范式 文脉 态度计算 元功能 义脉
推荐指数 1 1 1 1 1 1 1 1 1
2014年 序号 1 2 3 4 5
2014年 科研热词 逻辑语义关系 对等关系 伪对等关系 主从关系 rst 推荐指数 1 1 1 1 1
基于暨南大学中介语语料库的汉语存现句习得偏误分析
基于暨南大学中介语语料库的汉语存现句习得偏误分析作者:魏艳秋来源:《文教资料》2021年第02期摘要:存现句是现代汉语中比较特殊的一种句式。
第二语言学习者在学习存现句时会产生诸多困惑和偏误。
通过检索暨南大学华文学院的中介语语料库,共搜集到36条有关汉语存现句的留学生书面语偏误,类型有误加、错序、遗漏等。
为了解决留学生学习汉语存現句产生的偏误,教师在讲解存现句时可以引入“构式—语块”教学法进行教学设计。
关键词:存现句偏误分析“构式—语块”教学法1.引言存现句是指某处或某时存在、出现或消失了某人或某物的一类句式,它是中国语言学界研究的热点之一。
在理论方面,马建忠①(1898)首开先河,在“同动”中引出“有”代表“存在”;吕叔湘②(1942)第一次将存在句作为一个特定的句式。
随着近些年应用语言学的兴起,认知语言学受到学者的广泛关注,这一方向给存现句的研究提供了新的视角。
在教学实践方面,苏丹洁,陆俭明③(557-567)(2010)提出用“构式—语块”理论分析存在句。
苏丹洁④(89)(2010)基于构式—语块理论进行存现句的课堂实践,通过实践证明了“构式—语块”教学法比传统“主-谓-宾”式教学法更适合第二语言学习者。
对于汉语存现句的理论研究,前人已有详尽的论述,但在第二语言教学实践方面还需拓展和创新。
本文通过检索暨南大学中介语语料库,对留学生在写作时出现的汉语存现句偏误进行类型和原因的分析,并将“构式—语块”教学法用于汉语综合课的教学设计中,促进汉语存现句的第二语言教学研究。
2.汉语存现句习得偏误分析2.1理论依据偏误不同于错误,它是第二语言学习者因目的语掌握不好产生的普遍性问题。
偏误分析通过分析学生在二语习得中产生的偏误,进一步探究偏误产生的原因,揭示学习者的中介语体系,从而在教学中掌握主动,对症下药。
2.2偏误类型通过检索暨南大学华文学院的中介语语料库⑤,共搜集到36条有关汉语存现句的留学生书面语偏误。
汉语中介语语篇偏误分析的意义与局限
汉语中介语语篇偏误分析的意义与局限作者:和荣秋来源:《西部论丛》2019年第10期摘要:中介语和偏误分析理论是第二语言习得理论中影响比较大的两个理论。
后来的一些理论都曾受到上述两个理论的影响。
文章选取了部分有代表性的与汉语中介语语篇偏误分析有关的文章,对其内容进行了述评,并在此基础上分析了汉语中介语偏误分析的意义和局限。
关键词:汉语中介语语篇偏误分析意义局限一、偏误分析与中介语概述20世纪60年代末,由于对比分析仅仅对学习者的母语和目的语系统进行比较,忽视了对学习者的语言系统的研究,在此背景之下,“偏误分析”是第一个关注学习者语言系统的理论,并提出了对学习者语言系统进行描写和分析的系统方法,它作为一种新的分析方法取代了对比分析方法。
在这方面,Corder在60年代中后期开始,发表了一系列偏误分析的文章,偏误分析成为研究学习者习得过程的重要手段和方法,成为观察学习者系的过程的窗口。
科德对偏误分析的作用、具体步骤和分类进行了详细的阐述,对偏误分析做出了巨大贡献。
20世纪70年代,虽然偏误分析有力地推动了第二语言习得的研究,但是其作为一种分析方法有着难以回避的缺陷,在此情况下,Selinker,Corder,Nemser三位学者几乎在同一时期提出了有关中介语的相似理论。
他们三人对中介语的本质、特征进行了阐述,从根本上改变了第二语言习得研究的方向,奠定了第二语言习得研究的理论基础。
二、汉语语篇偏误分析汉语语篇偏误分析更多的得益于篇章语言学的深入研究。
陈晨[1]对留学生汉语篇章偏误进行了综述,她从语法手段、词汇手段以及连接成分三个方面对英语国家中高级水平的学习者的语篇衔接偏误类型进行了详细的统计分析。
并得出结论“面前我国对外汉语叫学界对留学生的篇章偏误研究和篇章教学的研究还刚刚起步,对如何科学、系统、有效的利用国内外相关理论分析汉语中介语的篇章偏误及对学生进行篇章教学还处在探索阶段”。
肖奚强[2] 通过研究发现初级水平的外国学生经常把该用零形式照应的地方误用为名词和代词照应,造成篇章结构松散、结构性差,高年级学生把该用名词照应的地方误用为代词或零形式照应,造成表义不明确。
中介语理论与外国人学习汉语的语音偏误分析
中介语理论与外国人学习汉语的语音偏误分析中介语理论与外国人学习汉语的语音偏误分析引言:随着中国的崛起和全球化的背景下,越来越多的外国人选择学习汉语。
然而,由于汉语与其他语言在语音、语法结构等方面存在差异,外国人在学习汉语的过程中常常会出现语音偏误。
本文将从中介语理论的角度出发,通过分析外国人学习汉语的语音偏误,探讨其产生的原因,并提出相应的解决方案,以期为汉语教学提供一些有益的参考。
一、中介语理论的基本概念中介语理论是语言学中的一个重要理论框架,它主要研究母语与目标语之间的中介语阶段。
外语学习者在学习目标语时,会在不同程度上受到母语的影响,所以他们的语言表达会在某些方面出现偏误。
中介语理论认为,这些偏误并不是语言学习的失败,而是语言学习的正常过程。
通过研究外国人学习汉语的中介语现象,我们可以深入了解他们的语言学习特点,并对汉语教学进行相应的调整和优化。
二、外国人学习汉语的语音偏误分析1.元音偏误由于外国人的母语中的元音系统与汉语存在差异,所以在学习汉语的元音发音时常常出现偏误。
比如,在汉语中没有英语中的/θ/、/ð/等音素,所以外国学生在发音时容易将这些音素替代,导致发音不准确。
2.轻声偏误汉语的轻声是指在某些情况下声调不明显的现象,而外国人的母语中往往没有类似的语音特点,所以在学习汉语的轻声时容易出现偏误。
外国学生常常会把汉语的轻声读成浊音,影响语音的准确性。
3.声调偏误汉语是一种声调语言,而很多外国语言并不是。
因此,外国人在学习汉语的声调时常常会出现偏误。
比如,英语中的重音与汉语的声调不同,导致外国学生在汉语的声调使用上出现问题。
三、外国人学习汉语语音偏误产生的原因1.母语影响外国人学习汉语时往往会受到自己母语的影响,将母语中的语音特点带入到汉语学习中,导致语音偏误的产生。
2.缺乏汉语语音训练由于汉语语音与其他语言存在较大的差异,而一些外国人在学习汉语时缺乏系统的语音训练,所以导致他们在汉语的语音学习中出现偏误。
HSK动态作文语料库中留学生习得“的”偏误研究
1 HSK动态作文语料库中助词“的”的偏误 类型
鲁健骥先生是研究对外汉语教学中留学生偏误 问题的第 一 人,他 把 偏 误 分 成 四 种 类 型:误 加 (添 加)、遗漏、替代 (误 代 )和 错 序,本 文 也 采 用 这 种 分 法。以语料库为基础展开研究,在按词查询的前提 下,语料库把出现错误的所有情况分为三类:错词、 缺词、多词,分别对应鲁健骥先生的误代、遗漏和误 加。语料库中“CC”是错词标志,“CQ”是缺词标志,
Abstract:InaccordancewiththeHSKdynamiccompositioncorpus,ittentativelydividedtheerrorsinthis paperintosuchcommoncategoriesasomission,additionandoverrepresentation.Itfoundthattextbook,the negativetransferofmothertongue,andtheovergeneralizationoftargetlanguagerulesarethekeyfactors whichresultinthestudents’mistakes.Applyingresearchresultsonontologyinteaching,changingteach ingstrategiesandscientizingteachingmaterialcompilationplayasignificantroleindiminishingforeign students’mistakesandhelpthem tomasterthestructuralauxiliarywordintheprocessoflearningChi nese. Keywords:HSKdynamiccompositioncorpus;structuralauxiliary;learning;error
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
标记的确立
在标记确立的过程中,我们参考了目前已有的、比较权威的语料库标记规范,以便提
供一个相对一致的平台,便于今后进行对比研究。 考虑到篇章偏误涉及的范围比较广泛,指称只是其中的一个方面,所以,我们借鉴 以往语料库的标注经验,将标记分为基本标记和专用标记。基本标记主要提供词类标记、 偏误类型、句法位置这些篇章标注中最基础,且最常用的标记,这些标记一般比较稳定, 作为篇章标记的基本组成元素而存在,在各种不同的篇章偏误标记中都将或多或少地被 使用;专用标记则是针对篇章偏误研究的具体情况而确立的,相对比较灵活多变,如回 指偏误的标记,针对性强。 2.1 基本标记 这一层的标记内容在具体的标注中是广泛使用的, 无论从什么角度对篇章进行分析, 都可能涉及到这些基本的信息,而且基本标记作为一个相对稳定的标记元素,与其他标 记之间有很强的结合能力,可以根据具体的研究需要对这些标记进行有效地组合。由于 篇幅所限,我们在此不列出全部的基本标记,只是列出一些与回指相关的标记。 2.1.1 词类标记 我们首先借鉴现有的标记规则,以《现代汉语语法信息词典》作为基本参照,对词 类进行标记,由于我们主要关注的是名词性成分,一般来说指称主要是名词性成分,以 及相关的代词、数量词。因此,我们主要选取了以下的标记。 名词[N]取自英语 NOUN 的第一个字母;数词[M]取自英语 NUMERALS 的第三个 字母;量词[Q]取自英语 QUANTITY 的第一个字母;代词[R]取自英语 PRONOUN 的第 ② 二个字母。 2.1.2 偏误类型 我们的偏误标记是基于客观语料而进行的,因此把偏误分为多余、缺失、错用和语 序错误这四类③,之所以采用这种分类术语,是因为我们的标注是以客观语料为基础的, 这四类偏误都是针对语料中出现的偏误情况而确立的,是从客观的角度对偏误进行的区 分。这种分类更具客观性,具体标记如下: 多余[&];缺失[+];错用[#];语序错误[%] 以上的偏误标记与语料库原始文本中字词偏误的标记一致,有利于记忆和提取。 2.1.3 句法位置 一般名词性指称多出现在主语、宾语和定语中,我们根据偏误的具体情况,把一些 偏误出现的句法位置进行了细分化,使所标记的内容更加精确。如在最初标注时把诸如 “希望、知道、明白”等后面小句的主语统一都归入“主语”之列,标为“ZY” ,但随 着研究的深入,我们觉得两者有必要区分一下,因此,就改用“zY”来标记小句宾语中 的主语;又如介词宾语,因为与一般宾语的位置不同,常常出现在动词之前,而形式上 的不同必伴有语义上的差异,因此我们增加了“PY” ,标记介词宾语。具体如下: 主语[ZY];[zY];宾语[BY];定语[DY];分别取自“主语、宾语、定语”的拼音首 字母;介词宾语 [PY]中的“P”取自英语 PREPOSITION 的第一个字母。 2.2 专用标记 专用标记是针对我们具体的研究需要而设立的,这些标记可以随时添加,但不是随 意的, 一方面尽可能地沿用基本标记中已提供的符号,另一方面要避免与已有的标记重合
3
标记的组合与标记规则的确立
3.1 指称偏误标记组合方式 标记组合原则:遵循从词或词语组合到句法位置再到篇章关系这样一个从小到大、 从具体到抽象的顺序进行标记。 组合方式分为两大类: (1)名词回指标记:这是回指偏误中数量最多,情况最复杂的一类,因此,需要比较细 致地标出相关内容,并进行有效区分,主要分为以下三个组成部分: 指称形式+偏误标记组合句法位置回指方式+语义内容 (2)情形回指和总括性回指的标记:比名词回指标记简单,不标句法位置。 指称和偏误标记组合指称方式[异形回指]+情形回指/总括性回指 3.2 标记规则 我们在反复调整之后,采用了“整体描写,凸现偏误”的标记方法。如果我们只是 关注具体的偏误,这样可以比较准确地标出偏误,也能减少很多的标注工作量,但由于 标记的范围比较小,就是名词偏误、数词偏误、量词偏误等,这些语法上的偏误,无法
0
引言
在对外汉语教学我们常常发现“学生在表达时, 常常是一些简单句式的相加, 而不 是富有逻辑关系的语段。有些学生虽然具有组词造句的能力, 但缺乏话语能力和篇章能 力,极大地影响学生交际能力的提高。”(孙瑞珍,1995)而“汉语是语段取向的语言” (曹逢甫,1998),因此我们有必要从大于句子的篇章层面对偏误进行分析。本文在对 三十万字中介语语料库中的偏误进行分析的过程中发现,回指偏误是其中出现频率比较 高的一种偏误, 虽然一些回指形式如人称代词、指代词等,在孤立的句中静态地考察的动 态变化,同一句话,从孤立的句子看可能是一种偏误,结合上下文语境,可能偏误就不 同了,有时甚至会发现原本在单句中无法发现的偏误。这也正是语篇偏误标注的难处所 在。如下例: (1)走出教一楼,右边有一条宽的道路,这条路正好贯通校园的中间,还从东门到 西门连接,这路的两边上有很多老的树,很美。 (路) 从句子层面看, “这”和“路”之间缺失了量词“条” ,当我们从语篇的角度来分析
Gao Wei Communication University of China 100024
Abstract: This paper first establishes the analytic framework for anaphoric errors’ annotation. It then divides the annotation into the basic and specialized types. Based on this, the author puts forward the combining forms of the anaphoric errors and some practical annotation rules. Key words: anaphora; errors; annotation
基于语篇的中介语语料库回指偏误标注研究
高玮
中国传媒大学 对外汉语教育学院 100024 marygao22@
①
摘要: 本文从篇章角度对中介语语料库中回指偏误进行了分类, 并在此基础上确立了基本标记和专用标记, 提出了标记组合方式和标记的规则等具体实现方法。 关键词:回指;偏误;标记
A Corpus-based Analysis of Anaphoric Errors’ Tagging in Discourse
时,发现如果没有“这” ,这段话会更加连贯,因此对偏误的认定就由“量词的缺失”变 成了“代词的多余” 。 在实际的语料中我们还发现,指称作为篇章衔接的纽带,是相互影响的,有时单看 一个句子没有问题,是完全可以接受的,但联系上下文就发现其可接受度大不相同了。 请看下例: (2)那时我真不知道怎么感谢她。因为在北京这本辞典很难找,而且……(这种) 如果只看这个句子, “这本词典”完全没问题,而问题在于从篇章整体来看,上文说 的是作者自己的《越汉辞典》丢了,朋友费了很多周折才帮“我”买到,作者是要强调 这种辞典的稀缺性,所以“很难找到” ,这里用“这种”更恰当。本文将从篇章角度探讨 中介语语料库中回指偏误的标注问题。
反映与这些偏误直接相关的各种篇章因素,难以提供统计学意义上有价值的数据,如有 些复杂组合可能只是中心语的偏误,我们如果只标出名词,就无法提供整个指称的信息。 而另一方面,如果把偏误所在的整体指称形式都标出来,又会使偏误不明显,因此,为 了凸现对偏误的标记,我们在对偏误所在的整个指称形式进行标记的基础上,还通过句 法位置、语义内容等对具体的偏误进行限定,这样就可以避免顾此而失彼的情况发生。 具体限定如下: 3.2.1 区分整体偏误和部分偏误 以下都是领属性组合的偏误,而且都标的是多余偏误,但具体情况不同,有的是整 个指称的多余,如“我妈” ,有的是定语的多余,如“我的” 。我们通过句法位置标记就 可以把偏误情况凸现出来了。这样就能有效地区分是整体偏误还是部分偏误。 (3)我来中国以后,我妈妈常常给我打电话,[LZ&-ZY-TXH][&我妈]说: “……” (4)我非常生气,对[LZ&-DY-YXH][&我的]妹妹说:…… 3.2.2 以偏误为导向确定最佳标记 有时同一个偏误,可能有多种不同的标法,我们以真实反映偏误情况为目标,来确 定我们的标记。如下面的偏误,可以标为“介词宾语” ,也可标为“定语” ,标定语就能 比较明显地知道这是定语多余的偏误,因此我们就标为“定语” 。 (5)妈妈每天都和[LZ&-DY-YXH][&我的]妹妹锻炼身体,每天都吃药。很难受。 3.2.3 偏误标记细分化 对于该用名词却用了代词,或者该用代词用了名词的错用偏误,为了与其他错用进 行区分,我们把这类替代错误以[/]标记,这样能提供一些所需的数据。一般情况下,多 为该用代词或零形式而用了名词的偏误,但是偶尔也有相反的情况如例(7) 。 (6) 孔子是怎么样的人呢?[NC/-ZY-TXH]孔子不高也不矮。 (7) 我家三口人。妈妈、弟弟和我。我的爸爸呢?我小学三年级的时候,他去世了。所 以,我特别爱[RH/-BY-YXH]她。 此外,句法位置的细分化,指称形式的细分化等也都是根据实际语料而确定的。 3.2.4 细分化与简化相结合 由于与指称相关的内容很多,可标注的信息也多,如果我们全都标出来,将是一个 庞大且复杂的标记体系,而过分简单就不能全面、真实地描述语篇偏误的复杂状况。因 此,我们综合考虑了各种因素,对标记的内容进行了多次整合,选取最有说服力的语篇 偏误信息进行标注,在细分的同时进行相应地简化,如前面句法位置部分和标记组合中 的细分与简化相结合的做法,使标记具有科学性和合理性,力求为研究提供真实有效的 数据支持。 3.2.5 规范性与开放性结合 我们在建立标注集的过程中,参考了目前已有的语料标注规范, 同时结合我们研究的 具体需要,尽力使基本标记和专用标记能有效地整合,以避免标记的过于庞杂、难以掌 握和辨识,使标记准确规范且容易明白和掌握。同时,我们的标记集还具有开放性特征, 特别是专用标记,可以根据标记过程中出现的新情况,随时添加,两种标记的划分既是 为了规范标注体系,也是为了方便标记的这种动态调整。
或冲突。 2.2.1 指称形式 首先,有必要将“词”和“词语组合”进行区分: 词语[C]取自“词”的第一个拼音字母;词语组合[Z]取自“组”的第一个拼音字母。 然后,将这些标记与所属的词类相结合,形成各种指称表达式的标记: 名词[NC];人称代词[RH];指示代词[RC];其他代词组合[RZ];代量名组合[RQZ]; 数量名组合[MQZ];领属性组合[LZ]。 2.2.2 回指方式标记 回指方式分为: (1)同指回指分为:同形回指[TX]分别取自“同形”的第一个拼音字母; 异形回指[YX]分别取自 “异形” 的第一个拼音字母。 (2)联想回指[LX]分别取自“联想”的第一个拼音字母。 2.2.3 回指范围的区分和语义内容的标记 指称形式虽然是以词或词语组合的方式呈现的,但是指称的范围有时并非只限于简 单的名词性成分的回指,因此我们有必要对回指范围进行不同层次的区分,并对其中使 用率最高的名词性回指进行语义上的区分。 我们按照回指的范围,主要分为三个层次: (1)词语或词语组合回指,按照语义内容可分为以下四种: 人称[H]取自“HUMAN”的第一个字母;时间[T]取自“TIME”的第一个字母;地 点[S]取自“SPACE ”的第一个字母;事物[M]取自“MATTER”的第一个字母,除以上各 类之外的名词。 (2)情形回指[Q]取自“情”的第一个拼音字母,多为前面描述的情形或状况,回指的 可能是动宾结构、小句或句子组合。 (3)总括性回指[Z]取自“总”的第一个拼音字母,总括上文所叙述的内容,可能是多 句组合,也可能是成段的内容,或是前面所有的叙述。