国际儿童口语语料库录写系统的赋码原则初探

合集下载

语料库构建原则

语料库构建原则

语料库构建原则咱今儿就聊聊这语料库构建原则哈。

你想啊,这构建语料库可不简单呐,就好比盖房子,得有个好的规划,那原则就是这规划的一条条杠杠。

先说这第一条原则哈,得有个明确的目标。

咱得清楚为啥要构建这个语料库,是为了研究方言嘞,还是为了训练智能机器说话嘞?就好比你出门得知道自个儿要去哪儿,不能稀里糊涂的。

要是目标不明确,那收集的语料啊,就跟没头的苍蝇似的,东一榔头西一棒槌,到最后啥用也没有。

我就见过有的团队,一开始也没弄清楚自个儿到底要干啥,稀里糊涂就开始收集语料,结果收了一堆乱七八糟的东西,有的语料压根儿就对不上他们后来想要做的事儿,白忙活一场,那多闹心呐。

再说说这第二条原则,语料得丰富多样。

这就好比做菜,不能光放盐啊,得各种调料都来点,味道才丰富嘛。

咱这语料库也一样,不能光收集一种类型的语料。

比如说,你要构建一个汉语语料库,那得有古代的诗词歌赋,也得有现代的流行语;得有正式的公文文件,也得有老百姓日常唠嗑的大白话。

要是语料太单一,那这语料库就跟清汤寡水似的,没滋味儿。

我有个朋友,他们构建语料库的时候,就光盯着那些学术论文,结果搞出来的语料库啊,死板得很,一点生活气息都没有,用起来效果也不好。

还有啊,这语料的准确性也特别重要。

这就好比你走路得走正道,不能走歪路。

咱收集的语料得是准确无误的,不能有错误。

要是语料本身就错了,那拿这语料去做研究、训练啥的,那不就跟盲人骑瞎马一样,越走越偏嘛。

我就听说过有的语料库里,有些字词的标注都标错了,这可把后来用这个语料库的人给坑苦了,那真是有苦说不出啊。

另外呢,这语料库的构建还得考虑到它的可扩展性。

就好比一个人的心胸得宽广,得能装得下东西。

这语料库也得能不断地往里添加新的语料,随着时间的推移,语言也在不断地发展变化嘛,要是语料库不能扩展,那过不了多久就跟不上时代的步伐了,就成了个老古董啦。

咱构建语料库啊,就得牢牢记住这些原则,就像走路得记住回家的路一样。

不然啊,费了半天劲儿,最后搞出来个不伦不类的东西,那可就太可惜了。

英语口语课堂语码转换的若干方面思考

英语口语课堂语码转换的若干方面思考

英语口语课堂语码转换的若干方面思考实现交际意图的一种有效的交际策略,口语课堂上会采用目的语(英语)和母语(汉语)之间的语码转换,可以更好的促进学习者快速准确地掌握目的语。

目前在英语教学课堂上使用汉语的情况非常普遍,教学者进行教学和学习者学习都会时常带有中英夹杂的语言现象,社会语言学家将这种现象称为语码转换和语码混合。

我们知道,语言和思维是直接联系的,每一位外语学习者,特别是初学者,都在琢磨母语与目的语的异同。

一个人学习和掌握外语都是从小开始的。

幼儿学话的过程是和言语器官的成长,发育过程同时进行的,也是和思维方式相辅相成的。

而成人的外语学习时,他们的言语器官和思维方式已经发展成型,他们的思维和母语建立了直接和牢固的联系。

而外语的思维的联系却要把思维从一种语言的基础上转换到另一种语言的基础上,所以语码转换的转换是有外语学习的必然性的。

1 影响语码转换的因素语码转换收到交际语境,交际参与者以及交际内容的制约。

交际是指交际活动进行的时间,地点,场合等,是影响语码转换的客观因素。

在交际过程中,参与者需要根据不同的语境来选择不同的语码。

交际参与者的性别,年龄,教育水平,心理状态以及交际过程中涉及的内容等都制约着语码转换。

在具体的交际活动中,某个语码转换可能受到其中一个因素的影响,也可能同时受到三种因素的共同影响。

2 英语口语课堂上的教师语码转换及其制约因素英语口语课堂采用适量,适当的语码转换有利于教学。

当教学者遇到英语教学中的教学难点时,可找出汉语中相对应的表达法,使学习者掌握并理解所学的知识点。

下面以《朗文英语听说教程三》中的第二单元Murphy’s Law为例,对教师在英语口语课堂上的语码转换进行详细的分析。

(1)使用英汉语码转换,有助于学习者理解学习的内容。

According to Murp hy’s Law,anything thatcan go wrong will go wrong.其中的Murphy’s Law指墨菲法则。

中国学生英语口笔语语料库2.0

中国学生英语口笔语语料库2.0

我国学生英语口笔语语料库2.0在现代社会中,英语的重要性日益凸显。

作为全球通用的语言,掌握一定程度的英语能力不仅有利于个人的职业发展,还能丰富生活,促进国际交流与合作。

然而,对于我国学生来说,英语学习一直是一个重要的课题。

建立一份高质量的我国学生英语口笔语语料库2.0显得尤为重要。

让我们从中小学英语教育的现状说起。

随着我国改革开放的不断深入,英语作为一门重要的外语,也逐渐成为学校教育的一部分。

然而,传统的英语教学往往偏重于语法、词汇的机械记忆,而忽视了学生口语和写作能力的培养。

这导致了许多学生在英语交流和表达方面存在较大的障碍。

我国学生英语口笔语语料库2.0的建立,对于帮助学生提高口语和写作能力至关重要。

接下来,让我们深入探讨我国学生英语口笔语语料库2.0的意义。

通过收集学生的口语和写作作品,可以更好地了解学生在英语表达方面存在的问题和需求。

语料库的建立可以为教师提供更丰富的教学资源,帮助他们更好地指导学生,针对性地做出教学安排。

学生也可以通过语料库的参考,丰富自己的词汇量和表达能力,从而提高英语综合应用能力。

我国学生英语口笔语语料库2.0的建立还可以为学术研究提供重要的数据支持。

通过对学生口笔语表达的统计和分析,可以揭示学生在英语表达中常犯的错误、难点和特点,为相关学科研究提供重要的参考依据。

我国学生英语口笔语语料库2.0的建立对于提高学生的英语水平、改善英语教学质量、促进学术研究都具有重要意义。

希望有关部门能够高度重视这一问题,积极推动语料库的建设和使用,为我国学生的英语学习提供更好的支持和保障。

随着我国国际地位的提升,越来越多的人开始意识到英语在国际交流中的重要性。

作为一种全球通用的语言,英语不仅可以帮助人们更好地了解世界文化,还可以拓宽个人的职业发展渠道。

我国学生学习英语的重要性不言而喻。

然而,英语学习并非易事。

尤其是对于我国学生来说,英语口语和写作能力的不足一直是一个难题。

传统的英语教学模式注重了语法和词汇的灌输,对于学生的口语和写作能力的培养却偏少。

英语教学语料库的构建原则探析

英语教学语料库的构建原则探析

英语教学语料库的构建原则探析
英语教学语料库的构建原则是设计一个优质的教学语料库,并且可以实现个性化的教学,使英语学习者获得更好的学习效果和更高的学习兴趣。

以下是英语教学语料库的构建原则的详细介绍:
一、语言流畅性原则
在构建英语教学语料库时,首先要考虑语言流畅性原则,语言之间需要具备连贯性,这时需要充分考虑文本的连贯性,尤其要避免使用长句和繁琐的词汇。

二、语言典型性原则
其次,语言典型性原则对于教学语料库的构建也具有重要意义,因为它可以使得学生了解到真实语言使用的情况,教学语料库可以根据不同语境和使用场景来设计。

三、教育性原则
教育性原则是英语教学语料库设计的关键原则之一,目的是使英语学习者在学习过程中学到更多内容,并且增加新的知识。

此外,在语料库的设计中加入合适的习题,使学生能够根据自己的喜好和兴趣,选
择自己感兴趣的主题进行学习。

四、可重用性原则
实现重用性原则可以使英语教学语料库在英语教学中保持长久有效的
效果。

同时,基于这个原则可以实现不同大小的语言库之间的互通性。

五、获取性原则
获取性原则一方面是指初学者可以容易地获取这些语料库中的信息,
另一方面是可以将教学语料库设计成为一种资源,可以规范构建和获
取相关语言信息。

以上就是英语教学语料库的构建原则的详细介绍,而根据这些原则进
行英语教学语料库的构建,不仅可以提高英语学习者的学习效果,还
可以更好地满足学生的需求,从而使英语教学更为完善和优质化。

基于汉语儿童语料库构建的儿童语言发展测评系统

基于汉语儿童语料库构建的儿童语言发展测评系统

The Computerized Child Language Analysis:Building a Non-standardized Child Language Measuring System Based on Chinese Language Development
Corpus
作者: 周兢[1];张义宾[2]
作者机构: [1]华东师范大学教育学部,上海200062;[2]华东师范大学脑科学与教育创新研究院,上海200062
出版物刊名: 学前教育研究
页码: 72-84页
年卷期: 2020年 第6期
主题词: 汉语儿童语料库;儿童语言发展评价;常模;词汇;语法
摘要:汉语儿童语料库的创建与发展为国际儿童语料库系统(CHILDES)提供了丰富的研究语料,为促进汉语儿童语言发展研究做出了突出贡献。

为回应当前有关儿童语言障碍诊断工具和语言干预效应监测严重缺乏可靠工具的问题,本研究基于汉语儿童语料库构建了汉语儿童语言发展测评系统。

该系统基于汉语儿童的大量语料,构建了正常儿童语言发展常模,探索了可以预期和发现不同年龄儿童语言障碍的指标系统,基本形成符合汉语文化情境的儿童语言发展监测体系,可以为儿童语言障碍诊断和干预提供有价值的基础信息。

从儿童语言发展研究走向儿童语言发展评价,有助于拓展儿童语料库的功能,推动有关儿童早期语言发展诊断与干预的科学研究。

英语语料库建设及应用研究:现状与趋势

英语语料库建设及应用研究:现状与趋势

英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。

这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。

20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。

经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。

这种研究方法需要大量收集某种语言中的语句,组成一个语料库。

语料库研究初探

语料库研究初探

语料库研究初探作者:齐芷玥来源:《文存阅刊》2018年第11期摘要:本文将从语料库的定义、类型、内容、规模设计、标注原则、建库方法等角度对语料库进行分析,目的是通过展现语料库相关基础知识,向语料库初学者提供帮助。

关键词:语料库;建库一、语料库定义语料库就是大量语言材料的集合。

语料库(Corpus)是指一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库。

在计算机网络技术和信息技术快速发展的现代社会,语料库主要指经科学取样和加工的大规模电子文本库。

[3]二、语料库类型语料库有多种类型,确定类型的主要依据是它的研究目的和用途。

有学者曾经把语料库分成四种类型:(1)异质的(Heterogeneous);(2)同质的(Homogeneous);(3)系统的(Systematic);(4)专用的(Specialized)。

[4]参考此种分类方法,可进一步将国内语料库进行分类,种类包括以下五种:1.通用语料库(general):主要用于一般性的语料库研究;2.专用语料库(specialized):是为了对某个特定领域语言变体进行研究而建立的语料库;3.平行语料库(parallel corpus):为对比某种语言的原文文本和其对应的译文文本之间的差异、研究翻译行为而建的语料库;4.可比语料库(comparable corpus):是由具有某些相同或相似属性的文本构成的语料库;5.学习者语料库(learner corpus):如中国英语学习者语料库(CLEC)、中国英语学生口笔语语料库 1.0 版(SWECCL1)等。

三、语料库的内容及建库用途。

如果说规模是针对量的问题,那么,内容就是要解决质的问题。

对于内容,最根本的是要真实,它包括:1.要收集实际使用中的文本,而不能是研究者杜撰的;2.要收集符合条件的文本。

如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。

语料库辅助英美文学教学模式初探

语料库辅助英美文学教学模式初探

语料库辅助英美文学教学模式初探作者:程宝乐来源:《校园英语》 2020年第12期文/ 程宝乐【摘要】本研究旨在通过建立文学专门语料库,探索语料库辅助文学教学的有效途径和方法。

研究首先从构建文学专门语料库入手,预先设定语料库层级指标,从横向、纵向两个方面设定三级语料库指标体系;进而通过不同途径搜集语料,并进行纠错和赋码;从而生成辅助教学的文学语料库。

在此基础上,从教学过程的三个阶段探索语料库辅助英美文学课程教学模式。

【关键词】语料库;英美文学;教学【作者简介】程宝乐(1979.06-),女,河北张家口人,天津农学院,讲师,在读博士。

【基金项目】本文为天津农学院2018年度本科教育教学研究与改革项目“语料库辅助英美文学课程建设研究”(2018-A-08)阶段性成果。

一、引言英国著名语言学家John Sinclair认为语料库是一个存储于计算机的自然语言的集合(包括书面和口头语言材料),用来反映语言的状态和变化特征(王艳文,2010)。

国内外已建或在建的通用及专门用途语料库的数量日益增多,但文学语料库的建设在很长一段时间里受到了学界的冷落。

究其原因,有学者认为是:1.目前建立语料库的目的往往是选出一些好的语言实例供多方面语言研究使用,所以大型语料库大多是通用语料库;2.文学语言比较容易获得(隋桂岚,2004)。

进入20世纪90年代,国内外学者开始了以文学研究为目的的小型语料库建设,比较具有代表性的有戴维·赫尔曼以研究动作词汇为目的,自建的包含8种叙事文本类、212 000词的语料库;以及迈克尔·图伦以研究叙事进程为目的的短篇小说语料库。

此类语料库以专门的研究目的为导向,为辅助教学文学语料库的构建提供了借鉴。

本研究以辅助英美文学教学为目的,采用语料库语言学的量化分析方法,在构建文学专门语料库的基础上,探讨语料库在文学教学中的实际应用。

二、文学语料库的构建构建辅助教学文学语料库的目的。

大型中国小学生作文语料库的生成

大型中国小学生作文语料库的生成

大型中国小学生作文语料库的生成摘要:【摘要】当前,通过收集学生在学习语言时创作的作文来建立学习者语料库并在语料库的基础上开展各种语言研究和教学应用已成为应用语言学的研究热点。

目前我国已建立了近十个学习者语料库,包括中国学习者英语语料库和外国学习者汉语语料库。

然而,关于中国学习关键词:大型,国小,学生作文,语料,生成,摘要,当前,通过,收集,生【摘要】当前,通过收集学生在学习语言时创作的作文来建立学习者语料库并在语料库的基础上开展各种语言研究和教学应用已成为应用语言学的研究热点。

目前我国已建立了近十个学习者语料库,包括中国学习者英语语料库和外国学习者汉语语料库。

然而,关于中国学习者汉语语料库的建设却关注较少。

本研究将凭借北京师范大学现代教育技术研究所在小学长期开展语文教改试验的良好基础建立一个大型中国小学生作文语料库。

截至2007年8月,本语料库已建设成为一个涉及小学五个年级、历时五年、字数在1100万以上的大型作文语料库,在小学语文教学、儿童语言发展研究、小学生思维能力发展研究等三个方面有较高的应用价值。

【关键词】本文出自:语料库;小学生;作文【语料库(corpora) 是应用计算机技术对大量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索、索引和统计分析的大型资料库。

自二十世纪80 年代末90 年代初开始,各种书面语和口语语料库、通用型和专门语料库纷纷建立,语料库在语言描述和语言分析中的作用和优势愈来愈明显。

在语料库迅速而多元的发展中,针对外语学习者建立的学习者语料库( learner corpora) 的发展尤为引人注目。

一研究背景及缘起学习者语料库包括学习者书面语语料库和学习者口语语料库两种。

无论是学习者书面语语料库,还是学习者口语语料库,均与一般的语料库不同,它们是经过计算机处理的外语学习者的语言产出的文本数据库,属于学习者中介语(inter language )范畴。

儿童语料库词汇

儿童语料库词汇
【关键词】:儿童语料库;词汇;习得;特点;影响因素
一、引言
儿童语言发展是一个复杂的过程,涉及到语音、词汇、语法、语用等多个方面。其中,词 汇习得是儿童语言发展的基础,对于儿童掌握语言、进行沟通交流具有重要意义。因此, 对儿童语料库词汇的研究具有重要的理论和实践价值。
二、儿童语料库词汇收集与整理
1. 语料收集
四、儿童语料库词汇研究意义及应用
1. 理论意义
儿童语料库词汇研究有助于揭示儿童词汇习得规律、特点及影响因素,丰富和发展儿童语 言发展理论。
2. 实践价值
儿童语料库词汇研究为儿童语言教育提供科学依据。教育者和家长可根据儿童词汇习得特 点,制定合适的语言教育方案,提高儿童语言能力。
五、结论
儿童语料库词汇研究对于揭示儿童词汇习得规律、特点及影响因素具有重要意义。本文通 过对儿童语料库词汇的收集、整理和分析,发现儿童词汇习得具有阶段性和规律性、形象 性和直观性等特点,为儿童语言教育提供科学依据。未来研究可进一步深入探讨儿童词汇 习得过程,为提高儿童语言能力提供更有针对性的指导。
1. 儿童词汇习得的规律
儿童词汇习得是一个复杂的过程,受到生理、心理、社会等多方面因素的影响。儿童在语 言习得过程中遵循一定的规律,如词汇的数量增长、词类分布、词汇网络等。通过对儿童 语料库的研究,我们可以发现儿童词汇习得具有以下规律:
(1) 词汇数量增长规律。儿童词汇量的增长呈现出指数型增长趋势,即在一定时期内,词 汇量快速增长,然后增长速度逐渐减缓。
儿童语料库词汇通用文档第 2 篇
儿童语料库词汇研究报告
【摘要】
儿童语料库词汇研究是语言学领域中的一个重要分支,对于了解儿童语言习得过程、揭示 儿童语言特点及发展规律具有重要的理论意义和实际价值。本文通过对儿童语料库的词汇 进行收集、整理和分析,旨在揭示儿童词汇习得的规律、特点及影响因素,为儿童语言教 育提供科学依据。

基于赋码语料库的句法研究PPT学习教案

基于赋码语料库的句法研究PPT学习教案
基于赋码语料库的句法研究
会计学
1
语料库研究发现(LGSWE) :
• SP are predominant in all syntactic positions in English. • Be-passives sharply differ by register, with conversation and academic prose at the opposite poles. • Stative be-passives are less frequent than dynamic ones. •LP are most common in news and academic prose.
第13页/共19页
练习单独提取:
•后置过去分词短语修饰名词结构: (N+PP+PREP) 例如:the research based on... •结构编码:(* <NN* * <V?N * <I*>)
第14页/共19页
练习批量提取:
后置过去分词短语修饰名词的句法结构: * <NN* * <V?N * <I*> * <DD* * <V?N * <I*> * <NN* * <V?N * <R*> * <DD* * <V?N * <R*> * <NN* * <V?N * <VB*> * <DD* * <V?N * <VB*>
中国学生
美国人
RF
171
43
StF
67.3
5.7
第8页/ቤተ መጻሕፍቲ ባይዱ19页
(V+PP)结构统计结果:

基于语料库的话语研究初探

基于语料库的话语研究初探
话语分析方法
采用话语分析的理论框架和方法,对采集的语料 进行深入分析,包括语境分析、主题分析、语法 分析、语义分析等。
语料采集和预处理
根据研究问题和目标,采集相关的语料库,并进 行预处理,如去除噪音、标准化处理等。
数据处理和分析
利用数据处理和分析软件,如Python、R等,对 分析结果进行处理和分析,提取有用的信息和数 据,为研究提供支持和依据。
要点二
详细描述
话语结构分析旨在揭示文本中不同层次的结构和组织形 式,例如句子之间的连贯性、段落之间的过渡效果等, 从而深入理解文本的整体意义和传达的信息。
话语主题的分析
总结词
确定和描述文本的主题和内容,包括主题的分布、发展 和相互关系。
详细描述
话语主题分析旨在识别文本中的主题、话题、核心信息 等关键元素,并探讨这些元素之间的关系和发展。这有 助于我们理解文本的主要内容和中心思想,以及作者或 说话者的意图和目的。
机器学习方法则通过训练大量带标签的语料库来 学习文本情感特征,从而进行情感分析和度量。
基于词典的方法通常采用情感词典中的词项来判 断文本的情感极性,并赋予相应的情感权重。
深度学习方法则通过神经网络模型对文本进行特 征提取,从而进行情感分析和度量。
情感分析的应用及价值
基于语料库的话语情感分析 在各个领域都有广泛的应用 ,如产品评论、微博分析、 社交媒体监测等。
02
基于语料库的话语研究综述
语料库的定义及发展历程
语料库定义
语料库是指按照一定的语言学原则和取样标准,将大量真实、自然的语言数据有序地存储在计算机中,供语言 研究和使用。
发展历程
语料库的发展可以追溯到20世纪50年代,当时语言学家开始利用计算机技术进行大规模的语言数据收集和存 储。随着计算机技术的不断发展和应用,语料库的规模不断扩大,应用范围也日益广泛。

国际儿童口语语料库录写系统的赋码原则初探_

国际儿童口语语料库录写系统的赋码原则初探_
(9)小组行@Group of ×××:
此行说明了一组研究对象中以谁为主体,其他人则不重要。
(10)语种行@Language:
此行说明记录数据的语种。
(11)语言行@Language of ×××:
此行说明参加者使用的语言。为了能说明交际的基本语言,最好使用能适用GEM软件(对某段录写语料标记进行深入分析的软件)的@bg和@eg标记。如果语言转换频繁,有必要在每句话前使用%语种,如:%lan:附属行,表明所使用的语言。
(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)
Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.
3.2必要行赋码
CHAT必要行指令只有4个,没有这些行首,CLAN就无法正确运行。格式如下:
开始行 @Begin
参加者行 @Participants

国内外英语学习者语料库的发展_现状与方法

国内外英语学习者语料库的发展_现状与方法

语言技术研究国内外英语学习者语料库的发展:现状与方法王立非1,孙晓坤2(1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院,江苏南京 210039)摘 要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支———基于学习者语料库的第二语言习得研究的理论与方法。

关键词:学习者语料库;第二语言习得研究;现状中图分类号:H319.9文献标识码:A 文章编号:100125795(2005)052001920006 学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech 1998:3),属于学习者中介语范畴。

大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。

本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。

1 国外学习者语料库发展的现状目前国际上对学习者语料库的研究大体上分为三个方面:①学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设相关的软件开发,由语言学和软件两个专业的人员合作完成。

②基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。

③学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。

目前,在语料库建设方面,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。

1.1 书面语语料库就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。

(1)国际英语学习者语料库———I CLEI CLE (I nternati onal Cor pus of Learner English )是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain -La -Neuve 大学的Sylviane Granger 教授。

儿童口语语料库计算机语言分析程序的评介

儿童口语语料库计算机语言分析程序的评介

国际儿童口语语料库的程序分析软件评介*王立非(南京大学英语口语研究所,南京210093)摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得具有重要价值,本文评介该语料库的计算机语言分析程序的操作与应用,对建立我国学生英语口语语料库具有重要启示意义。

关键词:国际儿童口语语料库、计算机语言分析程序、语料库语言学中图分类号:文献标识码:文章编号:An Evaluation of the CLAN Program in CHILDES CorpusWANG Lifei(Nanjing University, China 210093)Abstract: This paper describes the operating principles of CLAN for the talk-bank in the CHILDES project, a very valuable databank to studies on English spoken corpus and child language acquisition. It aims to use CLAN of the CHILDES as a reference for constructing the spoken English corpus Chinese learners.Key words: Childes, CLAN, Corpus Linguistics一、引言计算机语言分析程序(CLAN)是由Computerized Language Analysis 的首字母缩写,此程序是儿童口语语料库(CHILDES)计算机文本分析赋码系统CHA T(参见王立非,刘斌2003)的配套程序,由美国卡耐基·•梅隆大学的Leonid Spektor编程。

CLAN 采用图形界面,Macintosh 和Windows系统均可运行。

面向语言障碍筛查的汉语儿童言语交际水平评估系统研发

面向语言障碍筛查的汉语儿童言语交际水平评估系统研发

面向语言障碍筛查的汉语儿童言语交际水平评估系统研发陆烁1,2,丘国新2,3,钱思宇4,高乐妍1(1.中山大学 中国语言文学系 广东 广州 510275;2.中山大学附属第三医院 精神与神经疾病研究中心 广东 广州 510630;3.中山大学 党委组织部 广东 广州 510275;4.深圳实验学校 广东 深圳 518000)提 要中山大学中文系神经语言学教学实验室面向语言障碍筛查开发的汉语儿童言语交际水平评估系统,以一套固定程序作为引导,能在短时间内快速采集儿童的言语数据。

基于这个评估范式,实验室采集了大量2~14岁儿童言语交际过程中的言语数据,从语音、能产性、流畅度、语法、语义、逻辑六大语言维度出发,细分为16项指标对语料进行人工标注和机器识别,建立起一个应用于语言能力评估和语言障碍筛查的汉语儿童言语数据库,可以精准评估汉语儿童的言语交际水平。

目前该语料库储存了966名汉语儿童的言语数据,并对638名儿童的语料进行了标注。

该语料库可以对儿童语言障碍的智能化筛查提供机器学习训练数据,也可以为研究汉语儿童语言习得和各类儿童语言障碍提供数据资源支持。

关键词儿童语言障碍;语言评估;言语交际;数据库;语料库中图分类号H002文献标识码A文章编号2096-1014(2021)06-0045-14DOI10.19689/10-1361/h.20210604Developing a Speech Communication Ability Evaluation Systemfor Screening Language Disorders in Chinese-Speaking ChildrenLu Shuo, Qiu Guoxin, Qian Siyu and Gao LeyanAbstract Language is an indispensable communication tool for human beings, and language ability is an essential skill that children must acquire in their development. Oriented to the language disorders in Chinese-speaking children, an evaluation system has been developed by the Neurolinguistics teaching laboratory at Sun Yat-sen University to measure Chinese children’s speech communication ability and screen language-related disabilities. Using a fixed procedure as a guide, the system can collect children’s speech communication data in a very short time. Based on this evaluation paradigm, a speech corpus of Chi-nese-speaking children for language disorder screening was established, and up to now data of 996 children aged between 2-14 have been collected. The data are evaluated from six linguistic aspects (including phonology, productivity, fl uency, grammar, semantics, and logic) with 16 indicators recognized by both manual annotation and machine recognition. Currently, the data of 638 Chinese-speaking children have been processed and annotated. Such a corpus can off er an affl uent training set for automatic screening of children’s language disorders, and provide resource for studies on language acquisition and language disorders. Keywords Children’s language disorder; language evaluation; speech communication;data base; corpus作者简介:陆烁,女,中山大学副教授,主要研究方向为语言学及应用语言学。

BCC语料库使用指南

BCC语料库使用指南

BCC语料库使用指南、字处理(包括标点符号)[]:错字标记,用于标示考生写地不成字地字.用[]代表错字,在[]前填写正确地字. 例如:地球[](“球”是错字)、这[].[]:别字标记,用于标示把甲字写成乙字地情况.别字包括同音地、不同音而只是形似地、既不同音也不形似但成字地等等.把别字移至[]中地后面,并在[]前填写正确地字. b5E2R。

例如:提[题]高、考虑[虎].[]:漏字标记,用于标示作文中应有而没有地字.用[]表示漏掉地字,并在[]前填写所漏掉地字.例如:后悔[],表示“悔”在原文中是漏掉地字.农[]药,表示“农”在原文中是漏掉地字.[]:多字标记,用于标示作文中不应出现而出现地字.把多余地字移至[]中地后面.例如:我地[地],表示括号中地“地”是多余地字(原文中写了两个“地”). []:繁体字标记,用于标示繁体字.把繁体字移至[]中地后面,并在[]前填写简体字. 例如:记忆[憶]、单{單}纯、养{養}分{份}.注意:)繁体字标记标示地是使用正确地繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记.例如:俭朴[樸[僕]].)繁体字写错了,标为:后[後[]].[]:异体字标记,用于标示异体字.把异体字移至[]中地后面,并在[]前填写简体字. 例如:偏[徧]、沉[沈].[]:拼音字标记,用于标示以汉语拼音代替汉字地情况.把拼音字移至[]中地后面,并在[]前填写简体字.例如:缘[ú]分、保护[ù].[]:无法识别地字地标记,用于标示无法识别地字.每个不可识别地字用一个[]表示. 例如:更[][]保存自己地生命,……[]:错误标点标记,用于标示使用错误地标点符号.把错误标点移至[]中地后面,并在[]前填写正确地标点符号.p1Ean。

例如:勤奋、[,]刻苦地精神.[]:空缺标点标记,用于标示应用标点符号而未用地情况.把[]插入空缺标点之处,并在[]中地后面填写所缺地标点符号. DXDiT。

语料库与语料库建设

语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。

严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。

阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。

赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。

我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。

语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。

而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。

语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。

2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。

语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国际儿童口语语料库录写系统的赋码原则初探*王立非1,刘斌2(1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京210039)摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。

关键词:国际儿童口语语料库;英语口语语料;语料库语言学中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT ToolWANG Lifei1, LIU Bin2(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.Key words: CHILDES;English spoken corpus;corpus linguistics1.引言新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。

该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。

到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。

用户可直接从网上免费登录、使用或下载(/CHA T.html)语料。

CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。

本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。

2.录写赋码系统的途径与原则研究口语必须将视频和音频语料转换为文本语料进行分析和研究,录写费时费力,(温志军、胡瑰玲,2001)而CHAT录写系统提供了一整套赋码符号系统,经过赋码的口语语料运用计算机可以自动处理和分析。

CHAT (codes for the human analysis of transcripts)的全称是“人工录写文本分析赋码系统”,它是一套复杂但又十分灵活的多级赋码方案,专为计算机录写自然话语而设计。

该系统提供了一整套用计算机记录人类交际会话的标准形式。

这些交际话语涵盖了日常会话的所有种类。

赋码内容包括基本的话语文本类型、详尽的发音信息和话语的句法分析信息。

CHILDES语料库中的全部文稿为CHAT格式,运用CLAN程序可以对CHAT文本进行自动分析。

2.1 CHAT系统的赋码方式CHAT对口语语料的赋码采取四种方式。

第一,使用标准美式音标作为统一的格式记录会话中的词素。

可以将“mightuv”记录为/maituv/。

第二,CHAT允许在文稿中使用标准国际音标符和变音符。

第三,CLAN编辑器可将会话交谈的声音用数码形式记录下来,并直接通过ViaVoice语音识别软件自动转为文本格式。

这套系统称为“语音CHAT”。

人们可通过安装在计算机上的语音CHAT识别文本语料,听到所录制的声音。

第四,如果不希望使用上述方式,CHAT还可识别非标准词汇形式,如“might(h)ave”,并将它以“might have”的缩写形式进行处理。

2.2 CHAT对文本与音频语料的赋码原则CHAT文稿赋码分为三个层级:初级、中级和高级。

初级与普通儿童话语分析采用的文稿赋码系统一样。

初级CHAT赋码系统的要求包括文档格式、发音形式、文件书写格式和ASCII格式等。

初级CHAT文档的形式有一定的标准。

这些标准必须符合CLAN分析程序指令的要求,否则,CHAT文档不能顺利运行。

正确的CHAT文本格式如下:1)用英语进行正常赋码时,文档中的每个符号都必须是ASCII符号。

2)每行必须以硬回车结束。

3)每行的开头必须是@Begin。

4)每行的结束必须是@End。

5)必须有@Participants行。

内容为代表参加者的三字码,如:参加者的名字、参加者的角色。

此行必须紧跟@Begin行。

6)以*号开始的行表明实际说过的话。

这些被称为主行。

每一个主行都只能记录一句话语。

当说话者一次说几句话时,必须分行记录。

7)在主行的*号之后的三个字母必须大写。

然后是冒号和说话内容。

8)以%符号开始的行表示录写者或研究者对背景的注释。

通常这些行包括赋码和注释,称为“附属”行。

9)以%符号开始的附属行后是三个下标字母。

如“phonology”中的“pho”,一个冒号和注释。

10)摘要行后接主行和附属行。

3.CHAT赋码的操作步骤CHAT文稿的赋码主要分为固定行、主行和可变行三部分。

3.1 固定行赋码CHAT赋码文稿总是以固定行开始,提供录写日期、参加者姓名、年龄、交谈背景等信息。

这些信息出现在文本的最开始处,具体格式如下:(XXX表示某某人,凡是有名字的行都用破折号,其它说明行均无破折号,以示区别。

遗漏的冒号已加上,全部要对齐。

)×××姓名行——@Name of ××××××年龄行——@Age of ××××××生日行——@Birth of ×××赋码者行 @Coder:附属行 @Dependent:×××教育行——@Education of ×××:文件名行 @Filename:字体行 @Font:×××组行——@Group of ×××语种行 @Language:×××语言行——@Language of ××××××状况行——@SES of ××××××性别行——@Sex of ×××原因行 @Stim:录写者行 @Transcriber:警告行 @Warning:有关参加者和背景信息的所有固定行都须以“@”符号开始。

一些行只要求有@符号和行的名称。

例如“@Begin”或“@New Episode”。

但是大部分行后须有内容。

有内容的行还必须有一个冒号,然后是1-2个注释。

冒号后必须空出8个字符的间隔,然后输入注释。

注释是为了增加文档行信息的可读性。

冒号前的材料称为“行名”,如:“@Age of CHI:”和“@Date:”都是行名。

行名之后的文本被称为“行内容”,如:“@Age of CHI: 2; 6.4”、“@Date: 25-JAN-1983”。

“2;6.14”和“25-JAN-1983”都是行内容,统称为“行”。

行末不能有标点符号。

在CHAT中,只有主体确实发出的声音才能用标点符号。

这些固定行说明说话者年龄、社会经济地位或出生日期等不变的信息,如:中产阶级家庭、男性、2岁等。

这些信息有助于更有效地研究语料。

固定行按字母顺序排列,排列顺序如下:(1)姓名行@Name of ×××:此行说明参加者的名字。

(2)年龄行@Age of ×××:此行是说话者年龄,×××表示用三个字母说明说话者的名字。

CHAT中的年龄信息精确到日。

这里的年龄指的是被采集语料的儿童及其兄弟姐妹的年龄,也可用于其他说话者。

@Age行的顺序为年、月、日。

如2;11.7,指的是2岁,11个月零7天,与一般日期表示方法不同。

(3)生日行@Birth of ×××:此行说明了说话者的出生日期。

此行的内容是日-月-年。

注意日在前,月排在第二位。

因此1973年1月23日应写为23-JAN-1973。

在所有日期中,月份应大写,缩写,如:JAN,FEB类推。

例如:@Birth of SAR: 23-JUL-1961 (4)赋码者行@Coder:此行说明文件赋码人身份。

以备查验,同时也是对赋码者劳动的一种承认。

(5)附属行@Dependent:此行用于列出附属信息。

可插入%Spa等类指令,供编辑器阅读。

(6)教育行@Education of ×××:此行说明说话者的最高教育水平,用0-20的整数表示。

12以后的数字表明大学教育。

如说话者受教育程度是大学三年级,就应以“15”来表示。

例如:@Education of MOT: 15。

(7)文件名行@Filename:此行是计算机文件的文件名,为了防止文件重名。

如果已经有了一个@ID行,就无需再加上此行,因为@ID赋码包括了文件名。

(8)字体行@Font:此行用于定义文件的预设字体。

在CLAN编辑器中,对WINDOWS系统而言,预设字体为Win95:Courier New:-13。

(9)小组行@Group of ×××:此行说明了一组研究对象中以谁为主体,其他人则不重要。

(10)语种行@Language:此行说明记录数据的语种。

(11)语言行@Language of ×××:此行说明参加者使用的语言。

为了能说明交际的基本语言,最好使用能适用GEM软件(对某段录写语料标记进行深入分析的软件)的@bg和@eg标记。

如果语言转换频繁,有必要在每句话前使用%语种,如:%lan:附属行,表明所使用的语言。

相关文档
最新文档