国际儿童口语语料库录写系统的赋码原则初探
语料库与语料库建设
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
语料库演示
<> [x n] 例如:
表示重复的话
*SYY: 羊洋想喝黑加仑羊洋<喝> [x 2] %ort: yang2yangxiang3he1hei1jia2lun2yang2ya ng<he1>[x2] yi4ping2hei1jia1lun2
Esc + L 是check
(五)我们的研究
of Transcripts,人类语言分析编码。 CHILDES创造了儿童语料统一录写格式, 有一整套录写符号,可进行多层次编码。 通过CHAT转写和编码,研究者储存的语 料可以供计算机自动分析。
CLAN。Computerized language Analysis,
计算机语言分析软件。目前已有一些自动 分析儿童语料的程序设置,比如通用的语 言评量指标MLU(平均语句长度)、TTR (词汇类型与词汇量之比)和MLT(平均 话轮语集长度)等。研究者也可以根据研 究需要自己编码,由计算机对目标语料进 行分析。
LTM
CHILDES介绍及培训
CHILDES---Child Language Data Exchange System 国际儿童语料库 数据存储和分析系统
(一)儿童语言发展研究方法的沿革
日志记录。达尔文最早采用。以研究者本
人作为研究工具,在自然情境下对研究对 象的语言现象采用多种方式做记录,再形 成结论。缺点:用文字符号记录语言,丢 失的信息太多,数据真实性可靠性较差; 能够收集的语料数量有限;回忆和反省带 有较大主观性,可能增减信息,难以重复 检验。
重要的编码:
Tab 每行开头的空格键 # 不完全停顿,主要行前后要有空格,
附属行(ort行)不用空格 &ne 标注语气词,拟声词,跟前面的汉字 连起来要空一个格 xxx 不清晰语句
英语教学语料库的构建原则探析
英语教学语料库的构建原则探析
英语教学语料库的构建原则是设计一个优质的教学语料库,并且可以实现个性化的教学,使英语学习者获得更好的学习效果和更高的学习兴趣。
以下是英语教学语料库的构建原则的详细介绍:
一、语言流畅性原则
在构建英语教学语料库时,首先要考虑语言流畅性原则,语言之间需要具备连贯性,这时需要充分考虑文本的连贯性,尤其要避免使用长句和繁琐的词汇。
二、语言典型性原则
其次,语言典型性原则对于教学语料库的构建也具有重要意义,因为它可以使得学生了解到真实语言使用的情况,教学语料库可以根据不同语境和使用场景来设计。
三、教育性原则
教育性原则是英语教学语料库设计的关键原则之一,目的是使英语学习者在学习过程中学到更多内容,并且增加新的知识。
此外,在语料库的设计中加入合适的习题,使学生能够根据自己的喜好和兴趣,选
择自己感兴趣的主题进行学习。
四、可重用性原则
实现重用性原则可以使英语教学语料库在英语教学中保持长久有效的
效果。
同时,基于这个原则可以实现不同大小的语言库之间的互通性。
五、获取性原则
获取性原则一方面是指初学者可以容易地获取这些语料库中的信息,
另一方面是可以将教学语料库设计成为一种资源,可以规范构建和获
取相关语言信息。
以上就是英语教学语料库的构建原则的详细介绍,而根据这些原则进
行英语教学语料库的构建,不仅可以提高英语学习者的学习效果,还
可以更好地满足学生的需求,从而使英语教学更为完善和优质化。
双语儿童的语码转换及其话语权浅析
双语儿童的语码转换及其话语权浅析黎姿(吉林师范大学文学院吉林长春130000)㊀㊀摘要:以湖南卫视热播的真人秀节目«爸爸去哪儿5»中双语儿童为研究对象ꎬ运用案例分析的方法ꎬ分析他们在日常会话过程中如何进行语码转换ꎮ由于儿童的语言不仅包括日常口语㊁文字ꎬ也包括 艺术化 语言和 行动化 语言ꎬ儿童话语权是指儿童自由㊁自主㊁充分地表达其思想㊁观念㊁态度与情感的一种言说权利或行为权利ꎬ儿童话语权其实就是儿童的自主表达权ꎮ关键词:双语儿童语码转换儿童话语权中图分类号:H030㊀文献标识码:A㊀文章编号:1009-5349(2018)02-0184-02㊀㊀一㊁双语儿童随着全球化的不断深化ꎬ不同民族间的交往范围不断扩大ꎬ双语社区日渐增多ꎮ目前国际儿童语言研究ꎬ特别关注双语儿童的发展与教育ꎮ对这些儿童来说ꎬ双语能力是未来发展的钥匙ꎮ越来越多儿童需要在母语之外学习新的语言ꎮ有研究者从儿童个体角度㊁学校角度㊁家庭和社区角度㊁社会角度对双语言儿童的发展和教育进行了研究ꎮ此中也体现了ꎬ双语儿童的研究范围大ꎬ从微观层面扩展到宏观层面ꎮ近年来ꎬ湖南卫视一档亲子真人秀节目«爸爸去哪儿»受到广大观众的喜爱ꎮ至今ꎬ已经播到第五季ꎮ在这一季的«爸爸去哪儿»的小朋友ꎬ除了嗯哼和小山竹ꎬ其他的小朋友都会说英语ꎮ比如小泡芙居住在台湾ꎬ从小也是学习普通话和英语的ꎮ还有吴尊的一对儿女:Neinei和Max都是会说英语的ꎮ虽然他们是文莱人ꎬ母语是马来语ꎮ但是文莱的主要报纸均使用英文㊁马来文和中文出版ꎮ在这样一个本来就具备多语言背景的国家长大ꎬneinei和Max多语言轻松转换的习得能力自然会被锻炼出来ꎮ陈小春的儿子Jasper也一样ꎮ香港地区的主要沟通语言是粤语和英语ꎬ普通话也甚流行ꎮ再加上身为母亲的应采儿本来就是美籍华侨ꎬ在家庭中会使用英语ꎮJasper拥有一定的外语水平ꎬ也和这个多语言背景分不开ꎮ米歇尔等人发表于«自然»杂志的研究报告指出ꎬ在5岁之前就学习双语并有较多机会练习双语的 早期双语者 ꎬ较之10岁~15岁才接触双语的人群ꎬ大脑的可塑性增强ꎬ双语调节了脑部的相关功能ꎬ实现了脑功能的重塑和再组织的效果ꎮ双语的学习会对儿童产生积极影响:早期的双语学习经验和熟练的双语能力对脑部结构和功能产生的客观变化ꎮ在幼年阶段精通双语的儿童ꎬ将具备对控制干扰的执行能力ꎬ这一能力将对儿童未来的认知以及学业具有影响ꎮ二㊁语言转码语码转化是指说话者在对话或者交谈中ꎬ从使用一种语言或方言转换到另一种语言或方言ꎮ语码转换有狭义与广义之分:狭义的语码转换指的是句间的随机性或者习惯性转换ꎻ广义的语码转换不仅包括句子之间的转换ꎬ也包括句内转换ꎬ其实就是涉及双语或多语社会的语言选择及应用问题ꎮ这一类的语码转换是稳定的ꎬ是可预期的ꎮ在儿童语言社会化的过程中ꎬ父母扮演着引导者和合作者的角色ꎬ联姻家庭在语言使用方面ꎬ一般会伴有不同语种之间频繁的语码转换及语码混合ꎮ学习第二种语言ꎬ也有可能对母语或者第一语言产生干扰ꎮ有学者认为来自多种语言的竞争ꎬ会对儿童的反应造成不良影响ꎬ儿童需要一种能够控制自己注意力的机制ꎬ也就是要求儿童必须具备对控制干扰的执行能力㊁专注力和转换能力ꎬ用来专注于目标语言ꎮ以下ꎬ重点讲的是转换能力ꎬ即说话者语言方面的自我调整ꎮ实际上ꎬ许多家庭的语言环境是复杂的ꎬ家里使用的语言不止一种ꎬ必然会有很多语码转换的情况ꎮ孩子就可以掌握两种甚至多种语言ꎬ他们也逐渐地学会在不同的情境下自如地进行几种不同的语码转换ꎬ以达到交际的目的ꎮ在«爸爸去哪儿5»节目中ꎬ小朋友们都能做到中英文任意切换ꎮ例1ꎬ先导片中的情景:吴尊和儿女一起吃早餐ꎬ女儿Neinei的手突然碰到了花生酱ꎬ立马说出一句英文 Iaccidentallytouchedthepeanutsjustnow. ꎬ之后ꎬ吴尊以奖励糖果的方式要求Neinei说出 九 的中文怎么读ꎬ又让儿子用中文数数ꎬ从 一 到 十 ꎮ尽管发音不是很准确ꎬ但是也可以看出吴尊很注重对孩子的汉语学习ꎮ再之后儿子Max的freestyleꎬ虽然听不清楚ꎬ但是也可以隐约地听出是英语口音ꎮ一旁的姐姐不禁发问: What?Whatdidyousay?弟弟? 吴尊的回答: 我也不知道弟弟在说什么ꎮ 以及最后ꎬ在出发的车上ꎬ儿子Max提醒吴尊: Youneedtobringthetowel. ꎬ吴尊: YesꎬIforgot. ꎮ例2ꎬ先导片情景:陈小春和Jasper分别接到任务卡ꎬ当Jasper对自己的任务不是很理解时ꎬ妈妈应采儿帮忙解释: 你可以叫dadytodowhatdoyousayandwhatdoyouwhattodo.forexampleꎬIwhatdadytodo ꎮJasper明白了ꎬ他用中文说要求单独和爸爸说ꎬ不让其他人在场ꎮ还向节目组借了麦和耳塞ꎮ说出了一段很暖心的话: TodayꎬIwanttoyougetfriendwithmeeveryday.Iloveyoudady. ꎮ例3ꎬ前往拍摄地的车上ꎬ在爸爸一声 坐好 的命令下ꎬJasper开启中英文语言模式的切换ꎮJasper说: Theseatissocomfortable! ꎬ陈小春马上告诉儿子不要说英文ꎬ不然大家听不明白ꎮJasper立即用中文说了一遍ꎬ 这个座位好舒服 ꎮ例4ꎬ在第一期的钓食材的环节ꎬ陈小春对Jasper大喊 鸡蛋 ꎬ但是Jasper有点懵地问 What? ꎬ最终陈小春用英文说 Egg! ꎬJasper就马上懂了并拿到了鸡蛋ꎮ语码转换是双语儿童语言习得过程中常见的现象和辅助说话的工具ꎬ但是由于儿童语言还未进入到一个相对成熟的阶段ꎬ因此需要来自家庭㊁学校和社会的规范和引导ꎮ三㊁儿童话语权随着人们主体性意识的觉醒ꎬ人们的权利意识的提高ꎬ话语权成为人们尤其是社会边缘群体㊁弱势群体的普遍诉481现代交际 2018年2期㊀㊀作者简介:黎姿ꎬ吉林师范大学硕士在读ꎬ研究方向:语言学及应用语言学ꎮ求ꎮ儿童话语权是指儿童自由㊁自主㊁充分地表达其思想㊁观念㊁态度与情感的一种言说权利或行为权利ꎮ赋予儿童话语权并不是让儿童在我们的社会中取代成人的话语霸权地位ꎬ而是希望成人关注和尊重儿童㊁聆听儿童的诉说ꎬ最终实现成人文化与儿童文化的互补与融合ꎬ不仅儿童文化可以在成人文化那里得到滋养ꎬ成人文化也可以在儿童文化这里得到滋养ꎬ使得彼此相得益彰的权利ꎮ从本质上来说ꎬ儿童话语权是儿童自然生长的权利ꎬ是一项基本人权ꎬ包括发展权和参与权ꎬ不可剥夺ꎬ需要加以尊重和保护ꎮ例5ꎬ第一期的户外活动ꎬ情景:Jasper在村长说话的时候拿着扩音器 喊麦 ꎬ被陈小春制止ꎮJasper意识到自己的错误ꎬ走在路上小声问了一句 可以不生气了吗 ꎬ但爸爸心急喊他快走并没有听到ꎮ一边是没耐心的老爸催促着快走ꎬ一边是心大的Jasper悠闲地吃李子ꎮJasper本身性格就有些软萌ꎬ之前还犯了错误ꎬ加上路比较难走ꎬJas ̄per的确很难跟上火急火燎的爸爸ꎮ但爸爸的怒气飙升ꎬ怒吼: Hurryup! ꎬJasper用轻声回答: Iknow.What'swrongwithyou? ꎬ陈小春反问: What'swrongwithyou? Jasper却没像一般孩子一样哭唧唧ꎬ而是理智地劝爸爸不要发脾气ꎮ他拿出自己的 终极武器 ꎬ向 敌方 喊话和解: Canyoustopangrynow? 陈小春当场愣住: Sor ̄ry ꎬJasper拿起扩音器重复了一遍: Canyoustopangrynow? ꎬ陈小春那一瞬间意识到自己糟糕的态度ꎬ赶紧给孩子道歉ꎮ从以上的例子可以看出Jasper在日常生活中使用英语频率比汉语高ꎬ与父亲发生了矛盾ꎬ更多是以英语来讲和ꎬ主动地表达自己的想法ꎮ而陈小春作为成人ꎬ注意到自己的语言选择不恰当或不够好时ꎬ就作出语言方面的自我调整ꎬ及时进行言语修改ꎮ关于如何做到尊重儿童的话语权ꎬ应该从以下几个方面入手:首先需要成人放下权威ꎬ与儿童建立友好平等的关系ꎻ其次要鼓励和信任儿童ꎬ多给儿童提供表达的机会ꎻ最后要聆听儿童的心声ꎬ走进儿童的世界ꎮ四㊁结语因为每个语言域通常都要受到更大范围的社会语言生态的影响ꎬ任何一个家庭也都不会是一个封闭的社会语言单位ꎮ双语或多语儿童的语码转换很大程度上是对外界环境中的语言调整ꎬ而这种外界因素中影响力最大的是父母的语言选择和语言习惯ꎮ另一方面ꎬ例如交流的对象㊁语境等外部因素ꎬ也会影响儿童的语码转换ꎮ儿童在我们这个社会中ꎬ属于最弱势的群体ꎬ很少人愿意去倾听儿童的声音ꎬ不仅如此ꎬ儿童由于先天的弱小无法与成人的话语霸权相抵抗ꎮ因此ꎬ保护儿童的话语权值得引起重视ꎮ参考文献:[1]MechelliꎬA.ꎬCrinionꎬJ.T.ꎬNoppeneyꎬU.ꎬO'DohertyꎬJ.ꎬAshburnerꎬJ.ꎬFrackowiakꎬR.S.ꎬ&PriceꎬC.J..Neurolinguistics:structuralplasticityinthebilingualbrain[J].Natureꎬ2004ꎬ431(7010):757-757. [2]赵蓉晖.社会语言学[M].上海:上海外语教育出版社ꎬ2004:341-348.[3]吴斌华.中美联姻家庭子女语言社会化调查 个案研究[D]成都:西南大学ꎬ2012:41-43. [4]刘树娜.我国儿童话语权问题初探[D].南京师范大学ꎬ2015.[5]苗芳芳ꎬ幼小衔接需要尊重儿童话语权[J].乐山师范学院学报ꎬ2013(9).责任编辑:孙㊀瑶(上接第186页)会加强彼此之间的学术交流ꎬ会拓展视野ꎬ取他人之长补自己之短ꎬ更好地开展教育教学工作ꎮ21世纪ꎬ我们国家需要的是创新型人才㊁实践型人才ꎬ因此进行课堂模式的转型刻不容缓ꎮ四㊁结语通过与国内传统生物课堂的比较分析ꎬ翻转课堂尽管在某些方面存在欠缺ꎬ还不能完全普及ꎬ但是与传统课堂相比ꎬ其折射出很多优点ꎬ所培养的是知识与能力并存的新学生ꎬ我们坚信翻转课堂在未来有着广阔的发展空间ꎬ但我们需要理性地对待翻转课堂ꎬ结合本国的国情具体实施ꎬ使翻转课堂真正融入到中国的教育教学中ꎮ[7]自2012年«翻转你的课堂:每天每节课与每个学生交»的发行之后ꎬ翻转课堂便成了教育界热衷的话题ꎬ同年ꎬ一些教育科研人员将翻转课堂引入我国ꎬ从2012年至今ꎬ翻转课堂的关注度日益增高ꎬ并且最近几年ꎬ我国就有上千所学校先后将翻转课堂引入到教育教学中进行了试验[8]ꎬ但是查阅了较多的资料文献ꎬ没有具体一篇文献可以说出翻转课堂已经取得的实质性的巨大成果ꎬ完全可以运用到教育教学中ꎬ这也间接地说明了翻转课堂目前还是处于一个起步摸索阶段ꎬ仍有许多地方值得我们去思考与改进ꎮ历史证明ꎬ任何改革都是曲折的ꎬ所以翻转课堂这种颠覆性的教育改革必然会有很长的一段路要走ꎬ而且我国还处于刚起步的阶段ꎬ也就意味着教育工作者们今后还有很长一段探索之路要走ꎮ要使生物学翻转课堂保质保量ꎬ被众人接受ꎬ这就要求教育工作者们潜心钻研ꎬ苦心研究ꎬ矢志不渝地将翻转课堂应用到教育教学中ꎮ[9]参考文献:[1]吴忠良ꎬ赵磊.基于网络学习空间的翻转课堂教学模式初探[J].中国电化教育ꎬ2014(4):121-126. [2]朱建燕ꎬ于智勇.探讨初中生物合作学习模式的构建[J].科技创新导报纸ꎬ2012(27):203. [3]郭永峰.生物学课堂教学中学习情境的建设[J].生物学教学ꎬ2006(8):19-20.[4]葛晓飞.头脑风暴法在参与式课堂教学中的运用及注意事项[J].商场现代化ꎬ2010(607):172-173. [5]何克抗.从 翻转课堂 的本质ꎬ看 翻转课堂 在我国的未来发展[J].电化教育研究ꎬ2014(7):5.[6]焦建利ꎬ贾义敏.教育信息化的宏观政策与战略研究[J].远程教育杂志ꎬ2014(7):25.[7]容梅ꎬ彭雪红.翻转课堂的历史㊁现状及实践策略探析[J].中国电化教育ꎬ2015(7):114. [8]容梅ꎬ彭雪红.翻转课堂的历史㊁现状及实践策略探析[J].教育电化研究ꎬ2015(7):109. [9]卢强.翻转课堂的冷思考:实证与反思[J].教育电化研究ꎬ2013(8):96.责任编辑:孙㊀瑶581双语儿童的语码转换及其话语权浅析。
语料库采集的原则
语料库采集的原则
1. 语料库的性质:应确定语料库的性质,如收集的文本是口头语言,还是书面语言,是否是交际语言,或者是法律文件、新闻报道等。
2. 语料库的数量:要根据需求,确定所需数量,以保证质量。
3. 关注细节:采集时要关注语料库内容的质量和细节,考虑来源、日期、内容类型等。
4. 关注隐私保护:一定要按照相关法律规定,尽量避免出现人名、电话等隐私信息,以免侵犯他人隐私权。
5. 尽可能仔细地进行手工标注:审查标注结果,以保证其准确性及完整性。
基础语音语料库管理系统说明书
International Symposium on Social Science (ISSS 2015)Research and Implementation of the Basic Corpus Management System Maobo An 1, a, Yuan Huang 1, b, Xiaochen Sun 1, c, Shengxiang Gao 1, d,Xin Jin 1, e and He Gao 2, f1National Computer Network and Information Security Management Center, Beijing 100029, China 2State Key Laboratory of Networking and Switching Technology, Beijing University of Posts andTelecommunications, Beijing 100876, Chinaa***************,b******************,c**********************,d****************,e***************,f***************.cnKeywords: Corpus; Corpus processing; Corpus annotation.Abstract. Basic corpus can be used as an optimization AL recognition engine of system speech and performance testing from recognition technology, the main implementation of the basic corpus is the fine-grained annotation of the language, the speaker, the channel and the content of speech. In this paper, we do extensive research on basic corpus and implement a management system, which can be used to inquire, count and operate the data of corpus, and supporting the data operations such as diplacusis, annotation, modification and exportation on the speech data. Our system also realized the systematic, standardized and structured management of the basic corpus data.1.IntroductionSpeech corpus is a collection of speech data and its annotation for the speech technology research and development. Since the 1980s, study on the development and application for corpus under the strong support of computer technology and made great progress. It had established multi-lingual speech corpus one after another, most of them are based on English, so large-scale Chinese speech corpus is very important to the research and development for Chinese speech processing technology [1].Since the 1990s, there are more than dozens of universities and research institutes have extended the construction and study for Chinese speech corpus in our country [2, 3]. The company of IFLYTEK from USTC issued Chinese speech corpus which scale was over the size of 2.7GB voice data, including male and female, with a manual and automatic labeling standard method combination, had been applied to IFLYTEK speech synthesis and recognition systems. Microsoft Research Asia established the Chinese corpus including about One hundred and eighty thousand syllables and mainly used in the Chinese rhythm analysis and speech synthesis. Chinese Academy of Sciences, Tsinghua University and Peking University had already established a mandarin speech corpus which is mainly used for speech analysis and synthesis of research.2.Summary of CorpusAt present, the foundation of large-scale corpus and the research based on corpus is one of the linguistics research trends at home and abroad [4]. Speech corpus contains text and voice libraries and based on voice fact, through natural voice acquisition, voice annotation, retrieval, statistical and other functions. Establish a speech corpus is the foundation of the study of the voice. From an engineering perspective, the speech corpus is one of the important part of voice engineering and the foundation of the voice system.There are many types of corpus, the main basis for determining the type of corpus is the purpose of research and use, this point is usually able to reflect on the principles and methods of data collection [5]. Someone once divided the corpus into four types: 1) Heterogeneous: There is no specific data collection principle, it's widely collected and stored a variety of materials; 2) Homogeneous: Onlycollect the same type of content data; 3) Systematic: According to the pre-determined principle and percentage collecting the corpus to make the corpus balanced and systematic which can represent a range of linguistic facts; 4) Specialized: Only collect the corpus for a particular purpose. In addition, according to the corpus of language, the corpus can be divided into monolingual, bilingual and multilingual [7]. According to the corpus collection units, it can be divided into discourse, sentence and phrase. Bilingual and multilingual corpus in accordance with organizational forms can also be divided into parallel corpus and comparable corpus, the former constitute translation relations and more used in machine translation, bilingual dictionary compilation and other applications, the latter will express the same content but different language text which will be collected together and more used in the contrastive study of the language.3. Corpus Management SchemeThe function of a computer corpus is mainly related with three factors. First is the scale of corpus, the second is distribution of corpus and the third is the degree of processing data. The scale's size is related to the reliable of statistical data, the distribution of corpus refers to the application scope of statistical result, the depth of processing data determines what kind of linguistic information the corpus can provide to users [8].The corpus management software implements data acquisition, processing, management, etc. It provides friendly interface to the user and supplies speech data for a variety of voice analysis engine optimization.The system mainly includes the functions in the Fig. 1.Fig. 1 System function 3.1 Corpus Acquisition.The system will automatically obtain corpus information from specific data source, find the new adding voice files the day before and copy these files to the classification storage of speech corpus. The storage is divided into two parts, one is database storage, in the form of database records stored the beginning time of the voice ringing, the ending time of the voice ringing, the starting time of the calls, the terminal time of the calls, the calling number and the called number. Another is the file storage, which stored in the form of speech files on the server and stored classification according to the time and source.3.2 Corpus Processing.Corpus processing refers to the data acquisition will extract including text information, recording and the processing of preservation through the artificial complex listening or transcribing process automatically by computer program. Speech information from the corpus is divided into audio files and data text files and there is a one-to-one correspondence between them. Audio files is the base of the corpus, the simple formats of audio files are common, such as PCM,MP3 or WAV, the length of audio file is always more than 15 seconds. Data text file is the content file of audio corresponding to audio file, including the length of audio file, the starting time of each speech contents, the content of speech text, speaking people, the speaker gender, the classification of language and so on.3.3 Corpus Management.After scientific selection and tagging the appropriate scale corpus, there should be a full-featured management system, the system should include data maintenance (data entry, proofreading, storage, modification, removing and data description information management), corpus processing (word segmentation, tagging, text division, merging, corpus alignment and tag processing), the function of customer services (query, retrieval, statistics, printing and so on). The data maintenance part mainly relates to Chinese characters processing, text processing, file management and other computer programming technology. The main content of corpus automatic processing part is automatic word segmentation and annotation of various linguistic attributes [6].Corpus Information Display. The speech information in the corpus displayed in the form of a list, it contains speech keyword, events, time, subject, annotate or not, the people of annotation, the time of annotation, removing and view.Corpus File Annotation. The speech information in the corpus displayed in the form of a list, it contains speech keyword, events, time, subject, annotate or not, the people of annotation, the time of annotation, removing and view.Speech tagging interface is divided into two layers: The upper is the interface for speech playing (including an adding button for annotating layer). The lower is the interface for annotating. Annotation layer interface display the serial number, the name of annotation layer, the starting time and ending time for annotation by vertical list. When you select the name of the annotation layer, the layer will display the name of annotation, the time of annotation, the people of annotation and operating button (including playing, removing and saving) in the tab.Clicking the adding button of annotation layer, it will add a new tab directly in the interface and the user can input the name of the layer, the starting time of annotation, the ending time of the annotation and the content of the annotation. You can drag the playing area and automatically fill the starting time of annotation and the ending time of annotation, you can also manual input identified selecting annotation layer. When the user is annotating, he or she can select only the playing area which is selected annotation. When the user clicks the button of saving, the page will judge the range of annotating time whether conflict to the existing range of annotating time, if there is a conflict, the user will be prompted to modify the time range. The new annotation tab is in the top of the other tabs by default, after saving the annotation successful by the user, the page will refresh automatically, from top to bottom arranging the order of layer tab according to the time.You can directly modify the name of the annotation, the content of the annotation and the selected area after you select the layer. The starting time of selected area must be greater than or equal to zero or no less than the last marked ending time, the ending time of selected area must be less than or equal to the ending time of the playing speech or no more than the next starting time of annotation.The user can select the tab of annotation and click the deleting button, and after that the selected annotation will be deleted, the corresponding annotation will be deleted from the database too.If the speech file has been marked with more annotation layers, when you are playing the speech, the lower layer of interface will automatically show the annotation layer and its content according to the processing of playing time. The user can view part of or all of the tagging content according to playing processing.Corpus File Importation. Corpus file importation refers to users import the corpus file to systematic based corpus from external, including speech file importation and marked file importation.Put the speech and annotation files in the same folder, when you are importing the files, the user must input the local directory he will import. When the system puts the files in the based corpus if you find there are many speech files with WAV and MP3 format, you should create a child directory in that folder and convert WAV and MP3 format of speech files to PCM format files and then store those files in that folder, the original WAV and MP3 format of speech files should store in the folder's child directory.In order to prevent the conflict with the name of imported files, the speech and annotation files which are imported in the corpus will add underscore and timestamp for renaming based on the original files. After renaming, the speech files are corresponding to the annotation files.The user imports the external files through the management system, only the file name, storage time, whether marked and annotation content in the list fields.Corpus File Removing. Through the corpus management software you can delete corpus files and related information including corpus information in the database, corpus files and annotation files.Corpus File Exportation. Corpus file exportation refers to the user export the corpus files to local computer from systematic based corpus, that include speech list files(Excel format), speech files and annotation files exportation. Users can query the list of exporting speech files according to the conditions from based speech management interface and click the export button in the interface. The content of exporting is all of the speech data and files which satisfied the user's query condition.Corpus Information Statistics. The management system will count the corpus data automatically and store the results in the database. Statistical content includes language statistics, the speaker statistics and keyword statistics, statistics according to the day, the statistical results are also stored by the day.Statistics for the number of corpus files: A certain period of time according to the total number of annotation files by per day, month and year.Statistics for the number of each user's annotation: A certain period of time according to the number of annotation files by the user statistics (only show the top ten).Statistics for the frequency of keyword: A certain period of time according to the number of annotation files by keyword statistics (only show the top ten).Statistical results can be presented in a list, stitches diagram and chart.3.4 Corpus Storage Specification.Corpus files stored according to certain specifications, it is convenient to get corpus data directly, corpus storage must follow the principle that is simple structure and easy to find.According to the source of corpus for storage. Storage classified by the producing source of the corpus, there are two main kinds of corpus sources, one is producing by the system and another is producing through other way to get.According to the producing time of corpus for storage. Based on the source of corpus and according to the producing time of corpus for storage, it is very convenient to search.The naming conventions. Corpus includes speech files and annotation files and the files are correspondence between each other, they are stored with the same name but different extension.3.5 Data Interface.The getting interface of corpus. Corpus management system automatically get the information of corpus, they are stored in the database and the file system respectively.Corpus importing interface. The management system provides the function of corpus importing, you can import the information of corpus through the corpus management system which includes speech files and annotation files, the system will automatically parse recognition, store preservationand associate actions. It also provides the function of querying and marking with the importing corpus.Corpus exporting interface. All the information from the corpus can be exported by the system and the system will compress the exporting files.Speech annotation and data analysis interface. Corpus information can be provided the data analysis engine to train for the model.4.ConclusionThe establishment and management of speech corpus is a complex problem, because the speech situation is not the same, so the specific speech corpus will encounter various difficulties in the process of the establishment and management, In this paper, we will provide a feasible scheme for the establishment and management of speech corpus, i hope that will provide reference for the research of speech corpus.References[1]Sen Zhang, Lei Liu, Luhong Diao. Problems on Large-Scale Speech Corpus and theApplications in TTS. Chinese Journal of Computers. Vol. 33 (2010) No. 4, p. 687-695.[2]Lianhong Cai, Dandan Cui, Rui Cai. TH-Coss, a mandarin for speech corpus TTS. Journal ofChinese Information Processing. Vol. 21 (2007) No. 2, p. 94-99.[3]Shengliang Tang, Shili Zhang, Zhiping Zhang, et al. Speech-synthesis system based on newsbroadcasting corpus. Proceedings of the 8th National Conference on Man-Machine Speech Communication, Beijing, 2005, p. 326-329.[4]Faxin Zou: Design and Implementation of Speech Corpus (Master, Guangxi Normal University,China 2012). p. 31-38.[5]Huizhong Yang. An Introduction to Corpus Linguistics. Shanghai Foreign Language EducationPress, 2002, p. 20-35.[6]Yingquan Shen, Yongjin Liu, Jun Cai, et al. Method and implementation of transcribing speechcorpora based on human-computation. CAAI Transactions on Intelligent Systems. Vol. 4 (2009) No. 3, p. 270-277.[7]Tingting He: Study on Corpus (Doctor, Central China Normal University, China 2003). p. 61-66.[8]Tongxuan Zhang. Design of Folk Song Corpus Based on Web Retrieval. Modern ElectronicsTechnique. Vol. 333 (2010) No. 22, p. 38-41.。
国内外英语学习者语料库的发展_现状与方法
语言技术研究国内外英语学习者语料库的发展:现状与方法王立非1,孙晓坤2(1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院,江苏南京 210039)摘 要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支———基于学习者语料库的第二语言习得研究的理论与方法。
关键词:学习者语料库;第二语言习得研究;现状中图分类号:H319.9文献标识码:A 文章编号:100125795(2005)052001920006 学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech 1998:3),属于学习者中介语范畴。
大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。
本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。
1 国外学习者语料库发展的现状目前国际上对学习者语料库的研究大体上分为三个方面:①学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设相关的软件开发,由语言学和软件两个专业的人员合作完成。
②基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。
③学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。
目前,在语料库建设方面,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。
1.1 书面语语料库就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。
(1)国际英语学习者语料库———I CLEI CLE (I nternati onal Cor pus of Learner English )是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain -La -Neuve 大学的Sylviane Granger 教授。
儿童口语语料库计算机语言分析程序的评介
国际儿童口语语料库的程序分析软件评介*王立非(南京大学英语口语研究所,南京210093)摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得具有重要价值,本文评介该语料库的计算机语言分析程序的操作与应用,对建立我国学生英语口语语料库具有重要启示意义。
关键词:国际儿童口语语料库、计算机语言分析程序、语料库语言学中图分类号:文献标识码:文章编号:An Evaluation of the CLAN Program in CHILDES CorpusWANG Lifei(Nanjing University, China 210093)Abstract: This paper describes the operating principles of CLAN for the talk-bank in the CHILDES project, a very valuable databank to studies on English spoken corpus and child language acquisition. It aims to use CLAN of the CHILDES as a reference for constructing the spoken English corpus Chinese learners.Key words: Childes, CLAN, Corpus Linguistics一、引言计算机语言分析程序(CLAN)是由Computerized Language Analysis 的首字母缩写,此程序是儿童口语语料库(CHILDES)计算机文本分析赋码系统CHA T(参见王立非,刘斌2003)的配套程序,由美国卡耐基·•梅隆大学的Leonid Spektor编程。
CLAN 采用图形界面,Macintosh 和Windows系统均可运行。
《2024年语料库与批判话语分析》范文
《语料库与批判话语分析》篇一一、引言语料库与批判话语分析是语言学领域中两个重要的研究方法。
随着语言学研究的深入发展,这两种方法在语言分析、社会现象解读等方面发挥着越来越重要的作用。
本文旨在探讨语料库与批判话语分析的原理、应用及其相互关系,以期为相关研究提供参考。
二、语料库的原理与应用1. 语料库的原理语料库是一种大规模的语言数据集合,通过收集、整理、标注等方式,为语言研究提供丰富的数据支持。
其原理主要在于通过对大量语言数据的统计和分析,揭示语言使用的规律和特点。
2. 语料库的应用语料库广泛应用于语言学、文学、翻译等领域。
在语言学方面,语料库可以用于语言描述、语言对比、语言演变等方面的研究。
在文学方面,语料库可以用于文本分析、文学风格研究等。
在翻译方面,语料库可以用于翻译规范研究、翻译质量评估等。
三、批判话语分析的原理与应用1. 批判话语分析的原理批判话语分析是一种以社会、政治和文化为背景的语言分析方法。
其原理主要在于通过对语言使用中隐含的意识形态、权力关系等进行揭示和批判,以揭示语言背后的社会现象和问题。
2. 批判话语分析的应用批判话语分析广泛应用于社会语言学、政治语言学、媒体语言学等领域。
在社会语言学方面,批判话语分析可以用于研究社会阶层、性别、种族等在语言使用中的差异和影响。
在政治语言学方面,批判话语分析可以用于研究政治话语的传播和影响。
在媒体语言学方面,批判话语分析可以用于揭示媒体报道的偏见和意识形态。
四、语料库与批判话语分析的相互关系语料库与批判话语分析在语言研究中具有相互促进的关系。
一方面,语料库为批判话语分析提供了丰富的数据支持,使得研究者能够更加准确地揭示语言背后的社会现象和问题。
另一方面,批判话语分析为语料库的研究提供了理论指导,使得研究者能够更加深入地探讨语言的本质和特点。
同时,二者结合使用可以更加全面地揭示语言与社会现象之间的关系,为相关研究提供更加深入的见解。
五、结论综上所述,语料库与批判话语分析是语言学领域中两个重要的研究方法。
英语写作教学语料库赋码对照表
英语写作教学语料库赋码对照表第一维度赋码文章类型类型子类赋码论说文(argumentation)归纳(Inductive)演绎(Deductive)[psg_arg_indc][psg_arg_dedc]记叙/描写文(narration/description)写人(About a person)[psg_nar_prsn]记事(About an event)[psg_nar_evnt]状物(About a place)[psg_nar_plac]说明文(exposition)时间顺序(Development by time)[psg_exp_time]空间顺序(Development by space)[psg_exp_spac]过程分析(Process analysis)[psg_exp_proc]举例说明(Exemplification)[psg_exp_exmp]下定义(Definition)[psg_exp_defn]因果关系(Cause and effect)[psg_exp_ceff]分类说明(Classification)[psg_exp_clsf]比较对比(Comparison and contrast)[psg_exp_comp]第二维度赋码组织结构类型子类赋码主题句位置(location oftopic sentence)段首(In the beginning of the paragraph)[prg_tpc_1]段中(In the middle of the paragraph)[prg_tpc_2]段末(At the end of the paragraph)[prg_tpc_3]缺失(Topic sentence missing)[prg_tpc_0]层次结构位置(location ofdevelopmentalparagraphs)引言(Introduction)[prg_mrkb_1]引言缺失(Missing introduction)[prg_mrkb_0]主干部分(Body)未标注见[1],下同结论(Conclusion)[prg_mrke_1]结论缺失(Missing conclusion)[prg_mrke_0]上下文衔接手段[2] (linking device) 时间及顺序概念(chronological orsequential order)[prg_lnk_time]空间概念(spatial order) [prg_lnk_spac]过程(process) [prg_lnk_proc]举例(exemplification) [prg_lnk_exmp]分类(classification) [prg_lnk_clsf]比较与对比(compare and contrast) [prg_lnk_comp]递进关系(progressive relation) [prg_lnk_prog]因果关系(cause and effect)[prg_lnk_ceff]总结性语句(summary) [prg_lnk_summ]指代关系(anaphoric relation) [prg_lnk_reff]同位关系(appositive relation)[prg_lnk_appo]并列关系(parallel structure) [prg_lnk_parr]第三维度赋码句子类型[3]类型子类赋码结构层面(structurally)简单句(Simple sentence)未标注[4]复合句(Compound sentence)[sntn_cmpnd]复杂句[5](Complex sentence)主语从句[sntn_cmplx_sub]宾语从句[sntn_cmplx_obj]表语[sntn_cmplx_pre]从句状语从句[sntn_cmplx_adv]定语从句[sntn_cmplx_att]同位从句[sntn_cmplx_app]复合复杂句(Compound-complexsentence)[sntn_cmpnd_cmplx]特殊句型(Special patterns) 倒装句(inverted sentence)[sntn_spcl_inv]感叹句(exclamation)[sntn_spcl_exc]反意疑问句(tag question)[sntn_spcl_tag]强调结构句(cleft sentence)[sntn_spcl_clf]祈使句(imperative sentence)[sntn_spcl_imp]几点说明:[1] 引言与结论之间的自然段默认为主干(body)部分,未人工标注。
基于语料库的话语研究初探
采用话语分析的理论框架和方法,对采集的语料 进行深入分析,包括语境分析、主题分析、语法 分析、语义分析等。
语料采集和预处理
根据研究问题和目标,采集相关的语料库,并进 行预处理,如去除噪音、标准化处理等。
数据处理和分析
利用数据处理和分析软件,如Python、R等,对 分析结果进行处理和分析,提取有用的信息和数 据,为研究提供支持和依据。
要点二
详细描述
话语结构分析旨在揭示文本中不同层次的结构和组织形 式,例如句子之间的连贯性、段落之间的过渡效果等, 从而深入理解文本的整体意义和传达的信息。
话语主题的分析
总结词
确定和描述文本的主题和内容,包括主题的分布、发展 和相互关系。
详细描述
话语主题分析旨在识别文本中的主题、话题、核心信息 等关键元素,并探讨这些元素之间的关系和发展。这有 助于我们理解文本的主要内容和中心思想,以及作者或 说话者的意图和目的。
机器学习方法则通过训练大量带标签的语料库来 学习文本情感特征,从而进行情感分析和度量。
基于词典的方法通常采用情感词典中的词项来判 断文本的情感极性,并赋予相应的情感权重。
深度学习方法则通过神经网络模型对文本进行特 征提取,从而进行情感分析和度量。
情感分析的应用及价值
基于语料库的话语情感分析 在各个领域都有广泛的应用 ,如产品评论、微博分析、 社交媒体监测等。
02
基于语料库的话语研究综述
语料库的定义及发展历程
语料库定义
语料库是指按照一定的语言学原则和取样标准,将大量真实、自然的语言数据有序地存储在计算机中,供语言 研究和使用。
发展历程
语料库的发展可以追溯到20世纪50年代,当时语言学家开始利用计算机技术进行大规模的语言数据收集和存 储。随着计算机技术的不断发展和应用,语料库的规模不断扩大,应用范围也日益广泛。
不同社会经济地位家庭儿童在集体教学活动中的语言符码使用倾向研究——基于伯恩斯坦的符码理论
【摘要】本研究对江苏南京市A 、B 两所幼儿园两个大班的10次集体教学活动进行了观察,结合幼儿所处的家庭社会经济地位,对幼儿精致型语言符码与限制型语言符码的使用比率、精致型语言符码变式的各种特征及其出现比率等进行了比较分析,结果发现:(1)A 园幼儿家庭社会经济地位以及精致型语言符码与限制型语言符码的使用比率均显著高于B 园;(2)A 、B 两园幼儿出现的精致型语言符码变式的特征有差别,A 园幼儿精致型语言符码变式特征的种类及其出现比率均显著高于B 园幼儿。
【关键词】符码理论;家庭社会经济地位;集体教学活动;语言符码使用倾向【中图分类号】G616【文献标识码】A 【文章编号】1004-4604(2017)05-0039-05*通讯作者:虞永平,博士,南京师范大学教育科学学院党委书记、教授、博士生导师,E-mail :符码理论(code theory )是巴兹尔·伯恩斯坦(Basil Bernstein )对语言、社会阶级、教育成就等进行研究所取得的重要成果,〔1〕为分析教育公平等问题提供了新视角。
伯恩斯坦根据不同社会阶级的惯用语言差异,用限制型符码(restricted code )与精致型符码(elaborated code )两种不同的语言符码来分析语言与社会阶层、归属文化和家庭管理形态之间的关系,得出一个基本结论,即中产阶级倾向于使用“精致型符码”,劳工阶级则倾向于使用“限制型符码”。
〔2〕然而,基于伯恩斯坦符码理论的实证研究并不多见。
本研究尝试以伯恩斯坦的符码理论为指导,分析不同社会经济地位家庭幼儿在集体教学活动中的语言符码使用倾向,以深入探讨家庭社会经济地位对幼儿语言符码使用的影响。
一、研究方法(一)研究对象本研究从江苏南京市省级公办示范性幼儿园和民办非示范性幼儿园中各随机抽取一所幼儿园(分别为A 园和B 园),并在两所幼儿园各随机抽取1个大班,每班随机选择5次集体教学活动,共计10次集体教学活动,以此为研究素材。
儿童语料库词汇
一、引言
儿童语言发展是一个复杂的过程,涉及到语音、词汇、语法、语用等多个方面。其中,词 汇习得是儿童语言发展的基础,对于儿童掌握语言、进行沟通交流具有重要意义。因此, 对儿童语料库词汇的研究具有重要的理论和实践价值。
二、儿童语料库词汇收集与整理
1. 语料收集
四、儿童语料库词汇研究意义及应用
1. 理论意义
儿童语料库词汇研究有助于揭示儿童词汇习得规律、特点及影响因素,丰富和发展儿童语 言发展理论。
2. 实践价值
儿童语料库词汇研究为儿童语言教育提供科学依据。教育者和家长可根据儿童词汇习得特 点,制定合适的语言教育方案,提高儿童语言能力。
五、结论
儿童语料库词汇研究对于揭示儿童词汇习得规律、特点及影响因素具有重要意义。本文通 过对儿童语料库词汇的收集、整理和分析,发现儿童词汇习得具有阶段性和规律性、形象 性和直观性等特点,为儿童语言教育提供科学依据。未来研究可进一步深入探讨儿童词汇 习得过程,为提高儿童语言能力提供更有针对性的指导。
1. 儿童词汇习得的规律
儿童词汇习得是一个复杂的过程,受到生理、心理、社会等多方面因素的影响。儿童在语 言习得过程中遵循一定的规律,如词汇的数量增长、词类分布、词汇网络等。通过对儿童 语料库的研究,我们可以发现儿童词汇习得具有以下规律:
(1) 词汇数量增长规律。儿童词汇量的增长呈现出指数型增长趋势,即在一定时期内,词 汇量快速增长,然后增长速度逐渐减缓。
儿童语料库词汇通用文档第 2 篇
儿童语料库词汇研究报告
【摘要】
儿童语料库词汇研究是语言学领域中的一个重要分支,对于了解儿童语言习得过程、揭示 儿童语言特点及发展规律具有重要的理论意义和实际价值。本文通过对儿童语料库的词汇 进行收集、整理和分析,旨在揭示儿童词汇习得的规律、特点及影响因素,为儿童语言教 育提供科学依据。
话语标记语语料库赋码原则研究
话语标记语语料库赋码原则研究
侯晓舟
【期刊名称】《英语教师》
【年(卷),期】2014(014)010
【摘要】近年来,国内外研究者对话语标记语的研究不断的深入.随着计算机技术的发展,对于真实语料的研究也采用了语料库研究的方法.然而,话语标记语语料库建设的核心部分为赋码集建设,研究者可根据各自对其研究的方向和侧重点的不同,依照不同类别的分类对语篇中出现的话语标记语进行赋码,从而通过计算化的过程得出客观、科学的研究结论.本文试图从位置、语用功能、语篇连贯和修辞结构四个角度对话语标记语进行赋码探索.
【总页数】6页(P45-50)
【作者】侯晓舟
【作者单位】071002河北保定,河北大学外国语学院
【正文语种】中文
【相关文献】
1.中国英语学习者书面语中推导性话语标记语使用情况调查——一项基于语料库的研究 [J], 唐丽玲
2.语际话语标记语的语用调查分析及写作教学研究——基于CLEC和BROWN语料库的语际话语标记语对比 [J], 苏红英
3.中国英语学习者书面语中话语标记语使用频率的研究--基于BNC和SWECCL语料库的对比分析 [J], 韩亚华
4.语料库视角下的话语标记语语用研究--以伦敦青少年口语语料库中so的用法为例 [J], 陈春菲
5.话语标记语语料库赋码原则研究 [J], 侯晓舟;
因版权原因,仅展示原文概要,查看原文内容请购买。
汉语国际教育动态语料库
汉语国际教育动态语料库近年来,随着全球化的发展,汉语国际教育迎来了前所未有的发展机遇。
为了更好地满足全球范围内对汉语学习的需求,汉语国际教育动态语料库应运而生。
本文将探讨汉语国际教育动态语料库的意义、建设和应用。
汉语国际教育动态语料库的建设对于推动汉语国际教育的发展具有重要意义。
通过收集、整理和研究来自世界各地的汉语学习者和教师的语料信息,可以为教师提供更准确、全面的语言素材和教学资源。
这不仅可以提高汉语教学的质量和效果,还可以加强汉语国际教育的全球传播力和影响力。
汉语国际教育动态语料库的建设需要借助现代技术手段。
通过语音识别、文本分析和数据挖掘等技术,可以快速、准确地处理大量的语料数据,并提取有价值的信息。
同时,利用云计算和大数据技术,可以实现语料库的在线共享和全球范围内的远程访问,为全球汉语学习者和教师提供便捷的学习和教学资源。
汉语国际教育动态语料库的应用范围广泛。
首先,它可以用于汉语教学的教材编写和教学设计。
通过分析和归纳语料库中的语言特点和用法,可以为教师提供更科学、符合学习者需求的教学内容和教学方法。
其次,它可以用于语言学研究和教育评估。
通过对语料库中的语言现象和变化进行研究,可以深入探索汉语作为第二语言的习得规律和教学策略。
此外,通过分析和比较不同国家和地区的语料数据,可以评估汉语学习者的语言水平和教学成果,为教学改进和政策制定提供科学依据。
汉语国际教育动态语料库的建设还需要加强国际合作和资源共享。
汉语国际教育是一个全球性的事业,需要各国和地区的共同努力和支持。
国际合作可以促进语料库数据的多样性和丰富性,提高语料库的代表性和可靠性。
同时,通过资源共享和交流,可以促进各国汉语教师的专业成长和教学水平的提高。
汉语国际教育动态语料库的建设对于推动汉语国际教育的发展具有重要意义。
它不仅可以提供丰富的语言素材和教学资源,还可以促进汉语教学和语言学研究的创新和发展。
我们期待汉语国际教育动态语料库的建设能够取得更大的成果,为全球汉语学习者和教师提供更好的学习和教学支持。
语料库辅助词块教学模式初探
语料库辅助词块教学模式初探
杜爱玲
【期刊名称】《河南科技学院学报(社会科学版)》
【年(卷),期】2010(000)006
【摘要】词块是英语的基本语言单位,词块教学有助于学习者习得词块的语法结构,提高语言的流利性和地道性.文章介绍了教师利用语料库帮助学生分析归纳词块的意义及用法,并通过各种有效活动来练习运用词块的教学模式,有效提高了学生的英语运用能力.
【总页数】3页(P118-120)
【作者】杜爱玲
【作者单位】河南师范大学,外国语学院,河南,新乡,453007
【正文语种】中文
【中图分类】G712
【相关文献】
1.语料库辅助的护理英语词块研究及教学策略 [J], 卢素芬;
2.语料库辅助词块教学在英语写作教学中的应用 [J], 陈碧梅
3.语料库辅助的护理英语词块研究及教学策略 [J], 卢素芬
4.语料库辅助词块教学在英语教学中的应用 [J], 唐滢
5.语料库辅助词块教学在英语教学中的应用 [J], 唐滢
因版权原因,仅展示原文概要,查看原文内容请购买。
blrm规则
blrm规则
BLRM(Bilingual Language Model Rules)是一种用于双语语
言模型的规则,可以帮助双语语言模型生成更准确和流畅的语言。
以下是BLRM的几条规则:
1. 双语对齐规则:双语语言模型应该能够将源语言和目标语言的句子进行对齐,在生成目标语言的翻译时,将源语言中的内容正确地转换为目标语言的表达方式。
2. 语法规则:双语语言模型应该遵循源语言和目标语言的语法规则,生成的翻译应该符合语法的结构和规范。
3. 词汇规则:双语语言模型应该具备丰富的词汇知识,并能够准确地选择和使用不同语言的词汇,以提高翻译的准确性和流畅度。
4. 上下文规则:双语语言模型应该能够理解上下文信息,并在生成翻译时考虑到上下文的影响,使翻译更加连贯和通顺。
5. 指代规则:双语语言模型应该能够正确处理指代关系,将上下文中的指代词正确地翻译为目标语言中对应的指代词或词组。
6. 语义规则:双语语言模型应该能够理解源语言和目标语言的语义信息,并能够准确地表达源语言句子的含义和意图。
这些规则可以帮助双语语言模型生成更加准确和自然的翻译结果,提高翻译的质量和效果。
nsefc教材中言语行为的语用评估
nsefc教材中言语行为的语用评估面对现代社会不断发展变化的语言技能,有必要进行言语行为的语用评估。
NSEFC(National Skills for Education, Family and Community)教材中总结了言语行为的评估原则,包括:一、重视口头表达的语言功能。
通过展示口头表达、询问和社交交流中的语言功能进行评估,以检验学生的理解和表达的能力。
要考虑学生的思维能力,包括推理能力、归纳能力和分析能力,以及表达能力、交流能力和语言熟练程度等。
二、注重语言的社会性和文化性。
口头表达、询问和交流是建立在参与者之间的共同理解和认可之上,要考虑到参与者在社会和文化背景中的影响。
因此,评估言语行为时需要熟悉文化背景及语言特征,并考虑学生应用这些能力的情况。
三、重视言语性能的自发性和自由性。
通过关注学生的语言结构和句法,以及在询问、交流和提出问题时的逻辑性,可以考察学生在使用和表达句子,推断和分析句子时表现出来的自发性和自由性。
四、关注言语行为的语用效果。
评估表明,学生的口头表达、询问和交流能力,在具体的语境中是否能够得到有效的交流和理解,以及在特定历史文化和情境中是否有效。
五、重视探究和分析言语。
鼓励学生参与更多探究和分析言语的活动,考察学生的观察、推断和总结能力,让学生充分发挥想象和应用能力,让学生通过讨论、记录和分析文本中的内容,以及通过探究情景和文化背景,增强自我认知和学习能力。
总的来说,NSEFC教材中言语行为的语用评估关注言语功能、社会、文化背景以及自发性、自由性等,考察学生在日常交流、思考和表达能力,以及对文化和情境中表现出来的理解能力。
通过全面、准确的语用评价,可以为学生提供健康、智能和平衡的成长环境。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国际儿童口语语料库录写系统的赋码原则初探*王立非1,刘斌2(1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京210039)摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。
关键词:国际儿童口语语料库;英语口语语料;语料库语言学中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT ToolWANG Lifei1, LIU Bin2(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.Key words: CHILDES;English spoken corpus;corpus linguistics1.引言新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。
该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。
到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。
用户可直接从网上免费登录、使用或下载(/CHA T.html)语料。
CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。
本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。
2.录写赋码系统的途径与原则研究口语必须将视频和音频语料转换为文本语料进行分析和研究,录写费时费力,(温志军、胡瑰玲,2001)而CHAT录写系统提供了一整套赋码符号系统,经过赋码的口语语料运用计算机可以自动处理和分析。
CHAT (codes for the human analysis of transcripts)的全称是“人工录写文本分析赋码系统”,它是一套复杂但又十分灵活的多级赋码方案,专为计算机录写自然话语而设计。
该系统提供了一整套用计算机记录人类交际会话的标准形式。
这些交际话语涵盖了日常会话的所有种类。
赋码内容包括基本的话语文本类型、详尽的发音信息和话语的句法分析信息。
CHILDES语料库中的全部文稿为CHAT格式,运用CLAN程序可以对CHAT文本进行自动分析。
2.1 CHAT系统的赋码方式CHAT对口语语料的赋码采取四种方式。
第一,使用标准美式音标作为统一的格式记录会话中的词素。
可以将“mightuv”记录为/maituv/。
第二,CHAT允许在文稿中使用标准国际音标符和变音符。
第三,CLAN编辑器可将会话交谈的声音用数码形式记录下来,并直接通过ViaVoice语音识别软件自动转为文本格式。
这套系统称为“语音CHAT”。
人们可通过安装在计算机上的语音CHAT识别文本语料,听到所录制的声音。
第四,如果不希望使用上述方式,CHAT还可识别非标准词汇形式,如“might(h)ave”,并将它以“might have”的缩写形式进行处理。
2.2 CHAT对文本与音频语料的赋码原则CHAT文稿赋码分为三个层级:初级、中级和高级。
初级与普通儿童话语分析采用的文稿赋码系统一样。
初级CHAT赋码系统的要求包括文档格式、发音形式、文件书写格式和ASCII格式等。
初级CHAT文档的形式有一定的标准。
这些标准必须符合CLAN分析程序指令的要求,否则,CHAT文档不能顺利运行。
正确的CHAT文本格式如下:1)用英语进行正常赋码时,文档中的每个符号都必须是ASCII符号。
2)每行必须以硬回车结束。
3)每行的开头必须是@Begin。
4)每行的结束必须是@End。
5)必须有@Participants行。
内容为代表参加者的三字码,如:参加者的名字、参加者的角色。
此行必须紧跟@Begin行。
6)以*号开始的行表明实际说过的话。
这些被称为主行。
每一个主行都只能记录一句话语。
当说话者一次说几句话时,必须分行记录。
7)在主行的*号之后的三个字母必须大写。
然后是冒号和说话内容。
8)以%符号开始的行表示录写者或研究者对背景的注释。
通常这些行包括赋码和注释,称为“附属”行。
9)以%符号开始的附属行后是三个下标字母。
如“phonology”中的“pho”,一个冒号和注释。
10)摘要行后接主行和附属行。
3.CHAT赋码的操作步骤CHAT文稿的赋码主要分为固定行、主行和可变行三部分。
3.1 固定行赋码CHAT赋码文稿总是以固定行开始,提供录写日期、参加者姓名、年龄、交谈背景等信息。
这些信息出现在文本的最开始处,具体格式如下:(XXX表示某某人,凡是有名字的行都用破折号,其它说明行均无破折号,以示区别。
遗漏的冒号已加上,全部要对齐。
)×××姓名行——@Name of ××××××年龄行——@Age of ××××××生日行——@Birth of ×××赋码者行 @Coder:附属行 @Dependent:×××教育行——@Education of ×××:文件名行 @Filename:字体行 @Font:×××组行——@Group of ×××语种行 @Language:×××语言行——@Language of ××××××状况行——@SES of ××××××性别行——@Sex of ×××原因行 @Stim:录写者行 @Transcriber:警告行 @Warning:有关参加者和背景信息的所有固定行都须以“@”符号开始。
一些行只要求有@符号和行的名称。
例如“@Begin”或“@New Episode”。
但是大部分行后须有内容。
有内容的行还必须有一个冒号,然后是1-2个注释。
冒号后必须空出8个字符的间隔,然后输入注释。
注释是为了增加文档行信息的可读性。
冒号前的材料称为“行名”,如:“@Age of CHI:”和“@Date:”都是行名。
行名之后的文本被称为“行内容”,如:“@Age of CHI: 2; 6.4”、“@Date: 25-JAN-1983”。
“2;6.14”和“25-JAN-1983”都是行内容,统称为“行”。
行末不能有标点符号。
在CHAT中,只有主体确实发出的声音才能用标点符号。
这些固定行说明说话者年龄、社会经济地位或出生日期等不变的信息,如:中产阶级家庭、男性、2岁等。
这些信息有助于更有效地研究语料。
固定行按字母顺序排列,排列顺序如下:(1)姓名行@Name of ×××:此行说明参加者的名字。
(2)年龄行@Age of ×××:此行是说话者年龄,×××表示用三个字母说明说话者的名字。
CHAT中的年龄信息精确到日。
这里的年龄指的是被采集语料的儿童及其兄弟姐妹的年龄,也可用于其他说话者。
@Age行的顺序为年、月、日。
如2;11.7,指的是2岁,11个月零7天,与一般日期表示方法不同。
(3)生日行@Birth of ×××:此行说明了说话者的出生日期。
此行的内容是日-月-年。
注意日在前,月排在第二位。
因此1973年1月23日应写为23-JAN-1973。
在所有日期中,月份应大写,缩写,如:JAN,FEB类推。
例如:@Birth of SAR: 23-JUL-1961 (4)赋码者行@Coder:此行说明文件赋码人身份。
以备查验,同时也是对赋码者劳动的一种承认。
(5)附属行@Dependent:此行用于列出附属信息。
可插入%Spa等类指令,供编辑器阅读。
(6)教育行@Education of ×××:此行说明说话者的最高教育水平,用0-20的整数表示。
12以后的数字表明大学教育。
如说话者受教育程度是大学三年级,就应以“15”来表示。
例如:@Education of MOT: 15。
(7)文件名行@Filename:此行是计算机文件的文件名,为了防止文件重名。
如果已经有了一个@ID行,就无需再加上此行,因为@ID赋码包括了文件名。
(8)字体行@Font:此行用于定义文件的预设字体。
在CLAN编辑器中,对WINDOWS系统而言,预设字体为Win95:Courier New:-13。
(9)小组行@Group of ×××:此行说明了一组研究对象中以谁为主体,其他人则不重要。
(10)语种行@Language:此行说明记录数据的语种。
(11)语言行@Language of ×××:此行说明参加者使用的语言。
为了能说明交际的基本语言,最好使用能适用GEM软件(对某段录写语料标记进行深入分析的软件)的@bg和@eg标记。
如果语言转换频繁,有必要在每句话前使用%语种,如:%lan:附属行,表明所使用的语言。