面向计算机辅助正音的汉语中介语语音语料库的创制与标注

合集下载

计算机辅助语言学帮助研究语言和语音的工具

计算机辅助语言学帮助研究语言和语音的工具

计算机辅助语言学帮助研究语言和语音的工具计算机辅助语言学(Computer-Assisted Language Learning, CALL)是一门利用计算机技术来辅助语言学习的学科。

它结合了语言学、计算机科学和人机交互领域的知识,提供了一系列工具和资源,帮助学习者更好地掌握语言及其应用。

在语言和语音研究方面,计算机辅助语言学发挥了重要作用。

本文将介绍计算机辅助语言学针对语言和语音研究的应用以及相关工具。

一、语言研究1. 语料库语料库是以计算机为工具,收集、整理和储存大量实际语言材料的库。

研究人员可以通过语料库分析词频、句子结构、语法规则等来了解语言使用的规律。

计算机辅助语言学通过语言处理技术,将语料库的文本进行索引、搜索和比较,从而提供了丰富的语言数据,支持语言学研究。

2. 机器翻译机器翻译利用计算机自动将一种语言转换成另一种语言。

它可以加速研究人员对不同语言之间的比较和分析,发现语言之间的异同。

计算机辅助语言学提供了各种机器翻译工具和技术,如统计机器翻译、神经网络翻译等,帮助研究人员进行语言对比和跨语言研究。

3. 语音识别与合成语音识别技术可以将人的语音信号转换为文本形式,为研究人员提供语言材料。

通过语音识别,研究人员可以对不同语言的语音进行分析,探索语音特征和语音变化规律。

语音合成技术则可以将文字转换成语音,使研究人员能够听到语言的真实发音,增进对语音的理解。

二、语音研究1. 语音分析语音分析是对语音信号进行分析和处理,研究语音的声学特性和音素的产生规律。

计算机辅助语言学提供了一系列语音分析工具,如波形显示、频谱分析、共振峰检测等,帮助研究人员深入了解语音的各种特征。

2. 语音合成语音合成技术可以根据给定的文本合成语音,使计算机可以模仿人的声音进行交流。

研究人员可以利用语音合成技术生成标准发音,进行语音教学或语音矫正。

同时,语音合成也可以帮助研究人员深入了解语音的生成和变化过程。

3. 语音识别语音识别技术是将人的语音信号转换成文字的过程。

关于汉语中介语语料库建设研究报告

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。

【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。

本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。

中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。

中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。

无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。

在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。

因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。

一、需求分析和框架设计语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。

半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。

韩国汉语学习者中介语口语语料库的建设及意义

韩国汉语学习者中介语口语语料库的建设及意义
1. 韩国学习者汉语口语语料库的建 库价值
1.1 可对新 HSK 考试反拨效应研究提供支 撑
以标准化考试语料为来源的汉语中介语口 语语料对汉语水平考试的反拨效应明显。在建 的 KHSKKC 语 料 库 首 次 使 用 了 新 HSK 口 语 语 料,利用该语料库提取的字表数据库、词表数 据库,在后续研究中将与新 HSK 词汇大纲、汉 字大纲等结合,进行相关性研究,这对 HSK 的 信度、效度及测试对教学的反拨作用研究等均 将起到一定的支撑作用。
Байду номын сангаас53
华文教学与研究 2020 年第 1 期
1.2 可为国别化汉语教学研究提供支撑 在汉语教学研究界,对汉语教学“国别 化”的呼声越来越高 (李如龙,2012 等)。不 同国家、不同母语和文化背景的学习者,学习 汉语时表现出的中介语特征的确存在着差异。 因 此 , 甘 瑞 瑗 、 张 普 (2005) 提 出 ,“ 国 别 化”就是要“针对不同的国家而实行不同/差 别的汉语的教学与研究”。国别化汉语中介语 语料,为国别化教学大纲设计、国别化教材的 编写、国别化词典的编撰提供可靠的依据,也 为汉语作为第二语言的习得研究提供扎实的多 维度基础数据。 (1) 为国别化汉语教学用字表、词表的研 制提供有力支撑 《汉语水平词汇与汉字等级大纲》(以下简 称 《大纲》),研制于 1992 年 (2001 年进行了 修订),随着时代的发展与进步,社会语言生 活发生了巨大的变化,《大纲》 逐渐不能满足 汉语学习者和汉语作为第二语言研究的需要。 2010 年出台的 《汉语国际教育用音节汉字词汇 等级划分》(以下简称 《等级划分》) 一个显 著的变化是将口语动态语料作为制定音节表、 字表和词表的依据之一。但需要注意的是, 《大纲》 和 《等级划分》 中对字、词的选择仍 然是纯本体视角,而汉语国际教育用的字表、 词表除要依据母语者的使用频率外,还应该将 二语学习者口、笔语语料库作为重要的参照。 因此,对韩国学习者汉语口语的字表和词表的 提取、研究,为面向韩国的汉语教学用字表、 词表的研制提供了强有力的支撑。 (2) 为汉语中介语口语、笔语对照研究提 供有力保障 我们在语料库建设中回避了“书面语”,代 之以“笔语”,究其原因,一是参照了文秋芳、 王立非 (2008)“中国学生英语口笔语语料”的 提法。更重要的是汉语二语学习者在从零起点 到接近于汉语母语者的习得过程中,有相当长 一段时间尚未形成书面语意识,他们所谓的 “书面语”大多数情况下只是以笔语形式记录下 来的口语而已。那么汉语学习者的笔语在哪些 阶段出现了明显的书面语化特征,从哪些节点 他们的口语笔语发生了质的变化,这都需要将 学习者的口、笔语进行对照方可显现。目前, 在汉语作为第二语言教学和研究领域,将汉语

大数据时代的汉语中介语语料库建设_郑通涛

大数据时代的汉语中介语语料库建设_郑通涛
收稿日期: 2015-08-03 基金项目: 国家发展和改革委员会人文社会科学研究规划项目“汉语国际推广云教育厦门公共服务平台” ( ZX2012014) 作者简介: 郑通涛,男,福建漳州人,厦门大学海外教育学院教授、博士生导师; 曾小燕,女,河南三门峡人,厦门大学 海外教育学院博士研究生。
·53·
总之,国内外运用语料库的研究可归纳为四个方面: 一是用于词汇和词典编辑研究; 二是用于 历史语言学和语义学研究; 三是建设学习者语料库,基于此对学习者的中介语进行研究; 四是建设 平行语料库,基于语料库方法进行翻译、语言对比和语言教学等研究。
( 二) 汉语中介语语料库存在的问题 中介语语料库是研究二语任何课题的资料来源,包括中介语口语语料库和中介语书面语语料 库等人类所有的言语产品记录,能否成功地使用语料库研究第二语言,关键取决于语料库的设计。 笔者从大数据的视角审视汉语中介语语料库存在的问题,主要归纳为以下五个方面。 第一,语料库建设缺乏跨学科视角。 现有的语料库建设缺少跨学科的理论指导,如社会学、心理学、文化学、传播学、教育学等。书 面语语料库材料标注缺乏考虑是否符合研究的社会身份、教育背景、单语或多语交际能力、言语行 为、心里活动、学习动机和交际策略等多种因素。 第二,缺乏高质量且真实的口语语料资源。 口语语料库的建设应注重对真实语料的真实转写。香港大学 MIC 中介语料库虽然可以公开、 免费、自行上传语料,但是 MIC 没有体现真实口语语料的作用。主要表现在三个方面: 一是去掉了 口语中的口吃、重复等冗余现象; 二是内容少、规模小; 三是研究范围局限在字词方面的分析,无音 视频语料,无非语言行为记录。 第三,语料数据来源存在局限性。 语料库数量少: 汉语中介语口语语料库仅有一例,即由北京语言大学主办的汉语学习者口语语 料库。语料库规模小: 汉语学习者口语语料库收入的口语答卷,和“HSK 动态作文语料库”收入的 作文答卷,仅仅是部分参加汉语水平考试( 或高等汉语水平考试) 的外国考生的考试答卷,类似于 此规模的中介语语料库,并不能全方面地反映各国的各阶段的学习者的中介语特征。此外,汉语中 介语语料库中收集的语料来自亚洲学习者的语料较多( 如日本、韩国以及泰国、印尼、越南等东南 亚各国的汉语学习者的语料) ,缺少针对欧美学习者的语料,因此不利于深入考察和研究来自欧美 地区的汉语学习者的学习情况。[7] 第四,缺少建设学习者的历史语料库。 历史语料库针对学习者不同发展阶段的语言进行描述的语料库。例如“HSK 动态作文语料 库”收入的作文答卷,仅是部分参加高等汉语水平考试的外国考生的考试答卷。有限的语料库数 据无法考察学习者在不同阶段的语言发展规律和特征。 第五,语料库数据尚不能充分共享。 目前公开的且对汉字偏误进行加工处理的中介语语料库有: 北京语言大学的“HSK 动态作文 语料库”、中山大学的“汉字偏误连续性中介语语料库”、台湾师范大学的“汉语学习者汉字偏误数 据资料库”。[8]

从1.0到2.0——汉语中介语语料库的建设与发展

从1.0到2.0——汉语中介语语料库的建设与发展
这些语料库的建设标志着语言研究手段的科学化 与 现 代 化 ®,它 终 结 了 语 言 研 究 处 理 资 料 的 “卡片时 代”,极大地提高了语言研究的效率和水平。它使语言 研究 、语言教学与习得研究和统计分析相结合,具有 了实证研究的性质;为汉语中介语语料库的建设提供 了理念、方法和技术保障,奠定了坚实的物质基础。
从 1.0到 2.0— 汉语中介语语料库的建设与发展>
张宝林北京语言大学汉语国际教育研究院
提 要 汉 语 中 介 语 语 料 库 产 生 于 2 0 世 纪 9 0 年代中期,进 入 2 1 世纪以来得到长足发展,为 对外汉语教学研究提供了有力支持,极大地推动了汉语习得研究与中介语研究的发展。 然而不论是在语料库的建设与应用研究方面,还是在语料库建设的本体研究方面,都 还存在着一些问题。总体而言,语料库建设还处于以简单粗放为特征的草创时期,或 称 1.0时代。语料库建设2.0时代的特征是整体设计周密,系统制作精良,功能丰富多 样 ,用户使用方便,走的是一条精细化发展之路。其安全性、实用性、方便性都是1.0 时代所无法比拟的,能够满足教学与相关研究的多方面需求。
一门新的学科----语 料 库 语 言 学 ( corpus linguistics ), 并 成 为 了 自 然 语 言 处 理 的 一 个 分 支 学 科 ”(冯 志 伟 , 2002 )。如语言科学史上第一个大型计算机语料库一一 SEU 语 料 库 及 布 朗 语 料 库 的 规 模 均 为 100 万 词 次 , COBUILD语 料 库 为 2 0 0 0 万 词 次 ,朗 文 语 料 库 为 2800 万词次,英 国 国 家 语 料 库 (BNC ) 达 1 亿词次,国际 英语语料库(ICE ) 为 2000万 词 次 (黄昌宁、李涓子,

汉语中介语语料库

汉语中介语语料库

汉语中介语语料库在语言学研究中,语料库是一种非常重要的资源。

因为只有通过大量真实的语言数据,才能更加系统和深入地研究语言的规律和特点。

在汉语研究中,汉语中介语语料库是一种很有价值的语言资源。

本文将从不同角度探讨汉语中介语语料库的特点和应用。

1.汉语中介语语料库的定义和分类汉语中介语语料库是指在翻译、教学和语言理解等领域中有广泛应用的语料库,是一类专业的语言资源库。

按照不同的分类标准,可以将中介语语料库分为多类,较为常见的分类方法有以下几种:(1)按照数据采集方式划分。

该分类方法主要有手工采集和自动采集两种方式。

手工采集是指通过人工收集和整理语言数据来构建语料库;自动采集则是利用自然语言处理技术和计算机程序收集和整理语言数据。

(2)按照语料库的内容和类型划分。

根据不同语料库的目的和应用领域,可以将中介语语料库分为多种类型,如平行语料库、词典类语料库、语音库等。

(3)按照语言形式划分。

该分类方法主要根据语言的形式和形态特征将语料库分为汉英双语、汉法双语、汉日双语等,并可再按照语言形式的细微差异进一步划分。

2.汉语中介语语料库的特点汉语中介语语料库有许多突出的特点,这些特点不仅为汉语研究提供了重要的参考和依据,同时也方便了其他领域如教学、翻译、语音识别等的实际应用。

(1)真实性。

中介语语料库的数据采集主要依赖于真实的语言使用,因而具有较高的真实性。

这为研究汉语语言规律提供了无可替代的语言数据依据。

(2)丰富性。

中介语语料库收录的语言数据相对而言较多,数据来源广泛,覆盖面广,因此具有较高的语言样本丰富性。

这也为汉语教学、研究以及翻译提供了重要的帮助。

(3)统计分析。

中介语语料库的数据具有大量的统计特征,可通过量化分析获得更具客观性和科学性的结果,在构建自然语言处理系统、机器翻译等方面发挥了重要作用。

3.汉语中介语语料库的应用汉语中介语语料库在汉语研究中拥有重要的应用价值。

比如:(1)教学应用。

学习汉语的学生可通过中介语语料库获取大量的语言样本,以提高听说读写等综合语言能力。

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍作者:王丽会来源:《读与写·上旬刊》2015年第06期摘要:语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。

目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。

对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

关键词:汉语中介语语料库;建设;简介中图分类号:G648 文献标识码:B文章编号:1672-1578(2015)06-0001-01"语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

"这种观点不仅仅是语料库语言学家们的自誉,也正在成为整个语言学界的共识(丁信善,1998)。

语料库作为一种研究方法正在不断得到推进和改善,在某些方面发挥着传统研究方法无法比拟的作用。

随着语料库语言学的迅速发展和母语语料库的广泛建设,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。

经过20多年的发展,语料库建设已初具规模,语料库被广泛运用于二语习得,语言教学,对比语言学,词典编辑,句法学和语义学等各方面研究,并在对外汉语教学及相关研究领域发挥了重要的推动作用。

以往语料库的研究主要从建设和应用两大角度出发,而语料库的设想和建设是基于语料库的一系列研究的前提和基础,本文通过列举的方式主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

王韫佳,李吉梅(2001),该文拟建立的汉语中介语语音语料库以文本、语音和声学参数三种形式和用户见面,其中后两种形式是用户比较关心的,也会给研究带来很多方便。

该语料库的建立包括发音人和发音素材的确立、录音、数据库系统和数据库管理系统的建立、原始资料的登录、对部分录音的声学分析和声学参数的登录五部分,然后对汉字文本进行标音转写,并对声母和韵母,音节,节奏单元等进行标注。

“全球汉语中介语语料库建设和研究”的设计理念

“全球汉语中介语语料库建设和研究”的设计理念

二、设计理念
1、语言学与教育学相结合
1、语言学与教育学相结合
“全球汉语中介语语料库建设和研究”项目将语言学与教育学相结合,以实 证研究为基础,探索汉语学习者的语言发展规律和学习特点。通过分析学习者语 料,我们可以更好地理解学习者在语言输出中的语法、词汇和语用等方面的情况, 从而为教学策略的制定和教材的编写提供有力的支持。
通过分析学习者语料,我们可以为汉语教学提供更加科学、个性化的方法和 策略,从而提高教学水平和学生的学习效果。我们还将为学习者提供更加多样化 的学习资源和个性化的学习体验,激发他们的学习兴趣和动力。
参考内容
全球汉语中介语语料库:特点与 功能
全球汉语中介语语料库:特点与功能
全球汉语中介语语料库是一个独特的资源,为汉语学习者提供了宝贵的支持 和帮助。本次演示将详细介绍全球汉语中介语语料库的特点和功能,帮助读者更 好地了解和利用这一重要的学习工具。
2、跨文化交际视角
2、跨文化交际视角
在全球化背景下,跨文化交际能力变得越来越重要。因此,我们的项目不仅 汉语学习者的语言能力,还他们的跨文化交际能力。在语料库建设中,我们将收 集来自不同文化背景的学习者的语料,以便研究文化因素对学习者语言发展的影 响,并为提高跨文化交际能力提供有针对汉语中介语语料库建 设和研究”的设计理念
01 一、引言
目录
02 二、设计理念
03 三、实施策略
04 四、预期成果
05 参考内容
一、引言
一、引言
随着中国经济的崛起和全球化的推进,汉语学习在全球范围内变得越来越热 门。然而,目前的汉语教学和学习方法仍面临许多挑战,其中最大的问题之一是 缺乏大规模、高质量的汉语中介语语料库。为了解决这个问题,我们提出了“全 球汉语中介语语料库建设和研究”项目,旨在构建一个包含全球范围内汉语学习 者语料的综合性语料库,并提供相关的数据分析工具,以支持汉语教学和语言学 研究。

汉语中介语语料库介绍

汉语中介语语料库介绍
汉语中介语语料库简介
陈晨
精选ppt
1
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语) 四 常用中介语语料库
(一)北语HSK动态作文语料库 中介语口语语料库
(二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
精选ppt
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料精库选p进pt 行介绍。
7
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
精选ppt
汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
北大语料库 :8080/ccl_corpus/index.jsp?dir=gudaigudai
精选ppt
5
精选ppt
6
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享
有查看和搜索全部语料的权利。
其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏
误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。
“汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的
词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。
“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所

三个汉语中介语语料库对比分析

三个汉语中介语语料库对比分析

三个汉语中介语语料库对比分析随着汉语在全球的普及和影响力的提升,汉语中介语语料库的发展也日益受到人们的。

中介语语料库是第二语言习得研究的重要工具,能够反映出第二语言学习者在习得过程中的语言使用情况和特点。

本文将对三个汉语中介语语料库——国家社科基金语料库、国家汉语水平考试中心语料库和北京大学汉语中介语语料库进行对比分析。

国家社科基金语料库是由北京语言大学牵头建设的大型汉语中介语语料库,涵盖了不同汉语水平的学习者在不同学习阶段所使用的语言材料。

该语料库包含了书面语和口语材料,其中书面材料包括作文、翻译、阅读等,口语材料包括口语表达、口语考试等。

该语料库的特色在于对不同水平的学习者进行了标注和分类,有利于针对不同水平的学习者进行深入研究。

国家汉语水平考试中心语料库是国家汉语水平考试中心建设的大型汉语中介语语料库,主要涵盖了中高级水平学习者的语言材料。

该语料库以测试和模拟试题为主,包括听力、阅读、写作等部分。

该语料库的特色在于其试题均来自国家汉语水平考试的真实考题,具有较高的真实性和可靠性。

北京大学汉语中介语语料库是由北京大学对外汉语教育学院建设的中级汉语学习者使用的中介语语料库,主要涵盖了中高级水平学习者的语言材料。

该语料库包含了各类写作材料,包括日记、作文、翻译等,同时也包括口语表达和口语考试等材料。

该语料库的特色在于对学习者的各类写作材料进行了细致的标注和分类,有利于针对不同类型的学习者进行深入研究。

国家社科基金语料库和国家汉语水平考试中心语料库均属于大型中介语语料库,但两者的语料来源和规模存在一定差异。

国家社科基金语料库的书面材料来源广泛,包括作文、翻译、阅读等,而国家汉语水平考试中心语料库则主要来源于真实的考试试题。

在规模方面,国家社科基金语料库的口语材料相对较多,而国家汉语水平考试中心语料库的书面材料则更为丰富。

北京大学汉语中介语语料库相对较小,但也有一定的代表性。

其材料来源相对较为集中,主要涵盖了中高级学习者的各类写作材料。

现代汉语中介语语料库

现代汉语中介语语料库

现代汉语中介语语料库介绍现代汉语中介语语料库是一个用于研究介语现象的语料库。

介语是指非母语(L1)与非目标语(L2)之间的语言现象与转换。

这一现象在第二语言习得(SLA)研究中具有重要意义。

通过收集、整理和分析大量的中介语语料,我们可以了解在第二语言习得过程中学习者所面临的挑战,以及他们使用中介语的方式。

语料库构建现代汉语中介语语料库的构建是一个复杂且耗时的过程。

它涉及到收集、标注和整理大量的中介语语料,以及存储和管理这些语料的数据库。

下面是构建过程的几个关键步骤:1.语料收集:收集多样化的中介语语料是构建语料库的第一步。

研究者可以通过观察学习者的口语和书面表达、采访学习者或收集学习者的作文等方式获取语料。

2.语料标注:语料标注是对收集到的语料进行注释和标记的过程。

标注包括标示学习者的语言层次、句法结构、语法错误等。

标注的目的是为了能够更好地分析学习者的中介语现象。

3.语料整理:语料整理是将标注完成的语料进行整理和分类的过程。

通过整理,研究者可以将语料库组织成符合特定研究目的的子语料库,以便于后续的分析和研究。

4.语料管理:语料管理是指对语料进行存储、检索和管理的过程。

为了方便研究者的使用,语料库需要建立一个有效的管理系统,使得研究者可以根据自己的需求查找和获取所需的语料数据。

分析与应用现代汉语中介语语料库的建立为介语研究提供了重要的资源。

研究者可以通过分析语料库中的数据,来解答一系列关于介语现象的问题。

以下是一些常见的分析和应用领域:1. 语言教学通过分析中介语语料库,教师可以了解学习者在学习第二语言过程中常出现的困难和错误,从而有针对性地调整教学策略和教学材料。

同时,通过对比以母语为第一语言的学习者和以其他外语为第一语言的学习者的中介语使用,教师可以更好地理解学习者的个体差异,从而更好地为学习者提供帮助。

2. 第二语言习得研究中介语语料库是第二语言习得研究的重要数据源。

通过分析学习者的中介语使用,研究者可以研究第二语言习得过程中的某些问题,如语言知识习得的顺序、语法错误的分布规律等。

汉语口语中介语语料库建设中的两个关键问题

汉语口语中介语语料库建设中的两个关键问题

2020年第1期No.12020华文教学与研究TCSOL Studies总第77期Sum No.77[收稿日期]2019-12-13[作者简介]刘运同(1964-),男,河南扶沟人,同济大学国际文化交流学院教授,博士,主要从事汉语国际教育与会话分析研究。

电子邮箱:yuntongliu@ 。

[基金项目]语言资源高精尖创新中心项目“汉语中介语语料库建设创新工程”(KYD17004);教育部哲学社会科学研究重大课题攻关项目“全球汉语中介语语料库建设和研究”(12JZD018)①根据介绍,华裔学习者口语主要采集学习华语的华裔留学生的日常对话、课堂口语和录音室录音,约50万字。

华裔学生以暨南大学华文学院的学生为主,兼及其他高校的华裔学生,以及海外华文学习者(/corpus/huayu/spoken.aspx )。

②对此语料库的说明,详见方淑华、网琼淑、陈浩然(2013)。

汉语口语中介语语料库建设中的两个关键问题刘运同(同济大学国际文化交流学院,上海200092)[关键词]汉语口语中介语语料库;语料选取;语料转写[摘要]口语中介语语料库建设滞后除了建设成本的原因,还有一个重要的原因是研究中存在的书面语偏见。

本文讨论了汉语中介语语料库建设中的两个关键问题,即口语语料的选择和转写问题。

我们认为,为了真实体现学习者的目的语使用能力,必须下大力气收集学习者在自然环境中使用汉语的各种语料;同时,在对口语语料进行转写时,关键是确立一个口语语料转写的最低分类清单,这个清单来自两个方面的内容,第一类包括普通口语本身的特征;第二类是学习者的中介语特征。

[中图分类号]H195.3[文献标识码]A[文章编号]1674-8174(2020)01-0047-060.引言在汉语中介语语料库建设方面,口语语料库的建设相对滞后,这是一个不争的事实。

本文首先对口语中介语语料库建设滞后的原因进行探讨,然后对口语语料库建设中的语料选取及语料转写两个关键问题进行剖析,以期促进汉语口语中介语语料库建设的理论探索和争鸣。

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究随着互联网技术的快速发展和人工智能技术的不断普及,语料库成为了现代语言学研究和实践中不可或缺的工具。

汉语中介语语料库是对学习汉语作为外语学习者语言使用特点及其语言学问题进行归纳、总结、分析和研究的语言学研究工具。

在汉语教学、教材编写、汉语语言学研究等领域,汉语中介语语料库的应用并不充分和深入,因此有必要在此方面进行研究并提出发展对策。

一、汉语中介语语料库的现状目前,关于汉语中介语语料库的研究有一定的起步和成果,但整体而言仍处于较初级阶段。

在汉语中介语语料库的构建方面,已经有一些成熟的案例,如北京大学中文语言学研究所所建立的“汉语国际中介语语料库”以及香港城市大学“汉语中介语语料库”等。

这些语料库的特点是按照外国人掌握汉语的不同阶段,建立了大量的语料库和子语料库,包括按照不同国家的使用者语料库、不同层次的语料库以及不同语境的语料库等。

这些语料库大大方便了研究人员研究外国人学习汉语的语言问题和语用问题。

然而,汉语中介语语料库的应用还比较有限,主要是教材编写和汉语作为外语研究方面。

在教材编写方面,现有的教材较少采用大量的实际语料,以及对中介语学习者的语言使用特点的分析和说明,因此教材往往对于学习者的实际学习问题不能够直接回答。

在语言学研究方面,虽然对于中介语语法和中介语语用问题的研究已经有一定进展,但从中介语语料库出发的研究相对较少,这也限制了这个领域的发展。

二、汉语中介语语料库应用的主要问题汉语中介语语料库应用存在的主要问题有以下几点:1.语料质量问题。

由于语料的质量会对研究产生较大的影响,因此需要建立高质量的中介语语料库。

汉语中介语语料库中的语料应包括不同阶段的学习暴露率高、不同层次学生使用、不同语境下语言使用的数据,以及可靠有价值的中介语语料。

2.语料收集问题。

语料收集往往需要耗费大量的时间和人力物力,并且收集的样本是否充分代表每一种情况,也是需要考虑到的因素。

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究现代信息技术的发展带来了人们在语言学和计算机科学研究上的新机遇。

英汉科普平行语料库是科普信息计算研究领域中出现的一项重要新技术。

英汉科普平行语料库的创建和研究有助于提高机器翻译的准确性,为机器翻译技术的开发提供有效的数据支持。

本文将对英汉科普平行语料库的创建和研究作一综述,以期发展出更加成熟的英汉科普平行语料库。

英汉科普平行语料库是由机器翻译系统所需的知识库、词典和规则结构三个部分组成的一个有机整体,它提供了用于机器翻译的语言模型,为机器翻译提供有效的数据库。

为了创建一个有效的英汉科普平行语料库,必须充分利用当前已有的英汉科普语料。

首先,研究人员要获取完整的英汉科普语料,并将其分析和整理,提取出各类语言关系,如语义、句法、语法等关系,使其能够更好地反映出原有的科普文本的语言特征。

其次,在整理和提取完语料的基础上,需要对英汉科普平行语料库进行标记,将每个词汇和句子中的意义、结构以及其他语言特征进行明确标记,以便机器翻译的准确性得到保障。

最后,在完成标记之后,应尽量增加英汉科普平行语料库的句子库,用于训练机器翻译模型,为机器翻译提供有效的数据支持。

经过上述步骤,英汉科普平行语料库的建设便可以完成。

随后,应采用有效的评测方法,对英汉科普平行语料库的精度进行评估,并针对现有语料库采取有效的改进措施,使其适应机器翻译的实际需求。

此外,由于英汉科普平行语料库创建和研究是一项复杂的过程,而不同类型的科普文本存在不同的语言特征,因此,未来研究者还需要不断开展深入的研究,使不同类型科普文本能够更好地反映出其原有的语言特征,使英汉科普平行语料库更加全面和完整。

英汉科普平行语料库的研究主要是为了解决机器翻译的准确性问题,但它也可以为语言学研究带来一些新的研究方向,有助于更好地了解各种口头语言的特征,进而改善人们的日常沟通。

英汉科普平行语料库的创建和研究,不仅有助于提高机器翻译的准确性,而且还有助于更好地了解口头语言特征,以及改善人们的日常沟通。

中文系专业毕业论文 汉语中介语语料库应用及发展对策研究

中文系专业毕业论文 汉语中介语语料库应用及发展对策研究

中文系专业毕业论文汉语中介语语料库应用及发展对策研究汉语中介语语料库应用及发展对策研究随着计算机和互联网技术的发展,语言学研究中的语料库应用越来越受到重视。

语料库是通过采集、整理和利用大量的自然语言文本数据,为语言学研究和应用提供支持的一种工具。

在汉语教学和研究中,中介语语料库被广泛应用于帮助非母语者学习汉语。

本文将就汉语中介语语料库的应用及其发展对策进行研究。

第一部分:中介语语料库的基本概念与特点中介语语料库是指根据非母语者学习汉语过程中产生的中介语数据,进行语言分析和研究的语料库。

它可以是口语或者书面语料,也可以是以学习者为中心或者以特定语言学问题为中心的语料库。

中介语语料库的应用对于了解非母语者的语言习得过程、分析汉语的误用和困难以及设计适用的教学材料等方面具有重要意义。

中介语语料库的特点主要表现在以下几个方面:1. 多样性:中介语语料库包含了大量的学习者语言数据,涵盖了不同程度、不同学习背景的学习者的语言表达。

2. 真实性:中介语语料库采集的是真实的学习者语言数据,具有高度的语言真实性和可靠性。

3. 实时性:中介语语料库可以动态更新和增补,及时反映学习者的语言发展情况。

4. 反馈性:中介语语料库能够为学习者提供及时的错误反馈和语言建议,帮助他们纠正错误、改善语言表达。

5. 可比性:中介语语料库可以与母语语料库进行对比分析,揭示非母语者和母语者之间的语言差异。

第二部分:中介语语料库在汉语教学中的应用中介语语料库在汉语教学中具有广泛的应用价值。

首先,通过分析学习者的中介语语料,我们可以了解学习者对汉语的掌握程度和语言习得过程中的误用情况,从而更好地指导和辅导学习者。

其次,中介语语料库可以为教师提供丰富的教学素材和例句,帮助教师设计教学内容和教学方法。

再次,中介语语料库可以为学习者提供个性化的学习建议和反馈,通过分析学习者的语言问题,提供针对性的帮助和指导。

最后,中介语语料库可以促进汉语教学的研究和创新,为汉语教学的改进提供理论和实证依据。

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究一、引言随着汉语作为第二语言(CSL)教学的日益普及,汉语中介语语料库的建设与应用逐渐受到学术界的重视。

中介语语料库是记录学习者在学习过程中所产出的语言样本的集合,它为研究者提供了大量真实、自然的语言数据,有助于揭示学习者语言习得的过程和规律。

然而,在实际应用中,汉语中介语语料库仍面临诸多挑战和问题,如语料库规模不足、标注体系不统一、数据共享程度低等。

本文旨在探讨汉语中介语语料库的应用现状,分析其发展对策,以期为汉语中介语语料库的建设与发展提供参考。

二、汉语中介语语料库的应用现状1. 教学应用汉语中介语语料库在教学领域的应用主要体现在个性化教学、课堂教学和教材编写等方面。

个性化教学方面,教师可以根据学生的语言产出数据,分析学生的语言特点和问题,从而制定针对性的教学方案。

课堂教学方面,语料库可以为教师提供丰富的教学素材,帮助教师设计真实、有趣的教学活动,激发学生的学习兴趣。

教材编写方面,语料库可以为编写者提供大量的语言样本,有助于编写出更加贴近实际、反映学生真实水平的教材。

2. 研究应用汉语中介语语料库在研究领域的应用主要体现在语言习得研究、语言对比研究和语言教学研究等方面。

语言习得研究方面,语料库可以帮助研究者揭示学习者语言习得的过程和规律,分析学习者的语言发展轨迹。

语言对比研究方面,语料库可以为研究者提供不同母语背景学习者的语言产出数据,有助于比较不同语言之间的异同点。

语言教学研究方面,语料库可以为研究者提供大量的语言教学案例,有助于总结教学经验,探索教学方法。

三、汉语中介语语料库发展对策1. 扩大语料库规模当前汉语中介语语料库规模相对较小,难以涵盖各种语言背景和水平的学习者。

因此,应加大语料库建设的投入,扩大语料库规模,增加语言样本的数量和多样性。

同时,还应注重语料库的更新和维护,确保语料库数据的时效性和准确性。

2. 统一标注体系目前汉语中介语语料库的标注体系尚不统一,导致数据分析和应用存在一定的困难。

面向计算机辅助正音的汉语中介语语音语料库的创制与标注

面向计算机辅助正音的汉语中介语语音语料库的创制与标注

[收稿日期]2009-03-10[作者简介]曹文,博士,北京语言大学对外汉语研究中心副教授,主要研究语音学和对外汉语教学;张劲松,博士,北京语言大学对外汉语研究中心和信息科学学院教授,主要研究语音识别和计算机辅助语音教学。

*本研究得到了教育部人文社科基地重大项目07JJD740060、北京语言大学科研规划项目08WT01及青年骨干教师项目资助。

面向计算机辅助正音的汉语中介语语音语料库的创制与标注*曹 文1 张劲松1,2(11北京语言大学对外汉语研究中心 北京 100083;21北京语言大学信息科学学院 北京 100083)[摘要]本文介绍面向计算机辅助正音的汉语中介语语音语料库的创制思路与标注方法。

该库包括单音节、双音节、三音节、四音节、句子和语段六个子库。

它最大的特点是在声母、韵母、声调及语调等方面进行了偏误标注。

对声母、韵母,它将提供中介语发音人在发音部位和P 或发音方法上的偏误信息;对声调、语调,它将提供声调特征点、调核、边界调、停延P 间断等方面的偏误信息。

这些信息将为汉语CAPL 系统提供可靠、实用的正音线索。

[关键词]对外汉语教学;语音;语料库;计算机辅助语音学习(C APL)[中图分类号]H195[文献标识码]A[文章编号]1003-5397(2009)04-0122-10The Construction of a CAPL ChineseInterlanguage Corpus and Its AnnotationC AO Wen ,Z HANG JinsongAbstract :This paper describes the design and annotation of a Chinese InterlanguageCorpus for Computer Assisted Pronunciation Learning (CAPL).The corpus is created in twosteps differing in number of the samples.It is composed of six sub -corpora:the one ofmonosyllables,the one of disyllables,the one of tr-i syllables,the one of quarter -syllables,theone of sentences and the one of paragraphs.Analysis of the errors in initials,finals,tones andintonations are presented by certain labels in the corpus.The data of the corpus can provideerror information and also clues to making right pronunciation.Keywords :Teaching Chinese as a Foreign Language;corpus;phonetics;CAPL2009年11月第4期语言文字应用Applied Linguistics Nov.,2009No.4引 言学好语音是学好一门外语的基础。

《道德经》汉英平行语料库的建设及其应用

《道德经》汉英平行语料库的建设及其应用

《道德经》汉英平行语料库的建设及其应用作者:张丽娟来源:《北方文学》2018年第36期摘要:本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库软件的检索方法,定量分析两个英译本的类形符比、平均句长,词汇密度等方面的不同,为《道德经》的英译研究提供新的解释和描述视角。

关键词:《道德经》;语料库;创建和应用随着计算机技术和翻译研究的不断发展和深入,语料库不断应用到翻译的各个方面。

这些研究主要分为两类,一是基于语料库的翻译研究,一是翻译语料库的介绍与创建。

本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库的研究方法,定量分析两个英译本的译者风格,为《道德经》的英译研究提供新的解释和描述视角。

一、《道德经》英译研究综述老子是道家的创始人,他的思想对中国哲学的发展影响深刻,所著《老子》又称《道德经》,全书五千多字,共81章,前37章卷上为《道经》,后44章卷下为《德经》。

它是中国历史上第一步具有完整体系的哲学著作,老子的《道德经》全球发行量和翻译语言的数量都仅次于《圣经》。

《道德经》早在公元7世纪唐朝就由玄奘翻译成梵文(张文莉,2017),世传《道德经》英译最早是在1868年由传教士湛约翰翻译的,姚达兑(2017)发现更早的英译手稿在1859年由裨治文翻译,而第一个中国人自己翻译的《老子道德经》是在1936年胡子霖完成的(吴心海,2012),截止2010年《道德经》西译本达到643种,英译本有200种(张文莉,2017)。

河南社科院副研究员丁巍(2004)在《老学典籍考:二千五百年来世界老学文献总目》中,将二千五百年来的中外老学典籍文献汇聚成总括性专题书目。

《总目》共5编102万字,内收中国语言系2048个文种、东方语言系503个文种、西方语言系618个文种以及老学论文4297篇。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[收稿日期]2009-03-10[作者简介]曹文,博士,北京语言大学对外汉语研究中心副教授,主要研究语音学和对外汉语教学;张劲松,博士,北京语言大学对外汉语研究中心和信息科学学院教授,主要研究语音识别和计算机辅助语音教学。

*本研究得到了教育部人文社科基地重大项目07JJD740060、北京语言大学科研规划项目08WT01及青年骨干教师项目资助。

面向计算机辅助正音的汉语中介语语音语料库的创制与标注*曹 文1 张劲松1,2(11北京语言大学对外汉语研究中心 北京 100083;21北京语言大学信息科学学院 北京 100083)[摘要]本文介绍面向计算机辅助正音的汉语中介语语音语料库的创制思路与标注方法。

该库包括单音节、双音节、三音节、四音节、句子和语段六个子库。

它最大的特点是在声母、韵母、声调及语调等方面进行了偏误标注。

对声母、韵母,它将提供中介语发音人在发音部位和P 或发音方法上的偏误信息;对声调、语调,它将提供声调特征点、调核、边界调、停延P 间断等方面的偏误信息。

这些信息将为汉语CAPL 系统提供可靠、实用的正音线索。

[关键词]对外汉语教学;语音;语料库;计算机辅助语音学习(C APL)[中图分类号]H195[文献标识码]A[文章编号]1003-5397(2009)04-0122-10The Construction of a CAPL ChineseInterlanguage Corpus and Its AnnotationC AO Wen ,Z HANG JinsongAbstract :This paper describes the design and annotation of a Chinese InterlanguageCorpus for Computer Assisted Pronunciation Learning (CAPL).The corpus is created in twosteps differing in number of the samples.It is composed of six sub -corpora:the one ofmonosyllables,the one of disyllables,the one of tr-i syllables,the one of quarter -syllables,theone of sentences and the one of paragraphs.Analysis of the errors in initials,finals,tones andintonations are presented by certain labels in the corpus.The data of the corpus can provideerror information and also clues to making right pronunciation.Keywords :Teaching Chinese as a Foreign Language;corpus;phonetics;CAPL2009年11月第4期语言文字应用Applied Linguistics Nov.,2009No.4引 言学好语音是学好一门外语的基础。

然而,对于传统的对外汉语教学来说,语音学习的效果至少受制于两个方面:(1)教师的语音学功底及教学能力;(2)学生用于语音练习的时间。

计算机辅助语音P 正音学习(CAPL)的出现,恰好可以在这两个方面对传统教学有所弥补。

所谓/计算机辅助语音P 正音学习(CAPL)0,是/计算机辅助语言学习(CALL)0在语音教学功能方面的细化与深化。

国内外已有不少这方面的成果。

在对外汉语教学领域,也有学校、网站开发了一些简单的CAPL 项目(曾金金,2008:233~280),但总体看来,游戏的功能强,教学的功能弱。

其中一个重要的原因是:目前国内外已有的C APL 系统或网络产品,其流程基本都是发音)评分)再发音)再评分,鲜有分析性的反馈、诊断和指导(Hincks,2002;曾金金,2008:221~222)。

而所谓的评分又是在将评测样本与大量的标准样本的均值和标准差比对后模拟给出的。

这种机器打分形式,就如同任何一位普通话母语者都能对别人所说的汉语得出某种印象)))固然算是一种评价,但准确性和权威性值得怀疑,而且通常也不能解决问题。

至于对多音节音段或句子的打分,问题更多(Hincks,2002)。

事实上,那种对学习者发音的分析和指导才是学习者最需要的,就像他们需要高水平的老师。

如上所述,那也正是CAPL 能够对传统教学有所弥补、扬弃的一个重要方面。

理想的CAPL 系统应当如一名有经验的对外汉语教师一样,在学生进行(再)练习(或再测试)前,能够给出如下的正音提示:)))发音所出的问题在哪里?)))具体的偏误是什么?)))可以怎样去改正?系统可以通过动画或者程序提供正音示范和比较,并且可以根据需要,对学习者的发音作相应修改后重新播放)))这不但有助于提高学习者正音的信心,而且也是信息时代个性化学习的具体体现。

要实现这样的目标,首先就要创建一系列高质量的面向CAPL 的汉语中介语语音语料库。

一 面向CAPL 汉语中介语语音语料库的任务与构成面向C APL 汉语中介语语音语料库的主要任务是为计算机提供符合相关要求及规范的训练集与较大规模的精细标注语料,同时也可为中介语语音研究、对外汉语语音教学提供高品质、丰富的样本和数据。

由于我们计划中的计算机辅助汉语语音学习系统的训练形式主要是朗读,且测评、分析性反馈及指导也是针对朗读的效果,所以本语料库也将建成朗读语料库(而不是自然口语语料库)¹。

从朗读内容来说,本库分为单音节、双音节、三音节、四音节、句子和语段六类子库。

整个语料库将分阶段、按学习者国别进行建设。

所谓分阶段指的是:先建设小规模的一期语料库,再建设大规模的二期语料库。

一期库无论在发音人数还是语料数目上都少于二期库,但不同汉语水平)))根据HSK 成绩划分为初、中、高等)))发音人的比例大体相同。

之所以要分阶段进行,一来是因为有经费问题,二来是因为这样可加快(一期库的)应用。

此外,一期库的建设不但可以看作是二期库的前期工作,而#123#2009年第4期曹 文 张劲松:面向计算机辅助正音的汉语中介语语音语料库的创制与标注且其数据还能直接用于二期库自动标注系统的训练,节省人力。

有关学习者国别,我们的长远目标是:创造条件,依托北京语言大学140多个国家的留学生,建立全球各国别汉语学习者的语音语料库。

近期在建的主要是面向日本、泰国和伊朗学生的CAPL 语音语料库。

该语料库的结构如表1所示:表1 面向C APL 汉语中介语语音语料库的构成内 容单音节双音节三音节四音节句子语段数目一期526(@20人)60(@20人)80(@20人)128(@20人)301(@20人)1(@100人)二期1530(@100人)297(@100人)400(@100人)640(@100人)1093(@100人)60(@20人)国 别日本、泰国、伊朗、法国、韩国、美国、罗马尼亚,, 作为补充和参照,我们对普通话母语者也进行了同样内容小规模(20人)的录音和标注。

二 语料选择与设计面向C APL 的汉语中介语语音语料库从内容来说可以分为单音节、双音节、三音节、四音节、句子和语段六类子库,除语段外,各子库又分一期和二期两种。

在这些子库中,单音节库和句子库是整个语料库的两大重点子库。

下面对各子库的语料选择与设计思路作概要说明。

(一)单音节库该子库可以全面反映学习者对声母、韵母、声调在单音节层面的掌握情况。

一期库(每人)的526个音节全部来自HSK 的800个甲级字)))甲级字中的同音字只保留1个(音节),而许多助词因为不能单念也被排除在外。

可以说,这500多个音节是对外汉语教学中最常用的实语素音节。

二期库(每人)的1530个音节由5现代汉语词典6中的1298个不重复音节外加232个具有不同声韵调搭配关系的儿化音节组成º。

(二)双音节库该子库主要用于考察和统计学习者对两个音节连续的掌握情况及其音节间的音联表现。

一期库的60个音节分别是3组各20个双音节的/句调基本单元0P /基本节奏单元0(吴宗济,1982、1990;王洪君,2008:124~125))))即阴平+阴平、阴平+阳平、阴平+上声、阴平+去声、阴平+轻声、,,等等。

二期库除了有更多组的/语调基本单元0外,还要全面考察两个音节(间)的音联情况。

297个双音节搭配借鉴的是吴宗济先生(1998P 2004)的研究。

(三)三音节库三音节也是基本节奏单元的常见形式(吴宗济,1990;王洪君,2008:124~125)。

建立该子库(含轻声音节)主要用于考察学习者对汉语三音节单元韵律的把握情况。

无论一期库还是二期库,三音节的设计与选择都围绕声调组合进行。

一、二期的区分主要在数量上。

一期库中每种三音节声调组合仅有1例,共80例(@20人);二期库中每种组合有5例)))尽可能兼顾不同的结构关系(如:2+1/展览馆0、1+2/小老虎0、1+1+1/索马里0等))))共400例(@100人)。

(四)四音节库四音节库稍许复杂一些。

从韵律角度来说,四音节主要有两种情况:一种属于2+2结构,如/一衣P 带水0;另一种属于/受限0节奏单元(王洪君,2002),如/乱七八糟0。

而从词汇、语法#124# 语言文字应用2009年第4期角度来讲,它们也可以分为两类:一类是成语和四字格;另一类是普通四音节短语。

该子库的设计思路与三音节库相近,也主要围绕声调组合进行。

一期库主要收录具有不同韵律结构P 声调组合的成语和四字格,二期库除了数量增加外,兼收普通的四音节短语,包括含轻声的四字短语。

(五)句子库某种意义上说,前述各子库只是汉语及汉语中介语的备用单位库,句子库才是真正反映学习者言语运用(语音)情况的语料库,是我们全面考察学习者汉语语音面貌的一个平台。

该子库不但可以全面反映学习者的语调习得情况,包括句重音P 语调调核、调尾P 边界调、调域展缩、停延、断句、语速等等,还可用于考察学习者对声母、韵母、声调在语流层面的把握程度。

该库主要收录单句(包括对话形式的单句),同时也收少量复句。

一期库收录对外汉语精品教材5汉语会话301句6中的301个句子,二期库则增加了12组共792个声韵平衡的句子。

(六)语段库语段库在整个语料库中只是作为资料库来建的»。

一期库是每位发音人半朗读半即兴发言性质的一段自我介绍。

二期库则按照文学、新闻、军事、体育等20种文体和题材选取语料,每种3段P 篇,每段P 篇的音节数为100~200。

相关文档
最新文档