关于汉语中介语语料库建设研究报告

合集下载

汉语中介语语料库建设研究

汉语中介语语料库建设研究
骤 是 通 过 我们 自 己编 写 的 软 件 来 实 现 的 。
三 、 据 库 的设 计 思 路 数
料数 据库 , 以收 集 不 同背 景 和不 同 学 习 阶 段 外 国 学 生 及 少 数 民 族 学 生 可 的汉 语 书面 语 和用 文 字转 写 的 口 语 语 料 , 并对 语 料 属 性 、 汇 、 法 等 单 词 语
构 , 反映 用 户观 点 的 概 念 模 型 , 是 整个 数 据 库 设 计 的 关 键 。一 般语 即 这
言 的基 本 构 成 要 素 是 词 , 词 构 成 句 , 由 句 构 成 篇 蕈 , 汉 语 的 最 小 由 再 但 构 成 元素 却 是 汉 字 , 此 设 计 语 料 库 结 构 组 成 时 需 要 将 字 、 、 和 篇 因 词 句 章 都 考 虑到 。另 外 , 料 库 数据 的 最大 特 点 就 是 真 实 , 就 是 说 需 要 语 也 原样 保 存 语 料 信 息 , 括语 料 中 的大 量 偏 误 , 也 是 需 要 考 虑 的 关 键 问 包 这
法 以及 语 料 数 据库 的设 计 思 路 , 阐 明 了该语 料 库 在 对 外 汉 语 教 学 和研 究 中 的应 用 价 值 。 并 【 键 词】 语 料 库 ; 关 中介 语 ; 语 教 学 汉
语料库是指按一定的语言学原则收集的语言文本或话语片断而建立
的 电 子资 料 库 。本 文所 述 汉语 中 介 语料 库 是基 于 语 言学 中 中 介语 理 论 设 计 与 实施 的 。中 介 语是 心 理语 言 学 中 第 二 语 言 习 得 的 ~ 种 研 究 模 式 , 其 将 语言 学 习者 置 于观 察 中 心 , 研究 他 们 如 何 有意 识 地 向 目 的语 的 正确 去 形 式迁 移 的各 种 动态 表现 。中 介 语理 论 自 2 o世 纪 6 o年代 末 出现 并发 展

汉字规范化应用中的语料库建设技术与实践

汉字规范化应用中的语料库建设技术与实践

汉字规范化应用中的语料库建设技术与实践汉字是中国古代文化的重要组成部分,它不仅是语言文字,更是一种艺术形式和文化符号。

然而,汉字的书写和使用却经历过长时间的混乱和规范化的过程。

要想在现代社会中更好地利用汉字,为其建立语料库已经成为了必须要做的工作之一。

在本文中,我们将重点探讨汉字规范化应用中的语料库建设技术与实践。

一、汉字规范化应用的意义随着时代的变迁和社会的进步,汉字的书写和使用逐渐趋向规范。

这不仅有助于保护汉字文化,还可以提高汉字的实用性。

通过规范化汉字,可以使得汉字的书写和使用更加简便快捷,提高信息的传递效率。

同时,汉字规范化还可以使得汉字更好地适应现代信息技术的需求,比如,在计算机软件开发中,规范的汉字编码可以大大提高程序的稳定性和可读性。

二、语料库建设技术与实践为了实现汉字规范化应用的目标,建立语料库已经成为了必须要做的工作之一。

在语料库建设技术和实践中,主要包括以下几个方面。

1. 语料库建设的步骤语料库建设的步骤主要包括:语料准备、语料分析、语料标注、语料管理和语料应用等。

其中,语料准备是最为关键的步骤之一。

在语料准备阶段,需要收集和整理大量的汉字书写和使用数据,以此来建立汉字的语料库。

在语料分析、标注和管理阶段,需要对语料进行分类、整理、标注和备份管理等操作。

当语料库建成后,可以通过搜索引擎、软件开发等方式将其应用于相关领域。

2. 语料库建设的技术手段语料库建设的技术手段主要包括数据挖掘、自然语言处理、信息检索、机器学习等。

其中,数据挖掘和自然语言处理是语料库建设中的核心技术。

通过数据挖掘技术,可以对语料库中的数据进行深层次的挖掘和分析,以此来得到更准确、更有用的信息。

而自然语言处理则是将语言文字转化为计算机能够处理的格式,以此来实现语料库的自动化处理。

3. 语料库建设的实际应用语料库建设的实际应用主要体现在以下几个方面。

第一,语料库可以被广泛应用于汉字书写和使用的规范化。

通过对语料库的分析和标注,可以发现汉字书写和使用的规律,从而建立规范的汉字书写和使用标准。

从1.0到2.0——汉语中介语语料库的建设与发展

从1.0到2.0——汉语中介语语料库的建设与发展
这些语料库的建设标志着语言研究手段的科学化 与 现 代 化 ®,它 终 结 了 语 言 研 究 处 理 资 料 的 “卡片时 代”,极大地提高了语言研究的效率和水平。它使语言 研究 、语言教学与习得研究和统计分析相结合,具有 了实证研究的性质;为汉语中介语语料库的建设提供 了理念、方法和技术保障,奠定了坚实的物质基础。
从 1.0到 2.0— 汉语中介语语料库的建设与发展>
张宝林北京语言大学汉语国际教育研究院
提 要 汉 语 中 介 语 语 料 库 产 生 于 2 0 世 纪 9 0 年代中期,进 入 2 1 世纪以来得到长足发展,为 对外汉语教学研究提供了有力支持,极大地推动了汉语习得研究与中介语研究的发展。 然而不论是在语料库的建设与应用研究方面,还是在语料库建设的本体研究方面,都 还存在着一些问题。总体而言,语料库建设还处于以简单粗放为特征的草创时期,或 称 1.0时代。语料库建设2.0时代的特征是整体设计周密,系统制作精良,功能丰富多 样 ,用户使用方便,走的是一条精细化发展之路。其安全性、实用性、方便性都是1.0 时代所无法比拟的,能够满足教学与相关研究的多方面需求。
一门新的学科----语 料 库 语 言 学 ( corpus linguistics ), 并 成 为 了 自 然 语 言 处 理 的 一 个 分 支 学 科 ”(冯 志 伟 , 2002 )。如语言科学史上第一个大型计算机语料库一一 SEU 语 料 库 及 布 朗 语 料 库 的 规 模 均 为 100 万 词 次 , COBUILD语 料 库 为 2 0 0 0 万 词 次 ,朗 文 语 料 库 为 2800 万词次,英 国 国 家 语 料 库 (BNC ) 达 1 亿词次,国际 英语语料库(ICE ) 为 2000万 词 次 (黄昌宁、李涓子,

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究什么是汉语中介语早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲)早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。

语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。

早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。

中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。

也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。

目前中介语研究在方法上存在的问题:(1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。

有关中介语的研究王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。

王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。

(中介语研究的理论和方法进行了探讨)彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。

-----------------------------------中介语研究的现状与发展自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。

20多年来,这一领域的研究发生了很大的变化。

1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》中介语研究引起了普遍的关注由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

新疆少数民族预科生汉语口语中介语语料库建设的构想

新疆少数民族预科生汉语口语中介语语料库建设的构想

新疆少数民族预科生汉语口语中介语语料库建设的构想本文主要阐述了当前国内外中介语语料库建设的基本状况,建立新疆少数民族汉语口语中介语语料库的意义,以及建设的目标、内容、思路等。

建设本语料库的意义主要在于:填补新疆地区中介语语料库建设的不足,为少数民族汉语口语教学研究提供详实的研究材料和科学定量研究的方法;为口语的教学、教材、测试等提供科学的参考依据。

通过本语料库的建设,汉语口语教学与研究将走上更加严谨和科学化的道路。

标签:新疆少数民族汉语口语中介语语料库一、中介语语料库建设的相关概念及状况综述(一)中介语、语料库及语料库语言学美国著名语言学家赛林克在1969年首次提出了“中介语”这一概念。

“所谓中介语是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于第一语言,也不同于目的语,随着学习的进展向目的语逐渐过渡的动态的语言系统。

中介语的研究能帮助我们发现第二语言习得的不同发展阶段,探索学习者语言系统的本质,揭示第二语言的习得过程,以及第一语言对二语习得的影响。

”①可以说对中介语的研究是第二语言习得理论研究的重要突破。

“语料库是指一个按照一定的采样标准采集而来的,能够代表一种语言或者一种语言的变体或文类的电子文本集。

而语料库语言学则是以语料库为基础的语言研究方法。

”②语料库按照应用的方向可分为“通用型语料库”和“专用型语料库”;按用途,可分为“笔语语料库”和“口语语料库”;按语言属性,可分为“单语”“双语”“多语语料库”;按语言变体,可分为“本族语”“译语”“学习者中介语语料库”;按时间,可分为“共时”和“历时”语料库;按照语料状态,可分为“静态语料库”和“监控语料库”。

本研究将要建设的语料库属于学习者的口语中介语语料库,是为汉语的第二语言口语教学服务的专用型语料库,所收集的语料属于单语共时语料。

(二)国内外研究现状述评1.国外研究中介语的研究离不开语料。

最初中介语研究的语料大多数是研究者个人收集和统计的,很难对中介语进行科学的统计分析及定量研究。

留学生汉语中介语语料库的建立与研究——以昆明理工大学为例

留学生汉语中介语语料库的建立与研究——以昆明理工大学为例
料 的平衡性原则 ;第三,信 息的完备 性原 则。
关 键 词 :汉 语 中介语 语 料 库
中介 语 ( i n t e r l a n g u a g e )概 念 由美 国学 者 S e l i n k e r 于 生 的 字 句 练 习 和 作 文 资 料 ,前 期 主 要 进 行 字 、 词 、句 加 工 1 9 6 9 年 提 出 ,并 于 1 9 7 2 年在 论文 《 中介 语 》 中 进 行 了详 细 标 注 ,后 期 重 点 建 设 汉 字 偏 误 标 注 的语 料 库 , 目前 语 料 总 论述 。S e l i n k e r 认 为 中 介 语 是 由 不 同 心 理 过 程 生成 的 规 则 数 达 到 约 2 0 0 万字 ( 张 瑞 朋 ,2 0 1 3 ) ; 南 京 师 范 大 学 外 国 构 成 的 一 个 单 一 语 言 系 统 。 中介 语 理 论 在 2 0 世纪8 O 年 代 引 学 生 汉 语 中 介 语 偏 误 信 息 语 料 库 , 收 入 作 文 、 练 习9 O 万 字
语 料 是 中 介 语 研 究 的 基 本 材 料 。而 语 料 的 搜 集 与 整 理 林 ,2 0 1 0 ) ,远远 不 能满 足 需 求 。 是 很 繁 琐 费 时 的 工 作 , 因 此 , 中 介 语 语 料 使用 的仅有 北京语 言大学 的
研 究 者 迫 切 所 需 。 针 对 留 学 生 汉 语 学 习 的 语 料 库 是 汉 语 中 t t S K 动 态 作 文 语 料 库 。 该 语 料 库 只 收 入 参 加 高 等 考 试 的 考 介 语 语 料 库 ,它 是 为 研 究母 语 非 汉 语 的 学 生 在 学 习 汉 语 过 生 作 文 ( 初 、 中等 没 有 写 作 考 试 ) , 因而 只 能 对 高 级 阶 段 程 中 的 中 介 语 现 象 而 制 作 的 专 门用 途 语 料 库 。按 照 国 家 标 学 习者 的 习 得 情 况进 行 横 向 的 断 面 考 察 , 而 无 法 对 初 级 和 准 术语 的界定 , 语料 库是 “ … … 文 本 的有 序 集 合 。各 种 分 中 级 学 习者 的情 况 进 行 考 察 ,更 无 法 对 学 习者 的 整 个 学 习

汉语中介语语料库

汉语中介语语料库

汉语中介语语料库在语言学研究中,语料库是一种非常重要的资源。

因为只有通过大量真实的语言数据,才能更加系统和深入地研究语言的规律和特点。

在汉语研究中,汉语中介语语料库是一种很有价值的语言资源。

本文将从不同角度探讨汉语中介语语料库的特点和应用。

1.汉语中介语语料库的定义和分类汉语中介语语料库是指在翻译、教学和语言理解等领域中有广泛应用的语料库,是一类专业的语言资源库。

按照不同的分类标准,可以将中介语语料库分为多类,较为常见的分类方法有以下几种:(1)按照数据采集方式划分。

该分类方法主要有手工采集和自动采集两种方式。

手工采集是指通过人工收集和整理语言数据来构建语料库;自动采集则是利用自然语言处理技术和计算机程序收集和整理语言数据。

(2)按照语料库的内容和类型划分。

根据不同语料库的目的和应用领域,可以将中介语语料库分为多种类型,如平行语料库、词典类语料库、语音库等。

(3)按照语言形式划分。

该分类方法主要根据语言的形式和形态特征将语料库分为汉英双语、汉法双语、汉日双语等,并可再按照语言形式的细微差异进一步划分。

2.汉语中介语语料库的特点汉语中介语语料库有许多突出的特点,这些特点不仅为汉语研究提供了重要的参考和依据,同时也方便了其他领域如教学、翻译、语音识别等的实际应用。

(1)真实性。

中介语语料库的数据采集主要依赖于真实的语言使用,因而具有较高的真实性。

这为研究汉语语言规律提供了无可替代的语言数据依据。

(2)丰富性。

中介语语料库收录的语言数据相对而言较多,数据来源广泛,覆盖面广,因此具有较高的语言样本丰富性。

这也为汉语教学、研究以及翻译提供了重要的帮助。

(3)统计分析。

中介语语料库的数据具有大量的统计特征,可通过量化分析获得更具客观性和科学性的结果,在构建自然语言处理系统、机器翻译等方面发挥了重要作用。

3.汉语中介语语料库的应用汉语中介语语料库在汉语研究中拥有重要的应用价值。

比如:(1)教学应用。

学习汉语的学生可通过中介语语料库获取大量的语言样本,以提高听说读写等综合语言能力。

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍作者:王丽会来源:《读与写·上旬刊》2015年第06期摘要:语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。

目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。

对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

关键词:汉语中介语语料库;建设;简介中图分类号:G648 文献标识码:B文章编号:1672-1578(2015)06-0001-01"语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

"这种观点不仅仅是语料库语言学家们的自誉,也正在成为整个语言学界的共识(丁信善,1998)。

语料库作为一种研究方法正在不断得到推进和改善,在某些方面发挥着传统研究方法无法比拟的作用。

随着语料库语言学的迅速发展和母语语料库的广泛建设,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。

经过20多年的发展,语料库建设已初具规模,语料库被广泛运用于二语习得,语言教学,对比语言学,词典编辑,句法学和语义学等各方面研究,并在对外汉语教学及相关研究领域发挥了重要的推动作用。

以往语料库的研究主要从建设和应用两大角度出发,而语料库的设想和建设是基于语料库的一系列研究的前提和基础,本文通过列举的方式主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

王韫佳,李吉梅(2001),该文拟建立的汉语中介语语音语料库以文本、语音和声学参数三种形式和用户见面,其中后两种形式是用户比较关心的,也会给研究带来很多方便。

该语料库的建立包括发音人和发音素材的确立、录音、数据库系统和数据库管理系统的建立、原始资料的登录、对部分录音的声学分析和声学参数的登录五部分,然后对汉字文本进行标音转写,并对声母和韵母,音节,节奏单元等进行标注。

南京大学汉语中介语口语语料库

南京大学汉语中介语口语语料库

Contact Information
Prof. Cheng Aimin Institute for International Students Nanjing University Nanjing 210093, China Tel: +86 25 8359 2875 Email: amcheng@
(3)外国学生之间的对话语料:外国学生与外国学生在自 然环境下的谈话语料,采集了30多名外国学生之间,共约 100多个小时的自然谈话语料。 (4)学习者背景信息数据:包括学生的性别、年龄、国籍、 母语背景、汉语学习经历、汉语水平等。 (5)学习者其他方面的关联数据:已收集了口语语料库中 部分学习者的学习策略、学习焦虑、纠错反馈信念等方面 的联动数据。今后中介语语料的采集不仅是语料的收集, 同时也要通过精心设计,有计划、有重点、分步骤地采集 影响中介语发展的相关变量信息。
1. 上述语料的文字转写工作大部分已经完成,已经转写了 400多个小时,约200万字的语料; 2. 声调韵律的分析和显示工具已初步研制成功。 3.如何利用这些语料进行各种相关研究已经做了尝试,并 取得了一系列研究成果。
南京大学汉语中介语口语语料库 已收集的数据主要有以下几种类型
(1)外国学生独白式的口语语料:每学期两次以专门话题 为任务,在语音实验室统一由计算机集体采集的个人口语 测试语料,共300人,约300个小时的录音语料。 (2)汉语母语者与外国学生的对话语料:对外国留学生进 行为期半年到1 年的自然谈话高密度跟踪录音语料,由语 料采集者与外国学生模仿OPI的方式进行自然对话,采集 20多名外国学生,约300 多个小时的多波跟踪录音语料。
第二阶段工作(2016-2017)
1.继续搜集口语纵向语料和相关联动数据 2.继续进行文本转写和全语料标注 3. 设计相关的语料库软件 3. 建设语料库数据库(网站) 4. 内部试运行(在线检索) 5. 试开通语料库网站(2017下半年)

“全球汉语中介语语料库建设和研究”的设计理念

“全球汉语中介语语料库建设和研究”的设计理念

二、设计理念
1、语言学与教育学相结合
1、语言学与教育学相结合
“全球汉语中介语语料库建设和研究”项目将语言学与教育学相结合,以实 证研究为基础,探索汉语学习者的语言发展规律和学习特点。通过分析学习者语 料,我们可以更好地理解学习者在语言输出中的语法、词汇和语用等方面的情况, 从而为教学策略的制定和教材的编写提供有力的支持。
通过分析学习者语料,我们可以为汉语教学提供更加科学、个性化的方法和 策略,从而提高教学水平和学生的学习效果。我们还将为学习者提供更加多样化 的学习资源和个性化的学习体验,激发他们的学习兴趣和动力。
参考内容
全球汉语中介语语料库:特点与 功能
全球汉语中介语语料库:特点与功能
全球汉语中介语语料库是一个独特的资源,为汉语学习者提供了宝贵的支持 和帮助。本次演示将详细介绍全球汉语中介语语料库的特点和功能,帮助读者更 好地了解和利用这一重要的学习工具。
2、跨文化交际视角
2、跨文化交际视角
在全球化背景下,跨文化交际能力变得越来越重要。因此,我们的项目不仅 汉语学习者的语言能力,还他们的跨文化交际能力。在语料库建设中,我们将收 集来自不同文化背景的学习者的语料,以便研究文化因素对学习者语言发展的影 响,并为提高跨文化交际能力提供有针对汉语中介语语料库建 设和研究”的设计理念
01 一、引言
目录
02 二、设计理念
03 三、实施策略
04 四、预期成果
05 参考内容
一、引言
一、引言
随着中国经济的崛起和全球化的推进,汉语学习在全球范围内变得越来越热 门。然而,目前的汉语教学和学习方法仍面临许多挑战,其中最大的问题之一是 缺乏大规模、高质量的汉语中介语语料库。为了解决这个问题,我们提出了“全 球汉语中介语语料库建设和研究”项目,旨在构建一个包含全球范围内汉语学习 者语料的综合性语料库,并提供相关的数据分析工具,以支持汉语教学和语言学 研究。

汉语中介语语料库研究新进展

汉语中介语语料库研究新进展

使得 两 个 语料 库 的 搜 索标


应用 等方 面 做简单 梳 理

并 提 出 要 着力 开 发 少 数
准并不 完全 一 致 库标准

,
这就 导 致语 料 库设 计 缺乏 统一 的 建
民 族 中介 语 语 料库 的建 议
H SK
动态作 文语 料库 在设 计 时 考虑 到 了 数据

自2 0 世纪 9 0 年 代 开始 在

际 学 术讨 论 会至 今 已 成 功 举 办三 届 这些 努 力 与成 就
( 一 ) 建 立 少 数 民 族 中 介语语 料库 我 国 是一 个多 民 族 汇聚
逐 渐 让更 多 的 学 者开 始关 注 并 投人 到 我 国 的 中 介语语
多种 语 言并行 的 国 家

,
,
料库 建设

、。Βιβλιοθήκη 其 中有 很 多少 数 民 族保 留有 自己 的 民 族语 言
,

汉语 热

的背 景 下

,
统计
,
而汉 字偏 误 标注 的汉 语 连 续性 中介 语语 料 库能
语 料 库建 设 开 始 探索 一个 新 的 研究 领域
料库

经过 2 0 多 年 的发 展
,
,
— 现已初具规模

中介 语语
目前

,
提 供 同时 设 定 几个 关键 词 能
,
选择 几个 关键 词 间 距 的功
,
所 共有 的 归 纳 这些 共性 的错 误 搜集 最 真实 的 语 料 建 立 少 数 民 族 学 习 汉 语 的 中 介语语料 库 更 多少 数 民 族 同胞 更好 此

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究随着互联网技术的快速发展和人工智能技术的不断普及,语料库成为了现代语言学研究和实践中不可或缺的工具。

汉语中介语语料库是对学习汉语作为外语学习者语言使用特点及其语言学问题进行归纳、总结、分析和研究的语言学研究工具。

在汉语教学、教材编写、汉语语言学研究等领域,汉语中介语语料库的应用并不充分和深入,因此有必要在此方面进行研究并提出发展对策。

一、汉语中介语语料库的现状目前,关于汉语中介语语料库的研究有一定的起步和成果,但整体而言仍处于较初级阶段。

在汉语中介语语料库的构建方面,已经有一些成熟的案例,如北京大学中文语言学研究所所建立的“汉语国际中介语语料库”以及香港城市大学“汉语中介语语料库”等。

这些语料库的特点是按照外国人掌握汉语的不同阶段,建立了大量的语料库和子语料库,包括按照不同国家的使用者语料库、不同层次的语料库以及不同语境的语料库等。

这些语料库大大方便了研究人员研究外国人学习汉语的语言问题和语用问题。

然而,汉语中介语语料库的应用还比较有限,主要是教材编写和汉语作为外语研究方面。

在教材编写方面,现有的教材较少采用大量的实际语料,以及对中介语学习者的语言使用特点的分析和说明,因此教材往往对于学习者的实际学习问题不能够直接回答。

在语言学研究方面,虽然对于中介语语法和中介语语用问题的研究已经有一定进展,但从中介语语料库出发的研究相对较少,这也限制了这个领域的发展。

二、汉语中介语语料库应用的主要问题汉语中介语语料库应用存在的主要问题有以下几点:1.语料质量问题。

由于语料的质量会对研究产生较大的影响,因此需要建立高质量的中介语语料库。

汉语中介语语料库中的语料应包括不同阶段的学习暴露率高、不同层次学生使用、不同语境下语言使用的数据,以及可靠有价值的中介语语料。

2.语料收集问题。

语料收集往往需要耗费大量的时间和人力物力,并且收集的样本是否充分代表每一种情况,也是需要考虑到的因素。

中文系专业毕业论文 汉语中介语语料库应用及发展对策研究

中文系专业毕业论文 汉语中介语语料库应用及发展对策研究

中文系专业毕业论文汉语中介语语料库应用及发展对策研究汉语中介语语料库应用及发展对策研究随着计算机和互联网技术的发展,语言学研究中的语料库应用越来越受到重视。

语料库是通过采集、整理和利用大量的自然语言文本数据,为语言学研究和应用提供支持的一种工具。

在汉语教学和研究中,中介语语料库被广泛应用于帮助非母语者学习汉语。

本文将就汉语中介语语料库的应用及其发展对策进行研究。

第一部分:中介语语料库的基本概念与特点中介语语料库是指根据非母语者学习汉语过程中产生的中介语数据,进行语言分析和研究的语料库。

它可以是口语或者书面语料,也可以是以学习者为中心或者以特定语言学问题为中心的语料库。

中介语语料库的应用对于了解非母语者的语言习得过程、分析汉语的误用和困难以及设计适用的教学材料等方面具有重要意义。

中介语语料库的特点主要表现在以下几个方面:1. 多样性:中介语语料库包含了大量的学习者语言数据,涵盖了不同程度、不同学习背景的学习者的语言表达。

2. 真实性:中介语语料库采集的是真实的学习者语言数据,具有高度的语言真实性和可靠性。

3. 实时性:中介语语料库可以动态更新和增补,及时反映学习者的语言发展情况。

4. 反馈性:中介语语料库能够为学习者提供及时的错误反馈和语言建议,帮助他们纠正错误、改善语言表达。

5. 可比性:中介语语料库可以与母语语料库进行对比分析,揭示非母语者和母语者之间的语言差异。

第二部分:中介语语料库在汉语教学中的应用中介语语料库在汉语教学中具有广泛的应用价值。

首先,通过分析学习者的中介语语料,我们可以了解学习者对汉语的掌握程度和语言习得过程中的误用情况,从而更好地指导和辅导学习者。

其次,中介语语料库可以为教师提供丰富的教学素材和例句,帮助教师设计教学内容和教学方法。

再次,中介语语料库可以为学习者提供个性化的学习建议和反馈,通过分析学习者的语言问题,提供针对性的帮助和指导。

最后,中介语语料库可以促进汉语教学的研究和创新,为汉语教学的改进提供理论和实证依据。

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究

汉语中介语语料库应用及发展对策研究一、引言随着汉语作为第二语言(CSL)教学的日益普及,汉语中介语语料库的建设与应用逐渐受到学术界的重视。

中介语语料库是记录学习者在学习过程中所产出的语言样本的集合,它为研究者提供了大量真实、自然的语言数据,有助于揭示学习者语言习得的过程和规律。

然而,在实际应用中,汉语中介语语料库仍面临诸多挑战和问题,如语料库规模不足、标注体系不统一、数据共享程度低等。

本文旨在探讨汉语中介语语料库的应用现状,分析其发展对策,以期为汉语中介语语料库的建设与发展提供参考。

二、汉语中介语语料库的应用现状1. 教学应用汉语中介语语料库在教学领域的应用主要体现在个性化教学、课堂教学和教材编写等方面。

个性化教学方面,教师可以根据学生的语言产出数据,分析学生的语言特点和问题,从而制定针对性的教学方案。

课堂教学方面,语料库可以为教师提供丰富的教学素材,帮助教师设计真实、有趣的教学活动,激发学生的学习兴趣。

教材编写方面,语料库可以为编写者提供大量的语言样本,有助于编写出更加贴近实际、反映学生真实水平的教材。

2. 研究应用汉语中介语语料库在研究领域的应用主要体现在语言习得研究、语言对比研究和语言教学研究等方面。

语言习得研究方面,语料库可以帮助研究者揭示学习者语言习得的过程和规律,分析学习者的语言发展轨迹。

语言对比研究方面,语料库可以为研究者提供不同母语背景学习者的语言产出数据,有助于比较不同语言之间的异同点。

语言教学研究方面,语料库可以为研究者提供大量的语言教学案例,有助于总结教学经验,探索教学方法。

三、汉语中介语语料库发展对策1. 扩大语料库规模当前汉语中介语语料库规模相对较小,难以涵盖各种语言背景和水平的学习者。

因此,应加大语料库建设的投入,扩大语料库规模,增加语言样本的数量和多样性。

同时,还应注重语料库的更新和维护,确保语料库数据的时效性和准确性。

2. 统一标注体系目前汉语中介语语料库的标注体系尚不统一,导致数据分析和应用存在一定的困难。

中医汉语中介语语料库与中医汉语教学研究

中医汉语中介语语料库与中医汉语教学研究

中医汉语中介语语料库与中医汉语教学研究中医汉语教学属于专门用途汉语教学,中医院校的对外汉语教学尽管历史相对短暂,却有着很大的发展空间。

本文论证了语料库研究法与中医汉语教学的内在联系,拟运用语料库研究法,从中介语和本族人的专用语料库出发,在实际语料中对比分析,所得统计数据将直接指向中医汉语教学。

标签:专门用途汉语中医汉语教学语料库研究中介语一、引言中医建设语料库是存储大规模真实文本的数据库系统,中医汉语语料库的建设,属于专用语料库建设。

本文设置假说,希望通过建立中医汉语中介语语料库,指导中医汉语教学模式的改革。

我们拟通过采集中医学专业各个层级的留学生在学习中医课程时的书面文本,进行规范的标注,从而建立中医汉语的中介语语料库。

通过对中介语语料库的观察,指向教学及科研,期望在现阶段既有教学模式的基础上探讨中医院校的留学生汉语教学的改革。

(一)中医汉语教学的特点专门用途汉语,是指用于某种专业领域、特定范围和固定场合的汉语,并不限于跟学科密切相关的专业汉语,还包括特定业务、特定场合、特定环境中使用的汉语(李泉,2011)。

对外汉语学界参照专门用途英语,把专门用途汉语英译为“Chinese for Specific Purposes”(简称CSP)。

“中医汉语”是中医药领域专用汉语。

“中医汉语教学”是以留学生为受众,以中医中药领域的专用汉语为教学内容的一门学科,它与商务汉语、科技汉语、旅游汉语等同属专门用途汉语教学。

在“汉语作为第二语言教学”的对外汉语领域,中医汉语教学拥有专门的教学目标(即让留学生成功习得中医药专用语)和特定的教学内容(如中医药专用词汇及固定结构、开处方、中医经典、撰写实习报告等),以培养学生在特定领域的技能或能力为目标(即掌握听说读写等多个方面的技能,能够在既定情景中进行成功交际)。

(二)中医汉语教学研究现状中医药院校留学生汉语教学是对外汉语的一个特定方向,但是长期以来并未得到学界的重视。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉语中介语语料库建设研究
沈锐1,黄薇2
(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)
【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。

【关键词】语料库;中介语;汉语教学
语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。

本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。

中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。

中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。

无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。

在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。

因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中
小规模的语料库。

一、需求分析和框架设计
语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。

半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。

依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。

基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面:
1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。

2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。

3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。

二、语料收集与加工
收集和加工语料是最为重要的一项工作,要在语料库使用过程中不断收集、加工并添加到语料库内,而且需要在整个语料库生存周期中都要持续不断的进行此项工作。

本语料库中的语料基本上来源于XX几所高校的外国留学生在日常学习和生活过程中的作业、写作、试卷等,目前收集的都是书面文字,待日后语料库进行二期建设时也可以考虑扩充收集语音录制的口语语料。

最初获得的未经进一步加工处理的语料一般称为生语料,要将生语料转变为语料库内能够使用的熟语料还需要经过录入、断句、分词、词性标注等工作。

语料加工的工作量是相当大的,如果完全人工完成的话,虽然质量能够得到保证,但效率太低,很难保证长期对数据的更新和维护。

另外,由于中介语本身是留学生在学习第二语言过程中向正确的语言系统迁移的中间状态,所以中介语语料存在大量偏误,使用计算机进行自动加工获得的语料质量也较差。

为得到较高质量的熟语料,同时又需要尽量减少人力成本,因此在语料加工环节我们采用了人工与计算机自动处理相结合的方式。

具体操作上是先使用中科院计算所研发的汉语词法分析软件ICTCLAS进行初步加工,再由人工方式对该软件的分析结果进行校对和修正,最后输入语料库存储,这后两个步骤是通过我们自己编写的软件来实现的。

三、数据库的设计思路
依据需求分析的结果,首先转换为不依赖任何具体机器的信息结构,即反映用户观点的概念模型,这是整个数据库设计的关键。

一般语言的基本构成要素是词,由词构成句,再由句构成篇章,但汉语的
最小构成元素却是汉字,因此设计语料库结构组成时需要将字、词、句和篇章都考虑到。

另外,语料库数据的最大特点就是“真实”,也就是说需要原样保存语料信息,包括语料中的大量偏误,这也是需要考虑的关键问题。

依据汉语构成特点及中介语语料库的需求,使用E-R概念模型设计方法,得到语料库概念模型如下:
图1 语料数据库概念模型E-R图
要在具体的数据库管理系统上建立语料库,还需要转换为数据库管理系统支持的数据模型,由于国内目前使用的基本上都是关系型数据管理系统,因此接下来就谈谈如何将语料库概念模型转换为关系模型。

按照数据库逻辑结构设计的方法,概念模型中的每一个实体都要转换为一个关系模式,即“汉字”、“标准词”、“偏误词”、“语料句”、“语料篇章”和“作者”,此类关系模式的属性则根据需求分析的结果进行定义。

例如需要通过语料提供者的性别、年龄、国籍、学习汉语年限等条件对语料进行分析,则“作者”关系模式的属性应该包含“性别”、“出生日期”、“国籍”、“开始学习汉语时间”。

实体间的联系也要转换为对应的关系模式或关系模式中的属性,“作者”和“语
料篇章”,“语料篇章”和“语料句”间的联系都是一对多联系,此类联系不单独转换为关系模式,而是通过其中“多”的一方的属性表示。

例如“语料篇章”关系模式中就应该包括“作者编号”这一属性,而“作者编号”又是“作者”关系模式中的主码属性。

“汉字”、“标准词”、“偏误词”和“语料句”间的联系都属于多对多的联系,此类联系需要转换为单独的关系模式,即“字-标准词联系”、“字-偏误词联系”、“标准词-偏误词联系”、“标准词-语料句联系”和“偏误词-语料句联系”,这些关系模式的属性为两端实体关系模式的主码加上自身的属性。

当然,数据库逻辑设计完成后就应该是数据库的实现了,具体地讲就是选用合适的DBMS,并通过该DBMS提供的数据定义功能将逻辑设计的结果即数据库结构建立起来。

根据预计的数据库规模、性能要求以及安全性要求,笔者选择使用微软公司的SQL Server 2000建立语料数据库,已经过测试投入运行。

四、汉语中介语语料库的应用价值
语料库是经过计算机处理学习者的语言而产出的文本数据库,它注重语用而非能力,注重描述而非普遍语法,注重量化分析而非定性分析。

母语非汉语学习者的汉语中介语语料库,作为一种专用语料库,具有容量大、材料真实和代表性强的特点,可以对大量学习者的语言样本进行量化分析,能深化人们对语言学习机制的理解,乃至对语言本身的理解提供依据(李文中,1999:53)。

它为汉语中介语研究、汉语本体研究、对外汉语教学研究以及偏误分析提供了宝贵资源,科学
便捷的集成环境和先进技术手段。

总的说来,外国留学生汉语中介语语料库的应用价值体现在以下六个方面:第一、对学习者错误的分析,而且能够对学习者的语言特征和语言发展进行全面而系统的描述和对比分析(杨惠中、濮建忠,2002:60);第二、学习者语料库让我们从不同的视角观察和了解到学习者的语言使用情况,从而区分中介语中母语特征和其发展性特征,进一步增强在外语教学和研究中语言使用与语言知识并重的理念(文秋芳,2006);第三,建立在频率基础上的典型性对对外汉语教学有很大的启示,它为确定教学重点、语言项目的教学次序提供了参考标准;第四,将语料库引入外语课堂教学可以激发学生的学习动机;第五,能够对各种标准化外语测试和作文评分提供可靠依据,有助于提高题项的结构效度和评分信度;第六,学生和教师通过语料库得到丰富的语料资源和在线帮助,增加了语言学习的“真实材料”和真实交际,使外语学习更富于交互性。

【参考文献】
[1]靳光瑾,肖航,富丽,章云帆.现代汉语语料库建设及深加工[J].语言文字应用,2005(2)
[2]李菲.国内语料库语言学研究综述[J].XX师X学院学报,2006(3)
[3]秦旭.学习者语料库及其在外语教学中的应用价值[J].XX工程学院学报,2006(11)
[4]李文中.语料库、学习者语料库与外语教学[J] .外语界,1999(1)51-63
[5]杨惠中, 濮建忠.语料库语言学导论[M].XX外语教育,2002
[6]文秋芳.语料库在外语教学与研究中的应用[R].高校外语教师骨干教师研修班报告,2006
【作者简介】
沈锐,男,毕业于华东师X大学教育技术学专业,获理学硕士学位,现为红河学院讲师。

黄薇,女,毕业于XX师X大学语言学及应用语言学专业,获文学硕士,现为红河学院讲师。

相关文档
最新文档