如何自建英语语料库

合集下载

大学公共英语多模态语料库的构建与应用

大学公共英语多模态语料库的构建与应用

用于语言研究, 促进英语教学理 论的发展
实现多模态教学 ,提高教学效果
语料库提供大量真实语料,可用 于语言分析、语法研究等。
多模态语料库可以提供多种媒体 信息,如文字、图像、音频等, 有助于多模态话语分析研究。
语料库可以用于词汇、短语、句 子的统计和分析,有助于词汇学、 语义学等研究。
语料库可以提供不同领域、不同 话题的语言使用情况,有助于跨 文化交际、社会语言学等研究。
标注处理:对语料进行必要的标 注和处理,如词性标注、句法分 析等
预处理:对语料进行清洗、 分词、标注等处理
语料采集:收集大量真实、 多样的语言材料
数字化编码:将语料转化为 计算机可识别的数字格式
存储与检索:将数字化语料 存储在数据库中,并提供检
索功能
分类:按照语料来源、语言特征、使用场景等对语料进行分类,便于检索和管理。
标签化:为语料添加关键词、主题等标签,帮助用户快速筛选和定位所需语料。
自动化与手动相结合:采用自动化和手动两种方式进行分类与标签化,确保准确性和可 靠性。 动态更新:根据实际需求和语料变化,对分类与标签化进行动态更新,保持语料库的时 效性和准确性。
提供真实语料, 帮助学生提高语 言应用能力
辅助教师备课, 丰富教量得到了显 著提升,数据 更加准确和可 靠。
0 2
语料库的标注 体系不断完善, 提高了语料的 可理解性和可 利用性。
0 3
大学公共英语 多模态语料库 的应用范围不 断扩大,为语 言学研究和语 言教学提供了 更多支持。
0 4
语料库与人工智能技术结合,实现智能化检索和分析 利用自然语言处理技术,提高语料库的语义标注和信息抽取能力 结合机器学习和深度学习算法,实现语料库的自动分类和聚类 借助智能语音和图像识别技术,丰富语料库的多模态数据资源

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。

可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。

2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。

文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。

这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。

4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。

词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。

5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。


以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。

6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。

可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。

同时,也可以通过删除低质量的
文本对来优化平行语料库。

总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。

这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。

建立术语语料库的一般原则与方法

建立术语语料库的一般原则与方法

英文回答:The glossary is designed to better study and apply the use and linguistic characteristics of terms in a particular field. In doing so, we need to be guided by general principles: first, to determine the purpose and scope of the establishment of the glossary, to identify the terms to be studied and the characteristics of the related area. Select the appropriate source of language to ensure its coverage and representation, which can be books, periodicals, web—based texts, etc. Language is marked, sorted and cleaned to ensure quality and reliability. The use of language libraries for relevant research and applications can be used for the classification, translation and application of terms through tools such as statistical analysis, language modelling, etc. In practice, we will establish and apply terminology in strict conformity with these principles and methods in order to serve the implementation of the Party ' s routing policy.建立术语语料库,是为了更好地研究和应用某一特定领域术语的使用情况和语言特征。

双语语料库建设PPT课件

双语语料库建设PPT课件
... ?宣誓 而 ( 以 口述 或 书面 方式 ) 作出 证 供 , 则 本 款 并不 阻止 该 命令 作出 。 ...
第22页/共24页
搭配统计分析
2-Left 2 his 2 perpetuate 2 to 1 officer 1 perpetuating 1 peretuation
1-Left 2 present 1 any 1 give 1 in 1 of 1 perpetuate 1 such 1 the
第10页/共24页
整理目标
• 1) 格式统一; • 2) 篇章级对齐; • 3) 消除噪音信息;
第11页/共24页
语料库编码
• CES和TEI(基于SGML),很复杂 • 我们也曾经提出一个基于XML的编码方案
第12页/共24页
基于XML的编码方案
(1)标记文本结 构
(2)标记切词、 词性等
(3)各个层级的 对齐关系
• 双语语料库建设 为机器翻译研究服务,同时兼顾其它应用类型
第8页/共24页
双语语料库建设的三个层次
• 1) 语料库收集、整理和编码 • 2) 语料库对齐和加工 • 3) 语料库的呈现和应用
第9页/共24页
语料库整理
• 语料的存放方式各异 • 语料的文件格式不同 • 语料中有不利于加工的噪音信息 • 语料的文体、领域、语式、创作时期不同 • ……
<p
id=2><a
id=2
no=1><s
id=1><Time>January
12,
1938</Time></s></a></p>
<p id=3><a id=3 no=1><s id=1><Subtitle>I</Subtitle></s></a></p>

语料库创建的具体实施步骤

语料库创建的具体实施步骤

语料库创建的具体实施步骤1. 准备语料在创建语料库之前,首先需要准备合适的语料。

语料是指已经标注好的文本数据集,可以包括文档、句子或者短语。

语料的选择应该与你的语言模型训练目标相匹配,例如,如果你的目标是训练一个用于自动文本摘要的模型,那么你的语料应该包含大量的新闻文章或者博客文章。

语料库的大小和质量对训练模型的效果有很大的影响,因此在准备语料时需要尽可能收集大量的高质量数据。

在准备语料时,还需要考虑到数据的来源和版权问题。

确保你有权使用和处理所选语料中的所有文本。

2. 数据清洗与预处理在创建语料库之前,必须对数据进行清洗和预处理。

数据清洗的目的是去除一些无用或噪音数据,以提高模型的质量。

预处理的目的是将数据转化为可用于训练的形式。

下面是一些常见的数据清洗和预处理步骤:•删除特殊字符和标点符号•转换为小写•去除停用词(如“的”,“是”,“在”等)•词干提取(例如将“running”转化为“run”)•标准化词汇形式(如将美国英语和英国英语统一为一种形式)•分割文本为句子或短语•去除重复数据数据清洗和预处理工作可以使用各种编程语言和工具来完成,如Python中的NLTK库或者其他文本处理工具。

3. 构建语料库构建语料库是将预处理后的数据存储起来,以便进行进一步的处理和训练。

一种常见的方法是将数据保存为文本文件,每个文本文件对应一个文档,每行对应一个句子或短语。

文本文件之间可以使用特殊符号或者空行进行分隔。

你也可以使用数据库或者其他数据存储方式来构建语料库。

在构建语料库时,还可以考虑将不同类型的文档存储在不同的文件夹或者数据库表中,以便更好地组织和管理数据。

4. 标注语料库标注语料库是指为语料库中的文本数据添加一些额外的标记或标签,以便后续的处理和分析。

例如,你可以为每个文档添加一个主题标签,或者为每个句子添加一个情感极性标记。

标注语料库是为了进一步的研究和应用而做的准备工作,具体的标注方式和规则需要根据具体的需求来定制。

英语教学语料库的构建原则探析

英语教学语料库的构建原则探析

英语教学语料库的构建原则探析
英语教学语料库的构建原则是设计一个优质的教学语料库,并且可以实现个性化的教学,使英语学习者获得更好的学习效果和更高的学习兴趣。

以下是英语教学语料库的构建原则的详细介绍:
一、语言流畅性原则
在构建英语教学语料库时,首先要考虑语言流畅性原则,语言之间需要具备连贯性,这时需要充分考虑文本的连贯性,尤其要避免使用长句和繁琐的词汇。

二、语言典型性原则
其次,语言典型性原则对于教学语料库的构建也具有重要意义,因为它可以使得学生了解到真实语言使用的情况,教学语料库可以根据不同语境和使用场景来设计。

三、教育性原则
教育性原则是英语教学语料库设计的关键原则之一,目的是使英语学习者在学习过程中学到更多内容,并且增加新的知识。

此外,在语料库的设计中加入合适的习题,使学生能够根据自己的喜好和兴趣,选
择自己感兴趣的主题进行学习。

四、可重用性原则
实现重用性原则可以使英语教学语料库在英语教学中保持长久有效的
效果。

同时,基于这个原则可以实现不同大小的语言库之间的互通性。

五、获取性原则
获取性原则一方面是指初学者可以容易地获取这些语料库中的信息,
另一方面是可以将教学语料库设计成为一种资源,可以规范构建和获
取相关语言信息。

以上就是英语教学语料库的构建原则的详细介绍,而根据这些原则进
行英语教学语料库的构建,不仅可以提高英语学习者的学习效果,还
可以更好地满足学生的需求,从而使英语教学更为完善和优质化。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程Step 1. 用ABBYY Aligner软件对齐中英双语文档,并导出tmx文本。

步骤如下:1.启动ABBYY Aligner,如下图:2.点击“文件图标”导入英文文档点击这里添加英文文档英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:3.点击Align,利用该软件自动对齐,结果如下图:Align接下来需要手动修改,将文档中没有对齐的地方整理对齐。

(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。

把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。

)修改后如图:4.点击Export to TMX,保存对齐之后的tmx文本Step 2. 利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。

步骤如下:1.启用SDL Trados Studio 2011,如下图:2.点击左上角“升级翻译记忆库”点击“添加文件”,点击“关闭”点击“是”。

3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。

选中该记忆库,右击,选择“导出”完成,关闭Trados。

Step 3. 利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。

步骤如下:1.运行Heartsome TMX Editor,如下图:2.点击“文件”,选择“打开TMX文件”,如下图:选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:点击“确定”,“降噪”完成。

4.点击“文件”→“保存”。

5.从文件夹中找到该文本,用记事本打开,如图:点击“文件”→“另存为”txt文本,如下图:点击“保存”,关闭Heartsome TMX Editor。

Step 4. 利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。

自建英语小语料库 提高英语教学效果

自建英语小语料库 提高英语教学效果

发诱导 , 们达 到恰 当 、 使他 完整地 表达话 语 内容的 目的 ; 对
口头表达能力差的学生 , 还要注意课外训练 , 如用课外活
动时 间组织 大家讲生 活 中的趣 事 ,讲 自己的所见所 闻 , 介
绍 自己的家庭 情况 ,说说 自己最 高兴 的事 和最 喜欢 干 什 么 。 、 会上有 意多让 他们 当主持人 , 班 组 悉心地 指导他们 怎 样选用 恰 当的话 语把 自己心 中的意思 表达 出来 。
的效果 。
知 图式 , 堂上通 过选取 资料库 中关于 茶叶 的一 段有声 资 课 料, 进一步 的加深 学生对 于茶 叶种 类 , 制作等 方面 的理解 , 并现场 播放 茶艺表演 的录象 ,以激发 学生模仿 的兴趣 , 让
教 平台t 学 学 教
或 者课 前写 出 “ 贵家 长 : 的孩 子今 天在校 上 课发 言特 别 你
低年级说话兴趣 培养 的点滴体会
■ 伊 通县 黄 岭子镇 中心 校 付 春香
1 . 学生 说话 的氛 围 。低 年级 学生 直感性 强 , 绪 创设 情 变 化快 , 其容 易被 环境 氛 围感 染 , 以在 低年 级学 生 说 尤 所 话 教学 中 , 设 出学 生想说 敢说 的课 堂气 氛 , 激 发学 生 创 是
氛 。教 师必须 充分备好课 , 材成竹 于胸 , 熟于心 , 好 教 烂 搞 教学设 计 , 采用恰 当而新颖 的教学 手段 。教 态必须 和蔼 可 亲, 面部表 情和 语言 姿态 要丰 富多 彩 , 把学 生 不 自觉地 引 入争抢 说话 的境界 中 , 活跃 的课堂 气氛就会 创造 出来 。
2激发 学生说话 的欲 望。由于学生 的说话 信心 。具体 做法是 : 错 或“ 对说 卡壳 ” 的同

利用WordPilot在外语教学中自建小型语料库

利用WordPilot在外语教学中自建小型语料库

中图分类号:H319.9文献标识码:A文章编号:100125795(2003)062004220004利用WordPilot 在外语教学中自建小型语料库梁茂成(南京大学外国语学院,江苏南京 210093)摘 要:在外语教学界,语料库技术已经成为一个热门话题并孕育着十分广阔的应用前景。

Word 2Pilot 正是为了顺应这种趋势而开发的软件系统,它使得语料库技术方便地进入语言课堂。

本文简述了WordPilot 的基本功能、特点和操作方法,探讨了它应用于语料库辅助外语教学的理论基础和益处,旨在促进基于语料库的外语教学活动的展开。

关键词:WordPilot ;语料库;语料库的创建;外语教学Using WordPilot To Create A Small -Scale Corpus For EFL ClassL IA N G M ao 2cheng(Foreign Languages School ,Nanjing University ,Nanjing ,Jiangsu 210093,China )Abstract :Corpus technology has become a hot issue and is promising broad applications in the foreign language teaching field.WordPilot ,a software system developed in compliance with this very trend ,makes it very easy for corpus technology to enter the language classroom.This paper gives a introduction to the ba 2sic functions ,features and the operation of the software and probes into the theoretical basis and the benefits of its application to corpus -aided foreign language teaching ,with an aim to promote corpus -based foreign language teaching.K ey w ords :WordPilot ;Corpus ;Corpus Creation ;Foreign Language Teaching 从外语教学的角度看,大型语料库是可供语言教师参考和使用的大型数据库,教学大纲和语言教材应该根据其内容而合理地编制。

如何自建英语语料库

如何自建英语语料库

论自建小型学习者语料库的方法及作用——以自建中学生英语写作语料库为例曹鹤北京市第三十一中摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。

本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。

关键词:小型学习者语料库;英语写作;基础教育自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。

同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。

大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。

作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。

本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。

一、语料库简介建设语料库之前,我们应首先明白什么是语料库。

语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。

语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。

从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。

现在语料库也开始逐渐应用到语言教学研究中。

根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

自建小型语料库优化初中英语写作教学

自建小型语料库优化初中英语写作教学

自建小型语料库优化初中英语写作教学笔者接触到的部分初中英语教师反映学生写作时常感到束手无策,习惯以汉语思维遣词造句,所写文句衔接性不强,且词不达意者甚多。

根据中华人民共和国教育部2007年颁发的《义务教育英语课程标准(实验稿)》中分级目标结构,初中毕业生要达到五级目标。

其中语言技能的写作五级目标是:①能根据写作要求,收集、准备素材;②能独立起草短文、短信等,并在教师的指导下进行修改;③能使用常见的连接词表示顺序和逻辑关系;④能简单描述人物或事件;⑤能根据图示或表格写出简单的段落或操作说明。

语言知识的话题目标是:①熟悉与学生个人、家庭和学校生活密切相关的话题;②熟悉有关日常生活、兴趣爱好、风俗习惯、科学文化等方面的话题。

所以如何提高初中英语写作教学的有效性,使学生知道写什么和如何写是广大英语教育工作者亟待解决的问题。

自建小型语料库应用于英语话题作文教学是一种有益的尝试。

一、理论基础语料库是应用计算机技术对海量自然语言材料进行处理、存储,以供自动检索、索引以及统计分析的大型资料库。

计算机技术的飞速发展有力地推动了语料库语言学。

各种大规模、多品种语料库得以建立,如BNC、BROWN等。

另外,学习者语料库是非母语学习者的口头和书面语料库,其中包括注有学习者拼写和语法错误标记以及改错提示的语料库。

国内也建立有大型英语学习者语料库,如中国英语学习者书面语语料库(Chinese Learner English Corpus,简称CLEC)和中国学生英语口笔语语料库(Spoken and Written English Corpus of Chinese Learners,简称SWECCL)。

与此相关的语言研究蓬勃发展。

新西兰语言学家G.Kennedy归纳了语料库研究与学习的4个层面:①词汇层面——探讨某个词的出现频率、出现语境以及搭配;②句法层面——在已有语法标注的语料库里研究各种词性标记的组合模式以及对各类句型的使用作量化分析;③篇章结构——研究口语和书面语篇章的连贯和衔接的语言基础,尤其是探讨话语交际的结构模式;④篇章类型——研究各种篇章的语言特征组合情况,从而构建语篇或语体分类的语言标准。

如何充实托福口语内容?建立自己的语料库

如何充实托福口语内容?建立自己的语料库

如何充实托福口语内容?建立自己的语料库在很多托福口语的备考建议中,我们都可以看到,需要大家在练习勤于开口练习,多说多练,这样才能让自己的托福口语能力有大大的提升。

其实,对于目前很多80、90的学生来说,喜欢看一些美剧、习惯于上台演讲等等,有时“说”对于他们而言并不是一个什么难点。

而最大的问题就是在于,应该说什么。

在托福口语的考试过程中,如果是不知所云,逻辑混乱,即便是有了一口标准的美式英语,还是不能拿到很高的评分。

新托福口语考试对考生极具挑战性的一点是,考生几乎没有深入思考的时间,短短的15秒钟准备后就必须开始说话。

并且整段回答内容必须是非常具有逻辑性的一个整体,也就是说,必须在45秒钟之内给出一个由头有尾,个人观点清晰,且论证充分的完整回答。

新托福考试是对考生英语素质的考察,口语部分不仅要求考生会说,还要能用自己的语言来表达思想,其评分更是基于内容的逻辑展开和具体细节的表述最重要,其次才是流利,发音能让人听懂就可以。

建议考生把自己的思路、想法列个小提纲,用笔记来帮助整理思路,切忌大话套话,用实例支撑观点。

平时练习时要注意思维逻辑,语言组织和词句质量,可组建一个资料库,毕竟15秒的准备时间太仓促,可将回答像写作文一样,一字一句的写下来并修改语病,随后大声读熟,再重新回答问题。

当然,标准的发音和语音语调也能为口语考试加分。

考生也可将自己的口语表达录音,然后与标准的美音进行对比,从连读、元音发音、停顿等方面进行纠正。

总之,在备考新托福口语考试时候不可自认为口语好便可拿到高分,要踏踏实实的准备考题,对机经上的题目进行总结归纳,并做到脱口而出,说话有条理和逻辑性,平时除了多看美剧听美式英语之外,还应该多练习,只有这样才能获得新托福口语高分。

综合口语任务的难点在于理解、记录听力内容,并用自己的话做口语复述,也就是我们常说的paraphrase(意译)。

可以先锻炼自己听抄、听记的能力。

然后练习将记录的信息用口语自然的表述。

建立自己的语料库

建立自己的语料库

准备阶段: 确定设计原则
确定样本的性质和维度
按交际功能选择内容 尽可能具有代表性 针对研究目的设计语料库的结构 语料库结构标准应简洁、独立、 语料库结构标准应简洁、独立、具有区分性 分离文本信息与文本本身 收集完整文本
设计阶段: 文本分类及标注方案
Without metadata, corpus linguistics would be virtually impossible (Burnard, 2004).
文本结构信息
设计阶段: 文本分类及标注方案
确定标注方案和标记语言
标注的定义 分类信息及结构信息的编码 制定码集(tagset) 制定码集(tagset) 选择标记语言: 选择标记语言:Html, XML (see sample Tempest; files) Tempest; BNC files) 观察与评价:CLEC的头部信息及错误附码 观察与评价:CLEC的头部信息及错误附码
确定抽样标准
文本模式
口语 笔语 电子
文本来源
教材、讲义、课堂英语、 教材、讲义、课堂英语、其它材料 学生语言输出:作业、写作、日记、 学生语言输出:作业、写作、日记、论文等
准备阶段: 确定设计原则
文本域:学术的、 文本域:学术的、非学术的 语言类型:教学输入、教师语言、 语言类型:教学输入、教师语言、学习者语言 文本产生位置:校园、 文本产生位置:校园、远程等 文本产生日期
定义:田野语料库
教师在语言教学和学习环境中,为观察和 描述具体现象和难题,并通过行动研究寻 求解决难题方案和途径而建设的小型语料 库 田野语料库是一种专用语料库
准备阶段: 确定设计原则 --with reference to J. Sinclair

如何在高中英语写作教学中构建个性化写作语料库

如何在高中英语写作教学中构建个性化写作语料库
英语个性化写作语料库的来源需要有一定的 权威性。学生英语的有效输出得益于平时大量真实 鲜活的语言输入,以及选择性的强化练习,不能依 靠主观编造或中文式的翻译。教师可以指导学生利 用好教材、网络、模拟卷、高考卷等,以此帮助学生 建立属于自己的权威的语料库。
三、如何在高中英语写作教学中构建个性化写 作语料库
2018 年 第 10 期 英语教师

如何在高中英语写作教学中构建个性化写作语料库
仇静
【摘 要】从学生和教师两个方面分析目前高中英语写作教学存在的问题。探究在高中英语写作 教学中建立英语个性化写作语料库的意义及可行性。从词块、句型、篇章三个方面论述 如何引导高中生构建适合自己的个性化写作语料库。认为在高中英语写作教学中,教 师应根据学生的特点,引导学生从学习素材中整合、归类资源,帮助他们建立个性化写 作语料库,从而提高其写作能力。
题来自建个性化写作语料库,在此基础上,整合语 料,选出具有代表性的内容。这一做法具有一定的 优势,具体包括:
1. 提供真实的语言素材 “真实性”是英语写作的一个重要概念,在个性 化写作语料库基础上开展的写作教学更能帮助学 生习得语言。 2. 有利于语言输出 在真实语境和语言输入基础上,学生能更加有 效地理解输入的内容,不断调整原有的语言假设, 从而实现语言的正确输出(朱瑜 2009)。 (二)可行性 自建语料库非一日能完成的,需要学生和教师长 期合作。在构建语料库时,教师需要帮助学生做好分 类。在高一阶段,教师需一步步引导学生在各个分类 中摘抄正确且符合个人认知的词块、句型和篇章,并 定期进行班级间的赏析和分享活动。通过这样的活 动,英语个性化写作语料库才能真正帮助到每一个学 生。长此以往,学生的英语作文才会有质的飞跃。
二、在高中英语写作教学中建立英语个性化写 作语料库的意义及可行性

如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?

如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?

如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?
构建一个英汉双语语料库的主要步骤如下:
1、语料准备。

准备英汉对照的双语文档。

可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。

无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。

文档格式可以是office系列格式等,但最好是word这种简单的容易识别的格式。

如:我们在word中准备一篇英中双语对照的文档。

2、语料对齐。

关于语料对齐,我以前专门写过一篇文章:如何用最简单的方法创建双语平行语料库?
里面讲了几种对齐工具,我推荐的是Tmxmall在线对齐。

Tmxmall对齐功能的具体操作步骤我也写过文章,可参考:双语平行语料库人工对齐工具说明│Tmxmall Aligner
我们准备好的英中文档对齐效果如下,将对齐好的文档导出,存为tmx格式。

3、在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。

以上就是自己构建一个英汉双语语料库的方法。

上述方法同样适用于建立中英语料库或其他任意语言对的语料库,如俄中、中俄、中葡、中日等等,只要在操作的时候选择对应的源语言和目标语言即可。

除了自己对齐语料存为tmx格式外,也可以直接购买Tmxmall公有云包月服务(里面有千万级句对的语料资源可供翻译时提取),或在Tmxamll 语料商城上按需购买其他人放上去的各专门领域的语料库。

小型高中英语语料库的建设

小型高中英语语料库的建设

小型高中英语语料库的建设
有很多方法可以建立小型高中英語语料库。

一、建立以学生作文为基础的语料库
1、手动采集:根据高中英语对学生作文要求,从学生作文中收集符合
要求的作文来建立英语语料库;
2、使用教师用书和教材采集:利用参考书提供的实例,从而积累高中
语法和语言表达的大量例句,积累学生在英语考试中可能用到的高中
英语语料。

二、建立以口语信息采集机制为基础的语料库
1、录制现场对话:安排学生之间进行英语讨论,并录下它们的双方口
语对话,从而收集语言信息;
2、开展全班总结:通过开展全班总结活动,让学生们发表自己的看法
和使用的句子;
3、网络调查:利用网络技术,进行在线调查,收集大量英语口语资料,以便研究口语怎样与书面语形式不同。

以上是建立小型高中英语语料库的几种方法,以上方法都可以为英语
教师收集英语语料,从而更好地指导学生学习英语语法、口语表达等知识。

英语视听说语料库的构建与英语教学探索

英语视听说语料库的构建与英语教学探索

英语视听说语料库的构建与英语教学探索一、英语视听说语料库的构建英语视听说语料库是指对于英语听力和口语教学所需的相关语料进行搜集、整理、管理的一种数据库。

它可以包括但不限于英语教学中的录音、视频、课件、练习题等资源,为英语教学提供了丰富的资源支持。

构建英语视听说语料库的过程可以分为以下几个步骤:1. 资源搜集:教师可以通过互联网、教材、教学录音等渠道搜集到丰富的英语听力和口语资源。

这些资源可以包括国外优秀的听力教学材料、精彩的英语演讲、英语电影、英语歌曲等多种形式。

2. 资源整理:将搜集到的资源进行分类整理,根据不同的难易程度、不同的话题内容等进行分门别类,以便于后续的教学使用。

3. 资源管理:建立一个完善的资源管理系统,包括资源的存储、检索、更新等功能,以便于教师和学生能够方便地获取到所需的资源。

4. 资源开发:针对不同的教学内容和教学目标,对资源进行一定的加工和开发,比如制作听力练习题、口语训练材料等,以提高资源的教学适用性。

通过以上的构建过程,英语视听说语料库可以逐渐形成一个丰富、多样的资源库,为英语教学提供了丰富的资源保障。

英语教学中的视听说语料库可以被广泛应用于听力训练、口语训练等方面,为教学提供了丰富的资源支持。

1. 听力训练:教师可以通过视听说语料库,为学生提供高质量的听力训练材料。

通过听取高质量的听力材料,学生可以提高对于外语的听力水平,从而更好地理解外语的语音、语调和用法。

2. 口语训练:视听说语料库中的口语资源可以为学生提供大量的参考和模仿对象,让学生有机会接触到地道的口语表达和语音语调,从而提高学生的口语表达能力。

3. 语言文化学习:在视听说语料库中,还可以包含大量的英语文化资料,比如英语国家的风土人情、生活习惯、传统文化等,通过这些资源,学生可以更好地了解和领悟英语国家的语言和文化。

4. 制作教学材料:教师可以使用视听说语料库中的资源,制作个性化的教学材料,比如听力练习、口语训练材料等,以便于更好地满足教学的需求。

大学英语语料库构建与利用研究

大学英语语料库构建与利用研究

大学英语语料库构建与利用研究大学英语语料库是一个重要的学习和研究工具,可以为学生提供真实、丰富的语言素材,帮助他们提高英语听说读写能力。

同时,语料库也是语言学研究的重要资源,可以用于分析语言的用法、特征和变化。

本文将探讨大学英语语料库的构建与利用,并介绍一些常见的语料库工具和技术。

一、大学英语语料库的构建大学英语语料库的构建需要收集大量的英语文本,包括书籍、报纸、杂志、网页等。

以下是一些常见的大学英语语料库构建方法:1. 文本采集:可以通过网络爬虫工具自动收集网页上的英语文本,也可以手动收集书籍、报纸和杂志等印刷媒体的文本。

2. 文本清洗:收集到的文本通常包含大量的标点符号、数字和特殊字符,需要经过清洗处理。

可以使用文本编辑工具或专门的文本处理软件进行清洗,将文本转换为纯文本格式。

3. 分词和标注:对文本进行分词和词性标注是语料库构建的重要步骤。

分词将文本拆分为单词或词组,词性标注记录每个单词的词性。

分词和标注工具可以使用开源的自然语言处理工具,如NLTK、Stanford NLP等。

4. 数据库存储:将清洗、分词和标注后的文本存储到数据库中,便于检索和管理。

常用的数据库工具有MySQL、SQLite等。

二、大学英语语料库的利用大学英语语料库的利用可以帮助学生提高语言表达能力,同时也可以用于语言研究、教学和翻译等领域。

以下是一些常见的大学英语语料库利用方法:1. 训练英语听力:通过语料库中的真实语音材料,学生可以练习不同口音、语速和发音风格的听力理解。

可以利用语料库中的对话、演讲、新闻等多样化的语音资源进行听力训练。

2. 提高英语口语:语料库中的口语材料可以帮助学生模仿和学习正确的语音、语调和表达方式。

学生可以通过模仿纠正自己的发音和语法错误,提高口语表达能力。

3. 扩展词汇量:语料库中包含丰富的词汇,学生可以通过查找出现频率高的单词和短语,扩展自己的词汇量。

可以使用词频统计工具和词汇搭配分析工具,发现常用的词语和搭配用法。

coca语料库操作方法

coca语料库操作方法

coca语料库操作方法如何使用Coca语料库。

第一步:访问Coca网站首先,我们需要打开浏览器,输入Coca的网址(第二步:注册一个账户在Coca的网站上,你需要注册一个账户才能使用它的功能。

点击网站右上角的“Sign up”按钮,填写个人信息并创建一个账户。

注册完成后,你将能够登录并开始使用Coca语料库。

第三步:选择语料库Coca语料库提供了多个语料库供用户选择。

这些语料库涵盖了不同的英语文本类型和语言水平,包括英国英语、美国英语、口语和书面语等。

根据你的需要和研究目的,选择适合的语料库。

第四步:输入查询词一旦你选择了一个语料库,你将被带到一个搜索页面。

在这个页面上,你可以输入你想要查询的单词、短语或句子。

Coca语料库将根据你的查询返回符合条件的语料库中的文本。

第五步:设置查询条件在查询页面上,你还可以设置一些查询条件以获得更准确的结果。

你可以选择搜索范围(比如整个文本、标题或标签)、语言(英语、其他语言)和文本类型(新闻、文学、学术论文等)。

你还可以设置返回结果的数量和排序方式。

第六步:查看查询结果一旦你输入了查询条件并点击搜索按钮,Coca语料库将返回与你输入的词或短语相关的文本。

你可以查看每个文本的摘要、正文以及其他相关信息。

你还可以向下滚动浏览更多的查询结果。

第七步:分析文本一旦你找到了与你研究或分析目的相关的文本,你可以进一步分析它们。

Coca语料库提供了一些工具和功能,帮助用户对文本进行计数,统计和比较。

你可以分析特定词汇的频率、词组的搭配性,以及词汇在不同文本类型中的分布情况等。

第八步:导出结果如果你需要将查询结果导出为文件,Coca语料库也提供了这个功能。

你可以将查询结果导出为文本文件或表格文件,以便进一步处理和分析。

总结:使用Coca语料库可以帮助我们对英语语言进行研究和分析。

通过登录并选择合适的语料库,输入查询词并设置查询条件,我们可以获得与查询相关的文本,并进一步分析和比较它们。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

论自建小型学习者语料库的方法及作用——以自建中学生英语写作语料库为例曹鹤北京市第三十一中摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。

本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。

关键词:小型学习者语料库;英语写作;基础教育自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。

同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。

大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。

作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。

本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。

一、语料库简介建设语料库之前,我们应首先明白什么是语料库。

语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。

语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。

从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。

现在语料库也开始逐渐应用到语言教学研究中。

根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

与国内英语教育关系最紧密的语料库是学习者语料库(learners corpora),即非母语学习者的口头和书面语料库,其中包括注有学习者拼写和语法差错标记以及改错提示的语料库. 根据Leech (1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。

将这些语料经过计算机处理后形成的数据库即为学习者语料库。

学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究语言学习过程以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。

随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一。

国外建成的规模较大的学习者语料库是Cambridge Learner Corpus (CLC) 。

国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的“中国英语专业语料库(100多万词)”和“中国学生英语口笔语语料库(200多万词)”以及规模更大的香港科技大学学习者语料库等。

这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇、语法,特别是错误分析等进行研究。

同时,可以将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据(李文中,1999)。

然而,尽管国内已经建成了上述大型学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,而且多是针对高级语言学习者,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。

但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生,特别是初级英语学习者的语言学习情况和语言特点。

相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。

因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师——学生课堂话语档案库等(卫乃兴,2005)。

个人教学语料库不仅能克服以上种种缺陷,而且有着自己巨大的优势。

突出表现如下:第一、目标明确,语料收集针对性强,适合自己教学对象,能反映学生真实语言水平。

第二、语料库具有开放性和时效性,能不断扩展及时更新。

第三、本地机操作,经济、方便、快捷,检索语料时选择自由,易于突出语言的语域特征(谢家成,2003)。

以下就以建立中学生写作语料库为例介绍建设小型学习者语料库的方法和使用。

二、小型学习者语料库的建设(一)、可行性人们一般认为构建语料库是一个花费大量人力物力的工程,实际上随着电脑技术的不断发展,现在个人建设教学语料库是完全可行的。

语料库主要由两部分组成:以电子文本形式存贮于计算机中的语料和管理检索这些语料的定位检索软件。

现在许多功能强大、使用简便不需专门计算机知识的定位检索软件网上也能免费下载,教师只要善于收集语料、加以整理就可以建立一个实用的语料库。

再加上个人教学语料库规模灵活,可边建设边使用,建库要求也不是很严格,这一切使得个人教学语料库的建设成为现实。

就中学生写作语料库而言,即小型学习者书面语语料库,是针对具体学生语言学习情况的最重要的语料库之一。

教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况做出主观判断。

从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。

(二)、建设方法建立一个中学生写作语料库,一般需要以下几个步骤:1、语料的收集和分类保存中学生写作语料库的语料,顾名思义应来自学生在课堂或课外的写作产出,如课堂写作作业、考试中的作文和学生的英语日记等。

书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档,计算机的普及可以让学生用电子文档的方式提交写作材料。

相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。

大部分书面语料的收集在日常教学中就可以完成。

语料收集并不是语言材料的简单堆砌,从一开始就应按一定原则进行科学分类。

对于中学生写作语料库而言,分类可适当参考作文质量分为三个等级,优秀(Excellent)、良好(Good)、及格和及格以下(Around pass),并把不同种类的作文存入不同的文件夹。

还应注意,以上述方式获得的语料是未经计算机处理的语料,称为生文本( raw text) 。

存档时,应把每一个生文本(学生作文)作为一个独立文件单独命名存放。

文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。

可以用“年级+班级+学生姓名”来命名,如初三5班李红的作文,可以命名为“g1_c5_lihong”,并存入相对应等级的文件夹。

同时,所有文件的格式应统一,建议使用纯文本(. txt)格式存档,这是几乎所有的语料库软件都能识别的格式。

如图1和图2所示:图1:分类文件夹图2:所存生文本2、语料的标注和赋码存档之后,必须对生文本进行加工,使它更易于检索。

首先应加注文本头,即在这些语料文件的开头第一行提供相关基本信息,如姓名、年级、班级、性别、文本字数等。

信息要详细而且要有相关性,这样对以后的研究就更实用。

通常的标注方法是将上述信息放入尖括号“ < > ”中。

例如: < GRADE >=年级; <CLASS > =班级; < SEX > =性别; <AGE > =年龄;等等。

如下图:图3:文本头标注如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。

错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。

若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。

此外,应对语料进行词性赋码。

在进行词性赋码之前,应确定赋码方案。

现在已经开发了多种词性赋码方案,如CLAWS自动词性赋码器等1。

目前比较流行的词性赋码工具有AnnoTool和GoTagger软件(卫乃兴,李文中,濮建,2005) 。

标注后的文件另存为纯文档格式,如下图:(但无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。

)图4:标注完后的文件总的说来,小型学习者语料库的建设基本步骤为:规划、语料收集、语料输入计算机、标注、赋码。

上述工作完成之后,我们应将这些库文件统一命名保存,方便语料的维护与应用。

语料库的建设也就基本结束。

这样建成的语料库是开放的,教师可以在今后的教学过程中不断添加新的语料,使语料库发挥更大的作用。

除了写作语料库外,其他一些简单可行的语料库还有阅读材料语料库(可细分精读语料库、泛读语料库等)、试题语料库(其中还可以分单选题语料库、完形填空题语料库及作文题语料库等)和核心词汇语料库等等。

三、小型学习者语料库的应用学习者语料库建成之后,教师可以利用软件对语料库进行定位检索。

通过检索,找出自己学生在写作中的用词规律、词语搭配情况、语言特点以及错误类型情况等。

分析之后,进行有针对性地教学。

也可以通过将检索情况演示给学生,让学生自己发现问题,这样能加强学生自主学习的能力并提高他们的学习兴趣。

在实践中,笔者根据上述方法自建了一个小型学习者语料库,语料来源为自己所任班级学生的写作材料,共收集到131篇文章,约12,987万字,全部加注了文本头( header)和词性赋码。

在批改学生作文时,发现大部分学生的被动语态使用不准确的情况。

于是,笔者首先利用专门软件对语料进行了标注,然后把语料中所有被动语态通过检索软件AntConc3.2检索出来,希望通过定位检索工具找到确切的数据和问题所在。

下图为利用AntConc3.2工具2中的Concord功能检索,输入被动语态的表达式得到所有优秀作文中的被动语态的使用情况(许家金,熊文新,2009):图5:优秀作文中被动语态的使用情况图中的数据显示,共有1258个句子使用了不同的被动语态,其中,容易出现错误的地方主要在于被动语态后的介词,良好或者及格左右的作文大多使用by这一唯一介词,而优秀作文差异明显,介词会根据句子的具体要求改变。

这体现了学生在学习被动语态时,太注重记忆公式be+Ved+by,而忽略了句子的实际用法。

另一方面,被动语态的时态,即be动词的变化,也会常常出现错误。

最后,有些词汇如occur, happen等不及物动词学生往往会用被动语态,这说明学生未充分理解被动语态的含义,这与英语为本族语的学生的用法相差太大法。

相关文档
最新文档