语料库课程(一)笔记

合集下载

学术英语阅读 语料库

学术英语阅读 语料库

学术英语阅读语料库

学术英语阅读对于非英语母语的学生来说常常是一项具有挑战性的

任务。为了克服这个难题,语料库是一个强大的工具,可以提供丰富

的英文语料和学术资源,帮助学生提高阅读理解和写作能力。本文将

探讨学术英语阅读语料库的定义、功能和使用方法。

一、语料库的定义和功能

语料库是一个用来收集、存储和组织大量实际语言材料的数据库。

学术英语阅读语料库是面向学术领域的语料库,包含了各个学科的学

术文献、期刊文章、论文、报告等。它的功能主要体现在以下几个方面:

1. 提供真实语言样本:语料库中的文本是真实的、自然的语言材料,可以反映真实的学术写作风格和表达习惯。学生通过接触大量真实的

学术文本,可以更好地理解学术语言的特点和规范。

2. 支持研究和分析:学术英语阅读语料库可以提供丰富的数据资源,用于研究语言的使用、结构和变化。研究者可以通过对语料库中的文

本进行分析,揭示学术写作的规律和特点。

3. 提高阅读和写作能力:通过使用语料库,学生可以积累大量的词

汇和短语,提高阅读理解能力。同时,他们还可以学习到学术写作的

技巧和表达方式,提高自己的写作能力。

4. 培养语境意识:语料库可以帮助学生理解单词和短语的多种使用方式和语境。学生可以通过查找相关的实例文本,了解单词的准确含义和用法,避免翻译错误或语用不当的问题。

二、语料库的使用方法

学术英语阅读语料库的使用方法多种多样,下面介绍几种常用的方法:

1. 检索词汇和短语:学生可以通过输入关键词来检索语料库,获取与词汇或短语相关的实例文本。这样可以帮助学生理解单词或短语的多种用法和语境,并学习如何正确运用它们。

语料库课程(一)笔记解析

语料库课程(一)笔记解析
般不在其它话题中出现
因此
某个特定话题的文本包含的独特词群具有异常 高频
参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
比什么:条件控制
控制相似变量 突出差异焦点
描述
观察文本 具有明确主题的完整文本或一致主题的文本集
参照语料库 具有足够的代表性 足够大 同质语料
replace
e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。
3. 文本清理,元信息标记、语言学标记
8.1下午
(三)梁茂成 语料库的标注
标注与干净文本原则 标注的常见类型 词性标注 手工标注
标注与干净文本原则
标注(annotation): The process of applying additional information to corpus data.
④ context
二、为什么要研究语料库语言学
1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once
8.1上午
(二)李文中
Brown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。

常见语料库使用入门

常见语料库使用入门

生 语 语 料 库
熟 语 语 料 库
3
语料库及其分类
第二节 公共语料库检索
4
公共语料库检索
统计频率
基 于 检 索
查找例句
参 数 设 置
带着 问题
收集 证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:http://www.sinica.edu.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:http://www.sinica.edu.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:http://www.clr.org.cn/retrieval/index.html 05.树图数据库:http://treebank.sinica.edu.tw/ 06.语料库语言学在线:corpus4u.org 07.北京大学CCL语料库:http://ccl.pku.edu.cn/Yuliao_Contents.Asp
11索21公共语料库的检索说明以bcc语料库为例词性列表公共语料库检索22公共语料库的检索说明以bcc语料库为例构词公共语料库检索23公共语料库的检索说明以bcc语料库为例构词合成词公共语料库检索24公共语料库的检索说明以bcc语料库为例搭配公共语料库检索25公共语料库的检索说明以bcc语料库为例离合公共语料库检索26公共语料库的检索说明以bcc语料库为例句型公共语料库检索27公共语料库的检索说明以bcc语料库为例定界公共语料库检索28公共语料库的检索说明以bcc语料库为例构式公共语料库检索29公共语料库的检索说

BNC语料库使用说明ppt课件

BNC语料库使用说明ppt课件
31
32
33
2.4.2 比较反义词 如:woman和man前面所跟的形容词的区
别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方 框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然 也可以比较在某个子语料库中出现的频率比较。
规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以un-开头、-ed结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*] ; 若 要 得 到 动 词 + 任 何 词 +ground 的 所有词组,那么输入: [vv*]*[ground]即可。前者 用来研究词汇,后者用来查询特定词性的搭配。
4
1.2 BYU-BNC界面简介
5
2. 主要搜索功能
2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词
2.1.1 输入单词“mysterious” (图2.1.1-1):
得到相关结果(图2.1.1-2):在各子库中的频 率,每百万词使用的频率
图2.3-3
29
2.4 进行语义倾向比较 2.4.1 比较近义词 如:近义形容词hot和warm后面所跟名词的
区别Hale Waihona Puke Baidu如图2.4.1):

北京外国语大学语料库语言学考博参考书目导师笔记重点

北京外国语大学语料库语言学考博参考书目导师笔记重点

1
资料来源育明教育官网:www.yumingedu.com(考博分校) 考博考试信息、辅导课程可咨询育明教育考博分校
育明 考博分校 资料来源:www.yumingedu.com 考博资料、辅导课程 咨询育明考博刘老师
(三)复试要求 1、英语语言文学专业要求用英文撰写攻读博士研究生的研究计划(3—5 页),请在复试时提交纸
六、考博常见问题
(一)考博需要注意的五大事项 1、目标明确。确定了考博,第一件事是先确定报考学校和导师,不要再对考博的前景三心二意。
考博虽然不意味着成功,但至少是人生的一个重要转折点,特别是对于非名校毕业的硕士来说,考个 名校博士肯定是得大于失。不要同时准备两所学校,人的精力毕竟有限。
2、复习时间六个月以上。能拿到硕士学位再考博的,都差不到哪儿去,想要超越对手,时间是一 个宝贵的因素。复习时间越长,对考试内容的熟悉程度必然越深。当然每个人的情况不同,复习很短 时间就能考博成功的案例比比皆是。
5、经济上要有一定的支撑。包括人际关系费用,找该校的对口复习资料费用,报辅导班的费用, 考试费等等,该花的最好不要省,只要是对考博成功有利的。因为这些钱对于博士生出来后的待遇来 说太微不足道了。 (二)专业课如何复习
对待专业课的认识,有些考生以为自己学了这么多年本专业,甚至发表了不少文章,专业课应该 没问题了,从而放松了对自己专业课复习的要求。其实现在博士录取时,各个环节都不能放松。即使 及格了,如果成绩较低,总分排名靠居后,也会影响导师对自己的印象。提高专业课的复习效率,育 明考博告诉大家可以分为以下两个阶段:

语料库笔记

语料库笔记

语料库简单DIY 第一讲语料库--语料库语言学的工具

主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语

言教学博士一年

联系方式: QQ 47354211 E-mail: sery2004@

在语言学QQ群里面混迹了多年,经常潜水走马观花似的看着群

里面的朋友们针对语料库提出各种各样的问题和困惑,总结起来,大

家的问题无非离不开对于语料库的理解,应用,以及研究。不过,因

为群里面的朋友大多数都是文科的文学,语言学,以及对外汉语专业。对于计算机辅助语言研究,语料库语言学等概念接触的机会并不是很多。加上群里的女性朋友居多,她们对于电脑操作系统本身的使用都

存在诸多头疼的问题,就更不要提数据量超大的语料数据库了。本人

不是计算机专业的毕业生,本科是日语专业,硕士是比较语言学,博

士是计算机辅助对日汉语教学。所以对于语料库本身的程序和数据库,认识只是停留在应用和架设阶段,实在说不清楚里面很多细节的问题,也请朋友们原谅。我有说的不对的地方,欢迎来信或者QQ群里直接批判,我一定虚心接受。谢谢!

首先,我们来个扫盲活动,把对于语料库的认识梳理清楚。

第一个内容:语料库是干嘛的?

CORPUS =The body of written or spoken material upon which a linguistic analysis is based .

这里的CORPUS就是我们说的语料库,它实际上也等于CORPSE

或者Dead Body。就是死尸的意思。好奇怪,这里怎么搞个死尸进来呢?其实这个概念是在构造主义时期1956年由英国的语言学会提出来的。

《基于语料库的莎士比亚戏剧汉译研究》读书笔记模板

《基于语料库的莎士比亚戏剧汉译研究》读书笔记模板

6.6莎剧中“which”引导定语从句的汉译研究
6.6.1引言 6.6.2 “which”引导的定语从句及其汉译方法分类 6.6.3莎剧汉译本中“which”引导定语从句汉译方法的比较分析 6.6.4 “which”引导的定语从句汉译方法应用的动因研究 6.6.5小结
7.1引言
7.2本书研究的主要 成果
5.5.1引言 5.5.2评价意义 5.5.3梁译本与朱译本中“good”的评价意义再现 5.5.4梁译本和朱译本中级差意义再现差异的动因 5.5.5小结
5.6莎剧中“lord”的人际意义再现研究
5.6.1引言 5.6.2称呼语的人际意义 5.6.3研究设计 5.6.4莎剧汉译本中“lord”人际意义的再现 5.6.5梁译本和朱译本中“lord”人际意义再现的动因 5.6.6小结
目录分析
1.2莎士比亚与莎 士比亚戏剧
1.1引言
1.3莎剧翻译研究: 现状与前景
1.4本书的研究 内容、研究意 义和研究方法
1.5本书的章节 安排
1.2莎士比亚与莎士比亚戏剧
1.2.1莎士比亚简介 1.2.2莎剧及其版本 1.2.3莎剧翻译概览
1.3莎剧翻译研究:现状与前景
1.3.1莎剧的译介学研究 1.3.2莎剧汉译的语言学视角研究 1.3.3莎剧汉译的文化视角研究 1.3.4莎剧译者研究 1.3.5基于语料库的莎剧翻译研究 1.3.6莎剧翻译研究的特点 1.3.7莎剧翻译研究现存的不足及前景

课堂笔记语文

课堂笔记语文

语文课堂笔记:生字词、语法、文学知识、阅读理

解、写作技巧

标题:语文课堂笔记

一、生字词

1.生字:掌握本课出现的生字,如“荡漾、清晰、搀扶、嘱咐、”

等。

2.词语:理解并掌握本课出现的词语,如“荡漾、绽放、屹立、相

衬、朦胧、馈赠”等。

二、语法和句子结构

1.语法:学习并掌握本课出现的语法知识,如动词时态、名词的数

和所有格等。

2.句子结构:理解并掌握基本的句子结构,如主语+谓语、主语+

谓语+宾语等。

三、文学知识

1.作者介绍:了解本课文的作者背景、作品等。

2.作品背景:了解本课文的历史背景、文化背景等。

3.文学手法:学习并掌握本课文所使用的文学手法,如比喻、拟人、

排比等。

四、阅读理解

1.段落分析:理解并掌握本课文的段落结构、中心思想等。

2.主题思想:理解并掌握本课文的主题是关于什么的,以及作者想

要表达的思想是什么。

3.问题解答:解答阅读理解题目时,要结合上下文,找到问题的答

案。

五、写作技巧

1.写作手法:学习并掌握本课文所使用的写作手法,如描写、叙述、

议论等。

2.写作技巧:学习并掌握如何写出好的文章,如如何构思、如何表

达等。

3.写作练习:进行写作练习,锻炼写作能力。

语料库基本知识

语料库基本知识
形符(token) 类似于我们日常说的“词”(如一篇300词的作文)。 句子A computer almost necessarily has a Keyboard and a monitor中共有10 个形符( 即A, computer, almost, necessarily, has, a, Keyboard, and,a, monitor) 。
.
13
汉语的分词比英语要复杂的多。 ◦ 词与词之间连写,没有空格。 ◦ 对汉语“词”的理解众说纷纭。
.
14
软件
◦ filelist.ini,修改分词文件目录路径 ◦ 批处理
.
15
软件
.
16
.
17
.
18
.
19
.
20
索引,又称为“语境中的关键词”
.
21
.
22
.
23
.
24
.
25
.
.
12
所谓分词(tokenization) ,指将一连串的字符转换成相互 分离、容易识别的形符(tokens) 的过程。
在文本采集的过程中,由于文本来源不一,格式各异,文 本内部存在很大的不一致性,如果不进行分词处理,一来 容易导致检索困难,二来可能会使得语料库的频率统计出 现误差,还可能会影响语料库的标注和后期加工。
依据统计数据和实例上下文对所研究的对象进行语言学层面 定性的分析,是定量分析和定性分析的结合,以研究语言的 结构和运用为目标。

语料库基础知识

语料库基础知识

/yingyong/courses/corpusbase.htm

语料库研究与应用综述

语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电

子形式保存的语言材料,由自然出现的书

面语或口语的样本汇集而成,用来代表特

定的语言或语言变体。经过科学选材和标

注、具有适当规模的语料库能够反映和记

录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系

统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语文课程笔记摘抄大全

语文课程笔记摘抄大全

以下是一些语文课程笔记摘抄,供您参考:

1. 语文课程是一门综合性、实践性强的学科,旨在培养学生的语言文字运用能力、审美能力和文化素养。

2. 语文课程的内容包括识字与写字、阅读、写作、口语交际和综合性学习五个方面。

3. 识字与写字是语文课程的基础,学生需要通过识字与写字练习,掌握汉字的音、形、义,能够正确书写汉字,并能够运用汉字进行书面表达。

4. 阅读是语文课程的重要环节,学生需要通过阅读,理解文本的内容、形式和意义,培养阅读理解能力、批判性思维能力和文化素养。

5. 写作是语文课程的重要技能,学生需要通过写作练习,掌握各种文体的写作技巧和方法,能够运用语言文字进行表达和交流。

6. 口语交际是语文课程的必备技能,学生需要通过口语交际练习,掌握口语表达的技巧和方法,能够运用语言进行有效的交流和沟通。

7. 综合性学习是语文课程的特色之一,学生需要通过综合性学习,将语文知识与生活实际相结合,培养解决问题的能力和创新精神。

8. 语文课程评价是语文课程的重要组成部分,通过评价可以了解学生的学习情况和学习需求,为改进教学提供依据。

9. 语文课程评价包括形成性评价和终结性评价两种方式,形成

性评价关注学生的学习过程,终结性评价关注学生的学习成果。

10. 语文课程评价的内容包括知识、能力、情感态度和价值观等方面,评价方法应该多样化,注重学生的实际应用能力。

希望以上语文课程笔记摘抄对您有所帮助。

语言调查方法课程笔记

语言调查方法课程笔记

语言调查方法

教师:戴庆厦教授6893-6040,家6893-2522. 周四1446听讲座。

1、语言调查的基本知识(概念、方法、流程)

2、掌握国际音标(主要音标要会发、会看音标、会记音标、准确率不低于60%、学会整理音系、学会撰写调查报告、记录和整理的材料能达到发表的水平)

3、学会调查一种语言

上课方式:1、精讲多练2、课堂讲授和练习相结合

考试:国际音标可读可听;语言分析小论文

第一章绪论

语言调查是语言学的一个分支学科,linguistic investigation。研究的内容:如何针对一门没有被认识的语言进行科学地调查。又叫田野调查,field investigation,也叫田野语言学field linguistic,或田野工作field work。

语言调查是一种方法,属于方法论的范畴,不同于社会科学的调查,既有社会科学的调查方法和内容,也有自然科学的属性。是一个难度比较大的社会调查。

从研究的角度,可分为共时性和历史性两种。语言调查属于共时性研

究,是描写语言学范畴。

任务有二,一是科学的分析和描写语言的语音和词汇,寻求内部规律,二是科学地描写语言的社会功能,文化功能。结构本身的调查和分析难度较大。

语言调查的基础,语言描写建立在语言现实的认识,而对语言现实的认识建立在语言调查的基础上。

意义:一、得到丰富的活的有用的语言调查,为语言研究提供可靠的研究素材。

克木语:有习惯音调,pat55,pam53.

在老挝考察时,发现了很有价值的声调材料。对研究声调起源很有启发。

清音高调

Pat55

浊音低调

雅思听力特别名词语料库

雅思听力特别名词语料库

雅思听力特别名词语料库

Test paper1

Test paper 2

Testpaper3

Testpaper 4

Testpaper 5

Testpaper 6

Testpaper 7

Testpaper 8

Testpaper 9

胡壮麟《语言学教程》笔记第10-11章

胡壮麟《语言学教程》笔记第10-11章

Chapter 10 Language and Computer

1. 计算机语言学

计算机语言学可以看作是应用语言学的分支,即通过计算机处理人类语言。计算机语言包括:对语言数据的分析,建立一个序列,通过它,语言学习者可以获得各种语法规律或某一特定词项的出现频率;人工语言的电子生成和人类语言的自动识别;它也包括不同自然语言之间的自动翻译和语篇处理;人与计算机的交流。

2. CAI, CAL & CALL

. CAI:计算机辅助教学,就是在教学过程中使用计算机。

. CAL:计算机辅助学习,强调在教和学两方面使用计算机,通过学生自己的推理和和实践,帮助学习者达到教学目标。

. CALL:计算机辅助语言学习,如果说CAI,和CAL是处理一般的教和学,那么CALL是用来处理语言教学的。它特别是指将计算机运用到第二语言或外语的教学中去。

3. 机器翻译&人工翻译

. 定义

机器翻译是指使用机器将语篇从一种自然语言翻译至另一种自然语言。机器翻译可分为两类:不需要辅助的和需要辅助的。

. 机器翻译&人工翻译

在新世纪之初,很明显,机器翻译和人工翻译能够且将会相对协调地同时存在。

我们仍旧需要那些人工翻译者所作出的贡献。当翻译不得不讲究“可发行”质量时,机器翻译和人工翻译都具有各自的作用。对语篇翻译来说,在对输出的质量要求不高的地方,机器翻译是一种理想的解决方法。

对信息的一对一交换而言,人工翻译家可能总是会有作用的。至于口语翻译,一定会是人工翻译者的市场。

4. 计算机语料库

. 语料库(corpus)

A collection of linguistic data, either compiled as written texts or as a

ccl语料库及其检索系统[整理版]

ccl语料库及其检索系统[整理版]

一关于CCL语料库及其检索系统

(如果时间紧张,可直接跳到最后的举例部分!)

1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如:

“作者列表”:列出语料库中所包含的文件的作者

“篇名列表”:列出语料库中所包含的篇目名

“类型列表”:列出语料库中文章的分类信息

“路径列表”:列出语料库中各文件在计算机中存放的目录

“模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:

∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);

∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);

∙支持在“结果集”中继续检索;

∙用户可定制查询结果的显示方式(如左右长度,排序等);

∙用户可从网页上下载查询结果(text文件);

二关于查询表达式

本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号

查询表达式中可以使用的特殊符号包括8个:

| $ # + - ~ ! :

这些符号分为四组:

Operator1: |

Operator2: $ # + - ~

Operaotr3: !

Delimiter: :

符号的含义如下:

(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)

胡壮麟《语言学教程》笔记第10-11章

胡壮麟《语言学教程》笔记第10-11章

Chapter 10 Language and Computer

1. 计算机语言学

计算机语言学可以看作是应用语言学的分支,即通过计算机处理人类语言。计算机语言包括:对语言数据的分析,建立一个序列,通过它,语言学习者可以获得各种语法规律或某一特定词项的出现频率;人工语言的电子生成和人类语言的自动识别;它也包括不同自然语言之间的自动翻译和语篇处理;人与计算机的交流。

2. CAI, CAL & CALL

2.1. CAI:计算机辅助教学,就是在教学过程中使用计算机。

2.2. CAL:计算机辅助学习,强调在教和学两方面使用计算机,通过学生自己的推理和和实践,帮助学习者达到教学目标。

2.3. CALL:计算机辅助语言学习,如果说CAI,和CAL是处理一般的教和学,那么CALL是用来处理语言教学的。它特别是指将计算机运用到第二语言或外语的教学中去。

3. 机器翻译&人工翻译

3.1. 定义

机器翻译是指使用机器将语篇从一种自然语言翻译至另一种自然语言。机器翻译可分为两类:不需要辅助的和需要辅助的。

3.2. 机器翻译&人工翻译

在新世纪之初,很明显,机器翻译和人工翻译能够且将会相对协调地同时存在。

我们仍旧需要那些人工翻译者所作出的贡献。当翻译不得不讲究“可发行”质量时,机器翻译和人工翻译都具有各自的作用。对语篇翻译来说,在对输出的质量要求不高的地方,机器翻译是一种理想的解决方法。

对信息的一对一交换而言,人工翻译家可能总是会有作用的。至于口语翻译,一定会是人工

翻译者的市场。

4. 计算机语料库

4.1. 语料库(corpus)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Aspects of LT methodology

语言观 语言学习观 教学实施方案
两大教学法之一:听说法



语言观:结构主义 (音标、词汇等构成的) 语言学习观:行为主义 (行为主义) 教学实施方案:句型操练
两大教学法之二:交际法

语言观:功能主义 语言学习观:交际与互动 教学实施方案:任务教学、小组活动
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改 SuperbBatchRenamer
insert replace
e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。
3. 文本清理,元信息标记、语言学标记
What and how

教什么 怎么教
词汇中心教学法

The Lexical Approach 许家金,2009,词汇中心教学法的交际观:理 论溯源与反思,《中国外语教育》(4):3845.
基本观点

词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
8.1下午
(三)梁茂成 语料库的标注

标注与干净文本原则 标注的常见类型 词性标注 手工标注
标注与干净文本原则

标注(annotation): The process of applying additional information to corpus data. 标记(mark-up)与标注
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders) 2) Action type collect data, 并勾选Dot matches newlines 3) search:输入 (^\A.*?\z) ,需在英语状态下输入。 collect:输入 $1($指向括号,1代表第一个括号)
基本观点

然而,由于过分依赖频率信息,语言观和语言 教学完全基于词项,将词汇中心教学法嫁接于 任务型教学且缺乏创新,归纳式的自主。。。
实例演示

新闻英语教学设计 以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
得出结论: reporting verbs: said told added
比什么:条件控制

控制相似变量 突出差异焦点
描述

观察文本 具有明确主题的完整文本或一致主题的文本集 参照语料库 具有足够的代表性 足够大 同质语料
主题词表 观察文本 参照语料库

8.2上午
(三)
许家金
语料库三大功能 1. concordance 索引 2. N-gram 词表 3. 主题词表
8.1下午
(一)李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题:男生与女生在口语中使用情态动词有无差异 Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。


Sinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来) 语料库语言学界对标注的态度(大部分研究者认为应该标 注),世界最大的语料库Bank of English可以进行词类检 索。


标注的主题
1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)
8.2上午 (一)梁茂成
手工标注
word_Pos
1)自动标注 TreeTagger
word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1)根据codelist,修改制定需要的mycodelist 2)打开BFSU Qualitative Colder 3) 打开需标注的.txt文档,导入mycodelist,进 行手工标注 4)BFSU中可做统计(点statistics,跳出网页) 5)保存为.txt文档后,用powerconc检索分析, 如:检索<LIT> free hand</LIT>
8.2上午
(二)李文中 主题词分析

分析文本时注意备份,把需分析的语料放入 新建的文件夹中。 练习:使用语料: 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data

1. 创建2个对比文件夹,用PowerGREP转换 格式,并把text放入这2个文件夹
Step5 主题词表生成
1) 从referencecorpus中拷贝Text10到observeText文件夹中。 到此为止,人为做成两个用于练习的对比语料库。 2)生成主题词表
2)生成主题词表
① 打开PowerConc, 导入referencecorpus进行N-gram统计, 结果save到PowerConc根目录下,命名为 academicOnewordlist. ② 打开academicOnewordlist, 删除前4行,保存。 ③ 再打开PowerConc,导入observetext,N-gram,count, 出结果后,点击keyness,出现load Ref.wordlist,导入 academicOnewordlist, count ④自设主题词临界值,如前20词,按照by value进行比较。
理据



我们对真实世界的理解表达为知识 知识表现为不同的语义场 语义场表现为各种词语场 各种词语场实现为各个词群(单词或短语) 特定话题触发独特词群 具有特定话题的文本包含独特词群,该词群一 般不在其它话题中出现
因此


某个特定话题的文本包含的独特词群具有异常 高频 参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
4) Target file creation 选择 save one file for each searched file Target file location 选择刚才新建文件夹referencecorpus Target file text encoding 选择 Windows936,即ANSI Back file naming style 选择 no backups 5) 点击 collect 6) 回到新建文件夹referencecorpus查看,已有ANSI文档生成。
8.1上午
(三)许家金

PowerConc设计原则 most powerful least effort doing more with less
基本操作
wenku.baidu.com




N-gram list:n词词表 Hits:相当于 Token概念 Items:相当于Type概念 Size:包括单词、符号、数字 Filter mode:过滤掉不需要的 <by value>: datamin10, 即过滤掉频率<10的词 <by Regex>: I\S+|C\S+表示介词+连词 √ exclude 表排除 不勾选表示选中 “Save distribution” 保存分布信息,即按文本单独保存。

标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)
标注的常见类型


标注集/赋码集(tagset)是标注中所使用的代 码集,是对分类体系的操作化。 Tagset: A collection of tags (or coldes) in a tagging scheme. Caution: A tagset usually adheres to a particular decriptive …

标注的客体
1. 语音与音调的标注 2. 词性标注(part-of-speech tagging) 3. 句法标注(parsing,斯坦福大学做的较好) 4. 语义标注(semantic tagging) 5. 错误标注(error tagging 学习者语言,人工) 6. 停顿标注等。。。
标注的常见类型
Step2 用PowerConc对两个子库进行比较。
2 趋势 small & specific contrastive studies 3 建库准备 建库原则,文本收集,文本分类,文本处理, 标记(外部信息),标注(annotating notes, 语言学标注) e.g. <Year>1990</Year><Sex>Male</sex>
8.1下午
(二)许家金 语料库采集与整理
1. 基本要素
① Text format: . txt ② Filename: short&alphanumeric(字母数字组 合,不超过8词,不用汉字,不出现空格) ③ encoding ANSI:英语,汉语 三种格式: UTF8:平行语料库 Unicode:其他语言
④ context
二、为什么要研究语料库语言学 1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once
8.1上午
(二)李文中

Brown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。 Why concordancing? 上下看强形式搭配,左右看综合分析用法。 基本概念 type (独特词形),token,KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现),recurrence(复现)


Words cluster as people do
e.g. Search: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence 作业:hair: 单数与复数的隐喻 body metaphor
语料库在外语教学研究中 的应用研修班
8.1-8.3
8.1上午
(一)梁茂成
一、基本概念
真正的研究要用语料库来验证结果 T’s ① Text (readable) ② Type 类符 ③ Token 形符 (语料库容量) C’s ① concordance 索引 ② collocation (词汇层面的搭配) ③ colligation (类联接)

词性标注

常见的词性标注工具 (POS-tagger) ANSI符号,_, / 1)Brill Tagger, 最早的词性标注,基于规则的 2)ClAWS,130多个代码,准确,但付费, Lancaster大学开发。 3)TreeTagger, 30多个代码,准确率高,免费, 能对多语言进行标注。
检索make,2-gram词表
make +adj
教学实施要点

真实语言材料,真实语境 频率优先原则(材料的编排与选择) 归纳式、发现式学习 常用词语、常用结构、常用义项(先学先教)
相关文档
最新文档