英语语料库10.ppt
合集下载
语料库课件
![语料库课件](https://img.taocdn.com/s3/m/40fb9e194431b90d6c85c7ef.png)
– (Sample concordance on ‘bald' in Sylvia Plath’s poems,p248)
Case study:
The representation of nature on the BBC World Service (Text 22(1) 2002,in …4u\bbc’s view of nature)
Collocation in creatinwhite tumuli of your eyes.
2 3 4 5 6 She may be bald, she may have no eyes, She's a born midwife Nor leave me to set my small bald eye Skyward again, without hope, ed rocks sunning in rows, Bald eyes or petrified eggs. Grownups estone The bald slots of his eyes stiffened wide open On the inc right around my bed, Mouthless, eyeless,with stitched bald head
• Results
– – – – Nature is „affected‟ rather than „actor‟ Weather & disease most powerful, while plants & minerals least Nature is marginalized as „environment‟ , powerless vis-a-vis human BBC view of nature different from Wordsworth‟s in 1850s
Case study:
The representation of nature on the BBC World Service (Text 22(1) 2002,in …4u\bbc’s view of nature)
Collocation in creatinwhite tumuli of your eyes.
2 3 4 5 6 She may be bald, she may have no eyes, She's a born midwife Nor leave me to set my small bald eye Skyward again, without hope, ed rocks sunning in rows, Bald eyes or petrified eggs. Grownups estone The bald slots of his eyes stiffened wide open On the inc right around my bed, Mouthless, eyeless,with stitched bald head
• Results
– – – – Nature is „affected‟ rather than „actor‟ Weather & disease most powerful, while plants & minerals least Nature is marginalized as „environment‟ , powerless vis-a-vis human BBC view of nature different from Wordsworth‟s in 1850s
双语语料库建设PPT课件
![双语语料库建设PPT课件](https://img.taocdn.com/s3/m/f6d9c30be009581b6ad9eb85.png)
... ?宣誓 而 ( 以 口述 或 书面 方式 ) 作出 证 供 , 则 本 款 并不 阻止 该 命令 作出 。 ...
第22页/共24页
搭配统计分析
2-Left 2 his 2 perpetuate 2 to 1 officer 1 perpetuating 1 peretuation
1-Left 2 present 1 any 1 give 1 in 1 of 1 perpetuate 1 such 1 the
第10页/共24页
整理目标
• 1) 格式统一; • 2) 篇章级对齐; • 3) 消除噪音信息;
第11页/共24页
语料库编码
• CES和TEI(基于SGML),很复杂 • 我们也曾经提出一个基于XML的编码方案
第12页/共24页
基于XML的编码方案
(1)标记文本结 构
(2)标记切词、 词性等
(3)各个层级的 对齐关系
• 双语语料库建设 为机器翻译研究服务,同时兼顾其它应用类型
第8页/共24页
双语语料库建设的三个层次
• 1) 语料库收集、整理和编码 • 2) 语料库对齐和加工 • 3) 语料库的呈现和应用
第9页/共24页
语料库整理
• 语料的存放方式各异 • 语料的文件格式不同 • 语料中有不利于加工的噪音信息 • 语料的文体、领域、语式、创作时期不同 • ……
<p
id=2><a
id=2
no=1><s
id=1><Time>January
12,
1938</Time></s></a></p>
<p id=3><a id=3 no=1><s id=1><Subtitle>I</Subtitle></s></a></p>
第22页/共24页
搭配统计分析
2-Left 2 his 2 perpetuate 2 to 1 officer 1 perpetuating 1 peretuation
1-Left 2 present 1 any 1 give 1 in 1 of 1 perpetuate 1 such 1 the
第10页/共24页
整理目标
• 1) 格式统一; • 2) 篇章级对齐; • 3) 消除噪音信息;
第11页/共24页
语料库编码
• CES和TEI(基于SGML),很复杂 • 我们也曾经提出一个基于XML的编码方案
第12页/共24页
基于XML的编码方案
(1)标记文本结 构
(2)标记切词、 词性等
(3)各个层级的 对齐关系
• 双语语料库建设 为机器翻译研究服务,同时兼顾其它应用类型
第8页/共24页
双语语料库建设的三个层次
• 1) 语料库收集、整理和编码 • 2) 语料库对齐和加工 • 3) 语料库的呈现和应用
第9页/共24页
语料库整理
• 语料的存放方式各异 • 语料的文件格式不同 • 语料中有不利于加工的噪音信息 • 语料的文体、领域、语式、创作时期不同 • ……
<p
id=2><a
id=2
no=1><s
id=1><Time>January
12,
1938</Time></s></a></p>
<p id=3><a id=3 no=1><s id=1><Subtitle>I</Subtitle></s></a></p>
美国当代英语语料库COCA使用介绍 ppt课件
![美国当代英语语料库COCA使用介绍 ppt课件](https://img.taocdn.com/s3/m/39dc4702551810a6f42486bf.png)
美国当代英语语料库(COCA)使用说明
1
2
精品资料
• 你怎么称呼老师?
• 如果老师最后没有总结一节课的重点的难点,你 是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭
• “不怕太阳晒,也不怕那风雨狂,只怕先生骂我 笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”
19
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
10
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
11
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
12
COCA主要搜索功能(一)
• 搜索words、phrases、lemmas(单词的所 有形式)、wildcards(通配符)和其他更 加复杂的字词。
13
Concordances显示方式
• 蓝色——名词 • 紫色——动词 • 绿色——形容词 • 棕色——副词 • 灰色——代词 • 黄色——介词
14
COCA主要搜索功能
• 例:输入词组 “excuse+名词” 得到的结果都是 excuse后面跟的 名词短。检索表达 式为:white [n*]。
15
18
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
1
2
精品资料
• 你怎么称呼老师?
• 如果老师最后没有总结一节课的重点的难点,你 是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭
• “不怕太阳晒,也不怕那风雨狂,只怕先生骂我 笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”
19
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
10
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
11
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
12
COCA主要搜索功能(一)
• 搜索words、phrases、lemmas(单词的所 有形式)、wildcards(通配符)和其他更 加复杂的字词。
13
Concordances显示方式
• 蓝色——名词 • 紫色——动词 • 绿色——形容词 • 棕色——副词 • 灰色——代词 • 黄色——介词
14
COCA主要搜索功能
• 例:输入词组 “excuse+名词” 得到的结果都是 excuse后面跟的 名词短。检索表达 式为:white [n*]。
15
18
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
COCA语料库操作 演示.ppt知识讲解
![COCA语料库操作 演示.ppt知识讲解](https://img.taocdn.com/s3/m/6f0ea47f0066f5335b812123.png)
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.5-1
图2.1d的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
5. 结果栏
3. 子语料库 4. 最小匹配
6. KWIC 栏
2. 主要搜索功能
• 2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词
• 2.1.1 输入单词“mysterious” (图2.1.1-1): • 得到相关结果(图2.1.1-2):在各子库中的频
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
语料库ppt课件
![语料库ppt课件](https://img.taocdn.com/s3/m/0276699a5022aaea988f0f09.png)
• 语料库驱动的译学研究 在不预设任何理论或假设的前提下,使用原始文 本或不作任何标注处理的文本,提取高频使用的 词汇或句法结构,或者其他特定翻译事实,归纳 出某一理论或建构某一理论框架。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
语料库的创建与应用ppt课件
![语料库的创建与应用ppt课件](https://img.taocdn.com/s3/m/c90c01b8cc22bcd127ff0c18.png)
2
Liver function tests gave normal results.肝功能检验均无异常发现。 normal saline生理盐水
2
Disease management is an approach to coordinate resources acro ss the health care.疾病管理是一种协调医疗卫生系统资源的手段。 The mortality rate of patients with no change in their antibiotic ma nagement抗生素治疗未改变的患者死亡率
1
1
制作语料库的有效方式: ABBYY Aligner + 自编软件 + ParaConc等
2
使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频 排序 进入双语界面进行检索查询:ParaConc或Trados记忆库界面
2
2
专业通用词(General Words for Specific Purposes) 法律(action, award, damage) 医学(normal , management) 海洋工程(high, sea)
3
可比语料库:语料具有可比性 单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情 咨文) 双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华 人民共和国公司法——术语) 语料可比性
4
翻译语料库:翻译文本 口语语料库:标注?(蒙特雷)
5
代表性或影响力原则 可及性原则 时间原则(胡开宝,2011:45-46)
202011011语料库与翻译创造力kirstenmalmkjr语料库与译者培养外研社2007202011011语料库与翻译创造力语料库的使用关键在译者语料库质量水平翻译项目委托的各种苛刻要求根据不同的文体来对待翻译实践译创transcreation202011012语料库的应用collins出版社语料库证据在美国的法庭应用jdest学术英语语料库航天局学生自学习海洋工程图书系列翻译等等2020110翻译能力语料库2020110谢谢大家
Liver function tests gave normal results.肝功能检验均无异常发现。 normal saline生理盐水
2
Disease management is an approach to coordinate resources acro ss the health care.疾病管理是一种协调医疗卫生系统资源的手段。 The mortality rate of patients with no change in their antibiotic ma nagement抗生素治疗未改变的患者死亡率
1
1
制作语料库的有效方式: ABBYY Aligner + 自编软件 + ParaConc等
2
使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频 排序 进入双语界面进行检索查询:ParaConc或Trados记忆库界面
2
2
专业通用词(General Words for Specific Purposes) 法律(action, award, damage) 医学(normal , management) 海洋工程(high, sea)
3
可比语料库:语料具有可比性 单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情 咨文) 双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华 人民共和国公司法——术语) 语料可比性
4
翻译语料库:翻译文本 口语语料库:标注?(蒙特雷)
5
代表性或影响力原则 可及性原则 时间原则(胡开宝,2011:45-46)
202011011语料库与翻译创造力kirstenmalmkjr语料库与译者培养外研社2007202011011语料库与翻译创造力语料库的使用关键在译者语料库质量水平翻译项目委托的各种苛刻要求根据不同的文体来对待翻译实践译创transcreation202011012语料库的应用collins出版社语料库证据在美国的法庭应用jdest学术英语语料库航天局学生自学习海洋工程图书系列翻译等等2020110翻译能力语料库2020110谢谢大家
最新常用在线语料库使用简介PPT课件
![最新常用在线语料库使用简介PPT课件](https://img.taocdn.com/s3/m/4e38762a998fcc22bcd10ddf.png)
进 入 夏 天 ,少 不了一 个热字 当头, 电扇空 调陆续 登场, 每逢此 时,总 会想起 那 一 把 蒲 扇 。蒲扇 ,是记 忆中的 农村, 夏季经 常用的 一件物 品。 记 忆 中 的故 乡 , 每 逢 进 入夏天 ,集市 上最常 见的便 是蒲扇 、凉席 ,不论 男女老 少,个 个手持 一 把 , 忽 闪 忽闪个 不停, 嘴里叨 叨着“ 怎么这 么热” ,于是 三五成 群,聚 在大树 下 , 或 站 着 ,或随 即坐在 石头上 ,手持 那把扇 子,边 唠嗑边 乘凉。 孩子们 却在周 围 跑 跑 跳 跳 ,热得 满头大 汗,不 时听到 “强子 ,别跑 了,快 来我给 你扇扇 ”。孩 子 们 才 不 听 这一套 ,跑个 没完, 直到累 气喘吁 吁,这 才一跑 一踮地 围过了 ,这时 母 亲总是 ,好似 生气的 样子, 边扇边 训,“ 你看热 的,跑 什么? ”此时 这把蒲 扇, 是 那 么 凉 快 ,那么 的温馨 幸福, 有母亲 的味道 ! 蒲 扇 是 中 国传 统工艺 品,在 我 国 已 有 三 千年多 年的历 史。取 材于棕 榈树, 制作简 单,方 便携带 ,且蒲 扇的表 面 光 滑 , 因 而,古 人常会 在上面 作画。 古有棕 扇、葵 扇、蒲 扇、蕉 扇诸名 ,实即 今 日 的 蒲 扇 ,江浙 称之为 芭蕉扇 。六七 十年代 ,人们 最常用 的就是 这种, 似圆非 圆 , 轻 巧 又 便宜的 蒲扇。 蒲 扇 流 传 至今, 我的记 忆中, 它跨越 了半个 世纪, 也 走 过 了 我 们的半 个人生 的轨迹 ,携带 着特有 的念想 ,一年 年,一 天天, 流向长
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
最新常用在线语料库使用简介PPT课件
![最新常用在线语料库使用简介PPT课件](https://img.taocdn.com/s3/m/4e38762a998fcc22bcd10ddf.png)
呈现所检索词项在语法结构下所搭配的高频词汇54sketchenginesketchengine主要功能介绍91wordsketch选择所需的语料库后点击左侧功能区的wordsketch即可进入检索页面如图911图91155sketchengine91wordsketch以generate一词为例部分检索结果如图912图91256sketchengine91wordsketchsubject一栏显示与generate搭配的典型主语unaryrels一栏显示generate与主语搭配词的典型句法关系未带下划线的数值代表generate与搭配词的搭配强度带有下划线的数字代表频数点击即可查看词语索引如图914图91357sketchengine91wordsketch点击节点词可观察更多语境图91458sketchengine91wordsketchobject一栏显示与generate搭配的典型宾语ppbyp一栏显示该语法结构下的典型搭配词modifier一栏显示generate的高频修饰词图91559sketchengine92thesaurus点击页面左侧的thesaurus即可进入查询近义或同义词的页面如图921部分结果如922点击词条即可进行两词间比较图921图92260sketchengine93sketchdiff点击左侧功能区的sketchdiff即可进入该功能页面图931lemma后输入generatesecondlemma后输入create点击showdiff对比结果见图932图93161sketchengine93sketchdiff红色区的词趋向与create搭配绿色区的词趋向与generate搭配灰色区的词与create和generate的搭配强度相当图932图93262sketchengine93sketchdiff通过观察对比信息可得到比coca更详细的差异从动宾搭配的角度看generate和create两词均可与
英语课件语料库知识
![英语课件语料库知识](https://img.taocdn.com/s3/m/0f752665a45177232f60a26f.png)
☀We saw the rocket lift off. 我们看见火箭发射。 ☀The police didn’t see anyone arrive or leave. 警察没有看见有人来去。
See 的日常用语
1
I See. = I understand. See you latter.= I’ll be seeing you Let me see./ Let’s see.
检查;察看:
e.g.:You should look at that house before you decide to buy it. 你应该看看那栋房子再决定购买。
a t a t a t a t
过目;浏览:
e.g.:Have you looked at their report? 你看过他们的报告了吗?
看待;认为:
We should learn to look at problems all-sidedly. 我们应该学会全面看问题。
考虑;着眼于;接受[常用于 will(或 would) not look at]:
e.g.:The manager will not look at a report like that. 经理不会答理那样一份报告。
S e e SI see it = In my opinion 在我看来: 我认为
♥ As I see it, the project is not going to work.
在我看来,这项工程是不会进行的。
♥ As I see it, you can’t eat too much junk food.
S e e S e e S e e S e e
看见:见到
☀She
See 的日常用语
1
I See. = I understand. See you latter.= I’ll be seeing you Let me see./ Let’s see.
检查;察看:
e.g.:You should look at that house before you decide to buy it. 你应该看看那栋房子再决定购买。
a t a t a t a t
过目;浏览:
e.g.:Have you looked at their report? 你看过他们的报告了吗?
看待;认为:
We should learn to look at problems all-sidedly. 我们应该学会全面看问题。
考虑;着眼于;接受[常用于 will(或 would) not look at]:
e.g.:The manager will not look at a report like that. 经理不会答理那样一份报告。
S e e SI see it = In my opinion 在我看来: 我认为
♥ As I see it, the project is not going to work.
在我看来,这项工程是不会进行的。
♥ As I see it, you can’t eat too much junk food.
S e e S e e S e e S e e
看见:见到
☀She
剑桥商务英语中级unit10详细版.ppt
![剑桥商务英语中级unit10详细版.ppt](https://img.taocdn.com/s3/m/29a9b8846edb6f1afe001f34.png)
E. Similarly, managers who don’t set career goals will miss opportunities.
F. Managers need to attend training cour.,ses to learn how to manage.
8
Consistent Implementation
Vision
Since high school, Madonna has set herself a clear target: to become the world’s number one female performer. If she hadn’t set out with this vision, success wouldn’t even have been a possibility. Firms too must have a vision of where they want to go and how to get there. (1)________________________
Continuoห้องสมุดไป่ตู้s Renewal
The frequent reinvention of Madonna’s style and sound has always reflected an acute awareness of changing styles, social norms and attitudes in a rapidly changing industry. (5) ________________
Merchandise vt 吹捧,宣扬 Lesser-known 不为人知的 Megaband 超级乐队 Gig n. (口)特约演奏 Fan club 发烧友俱乐部 Sdudio album 唱片专辑 Fan base 发烧友群体 Music review 音乐评论 Record label 唱片制作公司名
语料库的建设和应用.ppt
![语料库的建设和应用.ppt](https://img.taocdn.com/s3/m/cd83ba2904a1b0717ed5dd42.png)
我们定了14个领域包括理论心理社会应用语用神经认知语音包括理论心理社会应用语用神经认知语音语法语义词汇语料语体语篇生物语言学和自然语言处理随机抽样500篇每篇2000字上下
一种改善语言教学的利器 ——语料库
桂诗春
1. 语料库的兴起
❖ 发祥地
语料库语言学首先在美国。 60年代开始,美国建立了100万词的 Brown语料库(Francis & Kucera)。
概率
0.01 次序
Zipf定律除 了高低两端 的次序外都
较准确。
3. 语料库的设计和制作
❖ 一般来说,对语料库的统计整理主要是编制词频排列表(按 次序和按字母排列)和词频分布表。 Carroll等人根据AHI所 编制成《词频手册》(1971)对词频排列表,除了频数外,还 计算出其D值,U值和SFI值。CLEC也照样给出这几个值。 D值为分布指数,从1~0,指数越大意味着一个词在不同类 别的文本中的频数越大,使用面越广。U值指一个词折算成 100万词的频数(因为不是所有的语料库都是100万词的), SFI为标准频数指数(Standard Frequency Index),表示 词型和词次的关系,根据U值算出。90表示一个词在10词次、 80表示100词次、70表示1000……40表示100万词次中出现 一次。
围) 开放性,容许研究者根据需要再作增加或进一步
细分。 对语体使用不作赋码,避免主观性。
错误标注方案
Form
Code
Type
Code
fm1
spelling
vp1
fm2
word building
vp2
fm3
capitalization
vp3
vp4
vp5
一种改善语言教学的利器 ——语料库
桂诗春
1. 语料库的兴起
❖ 发祥地
语料库语言学首先在美国。 60年代开始,美国建立了100万词的 Brown语料库(Francis & Kucera)。
概率
0.01 次序
Zipf定律除 了高低两端 的次序外都
较准确。
3. 语料库的设计和制作
❖ 一般来说,对语料库的统计整理主要是编制词频排列表(按 次序和按字母排列)和词频分布表。 Carroll等人根据AHI所 编制成《词频手册》(1971)对词频排列表,除了频数外,还 计算出其D值,U值和SFI值。CLEC也照样给出这几个值。 D值为分布指数,从1~0,指数越大意味着一个词在不同类 别的文本中的频数越大,使用面越广。U值指一个词折算成 100万词的频数(因为不是所有的语料库都是100万词的), SFI为标准频数指数(Standard Frequency Index),表示 词型和词次的关系,根据U值算出。90表示一个词在10词次、 80表示100词次、70表示1000……40表示100万词次中出现 一次。
围) 开放性,容许研究者根据需要再作增加或进一步
细分。 对语体使用不作赋码,避免主观性。
错误标注方案
Form
Code
Type
Code
fm1
spelling
vp1
fm2
word building
vp2
fm3
capitalization
vp3
vp4
vp5
语料库与英语词汇教学34页PPT
![语料库与英语词汇教学34页PPT](https://img.taocdn.com/s3/m/9c8342b7a26925c52dc5bf02.png)
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
谢谢!
语料库与英语词ቤተ መጻሕፍቲ ባይዱ教学
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯
语料库语言学(共13张PPT)
![语料库语言学(共13张PPT)](https://img.taocdn.com/s3/m/bc79759c0b1c59eef9c7b451.png)
以语料库设计分:均衡结构语料库、无结构的随机开放式语 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
BNC和COCA语料库PPT课件
![BNC和COCA语料库PPT课件](https://img.taocdn.com/s3/m/56d1d31e0c22590103029daa.png)
7
精选PPT课件
杨百翰大学BNC语料库使用方法说明
8
精选PPT课件
/bnc
9
精选PPT课件
BYU-BNC界面简介
10
精选PPT课件
1.单词 mysterious 为例
11
精选PPT课件
使用LIST显示
12
精选PPT课件
使用CHART显示
13
精选PPT课件
精选PPT课件
9.比较近义词 近义形容词hot和warm后面所跟名词的区别
规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[n*], 表示后面所跟任何名词。
28
精选PPT课件
29
精选PPT课件
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何名
英国国家语料库BNC /bnc 当代美国的语料库COCA
/ 不同年代的TIME做成的历史语料库Time
Corpus of American English
6
精选PPT课件
/
精选PPT课件
[av*]……
15
精选PPT课件
16
精选PPT课件
White+名词的短语
17
精选PPT课件
3. 输入un*ly和r?n*,
18
精选PPT课件
Un开头 ly结尾的词
19
精选PPT课件
R开头中间有 N的词
20
精选PPT课件
4.输入lemma(即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Language Awareness (3) : text/discourse
● "we see keyness as mostly textual quality","keyness is a
textual matter" (关键值具有语篇本质属性,Scott & Tribble, 2006:56,65)
3
2
human
cultures
2
2
civilization
problem
2 weighting
2 group
2
role
Key in words with *
anthropolog*|behavi*|belie*|civili*|communi*|cultur*|custom* |experien*|fact*|form*|group*|habit*|human*|institu*|law*| matter*|part*|problem*|proposition*|role*|scien*|stud*|trad ition*|vari*|soci*|tradition*
2
2 2 2 2 2 2 2
sciences
propositions laws institutions impossibilities forms experience community
7 own
3 individual 3 necessary 3 possible 2 traditional 2 interested 动词类 词型 3 词频 7 3 born
Content type of keywords distribution
Sub-topic distribution
Sub-topic of “custom”
Custom type words: custom*|behave*|belie*|habit*|tradition*|communi*|culture*|experien*|human*|civilize*|instit
Style & Writer’s attitude
2 dimensions ofing "English road"
* Data: Z:\others\minicorp\minifile\English road. txt
* Corpus techneques: worlist, keyword list, plotting, concordance ... * Anwer: 1) what is it about? 2) what does the "road" refer to? 3) what is the "route" of development? 4) what language points are worth learning?
● "the dispersion plot ...represent the beginning and the end of the play(text) (ibid:65)
Corpus-aided in-depth reading a text
Source: data\custom.txt, Alice in wonderland.txt Techniques: Antconc’s wordlist, keyword list, plotting, collocates, concordance,… Procedures: Aboutness: Wordlist, Keyword list content words in KW Main topic: KW’s part of speech, wildcards * , plotting… Sub-topics: KW’s semantic classifying, Sub-topic in details: some KW’s concordance Text structure: sub-topic KW’s plotting Text style: function words in KW
Sub-topic of “study”
“study-type” words: stud*|anthro*|group*|scien*|proposition*| law*|weight*|problem*|role*
What does “custom” mean?
Identify scientific attitude in "Custom"
● "...two main kinds of ouptput in a key word list (aboutness indicator and stylistic indicators)..." (ibid: 55) ●"keyword list...gives a strong indication of the themes that are iportant in the texts...(ibid:97) ●"items which are most likely in gerneral to be key are nouns,determiners, preopsitiions, pronouns" (ibid: 72)
Word List
Keyword List
Content type of keywords classification
名词类 词型 26 词次 78 13 custom(s) 2 varieties 形容词类 词型7 词次28 7 social
8
5 5 4 4 3 3 3
study
behavior Anthropology(gist ) belief(s) matter habits tradition part
● "we see keyness as mostly textual quality","keyness is a
textual matter" (关键值具有语篇本质属性,Scott & Tribble, 2006:56,65)
3
2
human
cultures
2
2
civilization
problem
2 weighting
2 group
2
role
Key in words with *
anthropolog*|behavi*|belie*|civili*|communi*|cultur*|custom* |experien*|fact*|form*|group*|habit*|human*|institu*|law*| matter*|part*|problem*|proposition*|role*|scien*|stud*|trad ition*|vari*|soci*|tradition*
2
2 2 2 2 2 2 2
sciences
propositions laws institutions impossibilities forms experience community
7 own
3 individual 3 necessary 3 possible 2 traditional 2 interested 动词类 词型 3 词频 7 3 born
Content type of keywords distribution
Sub-topic distribution
Sub-topic of “custom”
Custom type words: custom*|behave*|belie*|habit*|tradition*|communi*|culture*|experien*|human*|civilize*|instit
Style & Writer’s attitude
2 dimensions ofing "English road"
* Data: Z:\others\minicorp\minifile\English road. txt
* Corpus techneques: worlist, keyword list, plotting, concordance ... * Anwer: 1) what is it about? 2) what does the "road" refer to? 3) what is the "route" of development? 4) what language points are worth learning?
● "the dispersion plot ...represent the beginning and the end of the play(text) (ibid:65)
Corpus-aided in-depth reading a text
Source: data\custom.txt, Alice in wonderland.txt Techniques: Antconc’s wordlist, keyword list, plotting, collocates, concordance,… Procedures: Aboutness: Wordlist, Keyword list content words in KW Main topic: KW’s part of speech, wildcards * , plotting… Sub-topics: KW’s semantic classifying, Sub-topic in details: some KW’s concordance Text structure: sub-topic KW’s plotting Text style: function words in KW
Sub-topic of “study”
“study-type” words: stud*|anthro*|group*|scien*|proposition*| law*|weight*|problem*|role*
What does “custom” mean?
Identify scientific attitude in "Custom"
● "...two main kinds of ouptput in a key word list (aboutness indicator and stylistic indicators)..." (ibid: 55) ●"keyword list...gives a strong indication of the themes that are iportant in the texts...(ibid:97) ●"items which are most likely in gerneral to be key are nouns,determiners, preopsitiions, pronouns" (ibid: 72)
Word List
Keyword List
Content type of keywords classification
名词类 词型 26 词次 78 13 custom(s) 2 varieties 形容词类 词型7 词次28 7 social
8
5 5 4 4 3 3 3
study
behavior Anthropology(gist ) belief(s) matter habits tradition part