语料库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Corpus
❖ Corpus kɔ:pǝs (语料库)
• novels and other creative writing • newspapers and magazines • academic writing • radio and TV broadcasts • recorded conversations • websites, blogs, email and chat-
语料库术语
❖ 语料库术语 ❖ Collocation:
▪ A term used to refer to the combination of words that have a certain mutual expectancy i.e. words regulary keep company with certain other words. When a collocation appears with a greater frequency than chance, then it is called a significant collocation.
▪ For example:
• \w+ments? stands for all words ending with -ment or –ments, such as agreement, achievements, abcment, etc.
网络语料库在课堂英语教学中的应用
❖ 网络语料库在课堂英语教学中的应用
Corpus
❖Corpus:
▪ (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation
❖词语搭配 能否掌握常用短语、熟练运用词 语搭配是关系到所学的英语是否地道,是 否接近本族人的语言。然而,任何一部词 典所能涉及到的搭配现象都相当有限,难 以满足英语学习者进一步认识词语搭配关 系的需求。词语搭配不仅包括短语动词、 复合名词、介词短语、固定词组、成语等 常见的词语连用结构,还包括无数的习惯 搭配。
棘手的问题 微妙的形势 精巧的平衡 精美 精密的手术 脆弱的身体
❖我们可以从语料库里查找到delicate的各种 用法,经过仔细观察,我们会发现这些用 法和我们在词典中查到的定义一一吻合。 利用语料库学习或讲解单词可以扩展学生 的视野,加深对单词的理解,增强用词造 句的能力。教师可根据实际情况布置语料 库作业,让学生运用语料库查找某些单词, 自己归纳总结。这样,不仅使学生学会了 生词,还培养了他们主动学习的热情。
BNC sampler) 9千万词次 英语书面语 + 1千万英语口语 ❖ANC:American National Corpus (will be available soon) 约两千万词次 ❖Collins Cobuild Corpus Concordance Sampler 5千6百万,英国英语 + 美国英语;书面语 + 口 语
❖ acute problem ❖ acute pain ❖ acute boredom ❖ acute embarrassment ❖ acute questions ❖ acute leukemia ❖ acute poverty ❖ acute kidney damage ❖ acute sense of satire ❖ acute shortage ❖ acute radiation sickness ❖ acute worries
1.通过大量例句学习单词,了解单词或词组 的各种意思;
2.掌握词组,熟悉词语搭配; 3. 帮助区分同义词 4. 观察词序,掌握句法结构;
❖例如:形容词delicate有多种意思,可以翻 译为:精巧的, 精致的, 病弱的, 脆弱的, 微 妙的, 棘手的, 灵敏的, 精密的。但在什么情 况下理解为“精巧的”,在什么情况理解
▪ Words are like people. A man may be in mad love with a woman who does not love him at all. She is everything to him, but he is nothing to her. (Consider the relation between I and am)
❖通过对比,我们很容易注意到这三个同义 词在与名词搭配时的倾向,keen主要指在 理解、观察和感受能力上的敏锐。acute除 了能表示在观察和感受能力上的敏锐外, 更多地用于表示某种状态的严重性,如病 情、问题等。而astute 则主要指从事某种 行业的人的精明和敏锐。当然,语料库所 提供的不仅仅是可对比的,直观的语言材 料,通过使用这些语料库,学生对语言材 料的观察和判断能力会大大提高。
❖辨析同义词 大型语料库所提供词语搭配在 帮助我们辨析同义词方面能发挥出辨析词 典不能替代的作用
❖ keen wit ❖ keen perception ❖ keen pleasure ❖ keen observer ❖ keen competition ❖ keen interest ❖ keen understanding ❖ keen intellect ❖ keen eye ❖ keen investors ❖ keen sensitivity ❖ keen sense
大型网络语料库具有相当多的应用领域,它们能帮助科研 人员研究语言现象,编辑词典、语法书、教学参考书,翻 译工作者可以利用网络语料库核对所译的词句是否准确, 教师可以利用网络语料库备课、选用例句、编写练习.
网络语料库在课堂英语教学中的应用
❖对于课堂外语教学,网络语料库的实用性 主要可以从这几个方面体现出来
Hot Tip
❖Token: an individual word ❖Type: word form. "I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).
语料库术语
语料库术语 ❖Keywords
❖Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus).
❖http://corpus.byu.edu/bnc/语料库使用说明
taks1
task2
task3
❖输入词组“white+名词” 得到的结果都是 white后面跟的名词短语 ,检索表达式为: white [n*]
❖规则:输入名词的话用正则表达式: [n*]; 动词: [v*]; 形容词: [aj*]; 副词: [av*]……
▪ “We shall know a word by the company it keeps.” ▪ Measures of collocation strength: MI, T-score, Z-score,
etc.
来自百度文库 ❖ 语料库术语
❖Pattern
▪ In pattern matching, a pattern is a string of regular expression, in which combinations of certain symbols do not stand for themselves literally, but rather a certain category of strings.
❖ astute investor ❖ astute politician ❖ astute businessman ❖ astute banker ❖ astute politician ❖ astute shopkeepers ❖ astute traders ❖ astute purchases ❖ astute speculators ❖ astute entrepreneurs ❖ astute strategy ❖ astute journalists ❖ astute operators
语料库术语
语料库术语 ❖Keywords
❖Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus).
为“微妙的”或者“脆弱的”则需要实际 例子才能讲得清楚,说得明白。从LDC语 料库中我们可以整理出以下结果:
❖…delicate problem… ❖…delicate situation… ❖…delicate balance… ❖…delicate beauty… ❖…delicate surgery… ❖…delicate health…
task4
要得到某个单词的所有单复数和时态形式, 那么就要在输入时,在这个单词外加 [ ]。
task5
❖规则:若要得到某种词性且词中带有部分 带有某些字母的形式时,如要得到以un-开 头、-ed结尾的所有形容词的所有形式,那 么输入: un*ed.[aj*];若要得到动词+任何词 +ground的所有词组,那么输入: [vv*]*[ground]即可。前者用来研究词汇, 后者用来查询特定词性的搭配
动词+任何词+ground的所有词组
图2.1.5-1
task6
规则:在context里输入[n*] 后选择4,表示在thick4后面(4跨距范围内) 出现的任何名词
❖task7 ❖搜索beautiful的所有近义词
规则:在words的方格里输入[=beautiful],表示和beautiful语义相 近的所有形容词。
rooms, etc
Corpus
❖关于语料库的三点基本认识
语料库中存放的是在语言的实际使用中真实出现过 的语言材料; 语料库是以电子计算机为载体承载语言知识的基础 资源; 真实语料需要经过加工(分析和处理),才能成为 有用的资源
母语语料库
母语语料库 ❖BNC:British National Corpus (BNC VIEW;
相关文档
最新文档