布朗标准美式英语语料库
语料库与语料库建设
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
常用的英语语料库
常用的英语语料库English corpora, or language corpora, are collections of text samples that are used for linguistic research and analysis. These corpora serve as valuable resources for studying language patterns, trends, and usage in various contexts. In this article, we will explore some of the commonly used English language corpora and their applications.1. British National Corpus (BNC)The British National Corpus is one of the most widely used language corpora for studying contemporary British English. It contains a diverse range of texts, including spoken conversations, written documents, and academic papers. Researchers can access the BNC to examine language usage in different genres and domains, such as science, politics, and fiction. The BNC provides valuable insights into the changes in the English language over time.2. Corpus of Contemporary American English (COCA)The Corpus of Contemporary American English is a comprehensive corpus that provides a vast collection of English texts from different genres, including spoken, written, and academic. It offers researchers the opportunity to investigate various aspects of American English, including vocabulary, syntax, and discourse patterns. The COCA is frequently used in linguistic research, language teaching, and corpus-based language analysis.3. Google Books Ngram ViewerThe Google Books Ngram Viewer is a powerful tool that allows researchers to analyze the frequency of words or phrases in the vast collection of books digitized by Google. It provides a visual representation of the usage of specific terms over time, offering insights into the historical development and popularity of certain expressions. This tool is useful for investigating language change and cultural shifts through the lens of published literature.4. Corpus Linguistics Toolkit (CLAWS)The Corpus Linguistics Toolkit, also known as CLAWS, is a suite of programs specifically designed for corpus analysis. It provides researchers with tools for processing, annotating, and analyzing text corpora. CLAWS allows for the extraction of linguistic features, such as part-of-speech tags and named entities, which can be utilized for various linguistic studies. The toolkit's versatility makes it a valuable resource for researchers in the field.5. International Corpus of English (ICE)The International Corpus of English is a collection of English language corpora from different countries and regions. It aims to capture the linguistic variations within the English language across different cultures and contexts. The ICE provides researchers with valuable data for studying dialectal differences, language contact phenomena, and sociolinguistic aspects of English.6. Oxford English Corpus (OEC)The Oxford English Corpus is a corpus of contemporary English texts that serves as a reference for the analysis of language usage and trends. Itincludes a wide range of written and spoken materials from various sources, such as books, newspapers, and online platforms. The OEC is frequently used for linguistic research, lexicography, and language teaching purposes.7. Corpus Query Language (CQL)Corpus Query Language is a specialized language used to search and retrieve specific linguistic patterns within corpora. It enables researchers to formulate complex queries and retrieve relevant linguistic data for analysis. CQL is widely used in corpus linguistics and facilitates the exploration of language patterns and structures within corpora.In conclusion, English language corpora play a vital role in linguistic research and analysis. The aforementioned corpora, including the British National Corpus, Corpus of Contemporary American English, Google Books Ngram Viewer, Corpus Linguistics Toolkit, International Corpus of English, Oxford English Corpus, and Corpus Query Language, provide valuable resources for investigating language usage, trends, and patterns in various contexts. These corpora aid in the understanding of language change, societal influences, and cultural shifts, making them invaluable tools for language researchers, educators, and language enthusiasts.。
语料库的分类\创建和检索简述
语料库的分类\创建和检索简述随着计算机技术的发展,语料库开创了新的研究方向,引起了越来越多的注意。
本文将简单介绍语料库的概念、分类、创建和检索及其在应用中的优越性和局限性,使相关爱好者初步了解语料库这一新的范畴。
标签:语料库;平行语料库;类比语料库;创建;检索1.引言自20世纪中期, 美国布朗大学创建了世界上第一个语料库,即标准美国英语布朗语料库,开创了语料库研究的先河,到20世纪80年代,这一星星之火开始渐渐有燎原之势,上海交通大学杨惠中教授便在这一崭新的浪潮之下,于80年代中期率先建成中国第一个真正意义上的语料库,即上海交大英语科技语料库、接着像中国学习者英语语料库、大学英语学习者口语英语语料库、北外的汉英汉日平行语料库等陆续建成,并且还吸引了一些教授、博士生、硕士生的目光,开始把研究方向转向语料库研究,为中国语料库研究的发展注入了新的力量,同时也推动了基于语料库的语言学研究和翻译研究的发展.2.语料库的定义及分类语料库是以计算机储存大量的真实语料,对语料做各种带有研究目的的加工标注,利用研制的检索工具对标注语料进行快捷的搜寻和分类,以发现并分析以往因条件限制而未能注意的语言现象(王克非,2004)。
研究的性质和需要决定着语料库的性质,根据语料库中收集语料的种类多少可以分为,单语语料库、双语语料库和多语语料库(王克非,2004)。
单语语料库指只收集一种语言的语料库,早期开发的语料库大多都是单语的,如布朗语料库。
双语语料库指收集两种语言文本的语料库。
多语语料库指收集两种以上语言文本的语料库。
而双语和多语语料库又可以分为平行语料库、类比语料库和翻译语料库三类。
平行语料库又可称为对应语料库,是由原文和它对应的译文文本构成的,可以有词语、句子和段落三种级别的对应关系;类比语料库是由同一语言不同变体的文本或不同语言的文本构成;翻译语料库是由具有翻译关系的不同语言的文本构成,它和平行语料库的区别在于,它仅仅只是篇章上的对应关系,不一定有其它级别的对应关系如词语、句子和段落等。
可以免费使用的大型英语语料库资源
英语语料库#参考2012-03-02 22:29:26■BNC=The British National Corpus英国国家语料库/(备用)/bnc/■ANC = The American National Corpus美国国家语料库/■COCA = Corpus of Contemporary American English 美国当代英语语料库/■COHA = Corpus of Historical American English 美国近当代英语语料库/coha/■BOE=Bank of English 柯林斯英语语料库/wordbanks/■NMC=New Model Corpus 新规范语料库/■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库/auth/preloaded_corpus/aclarc/ske/first_form■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库/auth/preloaded_corpus/bawe2/ske/first_form/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库/fac/soc/celte/research/base/■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库/■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库/cmsw/Slang/ (American, English, and Urban slang)/slang/ (UK)//cybereng/slang///可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)/time/http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner... Go tohttp://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
语料库术语中英对照
Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值Welcome To Download !!!欢迎您的下载,资料仅供参考!。
语言学常用语料库
语言学常用语料库
语言学常用语料库有很多,以下是一些常用的语料库:
1. Brown语料库:美国布朗大学语言学部于1960年代编制的语料库,是英语语料库中最早的、最著名的语料库之一。
2. Penn Treebank语料库:由宾夕法尼亚大学开发的语料库,主要用于句法分析和语言学研究。
3. CoNLL语料库:共享任务(Conference on Computational Natural Language Learning)所使用的语料库,包括各种语言的语料。
4. Europarl语料库:包括欧洲议会会议的多种语言翻译版本,用于机器翻译和跨语言研究。
5. Google语料库:由Google搜索引擎收集的大规模网络文本语料库,可用于研究自然语言处理和文本挖掘等领域。
6. Corpus of Contemporary American English (COCA):包括当代美国英语的语料库,涵盖了各种不同类型的文本。
7. British National Corpus (BNC):出版物、广播和会话等来源的英国英语语料库,是英国英语的重要资源。
这些语料库提供了大量的文本数据,可用于研究不同语言的语
言学现象,如词汇使用、语法结构和语义等。
它们对于语言学研究和自然语言处理的发展起着重要作用。
美国当代英语语料库(COCA)使用介绍要点
COCA语料库简介
COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。
– 网址:/coca
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。
• 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
美国当代英语语料库(COCA)使用介绍精品名师资料
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
• 功能:此区可以对查询的字符串限定语料类型 (Genre)和时段(Year) ,并且可以明确到查询某一 个子语料库,时段也可以查询任何一年的某个字词 的使用情况。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
图2.1.2-1
图2.1.2-2
Whiten*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
COCA语料库简介
COCA简介
美国当代英语语料库(COCA)使用介绍
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA主要搜索功能(一)
• 搜索words、phrases、lemmas(单词的所 有形式)、wildcards(通配符)和其他更 加复杂的字词。
POS LIST
pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
POS LIST
verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
Concordances显示方式
• 蓝色——名词 • 紫色——动词 • 绿色——形容词 • 棕色——副词 • 灰色——代词 • 黄色——介词
COCA主要搜索功能
• 例:输入词组 “excuse+名词” 得到的结果都是 excuse后面跟的 名词短。检索表达 式为:white [n*]。
图2.1.2-2
POS LIST
det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
语料库语言学简史
语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。
以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。
1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。
早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。
Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。
Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。
(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。
只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。
下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。
这些研究都基于父母对幼儿话语及时记录的日记材料。
即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。
在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。
语料库
小结
• 主要语料库检索工具:
• 道格拉斯· 比伯----《语料库语言学》 清华大学出版社 1)AntConc:由日本学者Laurence Anthony开发,具有词 语检索、生成词表和主题词三大功能。
• 2 何安平 ----《语料库语言学与英语教学》 . )Concapp :是香港理工大学Chris Greaves 研制的语料库 检索工具。主要功能包括:制作语境共现、句内语境共现( sentence 《语料库辅助英语教学入门》 concordance)、检索词搭配、词频表。 . 3)Wordsmith Tools:由英国利物浦大学Mike Scott设计的 一个功能强大的综合软件包。包含Concord(语境共现检索 工具),Wordlist(词频列表检索工具),Keywords(关键词 检索工具),Splitter(文本分割工具),Text Converter(文 本替换工具),Viewer(文本浏览工具)等6个程序。
L/O/G/O
Thank You!
国外语料库的发展
1960-1970
1970-1980
1980-1990
1990-至今
国内语料库的发展
• 从理论研究方面看,2000外语教学与研究出版社引进了 Biber等人的《语料库语言学》和Kennedy的《语料库语 言学入门》。 2002 杨惠中教授编写的《语料库语言学导 论》,是我国第一本该学科的专著。 2008卫乃兴的《语 料库语言学的弗斯学说基础》,探讨语料库语言学的学科 本质。 • 同时,因其较高的应用价值,学习者语料库和双语平行语 料库的建设及研究成为我国语料库语言学的重心。
词汇语法
• 词汇层面研究: 一词多义、同义词或近义词 词的惯用搭配 不同语域的词义分布 … • 语法层面研究: 单词的语法类别-----词法 单词组合成句的方法、规则 各种语言结构的频率分布 语法结构与其他语言或非语言因素之间的关系 (That we mustn’t worry too much is clear. It is clear that we mustn’t worry too much.) …
语料库术语中英对照
Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。
第六章语料库
第六章语料库詹卫东/doubtfire/提纲1 什么是语料库2 语料库的发展简史3 语料库的设计4 语料库的加工5 语料库的应用1 什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。
新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。
——Geoffrey Leech, The State of The Art inCorpus Linguistics, 1991, In Aijmar, K.and Altenberg, B. , eds. , English CorpusLinguistics: Studies in Honor of JanSvartvik, London:Longman, 1991.关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;语料库示例(一)北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。
/w……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。
/w语料库示例(二)London-Lund英语口语语料库样例^what a_bout a cigar\ette# ./*((4sylls))*/*I ^w\on't have one th/anks#* ---/^aren't you .going to sit d/own# -/^[/\m]# -/^have my _coffee in p=eace# ---/^quite a nice .room to !s\it in ((actually))#/*^\isn't* it#/*^y/\es#* ---/转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,语料库与语言知识库语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史20世纪50年代Chomsky的影响 第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代)?第四代(21世纪)UPenn Treebank美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年发布中文树库(第一版)10万词,4185个句子,325data files(新华社语料)2004年发布中文树库4.0版404,156 words, 664,633Hanzi, 15,162 sentences, and 838 data files(大陆、香港、台湾语料)宾州大学中文树库示例他还提出一系列具体措施和政策要点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
布朗标准美式英语语料库
一、新闻报道
布朗标准美式英语语料库中的新闻报道涉及各种题材和来源。
这些报道来自美国的主要新闻媒体,包括报纸、电视和网络。
报道的日期涵盖了近几十年来的主要历史事件和日常新闻。
这些新闻报道可以帮助您了解美国英语的语言风格、措辞、语法和拼写等方面的变化。
二、社论评论
布朗标准美式英语语料库中的社论评论主要是针对某些特定事件或政治立场的文章。
这些文章通常由报纸和杂志的专业撰稿人撰写,表达他们对时事、政策或社会问题的看法。
社论评论可以帮助您了解不同观点的交锋、论证技巧和语言风格。
三、小说故事
布朗标准美式英语语料库中的小说故事选自各种流派和文学时期的小说作品。
这些小说代表了美国文学的多样性,包括现实主义、浪漫主义、超现实主义等。
这些小说可以帮助您了解英语的叙述技巧、情节安排和人物描写等方面的艺术。
四、人物对话
布朗标准美式英语语料库中的人物对话是来自各种场合和人物的对话记录,包括访谈、演讲、课堂讨论等。
这些对话展示了美国英语口语交流的特点,包括口音、发音、语法和措辞等方面的变化。
人物对话可以帮助您提高英语口语表达能力,并更好地理解不同场合和文化背景下的交流习惯。
五、科学论文
布朗标准美式英语语料库中的科学论文选自各种学科领域的学术期刊和研究报告。
这些论文涵盖了自然科学、社会科学和人文学科等领域,展示了科学研究的专业性和严谨性。
科学论文可以帮助您了解科学语言的特殊性和学术写作的风格。
六、演讲致辞
布朗标准美式英语语料库中的演讲致辞是来自各种场合和人物的演讲记录,包括政治演讲、商业演讲和学术演讲等。
这些演讲展示了英语演讲技巧和表达能
力,包括语言组织、逻辑结构、修辞手法等方面的应用。
演讲致辞可以帮助您提高英语演讲能力和说服力。
七、商业广告
布朗标准美式英语语料库中的商业广告是来自各个时期和不同行业的广告作品。
这些广告展示了市场营销和品牌推广的策略,包括产品介绍、促销活动和品牌形象等方面的宣传。
商业广告可以帮助您了解英语广告的语言特点和文化背景,提高对市场推广的理解和应用能力。
八、杂志文章
布朗标准美式英语语料库中的杂志文章选自各种主题和领域的杂志文章,包括时尚、健康、科技等。
这些文章通常由专业撰稿人撰写,提供实用的信息和见解,展示当代社会的热门话题和发展趋势。
杂志文章可以帮助您拓宽知识面,提高阅读理解和写作能力。
九、宗教文献
布朗标准美式英语语料库中的宗教文献选自各种宗教信仰的经典和文献,包括基督教、犹太教、伊斯兰教等。
这些文献展示了宗教信仰的精神内涵和文化背景,提供了对信仰传统的深入了解。
宗教文献可以帮助您更好地理解不同宗教信仰的价值观念和文化特点。
十、法庭文件
布朗标准美式英语语料库中的法庭文件选自各种法律案件的判决书、证据记录和庭审记录等。
这些文件展示了法律文书的语言特点和技术要求,包括事实陈述、证据分析和法律条款等方面的应用。
法庭文件可以帮助您提高对法律语言的理解和应用能力,更好地适应法律领域的专业要求。
十一、社交媒体帖子
布朗标准美式英语语料库中的社交媒体帖子选自各种社交媒体平台,如Facebook、Twitter、Instagram等。
这些帖子展示了日常生活中的口语表达、流行用语和网络俚语等,具有鲜明的时代特色。
社交媒体帖子可以帮助您了解美国年轻人用语的变化和趋势,提高在社交场合的交流能力。
十二、网络论坛讨论
布朗标准美式英语语料库中的网络论坛讨论选自各种主题和领域的在线论
坛。
这些讨论涉及各种议题,包括政治、经济、文化等,展示了多元的观点和讨论氛围。
网络论坛讨论可以帮助您了解美国民众对时事问题的态度和看法,拓宽视野并提高思辨能力。
十三、电子邮件
布朗标准美式英语语料库中的电子邮件选自各种场合和人物的邮件记录。
这些邮件展示了日常生活中的沟通方式和语言风格,包括商务邮件、个人邮件和群组邮件等。
电子邮件可以帮助您了解美国人在书面交流中的语言习惯和表达方式,提高商务和个人沟通的能力。
十四、学术论文
布朗标准美式英语语料库中的学术论文选自各个学科领域的学术期刊和研究报告。
这些论文通常由专家学者撰写,提供深入的研究成果和分析,展示了学术英语的严谨性和专业性。
学术论文可以帮助您了解学术英语的写作规范和技巧,提高在学术研究中的文献查阅和论文撰写能力。
十五、电影对话
布朗标准美式英语语料库中的电影对话选自各种类型的电影作品。
这些对话记录了电影中的人物交流和情感表达,具有生动的表现力和真实的语境。
电影对话可以帮助您了解美国人在日常生活中的口语表达和情感交流方式,提高英语听力理解和口语表达能力。
十六、歌词
布朗标准美式英语语料库中的歌词选自各种流派的音乐作品,包括流行音乐、摇滚、爵士乐等。
这些歌词通常由专业词曲作者创作,表达情感、传达信息,具有独特的艺术魅力。
歌词可以帮助您了解美国音乐的风格和文化背景,提高英语听力理解和口语表达能力。
十七、口语习语
布朗标准美式英语语料库中的口语习语选自各种口语表达和习惯用语。
这些习语通常与特定的文化背景和语境相关联,具有言简意赅、生动形象的特点。
口语习语可以帮助您了解美国人在日常口语交流中的习惯用语和表达方式,提高口语表达的多样性和流利度。
十八、新闻广播
布朗标准美式英语语料库中的新闻广播选自各种新闻来源的音频文件。
这些广播内容包括实时新闻报道、重要事件解说、天气预报等,具有权威性和时效性。
新闻广播可以帮助您了解美国英语的广播媒体语言风格和表达能力,提高英语听力理解和口语表达能力。
十九、电视节目
布朗标准美式英语语料库中的电视节目选自各种类型的电视节目,包括综艺节目、访谈节目、纪录片等。
这些节目展示了电视媒体的多样性和广泛性,涉及各种主题和领域。
电视节目可以帮助您了解美国人在电视媒体中的语言风格和表达能力,提高英语听力理解和口语表达能力。
二十、科技博客
布朗标准美式英语语料库中的科技博客选自各种科技领域的博客文章。
这些文章通常由专业人士撰写,介绍最新的科技发展和应用,展示了科技领域的专业性和创新性。
科技博客可以帮助您了解科技英语的表达方式和专业术语,提高在科技领域的阅读理解和写作能力。