语料库 入门
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
热烈欢迎来自全国各地的老师们!
语料库入门
Outline
• 1. 基本概念 • 2. 著名网络语料库 • 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machinereadable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、 能代表一种语言或者某语言的一种 变体或文类的电子文本集。
语料库语言学常用术语
• Token形符: an individual word • Type类符: word form. 指不重复计算 的形符数。"I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).
• Corpus 视频
Corpus Linguistics 语料库语言学
为何要建立语料库? 为何要用语料库方法研究语言并将其运用 于语言学习?
Example: Start or begin?在口语中哪个 更常用? 我们的老师经常说Let’s begin!之 类的话,对吗?
• 但有人在BNC等语料库中查到,在 口语中,start更常用。
熟 语 语 料 库
语料库语言学常用术语
• Types of corpora
• General corpus通用语料库 • Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).
以上问题也许在词典或语法书这样的工具书中是无法 找到答案的,但语料库能为我们提供方便快捷的解决 方案。 语料库可以辅助EFL学习的各个方面,如词汇、语法、 阅读、语体分析、翻译、口语、写作、测试和西方文 化学习等。
具体来说,本书中语料库辅助 EFL 自主学习的方法 (简称为“语料库方法”)主要指以下三种: (1) 直接在权威的语料库中查询语言和文化现象,如 英 国 国 家 语 料 库 ( BNC ) 和 美 国 当 代 英 语 语 料 库 (COCA); (2) 利用语料库软件进行文本分析,如 AntConc 和 Range; (3) 利 用 其 他 基 于 语 料 库 的 网 站 进 行 学 习 , 如 JustTheWord和Sketch Engine。
• 当今世界上最大的英语语料库之一——COBUILD语料库的领导者John Sinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现 happen和set in(发生)常常与“不愉快的事件”(unpleasant events) 联系在一起(Sinclair,1991)。“SET in”(SET大写表示包括该词的各 种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay (腐败、腐烂)、ill-will(歹义)、decadence(颓废)、 impoverishment (陷入贫困)、infection(感染)、prejudice(偏见)、 vicious circle(恶性循环)、rigor mortis(僵硬死尸)、numbness(麻 木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后 突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、 disillusionment (幻灭)和slump(萧条)等。Sinclair诙谐地称set in长期 与坏蛋(bad company)为伍,其结果是只要SET in一出现,人们就知道 被描写的事情一定是不愉快的。另一方面,由于SET in已经染上了“贬 韵”(imbued with an “unfavourable prosody”),一般来说它便没有资 格在褒扬场合中抛头露面了。 • 假如有人说这样一句话:“Good times set in(好日子临头了)”,那么 讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感 到很别扭(转引自纪玉华等,2000)。
• The sentence "Rose is a rose is a rose is a rose." was written by Gertrude Stein as part of the 1913 poem Sacred Emily .
语料库语言学常用术语 • type/token ratio(TTR)类符/形符比, 形次比 Rose句的TTR:4/10*100=40 TTR是衡量文本中词汇密度的常用方法。 可辅助说明文本的词汇难度。 但是,文本中有大量功能词(function words,如the、a、of等)反复出现,文 本每增加一个词,形符就会增加一个, 但类符却未必随之增加。这样文本越长, 功能词重复次数越多,TTR会越低。因 此用TTR衡量词汇密度就不合理。
语料库语言学常用术语
• Concordance索引(又称“语境中的关键词, Key Word In Context, KWIC”) 指的是运用索引软件在语料库中查询某词 或短语的使用实例,然后将所有符合条件 的语言使用实例及其语境以清单的形式列 出 AntConc、WordSmith Tools等检索软件
• 语料库的方法基于真实的语言使用 情况,事实胜于雄辩
• 我们通过对语料库的检索结果进行分析,可 以找到很多问题的答案,例如: • “学知识”在英语中是“study knowledge” 吗? • “快速导航”翻译成“fast guide”对不对? • “只为点滴幸福”这句广告语,对应的英文 翻译是“Little happiness matters.”吗? • 为何“The bad weather set in on Monday.” 是正确的,但“The good weather set in on Monday.”却是错误的?
• 褒义、贬义 • 例如,通过查询语料库,我们发现cause后面 的名词,多为贬义
• 词汇的语义韵(semantic prosody)类似我们经常说的褒 义、中性和贬义等色彩,大体可分为积极语义韵 (positive prosody)、中性语义韵(neutral prosody)和 消极语义韵(negative prosody)等类型(Stubbs, 1996)。 • 例如汉语中的“广大”不能与含贬义的词搭配,我们不 能说“广大犯罪分子”,只能说“广大人民群众”等。 • 英语中像happen、incur、utterly和commit这样的词会搭 配一些具有显著消极意义的词,而career和provide这样 的词则会搭配一些有显著积极意义的词。这些特殊的节 点词总是习惯性和某一类拥有相同或者相似语义特点的 词语共现,使它们的语义相互影响、相互作用、相互渗 透,在一定的语境内形成一种语义氛围,同时该节点显 示出明显的语义韵特点(张瑜,2009)。我们可以利用 语料库去探索发现单词的语义韵特点。
常常将某个单词在两个语料库中出现的频 率参照两个语料库的容量,用卡方检验 或对数似然率进行对比,来确定两个语 料库中的该单词的使用上是否有差异
• Lemma词目
• 在英语语料库文本中,一些实词有大量的屈折形 式(inflections),如go这一动词就有go, goes, went, going, gone共5种不同的屈折变化形式。go 就是词目。 • 在分析语言时,如果把那5种形式作为5个词来看 待,就有可能显得不妥。因此需要将它们全部归 并到go名下。这个过程叫词目归并或词形还原 (lemmatization).
• “快速导航”翻译成“fast guide” 对不对? • 上海世博会英文网站
• 在口头表达、写作或翻译中如何确定某些用 法是地道的? • 学习者一般要有多大词汇量才能读懂英文报 纸? • 哪些是商务英语中最常用的单词和短语? • 某种考试中,哪些单词、词组或其他语言现 象出现的频率特别高? • 如何通过量化统计来分析文学作品的写作风 格?
Leabharlann Baidu料库
按用途
按时效性
按语体
按语种
按是否 母语
按是否 被标注
通 用 语 料 库
专 用 语 料 库
共 时 语 料 库
历 时 语 料 库
书 面 语 语 料 库
口 语 语 料 库
单 语 语 料 库
双 语 / 平 行 语 料 库
多 语 语 料 库
母 语 语 料 库
外 语 学 习 者 语 料 库
生 语 语 料 库
语料库语言学常用术语
• Monolingual单语 corpus: a corpus which contains texts in a single language. • Multilingual多语 corpus: a corpus which represents small collections of individual monolingual corpora (or subcorpora) in the sense that they use the same or similar sampling procedures and categories for each language but contain completely different texts in those several languages. • Parallel平行 (aligned) corpus: a multilingual corpus where texts in one language and their translations into other languages are aligned, sentence by sentence, preferably phrase by phrase.
何谓语料库检索
Concordancers are developed to produce concordance lines of a specific string of text.
Wordsmith Tools
AntConc
Many others
语义韵semantic prosody
著名语料库
BNC (British National Corpus) 英国国家语 料库 COCA (Corpus of Contemporary American English) 美国当代英语语料库 CLEC 中国英语学习者语料库 桂诗春、杨惠中
• http://corpus.byu.edu/coca/
语料库语言学常用术语
standardized type/token ratio标准化 类符/形符比 例如,计算每个文本每1000词的TTR, 均值处理,得出STTR
语料库语言学常用术语
• Frequencies/occurences(频数,出现次数) • Frequency(频率) 例如每一百万词、十万词中,某单词的 出现次数
• 有专门的软件根据词形还原表,自动对文本进行 词形还原。
语料库语言学常用术语
• Keywords 关键词
– Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus). – Positive keywords and negative keywords
语料库入门
Outline
• 1. 基本概念 • 2. 著名网络语料库 • 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machinereadable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、 能代表一种语言或者某语言的一种 变体或文类的电子文本集。
语料库语言学常用术语
• Token形符: an individual word • Type类符: word form. 指不重复计算 的形符数。"I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).
• Corpus 视频
Corpus Linguistics 语料库语言学
为何要建立语料库? 为何要用语料库方法研究语言并将其运用 于语言学习?
Example: Start or begin?在口语中哪个 更常用? 我们的老师经常说Let’s begin!之 类的话,对吗?
• 但有人在BNC等语料库中查到,在 口语中,start更常用。
熟 语 语 料 库
语料库语言学常用术语
• Types of corpora
• General corpus通用语料库 • Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).
以上问题也许在词典或语法书这样的工具书中是无法 找到答案的,但语料库能为我们提供方便快捷的解决 方案。 语料库可以辅助EFL学习的各个方面,如词汇、语法、 阅读、语体分析、翻译、口语、写作、测试和西方文 化学习等。
具体来说,本书中语料库辅助 EFL 自主学习的方法 (简称为“语料库方法”)主要指以下三种: (1) 直接在权威的语料库中查询语言和文化现象,如 英 国 国 家 语 料 库 ( BNC ) 和 美 国 当 代 英 语 语 料 库 (COCA); (2) 利用语料库软件进行文本分析,如 AntConc 和 Range; (3) 利 用 其 他 基 于 语 料 库 的 网 站 进 行 学 习 , 如 JustTheWord和Sketch Engine。
• 当今世界上最大的英语语料库之一——COBUILD语料库的领导者John Sinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现 happen和set in(发生)常常与“不愉快的事件”(unpleasant events) 联系在一起(Sinclair,1991)。“SET in”(SET大写表示包括该词的各 种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay (腐败、腐烂)、ill-will(歹义)、decadence(颓废)、 impoverishment (陷入贫困)、infection(感染)、prejudice(偏见)、 vicious circle(恶性循环)、rigor mortis(僵硬死尸)、numbness(麻 木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后 突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、 disillusionment (幻灭)和slump(萧条)等。Sinclair诙谐地称set in长期 与坏蛋(bad company)为伍,其结果是只要SET in一出现,人们就知道 被描写的事情一定是不愉快的。另一方面,由于SET in已经染上了“贬 韵”(imbued with an “unfavourable prosody”),一般来说它便没有资 格在褒扬场合中抛头露面了。 • 假如有人说这样一句话:“Good times set in(好日子临头了)”,那么 讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感 到很别扭(转引自纪玉华等,2000)。
• The sentence "Rose is a rose is a rose is a rose." was written by Gertrude Stein as part of the 1913 poem Sacred Emily .
语料库语言学常用术语 • type/token ratio(TTR)类符/形符比, 形次比 Rose句的TTR:4/10*100=40 TTR是衡量文本中词汇密度的常用方法。 可辅助说明文本的词汇难度。 但是,文本中有大量功能词(function words,如the、a、of等)反复出现,文 本每增加一个词,形符就会增加一个, 但类符却未必随之增加。这样文本越长, 功能词重复次数越多,TTR会越低。因 此用TTR衡量词汇密度就不合理。
语料库语言学常用术语
• Concordance索引(又称“语境中的关键词, Key Word In Context, KWIC”) 指的是运用索引软件在语料库中查询某词 或短语的使用实例,然后将所有符合条件 的语言使用实例及其语境以清单的形式列 出 AntConc、WordSmith Tools等检索软件
• 语料库的方法基于真实的语言使用 情况,事实胜于雄辩
• 我们通过对语料库的检索结果进行分析,可 以找到很多问题的答案,例如: • “学知识”在英语中是“study knowledge” 吗? • “快速导航”翻译成“fast guide”对不对? • “只为点滴幸福”这句广告语,对应的英文 翻译是“Little happiness matters.”吗? • 为何“The bad weather set in on Monday.” 是正确的,但“The good weather set in on Monday.”却是错误的?
• 褒义、贬义 • 例如,通过查询语料库,我们发现cause后面 的名词,多为贬义
• 词汇的语义韵(semantic prosody)类似我们经常说的褒 义、中性和贬义等色彩,大体可分为积极语义韵 (positive prosody)、中性语义韵(neutral prosody)和 消极语义韵(negative prosody)等类型(Stubbs, 1996)。 • 例如汉语中的“广大”不能与含贬义的词搭配,我们不 能说“广大犯罪分子”,只能说“广大人民群众”等。 • 英语中像happen、incur、utterly和commit这样的词会搭 配一些具有显著消极意义的词,而career和provide这样 的词则会搭配一些有显著积极意义的词。这些特殊的节 点词总是习惯性和某一类拥有相同或者相似语义特点的 词语共现,使它们的语义相互影响、相互作用、相互渗 透,在一定的语境内形成一种语义氛围,同时该节点显 示出明显的语义韵特点(张瑜,2009)。我们可以利用 语料库去探索发现单词的语义韵特点。
常常将某个单词在两个语料库中出现的频 率参照两个语料库的容量,用卡方检验 或对数似然率进行对比,来确定两个语 料库中的该单词的使用上是否有差异
• Lemma词目
• 在英语语料库文本中,一些实词有大量的屈折形 式(inflections),如go这一动词就有go, goes, went, going, gone共5种不同的屈折变化形式。go 就是词目。 • 在分析语言时,如果把那5种形式作为5个词来看 待,就有可能显得不妥。因此需要将它们全部归 并到go名下。这个过程叫词目归并或词形还原 (lemmatization).
• “快速导航”翻译成“fast guide” 对不对? • 上海世博会英文网站
• 在口头表达、写作或翻译中如何确定某些用 法是地道的? • 学习者一般要有多大词汇量才能读懂英文报 纸? • 哪些是商务英语中最常用的单词和短语? • 某种考试中,哪些单词、词组或其他语言现 象出现的频率特别高? • 如何通过量化统计来分析文学作品的写作风 格?
Leabharlann Baidu料库
按用途
按时效性
按语体
按语种
按是否 母语
按是否 被标注
通 用 语 料 库
专 用 语 料 库
共 时 语 料 库
历 时 语 料 库
书 面 语 语 料 库
口 语 语 料 库
单 语 语 料 库
双 语 / 平 行 语 料 库
多 语 语 料 库
母 语 语 料 库
外 语 学 习 者 语 料 库
生 语 语 料 库
语料库语言学常用术语
• Monolingual单语 corpus: a corpus which contains texts in a single language. • Multilingual多语 corpus: a corpus which represents small collections of individual monolingual corpora (or subcorpora) in the sense that they use the same or similar sampling procedures and categories for each language but contain completely different texts in those several languages. • Parallel平行 (aligned) corpus: a multilingual corpus where texts in one language and their translations into other languages are aligned, sentence by sentence, preferably phrase by phrase.
何谓语料库检索
Concordancers are developed to produce concordance lines of a specific string of text.
Wordsmith Tools
AntConc
Many others
语义韵semantic prosody
著名语料库
BNC (British National Corpus) 英国国家语 料库 COCA (Corpus of Contemporary American English) 美国当代英语语料库 CLEC 中国英语学习者语料库 桂诗春、杨惠中
• http://corpus.byu.edu/coca/
语料库语言学常用术语
standardized type/token ratio标准化 类符/形符比 例如,计算每个文本每1000词的TTR, 均值处理,得出STTR
语料库语言学常用术语
• Frequencies/occurences(频数,出现次数) • Frequency(频率) 例如每一百万词、十万词中,某单词的 出现次数
• 有专门的软件根据词形还原表,自动对文本进行 词形还原。
语料库语言学常用术语
• Keywords 关键词
– Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus). – Positive keywords and negative keywords