语料库与翻译研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ห้องสมุดไป่ตู้
语料库的分类
• • • • • • • • • • • • • • • (选取时间)历时语料库(diachrcmiccorpus) 共时语料库(synchronic corpus) (加工深度)标注语料库(annotated corpus) 非标注语科库(non-annotated corpus) (语料结构)平衡结构语料库(balance structure corpus) 自然随机结构语料库(random structure corpus) (用途)通用语料库(general corpus) 专用语料库(specialized corpus) (表达形式)口语语料库(spoken corpus) 文本语料库(text corpus) (动态更新程度) 参考语料库(reference corpus) 监控语料库(monitor corpus) (语种划分)单语种语料库(mono-lingual corpus) 多语种语料库(multilingual corpus)
• 1)动词establish常见类连接研究 • 2)从语法角度来看,动词establish是及物动词(有object栏,表示 establish可以直接跟宾语)。 • •3)从语义角度来看,根据词频高低,与动词establish共现的名词 object栏排在前10位的分别为:relation、relationship、committee、 system、links、principle、contact、reputation、center和group; subject栏排在前10位的分别为:government、company、act、 treaty、case、authority、council、law、agreement和group。可见, 动词establish作为“建立、组建”一意,表示建立关系、组织和法律 权威方面的内容,而非建立某种“实体”。 • •4)从搭配角度来看,用于修饰动词establish的副词有well、already、 firmly、clearly、newly和recently等等; • •5)从语义韵角度来看,与establish共现的词汇均为中性,可以得出 establish一词含有中性语义韵。
• •1960年,英国伦敦大学的Randolph Quirk搜集了 当时人们使用的书面和口头材料,形成了英语用 法调查语料库(Survey of English Usage Corpus)。 • •在20世纪60初,美国Brown 大学的Nelson Francis 和Henry Kucera召集了一些语料库语言 学家,建设Brown语料库(Brown Corpus of American English)。 • •Brown语料库是世界上首个用于语言学研究的计 算机可读语料库。
• 类连接是词语搭配研究中的一个重要概念,指语法范畴间的结合 • 类连接与词语搭配并非是平等关系,而是更为高一级的抽象. • 类连接是关于词语组合类别的抽象表述,是词语搭配发生于其中的语法 结构和框架; • 词语的典型组合则是指在语篇中生成一定的非成语意义且以特定的语 法形式有机组合使用的一个词语序列 • 这就是搭配 • 搭配中所出现的词汇也并非是任意的,但受类连接的制约,而且也要受 搭配的限制.词语的搭配属于该词类连接的具体表现 • 一个类连接代表了一个搭配类 • V+N 就是一个类连接.它代表一类搭配 • LEARN ENGLISH COMMIT SUISIDE
• 语义韵(semantic prosody) • •语义韵是一种特殊的搭配现象, 指的是某些词项 由于经常和具有某种语义特征的语言单位共现而 产生的一种语义特征。 • •语义韵大体可分为分为积极(positive)、中性 (neutral)和消极(negative)三类。 • 在消极语义韵里,节点词所吸引的搭配词几乎都 是些具有强烈或鲜明消极语义特点的词项,它们 赋予节点词及其语境一种强烈的消极语义氛围 (commit,got)。积极语义韵情况正好相反,节 点词的搭配词几乎都是些具有积极语义特点的词 项,由此形成一种积极语义氛围(achieve)。
• In Locke or Hume, on the contrary, the base of the pyramid is on the solid ground of observed fact, and the pyramid tapers upward, not downward; consequently the equilibrium is stable, and a flaw here or there can be rectified without total disaster.
• 在认识方法上,理性主义的“自明原则+演 绎”方法与自然科学中的数学公理方法有 密切联系; • 经验主义的“经验+归纳”方法与自然科 学中的观察实验方法有密切联系。
• A: • •He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, “Wow, what a neat fact!”, grabs his pencil, and writes something down. (Fillmore 1992)
• • • • •
语言研究中的数据类型 •内省数据(Introspective data) •诱导数据(Elicited data) •语料数据(Corpus data) Is the word quiver intransitive or not?
• Corpus,复数:Corpora • •(corpse) • •语料库源于拉丁词“Corpus‖,本意为 “body‖。顾名思义,语料库便由是一个一 个语言的“body‖组建而成的。
• In Leibniz, if the principle is completely true and the deductions are entirely valid, all is well; but the structure is unstable, and the slightest flaw anywhere brings it down in ruins.
基于互联网的语料检索工具
• •1)网络即为语料库(web as corpus (WaC)), 顾名思义,网络本省就是一个规模巨大的语料库。 • –Google等搜索引擎 • –数据量大、全面、更新快,但信息过载 • •2)网络作为为语料来源(web for corpus (WfC)),指网络中充斥的电子文本作为离线语料 库的语料来源。 • –WebCorp、句酷、必应词典(Bing)等 • –简单的标注与分析,仅供参考
• 在现代语言学的意义上,对语料库的认识 至少应该包含如下三点:(1)语料库中存放 的是在语言的实际使用中真实出现过的语 言材料;(2)语料库是以电子计算机为载体 承载语言知识的基础资源; (3)真实语料需要 经过分析、加工、处理,才能成为有用的 基础资源。
• •1957年,Noam Chomsky 发表了Syntactic Structure。 • •Chomsky 指出语料库的不足之处: • •Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list. (Chomsky 1958: 159)
• 词频统计 • •词频统计:某个词语在特定料库中出现的 次数或频率。词频越高,越常用。 • 语境共现 • •KWIC——Keyword in Context • •将关键字以高亮形式显示在屏幕中央,两 边分别为该关键词的上下文语境。便于对 比关键词使用的语境。
要完整了解词语的意义,需要从其语境、类 链接和语义韵三个方面综合考虑。 • • • • 类连接(Colligation) •词语的使用模式 •搭配(Collocation) –词语的典型组合(learn English, commit suicide, etc) • –区别于成语(idiom)意义 • •类联接是词语搭配中的语法结构和框架
Rationalism vs Empiricism
• The difference of method, here, may be characterized as follows: • In Locke or Hume, a comparatively modest conclusion is drawn from a broad survey of many facts, whereas in Leibniz a vast edifice of deduction is pyramided upon a pin-point of logical principle.
• A corpus is a collection of naturallyoccurring language text, chosen to characterize a state or variety of a language. • •A collection of machine-readable authentic texts which is sampled to be representative of a particular language or language variety.
• • • • •
单语语料库 •mono-lingual corpus •仅收录一种语言的语料 •BNC,CBE Cobuild,BROWN •TEC英语翻译语料库
• 多语语料库 • •两组或两组以上不同语言的单语语料库构 成,各单语语料库以相似的设计标准建立 • •平行语料库、类比语料库 • •北京大学的CCL汉英双语语料库、北京外 国语大学的中英双语在线(CEO) • •ICE(International Corpus of English)国 际英语语料库
• B: • •He has all of the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence versus as the second word of a sentence. (Fillmore 1992)
• 词语搭配是词与词结伴使用的语言现象,搭配伙 伴间相互吸引,相互期待和相互预见。某些搭 • 配词项的搭配行为显示了一种特殊的趋向,它们 习惯性地吸引某一类具有相同或相似语义特点的 词项与之构成搭配,由于这些具有相同或相似语 义特点的搭配词习惯性地,循环往复地与节点词 在文本中共现,节点词也就被染上了有关的语义 特点,整个跨距内也就弥漫了一种特殊的语义氛 围,这就叫语义韵
语料库的分类
• • • • • • • • • • • • • • • (选取时间)历时语料库(diachrcmiccorpus) 共时语料库(synchronic corpus) (加工深度)标注语料库(annotated corpus) 非标注语科库(non-annotated corpus) (语料结构)平衡结构语料库(balance structure corpus) 自然随机结构语料库(random structure corpus) (用途)通用语料库(general corpus) 专用语料库(specialized corpus) (表达形式)口语语料库(spoken corpus) 文本语料库(text corpus) (动态更新程度) 参考语料库(reference corpus) 监控语料库(monitor corpus) (语种划分)单语种语料库(mono-lingual corpus) 多语种语料库(multilingual corpus)
• 1)动词establish常见类连接研究 • 2)从语法角度来看,动词establish是及物动词(有object栏,表示 establish可以直接跟宾语)。 • •3)从语义角度来看,根据词频高低,与动词establish共现的名词 object栏排在前10位的分别为:relation、relationship、committee、 system、links、principle、contact、reputation、center和group; subject栏排在前10位的分别为:government、company、act、 treaty、case、authority、council、law、agreement和group。可见, 动词establish作为“建立、组建”一意,表示建立关系、组织和法律 权威方面的内容,而非建立某种“实体”。 • •4)从搭配角度来看,用于修饰动词establish的副词有well、already、 firmly、clearly、newly和recently等等; • •5)从语义韵角度来看,与establish共现的词汇均为中性,可以得出 establish一词含有中性语义韵。
• •1960年,英国伦敦大学的Randolph Quirk搜集了 当时人们使用的书面和口头材料,形成了英语用 法调查语料库(Survey of English Usage Corpus)。 • •在20世纪60初,美国Brown 大学的Nelson Francis 和Henry Kucera召集了一些语料库语言 学家,建设Brown语料库(Brown Corpus of American English)。 • •Brown语料库是世界上首个用于语言学研究的计 算机可读语料库。
• 类连接是词语搭配研究中的一个重要概念,指语法范畴间的结合 • 类连接与词语搭配并非是平等关系,而是更为高一级的抽象. • 类连接是关于词语组合类别的抽象表述,是词语搭配发生于其中的语法 结构和框架; • 词语的典型组合则是指在语篇中生成一定的非成语意义且以特定的语 法形式有机组合使用的一个词语序列 • 这就是搭配 • 搭配中所出现的词汇也并非是任意的,但受类连接的制约,而且也要受 搭配的限制.词语的搭配属于该词类连接的具体表现 • 一个类连接代表了一个搭配类 • V+N 就是一个类连接.它代表一类搭配 • LEARN ENGLISH COMMIT SUISIDE
• 语义韵(semantic prosody) • •语义韵是一种特殊的搭配现象, 指的是某些词项 由于经常和具有某种语义特征的语言单位共现而 产生的一种语义特征。 • •语义韵大体可分为分为积极(positive)、中性 (neutral)和消极(negative)三类。 • 在消极语义韵里,节点词所吸引的搭配词几乎都 是些具有强烈或鲜明消极语义特点的词项,它们 赋予节点词及其语境一种强烈的消极语义氛围 (commit,got)。积极语义韵情况正好相反,节 点词的搭配词几乎都是些具有积极语义特点的词 项,由此形成一种积极语义氛围(achieve)。
• In Locke or Hume, on the contrary, the base of the pyramid is on the solid ground of observed fact, and the pyramid tapers upward, not downward; consequently the equilibrium is stable, and a flaw here or there can be rectified without total disaster.
• 在认识方法上,理性主义的“自明原则+演 绎”方法与自然科学中的数学公理方法有 密切联系; • 经验主义的“经验+归纳”方法与自然科 学中的观察实验方法有密切联系。
• A: • •He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, “Wow, what a neat fact!”, grabs his pencil, and writes something down. (Fillmore 1992)
• • • • •
语言研究中的数据类型 •内省数据(Introspective data) •诱导数据(Elicited data) •语料数据(Corpus data) Is the word quiver intransitive or not?
• Corpus,复数:Corpora • •(corpse) • •语料库源于拉丁词“Corpus‖,本意为 “body‖。顾名思义,语料库便由是一个一 个语言的“body‖组建而成的。
• In Leibniz, if the principle is completely true and the deductions are entirely valid, all is well; but the structure is unstable, and the slightest flaw anywhere brings it down in ruins.
基于互联网的语料检索工具
• •1)网络即为语料库(web as corpus (WaC)), 顾名思义,网络本省就是一个规模巨大的语料库。 • –Google等搜索引擎 • –数据量大、全面、更新快,但信息过载 • •2)网络作为为语料来源(web for corpus (WfC)),指网络中充斥的电子文本作为离线语料 库的语料来源。 • –WebCorp、句酷、必应词典(Bing)等 • –简单的标注与分析,仅供参考
• 在现代语言学的意义上,对语料库的认识 至少应该包含如下三点:(1)语料库中存放 的是在语言的实际使用中真实出现过的语 言材料;(2)语料库是以电子计算机为载体 承载语言知识的基础资源; (3)真实语料需要 经过分析、加工、处理,才能成为有用的 基础资源。
• •1957年,Noam Chomsky 发表了Syntactic Structure。 • •Chomsky 指出语料库的不足之处: • •Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list. (Chomsky 1958: 159)
• 词频统计 • •词频统计:某个词语在特定料库中出现的 次数或频率。词频越高,越常用。 • 语境共现 • •KWIC——Keyword in Context • •将关键字以高亮形式显示在屏幕中央,两 边分别为该关键词的上下文语境。便于对 比关键词使用的语境。
要完整了解词语的意义,需要从其语境、类 链接和语义韵三个方面综合考虑。 • • • • 类连接(Colligation) •词语的使用模式 •搭配(Collocation) –词语的典型组合(learn English, commit suicide, etc) • –区别于成语(idiom)意义 • •类联接是词语搭配中的语法结构和框架
Rationalism vs Empiricism
• The difference of method, here, may be characterized as follows: • In Locke or Hume, a comparatively modest conclusion is drawn from a broad survey of many facts, whereas in Leibniz a vast edifice of deduction is pyramided upon a pin-point of logical principle.
• A corpus is a collection of naturallyoccurring language text, chosen to characterize a state or variety of a language. • •A collection of machine-readable authentic texts which is sampled to be representative of a particular language or language variety.
• • • • •
单语语料库 •mono-lingual corpus •仅收录一种语言的语料 •BNC,CBE Cobuild,BROWN •TEC英语翻译语料库
• 多语语料库 • •两组或两组以上不同语言的单语语料库构 成,各单语语料库以相似的设计标准建立 • •平行语料库、类比语料库 • •北京大学的CCL汉英双语语料库、北京外 国语大学的中英双语在线(CEO) • •ICE(International Corpus of English)国 际英语语料库
• B: • •He has all of the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence versus as the second word of a sentence. (Fillmore 1992)
• 词语搭配是词与词结伴使用的语言现象,搭配伙 伴间相互吸引,相互期待和相互预见。某些搭 • 配词项的搭配行为显示了一种特殊的趋向,它们 习惯性地吸引某一类具有相同或相似语义特点的 词项与之构成搭配,由于这些具有相同或相似语 义特点的搭配词习惯性地,循环往复地与节点词 在文本中共现,节点词也就被染上了有关的语义 特点,整个跨距内也就弥漫了一种特殊的语义氛 围,这就叫语义韵