语料库的设计和开发
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
2013-7-29
规模(1)
规模和代表性代表了语料库的合法性和可靠性,但需 要强调指出,语料库不管多大,同语言的总体相比仍 是微不足道的。 辛克莱(1991)建议,1000-2000万词次可以构造一个 有用的、小型语料库,但若要对语言总体做出可靠的 描述,这样的规模仍嫌太小。 即使构造出十亿词次的语料库,对于一个大型词表中 的大多数词型来说,仍然会显示出相当严重的稀疏信 息。 语料并非越多越好
2013-7-29
13
规模(5)
Kenndy(1998):对于节律研究,为了对大多数描写做 出概括通常十万词次的语料库已经足够大。 为了对动词用法进行可靠分析,可以在一个五十万词 次的语料库上完成 许多句法结构和高频词汇的研究一般要求语料库规模 在五十到一百万词次之间 象BNC一亿词次的语料库,可以通过与不同结构的小 型语料库的分析结果进行对比,来解决规模和代表性 的问题。
24
2013-7-29
Brown语料库(1)
20世纪60年代,Francis和Kucera在美国 Brown大学建立了世界上第一个根据系统性原 则采集样本的标准语料库——布朗语料库。 主要目的是研究当代美国英语 按共时原则采集文本的语料库,只选录1961年 间由美国人撰写出版的普通语体的文本。 规模为100万词次,全部语料分成15种体裁, 共500个样本,每个样本不少于2000词次。 TAGGIT系统:词类标记81种,正确率达77%
1) 语料库是语言的静态样本还是动态样本? 2) 多大程度上可以成为语言或语体的代表? 3) 为了满足某种研究目的,语料库规模应该多大? 4) 应该包含多少个样本,每个样本应该多大?
4
2013-7-29
静态与动态 (1)
一个语料库可以是以某种方式采集的文本的静态集合, 其目的是成为整个语言或在某一特定时期语言的一个 代表。
8
2013-7-29
代表性与平衡(3)
萨默斯(1991)总结了一些选择书面语的方法,实际采 用这些方法的某种组合,用流通度和影响力等来指导
基于学术价值或“影响力” 随机采样 作品流通度或文本被阅读的广泛程度 人们阅读习惯的统计采样 依据语言说明进行文本选择的经验等
指定年度或期限来选择文本 汉语语料库的建设者大部分采用的是按题材和体裁来 进行
设计者采用固定数目的样本和文本类型加以构造,样 本语料库可以方便地同其他构造相似的语料库进行对 比。
5
2013-7-29
静态与动态(2)
动态的(监督的 monitor)语料库象一部动画,而不是一 幅快照。因为它提供了一种方法来观察语言用法模式 随时间变异的情况。大量收集某一时期内的文本,然 后通过软件在这些文本中找出与描写目的有关的统计 信息,进而对观察的语言现象作出总结。
语料库究竟是“什么的代表”?尽管一个样本不足以 代表一种特定的体裁或主题,而有大量各类样本组成 的一个语料库可以成为一种语言的代表。
7
2013-7-29
代表性与平衡(2)
在一个语料库中,如何达到不同部分之间的平 衡?
书面语和口语的平衡 体裁的比例平衡
语料库中,平衡不能简单解释为文本的不同来 源,比如说让口语与书面语的文本总数相等 辛克莱(1991)建议对一个一般的书面语语料库, 在选择文本方面的最低准则至少应区别小说和 非小说;书本、期刊或报纸等等
22
2013-7-29
第一代语料库
1960年代初,美国Brown大学, 100万词次,当代美国英语, 根据系统性原则采样,…… 1970年代初,英国Lancaster大 学,挪威Oslo大学,挪威Bergen 大学,当代英国英语,……
Brown语料库 LOB语料库 LLC语料库
百万词级
以语言研究为导向
2013-7-29
3
语料库设计与编纂中的问题
出发点是:如何使得在其基础上开展的语言调 查是合理的和可靠的。 Kennedy(1998)指出了语料库设计师所面临的 最基本问题:这个语料库所采集的语言数据是 否真正代表了某种期望的语言或语体。语料库 的建设与编纂过程中应考虑的问题包括:
wenku.baidu.com
25
2013-7-29
Brown语料库(2)
语料分A-R共18种类型,A-J属于资讯类语体,K-R属 于想象类语体
应用领域 辅助软件
通用 | 词典编纂 | 机器翻译 | … 检索工具 | 人机界面 | 数据接口 | …
18
设计存储系统和保存记录
只有当语料库中的文本以及与这些文本相 关的信息能够方便地存取,语料库才有意 义 格式保持统一
2013-7-29
19
语料库的维护
语料库一旦建立起来以后,其中总有许多错误 需要修正,或者需要对语料库进行改善,因此 需要对语料库进行日常的维护和升级。这样才 能适应新的软硬件和用户需求的改变。另外, 有关语料库的检索系统、语料库的处理和分析 工具,也越来越引起人们的注意。
2013-7-29
20
语料库的类型
口语语料 书面语料 共时语料 历时语料 平衡语料 专门语料 监控语料 样本语料
单语 双语 多语
词性标注语料 树库语料 …
平行语料库 比较语料库
2013-7-29
21
国外语料库介绍
SEU语料库 布朗语料库 LOB语料库 LLC口语语料库 COBUILD语料库 朗文语料库 英国国家语料库BNC 国际英语语料库
第二讲 语料库的设计和开发 统计的一些基本概念
2013-7-29
1
语料库的设计与开发
语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍
2013-7-29
2
从事语料库语言学研究的人员首先面临的任务 是建立语料库。他们必须对语料库应该包含哪 些语料以及如何组织这些语料等问题作出决定, 并且能够控制以后在使用语料库的过程中将要 发生的事情。语言学家则要能够处理语料中的 任何语言实例。
11
2013-7-29
规模(3)
对一个语言项来说,为了达到描写的充分性,究竟需 要多少个标记?
在一百万词次的语料库中,大约40-50%的词型出现一次。 Longman/Lancast语料库中,“break‖出现了8267次,但某 些用法(如news break)的出现次数仍很少,不足以为词典编 者提供必要的信息判断是否适合作为词典条目。如“at‖这样 的高频次在一百万词次的语料库中统计到5500个标记,对于 大多数描写目的而言已经足足有余。 对于词典学或词汇语法研究来说,一个词型在逐词索引中有 超过1000个标记,对词典编者已是数据分析的最高极限。数 据太多,所需人工分析将难于应付。语料库规模太大,对语 言分析也会带来负面影响。 通过对检索结果随机采样,收集只出现一次的词型,再到更 大规模语料库中搜集其实例用法。
例如,SEU语料库试图以静态方式在不同使用领域的口语和 书面语材料中选择英国英语的样本,使语料库可以作为英语 共时的代表。设计这样的语料库,需小心处理如下问题:特 定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编 撰的。他认为SEU语料库是英国英语的一种快照,语料库象 一幅风景照,目的是抓住风景的主要特征。只收集主要的体 裁,并非所有语言现象。
12
2013-7-29
规模(4)
一百万词次的LOB语料库或Wellington语料库,大约有100个词(型) 出现次数超过1000次。在一亿词次的语料库(BNC)中,出现次数 超过1000次的词(型)增长到8000个,它们覆盖了语料库中95%的 词次。其余5%词次可能有50万或更多的词(型)组成。 为了对低频词现象做出充分描写,极大规模语料库是必要的。 一个语料库拥有海量文本收集,如果设计不善,也不一定就可以 通过它对一种语言做出概括。 一个巨型语料库不一定能比一个较小语料库更好地代表一种语言 或它的变体。 目前还不能确定对于一般目的或特定目的来说,一个语料库究竟 要多大? 过分关注语料库的数据规模问题,不如对数据质量给于关注
14
2013-7-29
规模(6)
样本大小问题 Brown和LOB:随机选取500个样本,每个样本 不少于2000词次,有些样本是整个文档,而大 多数样本只是原有文档的部分。 比伯(Biber 1993)认为:为了代表样本的文档 范畴,样本规模在2000-5000词次已经足够大 了。象LOB那样的语料库,每种体裁的样本数 (20-80个文本不等),对于通常进行的各类变异 研究,即基于相关性的分析来说,是合适的。
使用已有的输入技术,可以采用多种方式来收 集语料——制作电子文本,或利用已有的电子 文本
制作电子文本
光电扫描输入(OCR技术) 键盘输入
使用现存的电子文本
2013-7-29
17
语料库的设计
语料库三方面 A. 语料本身 属性 规模 领域 体裁 时代 语体 语种 语言层次 B. 语料加工 数据形式 编码体系 加工层次 加工方式 C. 语料应用
15
2013-7-29
建设一个语料库
建立语料库的目的:是一般用途,还是特殊用途?
一般语料库应为各种语言研究提供大量好的语言实例 特殊语料库为某种自然语言产品服务的,具有明显的领域针 对性
语言的来源 语料库的设计 设计存储系统和保存记录 语料库的维护
2013-7-29
16
语料的来源
代表性与平衡(1)
选择什么样的文本进行语料库才能达到合理性和可靠 性的要求?目前还没有公认答案! 里奇(1991)曾指出,一个语料库具有代表性,是指在 该语料库上获得的分析结果可以概括成为这种语言整 体或其指定部分的特性。
早期Brown和LOB语料库分别视为美国英语和英国英语在特 定时期的代表
1960年代初,由London大学Randolph Quirk 主持,收集2000小时的谈话和广播等口语素材 并整理成书面材料,由瑞典Lund大学J. Svartvik主持全部录入计算机,1975年建 成……
23
2013-7-29
SEU语料库
1959年伦敦大学夸克(Randolph Quirk)组织发起了 “英语用法调查”(SEU)项目,有计划地收集不同语体 的大量语料,并利用计算机对收集到的语料进行储存、 分类。 语言科学史上第一个大型计算机语料库 包括书面语语料和口语语料 共收集200个语篇,口语和书面语各占一半,每个语 篇500字左右。整个语料库的容量为一百万词次。内 容包括了各种不同语体和社会的各个层面。
2013-7-29
值 百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | … 文学 | 应用文 | 新闻 | … 共时 | 历时 书面语 | 口语 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语音(音节,韵律) | 语法(词,句,…) Text文本 | HTML文本 | 数据库 | … TEI标准 | 自定义编码体系 | … 词 性 | 句 法 | 语 义 双语句子对齐 | 词对齐 | … 自动 | 人机互助 | 人工 | 语 篇 | …
10
2013-7-29
规模(2)
齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料 库中每个词指派一个由小到大的整数秩(rank),则f与r近似 成反比,即 f*r=k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝 大部分,而词(型)总数中大约一半的词在这个语料库中却 只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规 则的分布状态。极少数常用句法规则覆盖了语料库中绝大 多数的句法结构现象,而很多规则只出现一次。并且,语 料库规模的扩大,句法规则的数目也不断增长,与乔姆斯 基的著名假设—句法规则数目的有限性和句子数目的无限 性,提出了挑战。
例如,新的结构或词型的出现,或者老词型的用法或搭配发 生了改变等。
动态文本集,将随着新文本的加入而不断增容和变化。 因此不适宜在不同语料库之间进行对比研究。 数据的收集通常是随遇的,不一定“平衡”,对文本 数量的关注取代了采样计划的精心设计。其中包括文 本的收集、存储和处理等。
6
2013-7-29
2013-7-29
规模(1)
规模和代表性代表了语料库的合法性和可靠性,但需 要强调指出,语料库不管多大,同语言的总体相比仍 是微不足道的。 辛克莱(1991)建议,1000-2000万词次可以构造一个 有用的、小型语料库,但若要对语言总体做出可靠的 描述,这样的规模仍嫌太小。 即使构造出十亿词次的语料库,对于一个大型词表中 的大多数词型来说,仍然会显示出相当严重的稀疏信 息。 语料并非越多越好
2013-7-29
13
规模(5)
Kenndy(1998):对于节律研究,为了对大多数描写做 出概括通常十万词次的语料库已经足够大。 为了对动词用法进行可靠分析,可以在一个五十万词 次的语料库上完成 许多句法结构和高频词汇的研究一般要求语料库规模 在五十到一百万词次之间 象BNC一亿词次的语料库,可以通过与不同结构的小 型语料库的分析结果进行对比,来解决规模和代表性 的问题。
24
2013-7-29
Brown语料库(1)
20世纪60年代,Francis和Kucera在美国 Brown大学建立了世界上第一个根据系统性原 则采集样本的标准语料库——布朗语料库。 主要目的是研究当代美国英语 按共时原则采集文本的语料库,只选录1961年 间由美国人撰写出版的普通语体的文本。 规模为100万词次,全部语料分成15种体裁, 共500个样本,每个样本不少于2000词次。 TAGGIT系统:词类标记81种,正确率达77%
1) 语料库是语言的静态样本还是动态样本? 2) 多大程度上可以成为语言或语体的代表? 3) 为了满足某种研究目的,语料库规模应该多大? 4) 应该包含多少个样本,每个样本应该多大?
4
2013-7-29
静态与动态 (1)
一个语料库可以是以某种方式采集的文本的静态集合, 其目的是成为整个语言或在某一特定时期语言的一个 代表。
8
2013-7-29
代表性与平衡(3)
萨默斯(1991)总结了一些选择书面语的方法,实际采 用这些方法的某种组合,用流通度和影响力等来指导
基于学术价值或“影响力” 随机采样 作品流通度或文本被阅读的广泛程度 人们阅读习惯的统计采样 依据语言说明进行文本选择的经验等
指定年度或期限来选择文本 汉语语料库的建设者大部分采用的是按题材和体裁来 进行
设计者采用固定数目的样本和文本类型加以构造,样 本语料库可以方便地同其他构造相似的语料库进行对 比。
5
2013-7-29
静态与动态(2)
动态的(监督的 monitor)语料库象一部动画,而不是一 幅快照。因为它提供了一种方法来观察语言用法模式 随时间变异的情况。大量收集某一时期内的文本,然 后通过软件在这些文本中找出与描写目的有关的统计 信息,进而对观察的语言现象作出总结。
语料库究竟是“什么的代表”?尽管一个样本不足以 代表一种特定的体裁或主题,而有大量各类样本组成 的一个语料库可以成为一种语言的代表。
7
2013-7-29
代表性与平衡(2)
在一个语料库中,如何达到不同部分之间的平 衡?
书面语和口语的平衡 体裁的比例平衡
语料库中,平衡不能简单解释为文本的不同来 源,比如说让口语与书面语的文本总数相等 辛克莱(1991)建议对一个一般的书面语语料库, 在选择文本方面的最低准则至少应区别小说和 非小说;书本、期刊或报纸等等
22
2013-7-29
第一代语料库
1960年代初,美国Brown大学, 100万词次,当代美国英语, 根据系统性原则采样,…… 1970年代初,英国Lancaster大 学,挪威Oslo大学,挪威Bergen 大学,当代英国英语,……
Brown语料库 LOB语料库 LLC语料库
百万词级
以语言研究为导向
2013-7-29
3
语料库设计与编纂中的问题
出发点是:如何使得在其基础上开展的语言调 查是合理的和可靠的。 Kennedy(1998)指出了语料库设计师所面临的 最基本问题:这个语料库所采集的语言数据是 否真正代表了某种期望的语言或语体。语料库 的建设与编纂过程中应考虑的问题包括:
wenku.baidu.com
25
2013-7-29
Brown语料库(2)
语料分A-R共18种类型,A-J属于资讯类语体,K-R属 于想象类语体
应用领域 辅助软件
通用 | 词典编纂 | 机器翻译 | … 检索工具 | 人机界面 | 数据接口 | …
18
设计存储系统和保存记录
只有当语料库中的文本以及与这些文本相 关的信息能够方便地存取,语料库才有意 义 格式保持统一
2013-7-29
19
语料库的维护
语料库一旦建立起来以后,其中总有许多错误 需要修正,或者需要对语料库进行改善,因此 需要对语料库进行日常的维护和升级。这样才 能适应新的软硬件和用户需求的改变。另外, 有关语料库的检索系统、语料库的处理和分析 工具,也越来越引起人们的注意。
2013-7-29
20
语料库的类型
口语语料 书面语料 共时语料 历时语料 平衡语料 专门语料 监控语料 样本语料
单语 双语 多语
词性标注语料 树库语料 …
平行语料库 比较语料库
2013-7-29
21
国外语料库介绍
SEU语料库 布朗语料库 LOB语料库 LLC口语语料库 COBUILD语料库 朗文语料库 英国国家语料库BNC 国际英语语料库
第二讲 语料库的设计和开发 统计的一些基本概念
2013-7-29
1
语料库的设计与开发
语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍
2013-7-29
2
从事语料库语言学研究的人员首先面临的任务 是建立语料库。他们必须对语料库应该包含哪 些语料以及如何组织这些语料等问题作出决定, 并且能够控制以后在使用语料库的过程中将要 发生的事情。语言学家则要能够处理语料中的 任何语言实例。
11
2013-7-29
规模(3)
对一个语言项来说,为了达到描写的充分性,究竟需 要多少个标记?
在一百万词次的语料库中,大约40-50%的词型出现一次。 Longman/Lancast语料库中,“break‖出现了8267次,但某 些用法(如news break)的出现次数仍很少,不足以为词典编 者提供必要的信息判断是否适合作为词典条目。如“at‖这样 的高频次在一百万词次的语料库中统计到5500个标记,对于 大多数描写目的而言已经足足有余。 对于词典学或词汇语法研究来说,一个词型在逐词索引中有 超过1000个标记,对词典编者已是数据分析的最高极限。数 据太多,所需人工分析将难于应付。语料库规模太大,对语 言分析也会带来负面影响。 通过对检索结果随机采样,收集只出现一次的词型,再到更 大规模语料库中搜集其实例用法。
例如,SEU语料库试图以静态方式在不同使用领域的口语和 书面语材料中选择英国英语的样本,使语料库可以作为英语 共时的代表。设计这样的语料库,需小心处理如下问题:特 定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编 撰的。他认为SEU语料库是英国英语的一种快照,语料库象 一幅风景照,目的是抓住风景的主要特征。只收集主要的体 裁,并非所有语言现象。
12
2013-7-29
规模(4)
一百万词次的LOB语料库或Wellington语料库,大约有100个词(型) 出现次数超过1000次。在一亿词次的语料库(BNC)中,出现次数 超过1000次的词(型)增长到8000个,它们覆盖了语料库中95%的 词次。其余5%词次可能有50万或更多的词(型)组成。 为了对低频词现象做出充分描写,极大规模语料库是必要的。 一个语料库拥有海量文本收集,如果设计不善,也不一定就可以 通过它对一种语言做出概括。 一个巨型语料库不一定能比一个较小语料库更好地代表一种语言 或它的变体。 目前还不能确定对于一般目的或特定目的来说,一个语料库究竟 要多大? 过分关注语料库的数据规模问题,不如对数据质量给于关注
14
2013-7-29
规模(6)
样本大小问题 Brown和LOB:随机选取500个样本,每个样本 不少于2000词次,有些样本是整个文档,而大 多数样本只是原有文档的部分。 比伯(Biber 1993)认为:为了代表样本的文档 范畴,样本规模在2000-5000词次已经足够大 了。象LOB那样的语料库,每种体裁的样本数 (20-80个文本不等),对于通常进行的各类变异 研究,即基于相关性的分析来说,是合适的。
使用已有的输入技术,可以采用多种方式来收 集语料——制作电子文本,或利用已有的电子 文本
制作电子文本
光电扫描输入(OCR技术) 键盘输入
使用现存的电子文本
2013-7-29
17
语料库的设计
语料库三方面 A. 语料本身 属性 规模 领域 体裁 时代 语体 语种 语言层次 B. 语料加工 数据形式 编码体系 加工层次 加工方式 C. 语料应用
15
2013-7-29
建设一个语料库
建立语料库的目的:是一般用途,还是特殊用途?
一般语料库应为各种语言研究提供大量好的语言实例 特殊语料库为某种自然语言产品服务的,具有明显的领域针 对性
语言的来源 语料库的设计 设计存储系统和保存记录 语料库的维护
2013-7-29
16
语料的来源
代表性与平衡(1)
选择什么样的文本进行语料库才能达到合理性和可靠 性的要求?目前还没有公认答案! 里奇(1991)曾指出,一个语料库具有代表性,是指在 该语料库上获得的分析结果可以概括成为这种语言整 体或其指定部分的特性。
早期Brown和LOB语料库分别视为美国英语和英国英语在特 定时期的代表
1960年代初,由London大学Randolph Quirk 主持,收集2000小时的谈话和广播等口语素材 并整理成书面材料,由瑞典Lund大学J. Svartvik主持全部录入计算机,1975年建 成……
23
2013-7-29
SEU语料库
1959年伦敦大学夸克(Randolph Quirk)组织发起了 “英语用法调查”(SEU)项目,有计划地收集不同语体 的大量语料,并利用计算机对收集到的语料进行储存、 分类。 语言科学史上第一个大型计算机语料库 包括书面语语料和口语语料 共收集200个语篇,口语和书面语各占一半,每个语 篇500字左右。整个语料库的容量为一百万词次。内 容包括了各种不同语体和社会的各个层面。
2013-7-29
值 百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | … 文学 | 应用文 | 新闻 | … 共时 | 历时 书面语 | 口语 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语音(音节,韵律) | 语法(词,句,…) Text文本 | HTML文本 | 数据库 | … TEI标准 | 自定义编码体系 | … 词 性 | 句 法 | 语 义 双语句子对齐 | 词对齐 | … 自动 | 人机互助 | 人工 | 语 篇 | …
10
2013-7-29
规模(2)
齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料 库中每个词指派一个由小到大的整数秩(rank),则f与r近似 成反比,即 f*r=k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝 大部分,而词(型)总数中大约一半的词在这个语料库中却 只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规 则的分布状态。极少数常用句法规则覆盖了语料库中绝大 多数的句法结构现象,而很多规则只出现一次。并且,语 料库规模的扩大,句法规则的数目也不断增长,与乔姆斯 基的著名假设—句法规则数目的有限性和句子数目的无限 性,提出了挑战。
例如,新的结构或词型的出现,或者老词型的用法或搭配发 生了改变等。
动态文本集,将随着新文本的加入而不断增容和变化。 因此不适宜在不同语料库之间进行对比研究。 数据的收集通常是随遇的,不一定“平衡”,对文本 数量的关注取代了采样计划的精心设计。其中包括文 本的收集、存储和处理等。
6
2013-7-29