语料库的发展历程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
ACL/DCI美国计算语言学学会数据采集计划
美国计算语言学学会(The Association for Computational Linguistics, 即 ACL)倡议的数据采集计划 (Data Collection Initiative, 即 DCI),其宗旨是向非赢利 的学术团体提供语料,用标准通用置标语言 SGML统一置标, 以便于数据交换(Liberman, M.Y. 1990)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
UPenn树库(宾州树库)示例
CORPUS LINGUISTICS
UPenn树库(宾州树库)示例(续)
CORPUS LINGUISTICS
0.2.2 计ຫໍສະໝຸດ Baidu机化的语料库(现代语料库)
第三代语料库
ELRA——欧洲语言资源学会 (European Language Resources Association) (http://www.elra.info/) – 1995年在卢森堡成立,开展以语言技术为主的语言资源收 集、监测、评估、鉴定、宣传、开发与利用工作,定期召 开语言资源与评估国际学术会议(LREC, Language Resources and Evaluation Conference),出版会刊《语言资源与评估》,力求 语言资源建设和评估的科学化
0.2 发展历史与现状
1957年 , 乔姆斯基的 《句法理论》 (Syntactic Structures)及其以 后的一系列论著的发表,语料库研究的发展被完全否定、受到 剧烈震荡
乔姆斯基 (Chomsky)认为,语言研究的主要目标是建立一种能够反映 说话人心理现实的语言认知模式。……语料从本质上只是外在化的话语的 汇集 , 基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解 释 , 因而语料不是语言学家从事语言研究的得力工具。 ——基于语料库的研究方法有误 短语结构语法具有递归性:自然语言的句子是无限的,任何有限的语料 都不能穷尽语言。 ——语料是不完整、不充分的
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
TELRI——跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure) http://telri.nytud.hu/
– 1995年由欧洲共同体( European Commission)提供经费支持创立,其总 部挂靠在德国曼海姆的德语研究所(IDS),负责人 Wolfgang Teubert ; 2000年以后挂靠在英国的伯明翰大学语料库语言学研究所 – 目的是为商业机构、研究团体和大学提供研发平台,为自然语言处理提供 单语种和多语种的语言资源 – 主要任务是协调欧洲的多语言信息处理和多语言语料库的建设 – 已建成柏拉图(Plato)的《理想国》( Politeia)多语语料库、计算工具 和资源的研究文档TRACTOR( Research Archive of Computational Tools and Resources)、以及欧洲语言词库 EUROVOCA
CORPUS LINGUISTICS
0.2.1 计算机化以前的语料库(传统语料库)
为词典编撰、语法研究而收集的语料库
牛津英语词典(Oxford English Dictionary) 1928年 引证 400万条 卡片 1100万张 韦伯斯特新国际词典(Webster’s New International Dictionary) 1961年第三版 新旧引证 1000多万条
CORPUS LINGUISTICS
0.2 发展历史与现状
英国伦敦大学学院(University College London )的语言学家夸 克( Quirk)开创了新一代的语料库。他在1959年建立英国英语 口语和书面语的“英语用法调查”(the Survey of English Usage,简称SEU)语料库的计划,目的是要对英语进行全面的 描写。 1961年,弗朗西斯(N. Francis)和库塞拉(H. Kucera)为首 的一批语言学家和计算机专家汇集在美国的布朗大学合作建成了 世界上最早的机读语料库,即布朗语料库(Brown Corpus)。 1975年,斯沃特威克(Svartvik)与他在隆德大学的同事把SEU 语料库中的口语部分转变为计算机可读的形式,最后建立了“伦 敦 —隆德英语口语语料库”(LLC) 。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库
CORPUS LINGUISTICS
为教学目的而编制的书面语料库和词表
陈鹤琴《语体文应用字汇》,商务印书馆,1928年 。 做过两次统计,第一次统计使用了六种材料,包含 554,478个汉字的 语料,得出不同汉字4261个;第二次使用包含34,818个汉字的语 料,得出与4261个汉字相异的汉字458个。
CORPUS LINGUISTICS
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的哲学基础
近二十年以来,基于语料库的统计分析研究越来 越多。 这种统计研究被称为是经验主义的,或者说是基 于统计的,与理性主义相对而言。理性主义又说 是基于规则的。 我们认为:理性主义说到底也是经验主义,是使 用语言的个人的一生的语言经验的积累。
——Wolfgang Teubert , 24 October 2004
……
CORPUS LINGUISTICS
0.1 语料库语言学的定义
“根据篇章材料对语言的研究称为语料库语言学。 ” ( K. Aijmer & B. Aitenberg, 1991) “基于现实生活中语言运用的实例进行的语言研究称 为语料库语言学。”( T. McEnery & A. Wilson, 1996) “以语料为语言描写的起点或以语料为验证有关语言 的假说的方法称为语料库语言学。”( D. Crystal, 1991)
——美国 Lexis-Nexis 公司的机储文件已经达到15亿件,有 1.5万亿字符,并且以每周950万件的速度递增
动态监控语料库
——国际互联网上,英国COBUILD语料库每周向电子邮件用 户发送 Word Watch(词语监察)的邮件,报告社会用语的 动态变化情况
……
CORPUS LINGUISTICS
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
语言资源联盟(Linguistic Data Consortium) 1992年在美国宾夕法尼亚大学(University of Pennsylvania)建立,它的目的是构建、收集和发布 用于研发的语音和文本数据库、词典以及其他资源 该联盟提供了一种可供大规模发展和普遍的共享用于 语言工程技术研究的资源的新机制,目前已经拥有超 过100个公司、大学和政府机构会员单位。为197个 会员机构和458个非会员机构提供了数据 (http://www.ldc.upenn.edu/)
——引自张普教授的幻灯片
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的分类
用途 :通用语料库、专用语料库; 介质 :文字语料库、声音语料库; 语体 :书面语语料库、口语语料库; 时间 :共时语料库、历时语料库; 状态 :静态语料库、动态语料库; 语种 :单语语料库、双语语料库、多语语料库; 平行语料库、非平行语料库; 母语语料库、外语学习者语料库; 处理程度:生语料库、熟语料库。
语料库语言学 (CORPUS LINGUISTICS)
绪论(INTRODUCTION)
邹煜
zouiyster@gmail.com
中国传媒大学文学院 国家语言资源监测与研究中心有声媒体语言分中心
http://ling.cuc.edu.cn
为什么要学习语料库语言学?
− 语言学的研究必须以语言事实作为根据,必须详尽地 、大量地占有材料,才有可能在理论上得出比较可靠 的结论。 − 传统的语言材料的搜集、整理和加工完全是靠手工进 行的,这是一种枯燥无味、费力费时的工作。 − 计算机出现后,人们可以把这些工作交给计算机去作 ,大大地减轻了人们的劳动。 − 后来,在这种工作中逐渐创造了一些独特的方法,提 出了一些初步的理论,形成了一门新的学科——语料 库语言学(corpus linguistics)
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
UPenn树库(宾州树库)
由宾夕法尼亚(Pennsylvania)大学计算机系的 M. Marcus主持,到 1993年完成了近 300万词的英语句子的句法 结构标注。 2000年由 LDC(语言数据协会)发行了UPenn的中文树库 (规模较小,仅包含10万词,4185句)
主要目标之一是编纂英语学习词典,为外国人学习英语服务 规模达到 5000万词级
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
特大型语料库
1. 2. 3. 4. 语料:从单语种到多语种。 数量:从百万级到千万级再到亿级和万亿级。 加工:从词法级到句法级再到语义和语用级。 文本:从抽样到全文。
CORPUS LINGUISTICS
为什么要学习语料库语言学?
语料库语言学已经成为语言研究的主流
——J. Thomas et al, 1996
语料库研究正酝酿着对语言学理论和研究方法的 重大突破
——J. Svartvik, 1996
Corpus research has become a key element of almost all language study .
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第一代语料库
布朗语料库(Brown Corpus) LOB语料库(The Lancaster-Oslo/Bergen Corpus) LLC语料库(London-Lund Corpus of Spoken English) 兰开斯特/IBM英语口语语料库(Lancaster /IBM spoken English corpus)
0.2.1 计算机化以前的语料库(传统语料库)
为语言调查而收集的方言库
19、 20世纪英、美等国都做过大型的方言调查,调查的结果形成几 个大规模的方言库 在我国,运用语料的研究方法可以追溯到周秦,如我国汉语方言学的 第一部著作《輶轩使者绝代语释别国方言》是扬雄经过27年的艰苦 努力而写成的
CORPUS LINGUISTICS
CORPUS LINGUISTICS
0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)