《语料库语言学》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经验主义
empiricism
理性主义
rationalism
语料库语言学的复苏时期
80年代以来,语料库语言学在相对沉寂了近20年后,开始 复苏,并得到迅速发展。主要表现在下面两方面。 (1)第二代语料库的相继建成。
1)LOB 2)TLF 3)赫尔辛基历史英语语料库 4)ICE (2)基于语料库的研究项目增多。
语料库设计和编纂中的问题
• 语料库设计和编纂的出发点是:如何使得在其基础上开展 的语言调查是合理的和可靠的。因此Kennedy(1998)指出 了语料库设计师所面临的最基本问题:这个语料库所采集 的语言数据是否真正代表了某种期望的语言或语体。在语 料库的建设和编纂过程中应考虑的问题包括:
• (1)静态与动态 • (2)代表性和平衡 • (3)规模
语料库的分类
• 按应用取向分为:通用型和专用型语料库 • 按信道分为:笔语和口语语料库 • 按语言属性分为:单语、双语、多语语料库 • 按语言变体分为:本族语、译语、学习者语料库 • 按时间分为:共时和历时语料库 • 按语料状态分为:静态和监控语料库
国外语料库的介绍
类型
时间
容量
SEU
1959年起 100万
书面语 研究当代美国英语
书面语 研究当代英国英语
书面语75% 口语25%
在语料库支持下从事词典学研 究
书面和口语 编纂词典和供学术界使用
书面语90% 口语10%
书面语40% 口语60%
其口语语料库可以精细分析语 音研究
对讲英语的不同国家的英语进 行对比研究
国内语料库介绍
• 汉语现代文学作品语料库(1979年),527万字,武汉大学 • 现代汉语语料库(1983年),2000万字,北京航空航天大学 • 现代汉语词频统计语料库(1983年),182万字,北京语言大学 • 台湾中央研究院平衡语料库,500万词,是世界上第一个带有完整词
语料库语言学的不同研究方法
由于语料库语言学依赖自然数据,因而语料库语 言学从本质上说是实证性的,其语言观是经验主 义的语言观。按照研究中对语料库依赖程度的不 同,可以把依赖语料库的研究方法大致分为三类: 1) 语料库指导的方法24 2)基于语料库的方法25 3)语料库的驱动方法26
语言研究中语料库的使用
1.言语研究: (1)语言学理论 。
(2)语言史研究。 (3)句法、词法及自动语法分析。
2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学
语料库语言学在计算语言学中的应用
• 20世纪90年代以来在自然语言处理(NLP)和计 算语言学的研究中,语料库方法和统计语言模型 迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型
1959-1991年语料库研究项目统计表
起止年限 1959-1965 1966-1970 1971-1975 1976-1980 1981-1985 1986-1991
研究项目数目 10 20 30 80 160 320
语料库语言学的主要研究内容
• 语料库的建设与编纂 • 语料库的加工和管理技术 • 语言研究中语料库的使用 • 语料库在计算语言学中的应用
1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
乔姆斯基的转换生成语法时期
1957年乔姆斯基《句法理论》及其以后一系列论著的发表, 根本改变了语料库语言学的早期发展状况。在这段时期中, 笛卡尔的理性主义占据主导地位,经验主义几乎无立足之 地,被视为经验主义产物的各种语料库自然被完全否定。
LLC
1975-1981 50万
BROWN
1960s
100万
LOB
1970s
100万
COBUILD 1980s
3.2亿
LONGMAN 1988-1990 2800万
BNC
1991-1995 1亿
ICE
1988年起 2000万
语料
用途
书面语50% 口语50%
口语
第一个大型计算机语料库Baidu Nhomakorabea
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
语料库语言学
Corpus Linguistics
张凤云
语料库语言学的定义
什么是语料库?
语料库(corpus,复数形式corpora)顾 名思义就是存放语言材料的仓库(或 数据库)。现指存放在计算机里的原 始语料文本或经过加工后带有语言学 信息标注的文本。
什么是语料库语言学?
作为一个学科的名称 “语料库语言学”与 “语法学”或“语义学”不同,它不属于 语言自身某个侧面的研究,而是一种以语 料库为基础的语言研究方法。它实际上包 括两方面的内容:一是对自然语料进行加 工、标注;二是用已经标注好的语料进行 语言研究和应用开发。
语料库的加工和管理技术
• 主要是指用于语料分析、标注、维护和检索软件的工具。 语料库不仅仅是文本的集合,它应该具有良好的存取性能, 一边是各种研究人员都能从中检索出自己需要的信息。因 此语料的检索是其中一项重要的工作。
• 目前普遍使用的检索技术: 1)逐词索引(concordance) 2)词簇(cluster) 3)搭配(collacates) 4) 词表(word list) 5)关键词表(keyword list)27
类标记的汉语平衡语料库。 • 中文五地区共时语料库(1995年),香港城市大学 • 汉语精加工语料库 • 特殊英语语料库 中国英语(China English)语料库 ,河南师范大学 • 军事英语语料库(Corpus of Military Texts) ,解放军外语学院 • 《人民日报》语料库(2700万字) ,北京大学计算机语言学研究所
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面:
empiricism
理性主义
rationalism
语料库语言学的复苏时期
80年代以来,语料库语言学在相对沉寂了近20年后,开始 复苏,并得到迅速发展。主要表现在下面两方面。 (1)第二代语料库的相继建成。
1)LOB 2)TLF 3)赫尔辛基历史英语语料库 4)ICE (2)基于语料库的研究项目增多。
语料库设计和编纂中的问题
• 语料库设计和编纂的出发点是:如何使得在其基础上开展 的语言调查是合理的和可靠的。因此Kennedy(1998)指出 了语料库设计师所面临的最基本问题:这个语料库所采集 的语言数据是否真正代表了某种期望的语言或语体。在语 料库的建设和编纂过程中应考虑的问题包括:
• (1)静态与动态 • (2)代表性和平衡 • (3)规模
语料库的分类
• 按应用取向分为:通用型和专用型语料库 • 按信道分为:笔语和口语语料库 • 按语言属性分为:单语、双语、多语语料库 • 按语言变体分为:本族语、译语、学习者语料库 • 按时间分为:共时和历时语料库 • 按语料状态分为:静态和监控语料库
国外语料库的介绍
类型
时间
容量
SEU
1959年起 100万
书面语 研究当代美国英语
书面语 研究当代英国英语
书面语75% 口语25%
在语料库支持下从事词典学研 究
书面和口语 编纂词典和供学术界使用
书面语90% 口语10%
书面语40% 口语60%
其口语语料库可以精细分析语 音研究
对讲英语的不同国家的英语进 行对比研究
国内语料库介绍
• 汉语现代文学作品语料库(1979年),527万字,武汉大学 • 现代汉语语料库(1983年),2000万字,北京航空航天大学 • 现代汉语词频统计语料库(1983年),182万字,北京语言大学 • 台湾中央研究院平衡语料库,500万词,是世界上第一个带有完整词
语料库语言学的不同研究方法
由于语料库语言学依赖自然数据,因而语料库语 言学从本质上说是实证性的,其语言观是经验主 义的语言观。按照研究中对语料库依赖程度的不 同,可以把依赖语料库的研究方法大致分为三类: 1) 语料库指导的方法24 2)基于语料库的方法25 3)语料库的驱动方法26
语言研究中语料库的使用
1.言语研究: (1)语言学理论 。
(2)语言史研究。 (3)句法、词法及自动语法分析。
2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学
语料库语言学在计算语言学中的应用
• 20世纪90年代以来在自然语言处理(NLP)和计 算语言学的研究中,语料库方法和统计语言模型 迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型
1959-1991年语料库研究项目统计表
起止年限 1959-1965 1966-1970 1971-1975 1976-1980 1981-1985 1986-1991
研究项目数目 10 20 30 80 160 320
语料库语言学的主要研究内容
• 语料库的建设与编纂 • 语料库的加工和管理技术 • 语言研究中语料库的使用 • 语料库在计算语言学中的应用
1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
乔姆斯基的转换生成语法时期
1957年乔姆斯基《句法理论》及其以后一系列论著的发表, 根本改变了语料库语言学的早期发展状况。在这段时期中, 笛卡尔的理性主义占据主导地位,经验主义几乎无立足之 地,被视为经验主义产物的各种语料库自然被完全否定。
LLC
1975-1981 50万
BROWN
1960s
100万
LOB
1970s
100万
COBUILD 1980s
3.2亿
LONGMAN 1988-1990 2800万
BNC
1991-1995 1亿
ICE
1988年起 2000万
语料
用途
书面语50% 口语50%
口语
第一个大型计算机语料库Baidu Nhomakorabea
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
语料库语言学
Corpus Linguistics
张凤云
语料库语言学的定义
什么是语料库?
语料库(corpus,复数形式corpora)顾 名思义就是存放语言材料的仓库(或 数据库)。现指存放在计算机里的原 始语料文本或经过加工后带有语言学 信息标注的文本。
什么是语料库语言学?
作为一个学科的名称 “语料库语言学”与 “语法学”或“语义学”不同,它不属于 语言自身某个侧面的研究,而是一种以语 料库为基础的语言研究方法。它实际上包 括两方面的内容:一是对自然语料进行加 工、标注;二是用已经标注好的语料进行 语言研究和应用开发。
语料库的加工和管理技术
• 主要是指用于语料分析、标注、维护和检索软件的工具。 语料库不仅仅是文本的集合,它应该具有良好的存取性能, 一边是各种研究人员都能从中检索出自己需要的信息。因 此语料的检索是其中一项重要的工作。
• 目前普遍使用的检索技术: 1)逐词索引(concordance) 2)词簇(cluster) 3)搭配(collacates) 4) 词表(word list) 5)关键词表(keyword list)27
类标记的汉语平衡语料库。 • 中文五地区共时语料库(1995年),香港城市大学 • 汉语精加工语料库 • 特殊英语语料库 中国英语(China English)语料库 ,河南师范大学 • 军事英语语料库(Corpus of Military Texts) ,解放军外语学院 • 《人民日报》语料库(2700万字) ,北京大学计算机语言学研究所
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: