语料库
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小结
• 主要语料库检索工具:
• 道格拉斯· 比伯----《语料库语言学》 清华大学出版社 1)AntConc:由日本学者Laurence Anthony开发,具有词 语检索、生成词表和主题词三大功能。
• 2 何安平 ----《语料库语言学与英语教学》 . )Concapp :是香港理工大学Chris Greaves 研制的语料库 检索工具。主要功能包括:制作语境共现、句内语境共现( sentence 《语料库辅助英语教学入门》 concordance)、检索词搭配、词频表。 . 3)Wordsmith Tools:由英国利物浦大学Mike Scott设计的 一个功能强大的综合软件包。包含Concord(语境共现检索 工具),Wordlist(词频列表检索工具),Keywords(关键词 检索工具),Splitter(文本分割工具),Text Converter(文 本替换工具),Viewer(文本浏览工具)等6个程序。
L/O/G/O
Thank You!
国外语料库的发展
1960-1970
1970-1980
1980-1990
1990-至今
国内语料库的发展
• 从理论研究方面看,2000外语教学与研究出版社引进了 Biber等人的《语料库语言学》和Kennedy的《语料库语 言学入门》。 2002 杨惠中教授编写的《语料库语言学导 论》,是我国第一本该学科的专著。 2008卫乃兴的《语 料库语言学的弗斯学说基础》,探讨语料库语言学的学科 本质。 • 同时,因其较高的应用价值,学习者语料库和双语平行语 料库的建设及研究成为我国语料库语言学的重心。
词汇语法
• 词汇层面研究: 一词多义、同义词或近义词 词的惯用搭配 不同语域的词义分布 … • 语法层面研究: 单词的语法类别-----词法 单词组合成句的方法、规则 各种语言结构的频率分布 语法结构与其他语言或非语言因素之间的关系 (That we mustn’t worry too much is clear. It is clear that we mustn’t worry too much.) …
北大计算语言学 研究所的双语语 料库
哈尔滨工业大学 的英汉双语语料 库
语料库的应用
语言的历 时与风格
词典编撰
语域
语言习得 与发展
语料库语 言学
词汇语法
语言
语言变异
语篇特征
词典编纂
• 语料库与词典编纂的优势在于:对变化中的词义的描写、 词义的排列顺序、例证的来源、语用语法信息的描述以及 习语等实际使用情况的描述等方面具有巨大的优越性。可 以说,建立语料库已经是当代编纂原创性辞典的必要条件 。 • 《牛津英语词典》(18世纪晚期)
语篇结构特征
• 语篇结构特征的研究: 1.语篇连贯和衔接的语言的分析 2.不同类型的语篇的描述和比较 3.语篇中从句间修辞关系的描述和比较 … 书面语篇与口语语篇 医学论文和生态学论文 …
语言变异
• 语料库与语言变异研究指通过使用语料库来观察单词的频 度、单词的意义和用法等变异参数,来研究语言的地域差 异、性别差异、社会群体差异、语域差异等。 • 多维度分析法:角色参与型与信息提供型 叙事型与非叙事型 清晰型与情景依赖型 显性的劝导型 客观型与非客观型 • 自建语料库(60万) ----生态学论文和美国历史学论文
• 词汇联结:一个单词与其他单词之间存在强的联结模式, 比如词的搭配。 • 语法联结:一个语法结构与相关语境中的语法特征之间存 在强的联结模式,比如名词化在学术语域和对 话语料中的分布。 • 词汇-语法联结:单词与语法结构之间存在的联结。这种 关系的研究主要有两方面:单词与语法 环境之间的关系;语法结构和单词环境 之间的关系。
COBUILD (Collins Birmingham University International Language Database) Corpus: 80年代第一个以词典编撰为应用背景构建的大规模语料库,是英国Birmingham大学与 Collins出版社合作的结果,规模达到2000万词。 COCA 语料库---美国 LOB (Lancaster/Oslo-Bergen Corpus of Birmingham) Longman 语料库:建于 80年代,包括三个语料库: LLELC语料库 (Longman/Lancaster Brown 语料库:于 1964 年公布于世,后又经多次修 语料库:以英式英语为对象,规模达 100万词。 英语语料库 )、 LSC语料库 (Longman 口语语料库 )、LCLE (Longman当代语料库 英语学习语料库 ); 改的 Brown University Standard Corpus of PresentICE 语料库— 国际英 (London-Lund Corpus of Spoken English) 语料 以编撰英语学习词典为目标,为外国人学习英语服务,词典规模达 5000 万词次。 Day American EnglishLLC ,以美国出版物为对象,规 语语料库 库:以英式口语为对象,规模达50万词。 模达1词汇的不同联结模式,可以区分同义 或近义的语法结构,例如: • that补语从句和to补语从句 补语从句补充动词或形容词的意思,某些意义上,这两 个从句是几乎等价的语法结构,如 I hope that I can go. I hope to go. 基于学术语料库和对话语料库,作者通过分析语料中这两 中从句的词汇联结(动词语域),得出结论:that从句在 会话中的出现比率很高,用来表示人的所思所想,所了解 和所说的;在学术中,that从句则相对罕见,用来报道研 究发现中的结论。to从句在两个语料库中的出现率相差不 大,但在对话语料库中,与该从句同时使用的动词更倾向 于与有生命的主语一起出现,学术中则与无生命的主语共 现。
学习者语料库
收集了包括 中学生、大 以2000-2003 学英语4级 年全国大学 和6级、专 英语四级考 业英语低年 试口语考试 级和高年级 部分的实景 在内的5种 学生的语料, 音像资料为 语料,规模 规模达一百 达70万词。 多万词。 以1996-2002 年的全国英 语专业四级 口试的语音 样本及转写 文本为语料, 总规模达100 万词。 以国内9所不 同层次的高校 英语专业1 - 4 年级学生的英 语作文为语料, 题目与文体多 样,长度为 200 -800词不 等,写作条件 为课堂限时和 课外非限时作 文两种。
单词与语法环境
• 通过考察词汇与语法联结的使用模式,可以区分同义词或 近义词,例如: • 1. little和small • 这两个词词义相近,且都有可以出现在定语和表语的位置 ,但它们在定语和表语的位置各有偏好,这些趋向性和它 们在不同语域的分布有很强的联系。作者通过分析它们在 学术语料库和对话语料库中的分布,得出结论:little经常 与有生命的名词一起出现,而small总是和表示数量的名 词一起出现。 • (学术语料库:Longman语料库,500万词 • 对话语料库:英语国家语料库,500万词) • 2.begin和start
• 书面语料库 • 口语语料库 • 共时语料库 • 历时语料库
• 单语语料库 • 双语语料库 • 多语语料库
语料库语言学
• 语料库语言学是一门新型科学,它指的是在文本语料的基 础上进行语言研究的一门学科。 • 基于语料库分析的主要特点: 1.具有实验性,分析自然语言文本中语言使用的实际模式。 2.搜集大量的真实文本(语料库),以语料库作为分析基础。 3.使用计算机的自动与交互技术进行分析。 4.使用定量与定性分析的技术。
CLEC
COLSEC
SECCL
WECCL
学习者语料库
双语平行语料库
平行语料库 PACCEL是我国第一 个学习者英汉、汉 英口笔译语料库, 收录了2003-2007我 国大学英语专业三、 四年级学生的口译 和笔译翻译测试语 料,实际收录210万 字词。 双语语料库
语言的习得与发展
语言的习得与发展方面的研究主要集中于三 个领域:
1
年幼儿童母语的习得
后期语言的发展(不同阶段学生 读写能力的获得) 儿童与成年的第二语言习得
2
3
语言的历时和风格研究
• 历时语料库-------(赫尔辛基语料库的语料收集始于1984 年,历时语言学的研究大多都是基于该语料库进行) • 语言的历时与风格研究: 1.语法和词汇特征的历时变化 2.口语和书面语的历时变化 3.方言的变化 4.男性和女性语言的历史变化
L/O/G/O
语料库语言学
Contents
1 语料库和语料库语言学
语料库的发展
2
3
语料库的应用
4
结语
语料库
• 语料库:大规模自然语言文本的集合。
• 现代的语料库是指存放在计算机里的原始语料文本或经过加 工后带有语言学信息标注的语料文本。 • 关于语料库的三点基本认识:
– 语料库中存放的是在实际使用中真实出现过的语言材料; – 语料库是以计算机为载体承载语言知识的基础资源; – 真实语料需要经过分析、处理和加工,才能成为有用的资 源。
语料库的分类
• 生语料库/熟语料库(标注语料库/非标注语料库) • 熟语料库:经过加工,带有切分、标注标记的语料库。 • 生语料库:未经加工的,没有任何切分、标注标记的原始 语料库。 • 系统型语料库/专用型语料库(通用语料库/专用语料库) • 系统型语料库:依据事先确定的选材原则和比例选取语料 的语料库。 • 专用型语料库:专门服务于某个特定目的的语料库。