语料库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库语言学
• 语料库语言学是一门新型科学,它指的是在文本语料的基 础上进行语言研究的一门学科。
• 基于语料库分析的主要特点: 1.具有实验性,分析自然语言文本中语言使用的实际模式。 2.搜集大量的真实文本(语料库),以语料库作为分析基础。 3.使用计算机的自动与交互技术进行分析。 4.使用定量与定性分析的技术。
• 词汇联结:一个单词与其他单词之间存在强的联结模式, 比如词的搭配。
• 语法联结:一个语法结构与相关语境中的语法特征之间存 在强的联结模式,比如名词化在学术语域和对 话语料中的分布。
• 词汇-语法联结:单词与语法结构之间存在的联结。这种 关系的研究主要有两方面:单词与语法 环境之间的关系;语法结构和单词环境 之间的关系。
语篇结构特征
• 语篇结构特征的研究: 1.语篇连贯和衔接的语言的分析 2.不同类型的语篇的描述和比较 3.语篇中从句间修辞关系的描述和比较 …
书面语篇与口语语篇 医学论文和生态学论文 …
语言变异
• 语料库与语言变异研究指通过使用语料库来观察单词的频 度、单词的意义和用法等变异参数,来研究语言的地域差 异、性别差异、社会群体差异、语域差异等。
L/O/G/O
语料库语言学
Contents
1 语料库和语料库语言学
2
语料库的发展
3
语料库的应用
4
结语
语料库
• 语料库:大规模自然语言文本的集合。 • 现代的语料库是指存放在计算机里的原始语料文本或经过加
工后带有语言学信息标注的语料文本。
双语语料库
北大计算语言学 研究所的双语语 料库
哈尔滨工业大学 的英汉双语语料 库
语料库的应用
语言的历 时与风格
词典编撰
语域
语言习得 与发展
语料库语 言学
词汇语法
语言
语言变异 语篇特征
词典编纂
• 语料库与词典编纂的优势在于:对变化中的词义的描写、 词义的排列顺序、例证的来源、语用语法信息的描述以及 习语等实际使用情况的描述等方面具有巨大的优越性。可 以说,建立语料库已经是当代编纂原创性辞典的必要条件 。
• 关于语料库的三点基本认识: – 语料库中存放的是在实际使用中真实出现过的语言材料; – 语料库是以计算机为载体承载语言知识的基础资源; – 真实语料需要经过分析、处理和加工,才能成为有用的资 源。
语料库的分类
• 生语料库/熟语料库(标注语料库/非标注语料库) • 熟语料库:经过加工,带有切分、标注标记的语料库。 • 生语料库:未经加工的,没有任何切分、标注标记的原始
• 多维度分析法:角色参与型与信息提供型 叙事型与非叙事型 清晰型与情景依赖型 显性的劝导型 客观型与非客观型
• 自建语料库(60万) ----生态学论文和美国历史学论文
语言的习得与发展
语言的习得与发展方面的研究主要集中于三 个领域:
1
年幼儿童母语的习得
2
后期语言的发展(不同阶段学生 读写能力的获得)
单词与语法环境
• 通过考察词汇与语法联结的使用模式,可以区分同义词或 近义词,例如:
• 1. little和small • 这两个词词义相近,且都有可以出现在定语和表语的位置
,但它们在定语和表语的位置各有偏好,这些趋向性和它 们在不同语域的分布有很强的联系。作者通过分析它们在 学术语料库和对话语料库中的分布,得出结论:little经常 与有生命的名词一起出现,而small总是和表示数量的名 词一起出现。 • (学术语料库:Longman语料库,500万词 • 对话语料库:英语国家语料库,500万词) • 2.begin和start
• 《牛津英语词典》(18世纪晚期)
词汇语法
• 词汇层面研究: 一词多义、同义词或近义词 词的惯用搭配 不同语域的词义分布 …
• 语法层面研究: 单词的语法类别-----词法 单词组合成句的方法、规则 各种语言结构的频率分布 语法结构与其他语言或非语言因素之间的关系 (That we mustn’t worry too much is clear. It is clear that we mustn’t worry too much.) …
L/O/G/O
Thank You!
检索工具。主要功能包括:制作语境共现、句内语境共现( sentence《co语nc料o库rd辅an助ce英)语、教检学索入词门搭》配. 、词频表。 3)Wordsmith Tools:由英国利物浦大学Mike Scott设计的 一个功能强大的综合软件包。包含Concord(语境共现检索 工具),Wordlist(词频列表检索工具),Keywords(关键词 检索工具),Splitter(文本分割工具),Text Converter(文 本替换工具),Viewer(文本浏览工具)等6个程序。
语料库。
• 系统型语料库/专用型语料库(通用语料库/专用语料库) • 系统型语料库:依据事先确定的选材原则和比例选取语料
的语料库。 • 专用型语料库:专门服务于某个特定目的的语料库。
• 书面语料库 • 口语语料库
• 共时语料库 • 历时语料库
• 单语语料库 • 双语语料库 • 多语语料库
国外语料库的发展 COBUILD (Collins Birmingham University International Language Database) Corpus:
80年代第一个以词典编撰为应用背景构建的大规模语料库,是英国Birmingham大学与 Collins出版社合作的结果,规模达到2000万词。
LongmaBn语ro料wn库语:料建库于:80年于代19,64包L年O括B公三(布L个a于n语c世a料st,库er/:后OLs又lLo-经EBLe多rCg语次en料修C库or(pLuCosnOogfCmBAai语rnm/L料ian库ngch-aa-s-mt美e)r国 英语语料改库的)、BLroSwC语n U料n库iv(eLrosnitgym语Sat料na口n库d语:a语r以d料C英库o式r)p、英uL语s Co为fLPE对r(象eLsoe,nng规tm- 模an达当英1代语00语学万料习词库语。料库); 以编撰英D模语a达y学A1习0m0词e万r典i句c为a。n目E标ng,li为sh外L库,L国:以C人以美(L学英o国n习式d出o英口n版语-语L物服u为n为务对d C,对象o词,象rp典规u,s规模o规f模达Sp达5o05k万I语0eCn0词语E0E万语。料n词g料库li次库sh。)—语国料际英
语法结构与单词环境
• 通过考察语法结构和词汇的不同联结模式,可以区分同义 或近义的语法结构,例如:
• that补语从句和to补语从句 补语从句补充动词或形容词的意思,某些意义上,这两 个从句是几乎等价的语法结构,如 I hope that I can go. I hope to go. 基于学术语料库和对话语料库,作者通过分析语料中这两 中从句的词汇联结(动词语域),得出结论:that从句在 会话中的出现比率很高,用来表示人的所思所想,所了解 和所说的;在学术中,that从句则相对罕见,用来报道研 究发现中的结论。to从句在两个语料库中的出现率相差不 大,但在对话语料库中,与该从句同时使用的动词更倾向 于与有生命的主语一起出现,学术中则与无生命的主语共 现。
• 同时,因其较高的应用价值,学习者语料库和双语平行语 料库的建设及研究成为我国语料库语言学的重心。
学习者语料库
收集了包括 中学生、大 学英语4级 和6级、专 业英语低年 级和高年级 在内的5种 学生的语料, 规模达一百 多万词。
以2000-2003 年全国大学 英语四级考 试口语考试 部分的实景 音像资料为 语料,规模 达70万词。
以1996-2002 年的全国英 语专业四级 口试的语音 样本及转写 文本为语料, 总规模达100 万词。
以国内9所不 同层次的高校 英语专业1 - 4 年级学生的英 语词不 等,写作条件 为课堂限时和 课外非限时作 文两种。
CLEC
COLSEC SECCL
1960-1970
1970-1980
1980-1990
1990-至今
国内语料库的发展
• 从理论研究方面看,2000外语教学与研究出版社引进了 Biber等人的《语料库语言学》和Kennedy的《语料库语 言学入门》。 2002 杨惠中教授编写的《语料库语言学导 论》,是我国第一本该学科的专著。 2008卫乃兴的《语 料库语言学的弗斯学说基础》,探讨语料库语言学的学科 本质。
WECCL
学习者语料库
双语平行语料库
平行语料库
PACCEL是我国第一 个学习者英汉、汉 英口笔译语料库, 收录了2003-2007我 国大学英语专业三、 四年级学生的口译 和笔译翻译测试语 料,实际收录210万 字词。
3
儿童与成年的第二语言习得
语言的历时和风格研究
• 历时语料库-------(赫尔辛基语料库的语料收集始于1984 年,历时语言学的研究大多都是基于该语料库进行)
• 语言的历时与风格研究: 1.语法和词汇特征的历时变化 2.口语和书面语的历时变化 3.方言的变化 4.男性和女性语言的历史变化
小结
• 主要语料库检索工具:
• 1道)格A拉nt斯Co·比nc伯:-由---日《本语学料者库L语a言ur学en》ce清A华nth大o学ny出开版发社,具有词
语检索、生成词表和主题词三大功能。 • 2何)安C平on--c--a《pp语:料是库香语港言理学工与大英学语C教hr学is》G.reaves研制的语料库