语料库的研究PPT
合集下载
语料库研究基本方法PPT课件
第15页/共26页
几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
语料库的研究PPT
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
201308041041 0109
语料库标注加工
语料库加工软件系统
分词词表
201308041041
0109
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201308041041 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
201308041041
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201308041041 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201308041041
《国家语委语料库》课件
语料库的共享机制和平台
添加 标题
国家语委语料库的共享机制:介绍语料库的共 享机制,包括共享方式、共享范围、共享内容 等。
添加 标题
国家语委语料库的合作平台:介绍语料库的合 作平台,包括合作方式、合作内容、合作对象 等。
添加 标题
国家语委语料库的共享和合作的意义:介绍语 料库的共享和合作的意义,包括促进语言研究、 推动语言教育、促进文化交流等。
• 案例3:国家语委语料库在语言规划中的应用 • 提供数据支持,为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化,提高语言的交际效率。 • 推动语言的健康发展,促进社会的和谐稳定。 案例4:国家语委语料库在文化传承中的应用
• 案例4:国家语委语料库在文化传承中的应用 • 保存和传承文化遗产,为后人留下宝贵的文化遗产。 • 促进文化的交流与传播,推动文化的多元化发展。 • 推动文化的创新与发展,为现代社会注入新的文化元素。
添加 标题
国家语委语料库的未来发展:介绍语料库的未 来发展,包括扩大语料库规模、提高语料库质 量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式:国家语委语料库与高校、研究机构等合作,共同开展语言研究、教学等工作。 • 案例:国家语委语料库与某高校合作,共同开展汉语词汇研究,为汉语教学提供支持。 语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背 景和意义
数字化语料库的建 设过程
数字化语料库的智 能化发展
数字化语料库的应智能化语料库的定义和特 点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级:随着技术的不断发展,数字化语料库将更加全面、高效地升级, 实现更加精准、快速的数据检索和分析。
语料库ppt课件
• 语料库驱动的译学研究 在不预设任何理论或假设的前提下,使用原始文 本或不作任何标注处理的文本,提取高频使用的 词汇或句法结构,或者其他特定翻译事实,归纳 出某一理论或建构某一理论框架。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
语料库开题报告(课堂PPT)
11
Chapter 3. Theoretical Framework
3.1 Thompson & Hylan’s Theory 3.2 Semantic Implication of RVs
12
Chapter 4. Corpus Data Analysis
4.1 Description of the findings 4.1.1 The frequency of RVs in Chinese Writer Corpus 4.1.2 The frequency of RVs in NE corpus
Thesis evaluation also attracts attention, studies of which include topic selection, structure, the format decision, punctuation and appropriate use of phrases and grammar.(Wang & Wang 1998; Shaw 1991) Studies are also carried out on the genre of thesis (Sunny & Rong 2004), or genre, frames and writing in research settings (Brian 1997:192).
2
Introduction
To define Reporting: the attribution of propositional content to a source outside the writer of the article in the current situation, and the marking of this by the presence of any of a number of signals of attribution (Thomas and Hawes 1994:129).
Chapter 3. Theoretical Framework
3.1 Thompson & Hylan’s Theory 3.2 Semantic Implication of RVs
12
Chapter 4. Corpus Data Analysis
4.1 Description of the findings 4.1.1 The frequency of RVs in Chinese Writer Corpus 4.1.2 The frequency of RVs in NE corpus
Thesis evaluation also attracts attention, studies of which include topic selection, structure, the format decision, punctuation and appropriate use of phrases and grammar.(Wang & Wang 1998; Shaw 1991) Studies are also carried out on the genre of thesis (Sunny & Rong 2004), or genre, frames and writing in research settings (Brian 1997:192).
2
Introduction
To define Reporting: the attribution of propositional content to a source outside the writer of the article in the current situation, and the marking of this by the presence of any of a number of signals of attribution (Thomas and Hawes 1994:129).
语料库的建设和应用.ppt
我们定了14个领域包括理论心理社会应用语用神经认知语音包括理论心理社会应用语用神经认知语音语法语义词汇语料语体语篇生物语言学和自然语言处理随机抽样500篇每篇2000字上下
一种改善语言教学的利器 ——语料库
桂诗春
1. 语料库的兴起
❖ 发祥地
语料库语言学首先在美国。 60年代开始,美国建立了100万词的 Brown语料库(Francis & Kucera)。
概率
0.01 次序
Zipf定律除 了高低两端 的次序外都
较准确。
3. 语料库的设计和制作
❖ 一般来说,对语料库的统计整理主要是编制词频排列表(按 次序和按字母排列)和词频分布表。 Carroll等人根据AHI所 编制成《词频手册》(1971)对词频排列表,除了频数外,还 计算出其D值,U值和SFI值。CLEC也照样给出这几个值。 D值为分布指数,从1~0,指数越大意味着一个词在不同类 别的文本中的频数越大,使用面越广。U值指一个词折算成 100万词的频数(因为不是所有的语料库都是100万词的), SFI为标准频数指数(Standard Frequency Index),表示 词型和词次的关系,根据U值算出。90表示一个词在10词次、 80表示100词次、70表示1000……40表示100万词次中出现 一次。
围) 开放性,容许研究者根据需要再作增加或进一步
细分。 对语体使用不作赋码,避免主观性。
错误标注方案
Form
Code
Type
Code
fm1
spelling
vp1
fm2
word building
vp2
fm3
capitalization
vp3
vp4
vp5
一种改善语言教学的利器 ——语料库
桂诗春
1. 语料库的兴起
❖ 发祥地
语料库语言学首先在美国。 60年代开始,美国建立了100万词的 Brown语料库(Francis & Kucera)。
概率
0.01 次序
Zipf定律除 了高低两端 的次序外都
较准确。
3. 语料库的设计和制作
❖ 一般来说,对语料库的统计整理主要是编制词频排列表(按 次序和按字母排列)和词频分布表。 Carroll等人根据AHI所 编制成《词频手册》(1971)对词频排列表,除了频数外,还 计算出其D值,U值和SFI值。CLEC也照样给出这几个值。 D值为分布指数,从1~0,指数越大意味着一个词在不同类 别的文本中的频数越大,使用面越广。U值指一个词折算成 100万词的频数(因为不是所有的语料库都是100万词的), SFI为标准频数指数(Standard Frequency Index),表示 词型和词次的关系,根据U值算出。90表示一个词在10词次、 80表示100词次、70表示1000……40表示100万词次中出现 一次。
围) 开放性,容许研究者根据需要再作增加或进一步
细分。 对语体使用不作赋码,避免主观性。
错误标注方案
Form
Code
Type
Code
fm1
spelling
vp1
fm2
word building
vp2
fm3
capitalization
vp3
vp4
vp5
语料库的设计与开发-PPT课件
10
2019/2/21
规模(2)
齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料 库中每个词指派一个由小到大的整数秩(rank),则f与r近似 成反比,即 f*r=k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝 大部分,而词(型)总数中大约一半的词在这个语料库中却 只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规 则的分布状态。极少数常用句法规则覆盖了语料库中绝大 多数的句法结构现象,而很多规则只出现一次。并且,语 料库规模的扩大,句法规则的数目也不断增长,与乔姆斯 基的著名假设—句法规则数目的有限性和句子数目的无限 性,提出了挑战。
第二讲 语料库的设计和开发 统计的一些基本概念
2019/2/21
1
语料库的设计与开发
语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍
2019/2/21
2
从事语料库语言学研究的人员首先面临的任务 是建立语料库。他们必须对语料库应该包含哪 些语料以及如何组织这些语料等问题作出决定, 并且能够控制以后在使用语料库的过程中将要 发生的事情。语言学家则要能够处理语料中的 任何语言实例。
2019/2/21
3Leabharlann 语料库设计与编纂中的问题
出发点是:如何使得在其基础上开展的语言调 查是合理的和可靠的。 Kennedy(2019)指出了语料库设计师所面临的 最基本问题:这个语料库所采集的语言数据是 否真正代表了某种期望的语言或语体。语料库 的建设与编纂过程中应考虑的问题包括:
例如,SEU语料库试图以静态方式在不同使用领域的口语和 书面语材料中选择英国英语的样本,使语料库可以作为英语 共时的代表。设计这样的语料库,需小心处理如下问题:特 定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编 撰的。他认为SEU语料库是英国英语的一种快照,语料库象 一幅风景照,目的是抓住风景的主要特征。只收集主要的体 裁,并非所有语言现象。
2019/2/21
规模(2)
齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料 库中每个词指派一个由小到大的整数秩(rank),则f与r近似 成反比,即 f*r=k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝 大部分,而词(型)总数中大约一半的词在这个语料库中却 只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规 则的分布状态。极少数常用句法规则覆盖了语料库中绝大 多数的句法结构现象,而很多规则只出现一次。并且,语 料库规模的扩大,句法规则的数目也不断增长,与乔姆斯 基的著名假设—句法规则数目的有限性和句子数目的无限 性,提出了挑战。
第二讲 语料库的设计和开发 统计的一些基本概念
2019/2/21
1
语料库的设计与开发
语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍
2019/2/21
2
从事语料库语言学研究的人员首先面临的任务 是建立语料库。他们必须对语料库应该包含哪 些语料以及如何组织这些语料等问题作出决定, 并且能够控制以后在使用语料库的过程中将要 发生的事情。语言学家则要能够处理语料中的 任何语言实例。
2019/2/21
3Leabharlann 语料库设计与编纂中的问题
出发点是:如何使得在其基础上开展的语言调 查是合理的和可靠的。 Kennedy(2019)指出了语料库设计师所面临的 最基本问题:这个语料库所采集的语言数据是 否真正代表了某种期望的语言或语体。语料库 的建设与编纂过程中应考虑的问题包括:
例如,SEU语料库试图以静态方式在不同使用领域的口语和 书面语材料中选择英国英语的样本,使语料库可以作为英语 共时的代表。设计这样的语料库,需小心处理如下问题:特 定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编 撰的。他认为SEU语料库是英国英语的一种快照,语料库象 一幅风景照,目的是抓住风景的主要特征。只收集主要的体 裁,并非所有语言现象。
语料库语言学PPT
用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。
汉语中介语语料库介绍幻灯片PPT
四 常用中介语语料库
〔一〕北语HSK动态作文语料库 〔二〕中山大学中介语语料库 〔三〕暨南大学中介语语料库
〔一〕北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进展 全面标注,语料收集的时间范围是 1992 -2005年。语料总数到达11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注标准的中介语语料库,因 此之后的许多语料库在进展偏误分类标注时,都以它为根底,做适当的 修改。
“汉字偏误标注版〞是只有错别字标注的语料,但也可供用户进展一般的 词汇语言搜索,同时可以供大家对汉字偏误进展分析研究。 “错字数据库〞是该库一大重要特色。错字数据库中收集了语料库中的所 有错字使用情 况,可供大家查询、分析。“汉字标注版〞截止 2021 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离〔比方“帮… 忙〞〕;可以查询汉语特有的重叠模式;支持对标点符号的查询等等。
语料库语言学(共13张PPT)
以语料库设计分:均衡结构语料库、无结构的随机开放式语 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
长:中:短=1:2:3
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• 现代汉语语料库在语料的选择上,应当具有区别性特征。 • 有别于专业性。 • 有别于地域性。 • 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
加工
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用
选材规模
规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
选材的分类
依据材料内容,选材大体作如下分类:
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标
注) 句法树库
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议
1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会
1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注
为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
样本原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。
语言材料的完整性
2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。
125
文学
50%
1500 75
225
375
75
750
其他
8.3%
250
12.5
37.5
62.5
12.5
125
设计样本分布
表二:文学类(含口语)
体题 裁材
比例
1919192 5
1926194 9
1950196 5
1966197 6
1977-
小说
30%
450
散文
20%
300
(杂文)
传记
10%
150
报告文学 10%
文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。
1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人
文与社会科学类的50%。
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。
目前比较通用的具有通论性质的大学各 科基础必修课程的教材。
语言材料的遍历性
选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。
3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程
度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进
行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。
3.选材年限及密度
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世
(3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗;
(4)经济:工业经济、农业经济、政治经济、财贸经 济;
(5)艺术:音乐、美术、舞蹈、戏剧;
(6)文学:小说、散文、传记、报告文学、科幻、口 语;
(7)军体:军事、体育;
(8)生活。
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。
• 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。
一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。
每个样本之中必为连续的语料内容。
150
科幻
10%
150
口语
20%
300
5%
15%
22.5
67.5
15
45
15
22.5
50
50
15
45
25%
5%
112.5
22.5
75
15
37.5
15
100
100
75
15
50% 225 150 75
150
1993年1月制订《现代汉语语料库选材原则》
具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。
涉及自然科学各个门类的科普读物。
现代汉语语料库选材字数的分布
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。
文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。
长、中、短篇小说的选取比例大致为:
选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
1.人文与社会科学类划分为8个大类和30个小类:
(1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族;
5%
15%
25%
5%
50%
哲学
8.3%
250
12.5
37.5
62.5
12.5
125
历史
8.3%
250
12.5
37.5
62.5
12.5
125
社会
8.3%
250
12.5
37.5
62.5
12.5
125
经济
8.3%
250
12.5
37.5
62.5
12.5
125
艺术
8.3%
250
12.5
37.5
62.5
12.5
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。
各类语料所占比例如下:
人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
应用文(包括广告、说明书等)
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000
5000000 0
字数
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年
白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• 现代汉语语料库在语料的选择上,应当具有区别性特征。 • 有别于专业性。 • 有别于地域性。 • 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
加工
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用
选材规模
规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
选材的分类
依据材料内容,选材大体作如下分类:
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标
注) 句法树库
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议
1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会
1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注
为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
样本原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。
语言材料的完整性
2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。
125
文学
50%
1500 75
225
375
75
750
其他
8.3%
250
12.5
37.5
62.5
12.5
125
设计样本分布
表二:文学类(含口语)
体题 裁材
比例
1919192 5
1926194 9
1950196 5
1966197 6
1977-
小说
30%
450
散文
20%
300
(杂文)
传记
10%
150
报告文学 10%
文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。
1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人
文与社会科学类的50%。
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。
目前比较通用的具有通论性质的大学各 科基础必修课程的教材。
语言材料的遍历性
选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。
3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程
度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进
行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。
3.选材年限及密度
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世
(3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗;
(4)经济:工业经济、农业经济、政治经济、财贸经 济;
(5)艺术:音乐、美术、舞蹈、戏剧;
(6)文学:小说、散文、传记、报告文学、科幻、口 语;
(7)军体:军事、体育;
(8)生活。
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。
• 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。
一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。
每个样本之中必为连续的语料内容。
150
科幻
10%
150
口语
20%
300
5%
15%
22.5
67.5
15
45
15
22.5
50
50
15
45
25%
5%
112.5
22.5
75
15
37.5
15
100
100
75
15
50% 225 150 75
150
1993年1月制订《现代汉语语料库选材原则》
具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。
涉及自然科学各个门类的科普读物。
现代汉语语料库选材字数的分布
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。
文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。
长、中、短篇小说的选取比例大致为:
选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
1.人文与社会科学类划分为8个大类和30个小类:
(1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族;
5%
15%
25%
5%
50%
哲学
8.3%
250
12.5
37.5
62.5
12.5
125
历史
8.3%
250
12.5
37.5
62.5
12.5
125
社会
8.3%
250
12.5
37.5
62.5
12.5
125
经济
8.3%
250
12.5
37.5
62.5
12.5
125
艺术
8.3%
250
12.5
37.5
62.5
12.5
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。
各类语料所占比例如下:
人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
应用文(包括广告、说明书等)
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000
5000000 0
字数
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年
白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年