语料库的研究PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
33333333333333333333 0109
语言材料的完整性
语言材料的遍历性
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。 • 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
33333333333333333333 0109
33333333333333333333 0109
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标 注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责
33333333333333333333 0109
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议 1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注 加工
33333333333333333333 0109
wenku.baidu.com
经济; 艺术(含音乐、美术、舞蹈、戏剧等); 文学(含口语); 军体; 生活(含衣食住行等方面的普及读物)。 自然科学(含农业、医学、工程与技术) 报刊 应用文
33333333333333333333
0109
3.选材年限及密度
样本原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
33333333333333333333
0109
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
33333333333333333333
0109
1.人文与社会科学类划分为8个大类和30个小类: (1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族; (3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗; (4)经济:工业经济、农业经济、政治经济、财贸经 济; (5)艺术:音乐、美术、舞蹈、戏剧; (6)文学:小说、散文、传记、报告文学、科幻、口 语; (7)军体:军事、体育; (8)生活。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
33333333333333333333
0109
33333333333333333333
0109
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。 各类语料所占比例如下: 人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世 影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年 中华人民共和国的成立给社会文化生活带来巨大变化,新词新 语大量涌现。这部分语料拟占人文与社会科学类的25%。 1966——1976年 文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。 1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人 文与社会科学类的50%。
33333333333333333333 0109
选材规模
选材的分类
依据材料内容,选材大体作如下分类:
教材
• 大中小学教材单作一类,约2000万字。不 计入5000万字的语料之内。
人文与社会科学的语言材料,包括:
• 政法(含哲学、政治、宗教、法律等); • 历史(含民族等) • 社会(含社会学、心理、语言、教育、文 艺理论、新闻学、民俗学等);
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
33333333333333333333 0109
语料库标注加工
语料库加工软件系统
分词词表
33333333333333333333
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。 文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。 长、中、短篇小说的选取比例大致为: 长:中:短=1:2:3
33333333333333333333
0109
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
33333333333333333333
年份
0109
标注语料库
词语切分
分词词表 词表结构化 <信息处理用现代汉语词类标记集规范>
33333333333333333333 0109
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
33333333333333333333
0109
现代汉语语料库选材字数的分布
5%
15%
25%
5%
50%
小说
散文 (杂文) 传记 报告文学 科幻 口语
30%
20%
450
300
22.5
15
67.5
45
112.5
75
22.5
15
225
150
10% 10% 10% 20%
150 150 150 300
15 50 50 15
22.5
37.5 100 100
15
75
45
33333333333333333333
哲学 历史 社会 经济 艺术 文学 其他
8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3%
250 250 250 250 250 1500 250
12.5 12.5 12.5 12.5 12.5 75 12.5
设计样本分布
体题 裁材
表二:文学类(含口语)
比例 19191925 19261949 19501965 19661976 1977-
语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
33333333333333333333 0109
75
15
150
0109
1993年1月制订《现代汉语语料库选材原则》 具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。 选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
33333333333333333333
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 33333333333333333333 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
0109
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• • • • 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
33333333333333333333
0109
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000 5000000 0 字数
33333333333333333333
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
33333333333333333333 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
33333333333333333333
0109
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。 大学教材门类以国家规定的大学基础必修课为准。 避免选取文言色彩较重的篇章作语料,例如鲁迅等作家 的作品不宜用作语料。 避免选取诗歌作语料;剔除篇章中诗歌形式的内容。
语言材料的完整性
语言材料的遍历性
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。 • 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
33333333333333333333 0109
33333333333333333333 0109
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标 注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责
33333333333333333333 0109
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议 1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注 加工
33333333333333333333 0109
wenku.baidu.com
经济; 艺术(含音乐、美术、舞蹈、戏剧等); 文学(含口语); 军体; 生活(含衣食住行等方面的普及读物)。 自然科学(含农业、医学、工程与技术) 报刊 应用文
33333333333333333333
0109
3.选材年限及密度
样本原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
33333333333333333333
0109
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
33333333333333333333
0109
1.人文与社会科学类划分为8个大类和30个小类: (1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族; (3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗; (4)经济:工业经济、农业经济、政治经济、财贸经 济; (5)艺术:音乐、美术、舞蹈、戏剧; (6)文学:小说、散文、传记、报告文学、科幻、口 语; (7)军体:军事、体育; (8)生活。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
33333333333333333333
0109
33333333333333333333
0109
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。 各类语料所占比例如下: 人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世 影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年 中华人民共和国的成立给社会文化生活带来巨大变化,新词新 语大量涌现。这部分语料拟占人文与社会科学类的25%。 1966——1976年 文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。 1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人 文与社会科学类的50%。
33333333333333333333 0109
选材规模
选材的分类
依据材料内容,选材大体作如下分类:
教材
• 大中小学教材单作一类,约2000万字。不 计入5000万字的语料之内。
人文与社会科学的语言材料,包括:
• 政法(含哲学、政治、宗教、法律等); • 历史(含民族等) • 社会(含社会学、心理、语言、教育、文 艺理论、新闻学、民俗学等);
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
33333333333333333333 0109
语料库标注加工
语料库加工软件系统
分词词表
33333333333333333333
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。 文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。 长、中、短篇小说的选取比例大致为: 长:中:短=1:2:3
33333333333333333333
0109
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
33333333333333333333
年份
0109
标注语料库
词语切分
分词词表 词表结构化 <信息处理用现代汉语词类标记集规范>
33333333333333333333 0109
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
33333333333333333333
0109
现代汉语语料库选材字数的分布
5%
15%
25%
5%
50%
小说
散文 (杂文) 传记 报告文学 科幻 口语
30%
20%
450
300
22.5
15
67.5
45
112.5
75
22.5
15
225
150
10% 10% 10% 20%
150 150 150 300
15 50 50 15
22.5
37.5 100 100
15
75
45
33333333333333333333
哲学 历史 社会 经济 艺术 文学 其他
8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3%
250 250 250 250 250 1500 250
12.5 12.5 12.5 12.5 12.5 75 12.5
设计样本分布
体题 裁材
表二:文学类(含口语)
比例 19191925 19261949 19501965 19661976 1977-
语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
33333333333333333333 0109
75
15
150
0109
1993年1月制订《现代汉语语料库选材原则》 具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。 选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
33333333333333333333
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 33333333333333333333 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
0109
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• • • • 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
33333333333333333333
0109
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000 5000000 0 字数
33333333333333333333
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
33333333333333333333 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
33333333333333333333
0109
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。 大学教材门类以国家规定的大学基础必修课为准。 避免选取文言色彩较重的篇章作语料,例如鲁迅等作家 的作品不宜用作语料。 避免选取诗歌作语料;剔除篇章中诗歌形式的内容。