语料库PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0109
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
201302242123
年份
0109
标注语料库
词语切分
分词词表 词表结构化 <信息处理用现代汉语词类标记集规范>
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标 注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责
201302242123 0109
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议 1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注 加工
201302242123
0109
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
201302242123 0109
201302242123 0109
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201302242123 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
201302242123 0109
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世 影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年 中华人民共和国的成立给社会文化生活带来巨大变化,新词新 语大量涌现。这部分语料拟占人文与社会科学类的25%。 1966——1976年 文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。 1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人 文与社会科学类的50%。
哲学 历史 社会 经济 艺术 文学 其他
8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3%
250 250 250 250 250 1500 250
12.5 12.5 12.5 12.5 12.5 75 12.5
设计样本分布
体题 裁材
表二:文学类(含口语)
比例 19191925 19261949 19501965 19661976 1977-
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
201302242123 0109
语料库标注加工
语料库加工软件系统
分词词表
201302242123
0109
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201302242123
0109
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。 大学教材门类以国家规定的大学基础必修课为准。 避免选取文言色彩较重的篇章作语料,例如鲁迅等作家 的作品不宜用作语料。 避免选取诗歌作语料;剔除篇章中诗歌形式的内容。
201302242123 0109
超大规模通用平衡语料库
谢谢 !
201302242123
0109
201302242123 0109
经济; 艺术(含音乐、美术、舞蹈、戏剧等); 文学(含口语); 军体; 生活(含衣食住行等方面的普及读物)。 自然科学(含农业、医学、工程与技术) 报刊 应用文
201302242123
0109
3.选材年限及密度
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
201302242123
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201302242123 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
75
15
150
0109
1993年1月制订《现代汉语语料库选材原则》 具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。 选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
201302242123
0109
1.人文与社会科学类划分为8个大类和30个小类: (1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族; (3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗; (4)经济:工业经济、农业经济、政治经济、财贸经 济; (5)艺术:音乐、美术、舞蹈、戏剧; (6)文学:小说、散文、传记、报告文学、科幻、口 语; (7)军体:军事、体育; (8)生活。
选材规模
选材的分类
依据材料内容,选材大体作如下分类:
教材
• 大中小学教材单作一类,约2000万字。不 计入5000万字的语料之内。
人文与社会科学的语言材料,包括:
• 政法(含哲学、政治、宗教、法律等); • 历史(含民族等) • 社会(含社会学、心理、语言、教育、文 艺理论、新闻学、民俗学等);
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
201302242123 0109
语言材料的完整性
语言材料的遍历性
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。 • 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
5%
15%
2Fra Baidu bibliotek%
5%
50%
小说
散文 (杂文) 传记 报告文学 科幻 口语
30%
20%
450
300
22.5
15
67.5
45
112.5
75
22.5
15
225
150
10% 10% 10% 20%
150 150 150 300
15 50 50 15
22.5
37.5 100 100
15
75
45
201302242123
201302242123
0109
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• • • • 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
201302242123
0109
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000 5000000 0 字数
201302242123
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
201302242123 0109
样本原则
201302242123
0109
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。 各类语料所占比例如下: 人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
201302242123
0109
语料的描述性原则
201302242123 0109
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
201302242123
0109
现代汉语语料库选材字数的分布
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。 文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。 长、中、短篇小说的选取比例大致为: 长:中:短=1:2:3
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
201302242123
年份
0109
标注语料库
词语切分
分词词表 词表结构化 <信息处理用现代汉语词类标记集规范>
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标 注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责
201302242123 0109
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议 1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注 加工
201302242123
0109
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
201302242123 0109
201302242123 0109
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201302242123 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
人文与社会科学类
以1919年为上限,选取五四以来的语 言材料。对五四以来各个历史时期的语 料采取不等密度选用的方式。
201302242123 0109
1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世 影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语 的规范。这部分语料拟占人文与社会科学类的5%。 1926——1949年 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分 语料拟占人文与社会科学类的15%。 1950——1965年 中华人民共和国的成立给社会文化生活带来巨大变化,新词新 语大量涌现。这部分语料拟占人文与社会科学类的25%。 1966——1976年 文化大革命时期产生的作品,其中许多随着文革的结束而仅作 为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的 5%。 1977—— 新时期的语料代表了现代汉语的最新发展。这部分语料拟占人 文与社会科学类的50%。
哲学 历史 社会 经济 艺术 文学 其他
8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3%
250 250 250 250 250 1500 250
12.5 12.5 12.5 12.5 12.5 75 12.5
设计样本分布
体题 裁材
表二:文学类(含口语)
比例 19191925 19261949 19501965 19661976 1977-
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
201302242123 0109
语料库标注加工
语料库加工软件系统
分词词表
201302242123
0109
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201302242123
0109
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。 大学教材门类以国家规定的大学基础必修课为准。 避免选取文言色彩较重的篇章作语料,例如鲁迅等作家 的作品不宜用作语料。 避免选取诗歌作语料;剔除篇章中诗歌形式的内容。
201302242123 0109
超大规模通用平衡语料库
谢谢 !
201302242123
0109
201302242123 0109
经济; 艺术(含音乐、美术、舞蹈、戏剧等); 文学(含口语); 军体; 生活(含衣食住行等方面的普及读物)。 自然科学(含农业、医学、工程与技术) 报刊 应用文
201302242123
0109
3.选材年限及密度
教材类
选取现在通用的教材为建库的语言材料。 中小学课本所选内容涉及各个学科的基 本知识,一般为典范的现代汉语作品, 具有相当的普及性、代表性。
201302242123
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201302242123 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
75
15
150
0109
1993年1月制订《现代汉语语料库选材原则》 具体选材任务分别由中国社会科学院语言所、 北京师范大学中文系和中国人民大学中文系 三个课题组承担。 选材工作自1992年底开始,按照通用性、描 述性、实用性等原则系统地抽样选择了19191992年的现代汉语语言材料7000万字,由人 文与社会科学、自然科学及综合三个大类约 40个小类组成。
201302242123
0109
1.人文与社会科学类划分为8个大类和30个小类: (1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族; (3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗; (4)经济:工业经济、农业经济、政治经济、财贸经 济; (5)艺术:音乐、美术、舞蹈、戏剧; (6)文学:小说、散文、传记、报告文学、科幻、口 语; (7)军体:军事、体育; (8)生活。
选材规模
选材的分类
依据材料内容,选材大体作如下分类:
教材
• 大中小学教材单作一类,约2000万字。不 计入5000万字的语料之内。
人文与社会科学的语言材料,包括:
• 政法(含哲学、政治、宗教、法律等); • 历史(含民族等) • 社会(含社会学、心理、语言、教育、文 艺理论、新闻学、民俗学等);
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
201302242123 0109
语言材料的完整性
语言材料的遍历性
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。 • 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
5%
15%
2Fra Baidu bibliotek%
5%
50%
小说
散文 (杂文) 传记 报告文学 科幻 口语
30%
20%
450
300
22.5
15
67.5
45
112.5
75
22.5
15
225
150
10% 10% 10% 20%
150 150 150 300
15 50 50 15
22.5
37.5 100 100
15
75
45
201302242123
201302242123
0109
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• • • • 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
201302242123
0109
当前语料库样本分布-类别
30000000 25000000 20000000 15000000 10000000 5000000 0 字数
201302242123
文学 社会 经济 报纸 其他 政法 艺术 农林 历史 生化 数理 医药卫生 天文地理 海洋气象 行政公文
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
201302242123 0109
样本原则
201302242123
0109
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。 各类语料所占比例如下: 人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。
201302242123
0109
语料的描述性原则
201302242123 0109
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
201302242123
0109
现代汉语语料库选材字数的分布
人文与社会科学的语言材料占全部5000万字 语料的60%,为3000万字。这3000万字在各 个学科的分布见表一。 文学的语言材料占人文与社会科学类的50%, 共1500万字。这1500万字在不同体裁、题材 的语料的分布见表二。 长、中、短篇小说的选取比例大致为: 长:中:短=1:2:3