语料库的研究PPT
合集下载
《语料库建设和应用》课件
REPORT
CATALOG
DATE
ANALYSIS
SUMMARY
《语料库建设和应用 》ppt课件
目录
CONTENTS
• 语料库简介 • 语料库建设 • 语料库应用 • 语料库的未来发展 • 总结与展望
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
01
语料库简介
语料库的定义
语料库是一种语言数据的集合,用于 存储自然语言文本或话语的样本,以 便进行语言研究和分析。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
04
语料库的未来发展
语料库的规模和多样性
总结词
随着信息技术的不断发展,语料库的规模和多样性将得到进一步提升。
详细描述
随着数据存储能力的提升和信息获取渠道的增多,未来的语料库将覆盖更广泛的领域和内容,不仅在 规模上实现大幅度增长,而且将更加注重多样性的提升,包括语言种类、领域、话题、语体等方面的 多样性。
语料库通常由大量真实的、未经过处 理的文本构成,这些文本可以是书面 语或口语,来自不同的领域和语境。
语料库的类型
单语语料库、双语语料库 、多语语料库。
通用语料库、专用语料库 。
小型语料库、中型语料库 、大型语料库。
按照规模
按照目的
按照语言
语料库的作用
提供语言研究的基础数据
支持语言分析
语料库为语言研究提供了大量真实、丰富 的语言数据,是语言学、自然语言处理等 领域研究的基础。
机器翻译
翻译质量评估
利用语料库对机器翻译的质量进行评估,通 过对比人工翻译和机器翻译的差异,不断优 化机器翻译的算法和模型。
CATALOG
DATE
ANALYSIS
SUMMARY
《语料库建设和应用 》ppt课件
目录
CONTENTS
• 语料库简介 • 语料库建设 • 语料库应用 • 语料库的未来发展 • 总结与展望
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
01
语料库简介
语料库的定义
语料库是一种语言数据的集合,用于 存储自然语言文本或话语的样本,以 便进行语言研究和分析。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
04
语料库的未来发展
语料库的规模和多样性
总结词
随着信息技术的不断发展,语料库的规模和多样性将得到进一步提升。
详细描述
随着数据存储能力的提升和信息获取渠道的增多,未来的语料库将覆盖更广泛的领域和内容,不仅在 规模上实现大幅度增长,而且将更加注重多样性的提升,包括语言种类、领域、话题、语体等方面的 多样性。
语料库通常由大量真实的、未经过处 理的文本构成,这些文本可以是书面 语或口语,来自不同的领域和语境。
语料库的类型
单语语料库、双语语料库 、多语语料库。
通用语料库、专用语料库 。
小型语料库、中型语料库 、大型语料库。
按照规模
按照目的
按照语言
语料库的作用
提供语言研究的基础数据
支持语言分析
语料库为语言研究提供了大量真实、丰富 的语言数据,是语言学、自然语言处理等 领域研究的基础。
机器翻译
翻译质量评估
利用语料库对机器翻译的质量进行评估,通 过对比人工翻译和机器翻译的差异,不断优 化机器翻译的算法和模型。
语料库研究基本方法PPT课件
第15页/共26页
几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1
《语料库建设和应用》课件
机器翻译
语料库是机器翻译系统训练和优 化的重要数据源。
教育教学
语料库可以支持语言教学和教材 开发,提供真实的语言例句和语 境。
中文信息处理中的应用
中文分词
通过分析中文语料,将连续 的汉字序列切割成有意义的 词语。
命名实体识别
识别文本中的人名、地名、 机构名等特定实体。
文本分类
将文本按照预定义的类别划 分,例如情感分类、主题分 类等。
定义和作用
语料库是用于语言学和语言处理研究的文本集合,它帮助我们了解语言规律、分析语言现象,并支持自然语言 处理算法的设计和开发。
分类和特点
分类多样
根据用途、规模、结构等因素进行分类,例如大规模通用语料库和特定领域语料库。
真实性和多样性
语料库收集真实的语言数据,包含多种语言特点和风格,准确反映实际语言使用情况。
标注语料
4
根据研究需求,给语料加上标签、词性 等注释,便于后续的分析和处理。
语种选择和样本采集
1 多样语种
语料库可以涵盖多种语种,包括汉语、英语、法语、俄语等,满足不同研究和应用的需 求。
2 样本选择
样本应具有代表性,反映目标语言的各个层面和变体,如地区差异、社会群体和年代变 化。
3 多渠道采集
通过图书馆、在线文本库、互联网等多种渠道采集样本,确保语料的覆盖广泛和多样化。
编码和存储
语料库的编码和存储是保证数据有效利用的重要环节。常见的编码方式有XML、Unicode等,存储方式可以使 用数据库或文件系统。
标注和质量控制
标注
• 词性标注 • 句法分析 • 命名实体识别
质量控制
• 人工校对 • 自动校验 • 数据清洗
应用领域和价值
《国家语委语料库》课件
语料库的共享机制和平台
添加 标题
国家语委语料库的共享机制:介绍语料库的共 享机制,包括共享方式、共享范围、共享内容 等。
添加 标题
国家语委语料库的合作平台:介绍语料库的合 作平台,包括合作方式、合作内容、合作对象 等。
添加 标题
国家语委语料库的共享和合作的意义:介绍语 料库的共享和合作的意义,包括促进语言研究、 推动语言教育、促进文化交流等。
• 案例3:国家语委语料库在语言规划中的应用 • 提供数据支持,为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化,提高语言的交际效率。 • 推动语言的健康发展,促进社会的和谐稳定。 案例4:国家语委语料库在文化传承中的应用
• 案例4:国家语委语料库在文化传承中的应用 • 保存和传承文化遗产,为后人留下宝贵的文化遗产。 • 促进文化的交流与传播,推动文化的多元化发展。 • 推动文化的创新与发展,为现代社会注入新的文化元素。
添加 标题
国家语委语料库的未来发展:介绍语料库的未 来发展,包括扩大语料库规模、提高语料库质 量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式:国家语委语料库与高校、研究机构等合作,共同开展语言研究、教学等工作。 • 案例:国家语委语料库与某高校合作,共同开展汉语词汇研究,为汉语教学提供支持。 语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背 景和意义
数字化语料库的建 设过程
数字化语料库的智 能化发展
数字化语料库的应智能化语料库的定义和特 点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级:随着技术的不断发展,数字化语料库将更加全面、高效地升级, 实现更加精准、快速的数据检索和分析。
语料库ppt课件
• 语料库驱动的译学研究 在不预设任何理论或假设的前提下,使用原始文 本或不作任何标注处理的文本,提取高频使用的 词汇或句法结构,或者其他特定翻译事实,归纳 出某一理论或建构某一理论框架。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
语料库语言学PPT
用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。
语料库语言学(共13张PPT)
以语料库设计分:均衡结构语料库、无结构的随机开放式语 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
33333333333333333333 0109
语料库标注加工
语料库加工软件系统
分词词表
33333333333333333333
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
33333333333333333333 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
哲学 历史 社会 经济 艺术 文学 其他
8.3% 8.3% 8.3% 8.3% 8.3% 50% 8.3%
250 250 250 250 250 1500 250
12.5 12.5 12.5 12.5 12.5 75 12.5
设计样本分布
体题 裁材
表二:文学类(含口语)
比例 19191925 19261949 19501965 19661976 1977-
33333333333333333333
0109
语料来源包括教材、报纸、综合性刊物、专业刊物、图 书等。每个样本的容量为2000字左右,书籍的抽样字数 一般占全书总字数的3-5%,最多不超过10000字;每本 刊物上所选的总字数原则上不超过5000字。 各类语料所占比例如下: 人文与社会科学类语料占语料总量的59.6%,自然科 学类语料占语料总量的17.24%,综合类语料占语料总 量的9.36%,取材于报纸的语料,难于划分门类和语体, 因此单独计算,报纸语料占语料总量的13.79%。另外, 取材于教材的语料总量有2000万字,已经按学科计入各 类语料。
样本原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术 作品、科普读物、通俗读物、学术专论及各 种应用文语体等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可 采取整篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业, 以及社会生活各个领域的语言文字应用的代 表性。
33333333333333333333
0109
1.人文与社会科学类划分为8个大类和30个小类: (1)政法:哲学、政治、宗教、法律;(2)历史: 历史、考古、民族; (3)社会:社会学、心理、语言文字、教育、文艺理 论、新闻、民俗; (4)经济:工业经济、农业经济、政治经济、财贸经 济; (5)艺术:音乐、美术、舞蹈、戏剧; (6)文学:小说、散文、传记、报告文学、科幻、口 语; (7)军体:军事、体育; (8)生活。
33333333333333333333
0109
现代汉语语料库的主要用途及选材规模
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。
0109
当前语料库样本分布-时间
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
33333333333333333333
年份
0109
标注语料库
词语切分
分词词表 词表结构化 <信息处理用现代汉语词类标记集规范>
0109
语料的通用性原则和描述性原则
语料的通用性原则
作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、 词汇、语法、语义等方面的全貌。
• • • • 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。
为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、 采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、 文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的 方式。
33333333333333333333 0109
语言材料的完整性
语言材料的遍历性
语料抽样
抽样的数量与方式
书籍
• 抽样数量一般占全书字数的3——5%,字数最多不 超过10000字。样本容量2000字,允许±500字的 伸缩。
报纸
• 采用整版(4版或8版)选用的方式。不同的报纸选 用不同的月份,以免内容重复。 • 报纸上的广告、启事等归在应用文类,不在报刊类 语料的统计之列。
33333333333333333333 0109
2.自然科学划分为6类:数理、生化、天文地理、海洋 气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组 成。应用文使用很广泛,主要涉及以下6类: (1)行政公文:请示、报告、批复、命令、指示、布 告、纪要、通知等; (2)章程法规:章程、条例、细则、制度、公约、办 法、法律条文等; (3)司法文书:诉讼、辩护词、控告信、委托书等; (4)商业文告:说明、广告、调查报告、经济合同等; (5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、 祝酒词等; (6)实用文书:请假条、检讨、申请书、请愿书等。
语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
33333333333333333333 0109
33333333333333333333 0109
自然科学(含农业、医学、工程与技术) 类
目前比较通用的中、小学各科教材。 目前比较通用的具有通论性质的大学各 科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
33333333333333333333
0109
现代汉语语料库选材字数的分布
国家语委语料库
现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标 注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责
33333333333333333333 0109
国家语委语料库建设
1991年12月国家语委语言文字应用管理司提出立项建 议 1992年4月国家语委语言文字应用管理司在京组织召开 了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注 加工
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
33333333333333333333
0109
补充
以上有关选材年限及密度的规定是着眼于科学的整体发 展而制定的。各个学科的发展在不同的年代并不是齐头 并进的,可根据具体情况适当调整依年限分布的比例、 字数。调整的理由、调整后的比例和字数当详细说明, 并作为附件收于清单之后。 大学教材门类以国家规定的大学基础必修课为准。 避免选取文言色彩较重的篇章作语料,例如鲁迅等作家 的作品不宜用作语料。 避免选取诗歌作语料;剔除篇章中诗歌形式的内容。
33333333333333333333 0109
选材规模
选材的分类
依据材料内容,选材大体作如下分类:
教材
• 大中小学教材单作一类,约2000万字。不 计入5000万字的语料之内。
人文与社会科学的语言材料,包括:
• 政法(含哲学、政治、宗教、法律等); • 历史(含民族等) • 社会(含社会学、心理、语言、教育、文 艺理论、新闻学、民俗学等);
33333333333333333333
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 33333333333333333333 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
5%
15%
25%
5%
50%
小说
散文 (杂文) 传记 报告文学 科幻 口语
30%
20%
450
300
22.5
15
67.5
45
112.5
75
22.5
15
225
150
10% 10% 10% 20%
150 150 150 300
15 50 50 15
22.5
37.5 100 100
15
75
45
33333333333333333333
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。