现代汉语语料库加工规范

合集下载

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。

在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。

所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。

计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。

计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。

1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。

由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。

语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。

可以引用以下事实作为语料库价值的佐证。

2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。

并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。

”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。

如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。

即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。

汉字规范化应用中的语料库建设技术与实践

汉字规范化应用中的语料库建设技术与实践

汉字规范化应用中的语料库建设技术与实践汉字是中国古代文化的重要组成部分,它不仅是语言文字,更是一种艺术形式和文化符号。

然而,汉字的书写和使用却经历过长时间的混乱和规范化的过程。

要想在现代社会中更好地利用汉字,为其建立语料库已经成为了必须要做的工作之一。

在本文中,我们将重点探讨汉字规范化应用中的语料库建设技术与实践。

一、汉字规范化应用的意义随着时代的变迁和社会的进步,汉字的书写和使用逐渐趋向规范。

这不仅有助于保护汉字文化,还可以提高汉字的实用性。

通过规范化汉字,可以使得汉字的书写和使用更加简便快捷,提高信息的传递效率。

同时,汉字规范化还可以使得汉字更好地适应现代信息技术的需求,比如,在计算机软件开发中,规范的汉字编码可以大大提高程序的稳定性和可读性。

二、语料库建设技术与实践为了实现汉字规范化应用的目标,建立语料库已经成为了必须要做的工作之一。

在语料库建设技术和实践中,主要包括以下几个方面。

1. 语料库建设的步骤语料库建设的步骤主要包括:语料准备、语料分析、语料标注、语料管理和语料应用等。

其中,语料准备是最为关键的步骤之一。

在语料准备阶段,需要收集和整理大量的汉字书写和使用数据,以此来建立汉字的语料库。

在语料分析、标注和管理阶段,需要对语料进行分类、整理、标注和备份管理等操作。

当语料库建成后,可以通过搜索引擎、软件开发等方式将其应用于相关领域。

2. 语料库建设的技术手段语料库建设的技术手段主要包括数据挖掘、自然语言处理、信息检索、机器学习等。

其中,数据挖掘和自然语言处理是语料库建设中的核心技术。

通过数据挖掘技术,可以对语料库中的数据进行深层次的挖掘和分析,以此来得到更准确、更有用的信息。

而自然语言处理则是将语言文字转化为计算机能够处理的格式,以此来实现语料库的自动化处理。

3. 语料库建设的实际应用语料库建设的实际应用主要体现在以下几个方面。

第一,语料库可以被广泛应用于汉字书写和使用的规范化。

通过对语料库的分析和标注,可以发现汉字书写和使用的规律,从而建立规范的汉字书写和使用标准。

现代汉语语料库加工规范

现代汉语语料库加工规范

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范V1.0》。

几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。

因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。

由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。

现代汉语语料库加工规范词语切分与词性标注词

现代汉语语料库加工规范词语切分与词性标注词
1.国名不论长短,作为一个切分单位。
中国/ns,中华人民共和国/ns,日本国/ns,美利坚合众国/ns,美国/ns
2.地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。
四川省/ns,天津市/ns,景德镇/ns沙市市/ns,牡丹江市/ns,正定县/ns,海淀区/ns,通州区/ns,东升乡/ns,双桥镇/ns南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns,大阪府/ns,北海道/ns,长野县/ns,开封府/ns,宣城县/ns
2.姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n
3.对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。
老张/nr,大李/nr,小郝/nr,郭老/nr,陈总/nr
二/m连/n, 三/m部/n ,
19
Ng名语素
名词性语素。名词代码为n,语素代码g前面置以N。
出/v过/u两/m天/q差/Ng,
理/v了/u一/m次/q发/Ng,
20
n名词
取英语名词noun的第1个字母。
(参见动词--v)
岗位/n ,城市/n ,机会/n ,
她/r是/v责任/n编辑/n ,(编辑/v科技/n文献/n )
甲/Mg减下/v的/u人/n让/v乙/Mg背上/v ,
凡/d“/w寅/Mg年/n”/w中/f出生/v的/u人/n生肖/n都/d属/v虎/n ,
18
m数词
取英语numeral的第3个字母,n,u已有他用。

当汉语语料库文本分词规范草案

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。

经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。

这次承担973任务后制定出本规范。

本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。

本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。

1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。

本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。

追求分词后语料的一致性(consistency)是本规范的目标之一。

2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所 北京 100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。

加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。

这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。

发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。

关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈ 前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。

自然语言处理 第四章汉语语料库多级加工

自然语言处理 第四章汉语语料库多级加工
– 记者顾小东 – 只顾短期的经济利益
• 规则: 如果“顾”前有副词(只), 则“顾”不为姓氏。 • “黄”兼作形容词
– 黄曾阳研究概念层次网络 – 彩色的光带射到黄玻璃上
• 规则: 如果“黄”后有物质名词,则“黄”不为姓氏。 • “周”兼作量词
– 由周恩来任国务院总理 – 地球自转一周
• 规则: 如果“周”前有数词, 则“周”不为姓氏。
• 我读了几篇文章和报告 “文章”为名词,是非兼类词,“报告”为动-名兼类词,
由于处于联合结构中,故可判定“报告”为名词。
语料库中汉语书面文本的词性
标注
– 基于隐马尔可夫模型(HMM)的词性标注器
• 从语料库中选出一定数量的文本,作为训练集(training set),手工分析这个训练集,采用二元语法(bi-gram grammar),从中归纳出统计数据。
– 第一次出现的人名叫做“定义性出现”, 尔后出现 的人名叫做“使用性出现”。 为此, 在切分时可根 据人名在定义性出现时的限制性成分首先建立人名 表。
中国人名识别(2)
• 人名的限制性成分主要有
– 身份词:表示人的职务, 职位, 头衔的词语和亲属称 谓的词语. 有的出现在人名之前, 如“工人, 教师, 丈 夫, 妻子, 犯人”, 有的出现在人名之后, 如“先生, 女士”, 有的可以出现在人名的前面和后面, 如“教 授, 总理”。
– 我们也可以利用只能出现在外国人名首和外国人名 末的汉字作为特征字来判定外国人名的边界。这需 要分别建立相应的字表来作为判定外国人名左右边 界的依据。
外国人名识别(3)
• 还可以利用简单的上下文来进一步判定 外国人名的边界
– 标点符号, 数字, 空格, 西文字母, 译名连接符 号常常是人名的边界。

973当代汉语文本语料库分词、词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。

经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。

这次承担973任务后制定出本规范。

本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。

本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。

1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。

本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。

追求分词后语料的一致性(consistency)是本规范的目标之一。

2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

第四章 汉语语料库的多级加工

第四章 汉语语料库的多级加工
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
经多级加工后结果

语料的加工顺序

经过不同阶段的处理,语料库包含的各类信息也不断 增加,最终将成为一个名副其实的语言知识库。这样 的知识库可以为汉语统计分析、汉语理解和机器翻译 等资源提供重要的资源和有力的支持
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
分词

未登录词 就是在词典中没有登录过的人名 地名,机构名, 新词语等 歧义切分字段在汉语书面文本中所 占的比例并不很大,在实际的书面 文本中,特别是在新闻类文本中, 未登录词的处理是书面文本自动切 分的一个十分突出的问题。这是汉 语书面语自动切分的另一个难点
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
中国人名识别
许多身份词带有后缀字,如“在逃犯, 理发员,面包师,目击者”中的“犯, 员,师,者”等。 地名和单位名:如“浙江绍兴周树人, 国家语委冯志伟” 复杂的定语:如“德高望重的吕叔 湘先生”。 根据这些限制性成分,可以有效地识别 人名
哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
外国人名识别

国家语委语料库

国家语委语料库
家语委现代汉语语料库。
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字

(整理)现代汉语语料库加工规范词语切分与词性标注词

(整理)现代汉语语料库加工规范词语切分与词性标注词
名词性语素。名词代码为n,语素代码g前面置以N。
出/v过/u两/m天/q差/Ng,
疾病成本法和人力资本法将环境污染引起人体健康的经济损失分为直接经济损失和间接经济损失两部分。直接经济损失有:预防和医疗费用、死亡丧葬费;间接经济损失有:影响劳动工时造成的损失(包括病人和非医务人员护理、陪住费)。这种方法一般通常用在对环境有明显毒害作用的特大型项目。理/v了/u一/m次/q发/Ng,
一个/m ,一些/m ,
2.基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为m。
一百二十三/m,20万/m,123.54/m,一个/m,第一/m,第三十五/m,20%/m,三分之二/m,千分之三十/m,几十/m人/n,十几万/m元/q,第一百零一/m个/q ,
3.约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。
岗位/n ,城市/n ,机会/n ,
[例题-2006年真题]下列关于建设项目环境影响评价实行分类管理的表述,正确的是( )她/r是/v责任/n编辑/n ,
(编辑/v科技/n文献/n )
21
nr人名
名词代码n和“人(ren)”的声母并在一起。
1.汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。
张/nr仁伟/nr,欧阳/nr修/nr,阮/nr志雄/nr,朴/nr贞爱/nr
汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr方/nr安生/nr;唐姜氏,切分、标注为:唐/nr姜氏/nr。
2.姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立本研究旨在建立一份当代大学生普通话水平测试语料库,以便评估大学生普通话的听说能力。

以下是语料库的建立过程和相关细节。

数据来源:本研究收集了来自全国不同大学的400名大学生的口音样本。

所有参与者都是中国籍,并且他们的普通话是中国主流方言之一。

语料库构建:1. 必需属性:为了保证语料库的质量,我们将以下属性视为必须的:- 声音清晰:参与者必须使用清晰的声音,并保证录制环境的噪音低于50分贝。

- 精准发音:参与者必须熟练掌握普通话的66个拼音。

- 表达流畅:参与者必须能够流利地表达日常生活、学习和工作中的话题。

2. 随机选取话题:为了评估参与者的普通话能力,我们随机选择了10个话题(如爱好、家庭、健康、旅游等),每个话题包含3-5个问题。

参与者需要逐一回答问题,每个问题的录音时间不得超过30秒。

3. 数据存储:所有收集到的数据都存储在电脑中,每个参与者的录音文件以姓名和编号命名。

每个文件的格式为.wav。

数据分析:1. 评估参与者的普通话能力:我们使用自然语言处理技术和机器学习算法来评估参与者的普通话能力,具体步骤如下:- 提取声音特征:我们使用语音信号处理技术提取声音特征,如基频、峰值、频率分布等。

- 分析声音特征:我们使用统计学方法分析声音特征,如平均值、方差、标准差等,以评估参与者的语音能力。

- 训练机器学习模型:我们使用Python编写的机器学习算法,训练模型来自动评估参与者的普通话能力。

2. 评估参与者的表达能力:我们采用语音情感分析技术来评估参与者的表达能力。

我们使用Python编写的自然语言处理算法来提取参与者在录音中的情感和情绪。

我们使用基于情感的语音技术来评估参与者的表达能力。

总结:本研究建立的当代大学生普通话水平测试语料库能够有效评估大学生的普通话能力。

我们使用自然语言处理技术和机器学习算法训练了模型来分析和评估参与者的普通话和表达能力。

这将有助于提高学生的普通话水平和降低方言比率,从而促进普通话在中国社会的普及和应用。

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范

维普资讯

第 1 6卷 第 5期





Vo. 6 N . I1 o 5
J RN F CHI S NF MAT ON RO S I OU AL O NE E I OR I P CE S NG
北 京 大 学 现 代 汉 语 语 料 库 基 本 加 工 规 范


前 言
关 于汉 语 语 料 库 的 全 面 情 况 , 志 伟 教 授 的文 章 已 有 详 细 介 绍 J 本 文 只介 绍 北 京 大 学 冯 。 计 算 语 言学 研 究 所 的 工 作 ( 下 简称 计 算 语 言所 ) 计 算 语 言 所 从 1 9 以 。 9 2年 开 始 汉 语 语 料 库 的
形容词 的 特殊 用法标 注 。这 项 大规模 语 言工程 的 顺利 完成得 益 于事先 制 订并 不 断完善 的规 范。发表 《 京 大 北
学现代 汉语 语料 库基 本 加工 规 范》 为 了抛 砖 引玉 , 广泛 地 向 专 家、 是 更 同行 征 询意 见 , 以便进 一 步修 订 。
关 键 词 : 代 汉 语 ; 料 库 ; 语 切 分 ; 性 标 注 ; 范 现 语 词 词 规
YU S i n DUA H i n Z h— we N u — g HU u - n S mi X ef g UN i e Bn
( n t ue o o ua i a ig i is P kn ies y B in 1 0 7 Chn ) I si t f mp tt n l n us c e i Un v ri e i t C o L t g t j g 08 [ ia Ab t a t Th n tt t fC s r c : e I s i eo omp t t n l n u s i , e i g Un v r i a o u u a i a g i c P k n i e st h s c mp e e h a i r c s i g o o — o Li ts y lt d t e b sc p o e sn f c n a t m p r r i e e c r s t a a 7 mil n Ch n s a a t r . n a di o o wo d s g n a in a a t o — e o a y Ch n s o pu h t h s 2 l o i e e Ch r c e s I d t n t r e me t t nd p — f i i o r

现代汉语中介语语料库

现代汉语中介语语料库

现代汉语中介语语料库介绍现代汉语中介语语料库是一个用于研究介语现象的语料库。

介语是指非母语(L1)与非目标语(L2)之间的语言现象与转换。

这一现象在第二语言习得(SLA)研究中具有重要意义。

通过收集、整理和分析大量的中介语语料,我们可以了解在第二语言习得过程中学习者所面临的挑战,以及他们使用中介语的方式。

语料库构建现代汉语中介语语料库的构建是一个复杂且耗时的过程。

它涉及到收集、标注和整理大量的中介语语料,以及存储和管理这些语料的数据库。

下面是构建过程的几个关键步骤:1.语料收集:收集多样化的中介语语料是构建语料库的第一步。

研究者可以通过观察学习者的口语和书面表达、采访学习者或收集学习者的作文等方式获取语料。

2.语料标注:语料标注是对收集到的语料进行注释和标记的过程。

标注包括标示学习者的语言层次、句法结构、语法错误等。

标注的目的是为了能够更好地分析学习者的中介语现象。

3.语料整理:语料整理是将标注完成的语料进行整理和分类的过程。

通过整理,研究者可以将语料库组织成符合特定研究目的的子语料库,以便于后续的分析和研究。

4.语料管理:语料管理是指对语料进行存储、检索和管理的过程。

为了方便研究者的使用,语料库需要建立一个有效的管理系统,使得研究者可以根据自己的需求查找和获取所需的语料数据。

分析与应用现代汉语中介语语料库的建立为介语研究提供了重要的资源。

研究者可以通过分析语料库中的数据,来解答一系列关于介语现象的问题。

以下是一些常见的分析和应用领域:1. 语言教学通过分析中介语语料库,教师可以了解学习者在学习第二语言过程中常出现的困难和错误,从而有针对性地调整教学策略和教学材料。

同时,通过对比以母语为第一语言的学习者和以其他外语为第一语言的学习者的中介语使用,教师可以更好地理解学习者的个体差异,从而更好地为学习者提供帮助。

2. 第二语言习得研究中介语语料库是第二语言习得研究的重要数据源。

通过分析学习者的中介语使用,研究者可以研究第二语言习得过程中的某些问题,如语言知识习得的顺序、语法错误的分布规律等。

现代汉语功能句型及其语料库建设——以《博雅汉语》初级篇为例

现代汉语功能句型及其语料库建设——以《博雅汉语》初级篇为例

A Dissertation Submitted to Shanghai Jiao Tong Universityfor Master’s Degree of ArtsTHE FUCTIONAL SENTENCE PATTERNS OF MORDERN CHINESE AND IT’S CORPUS CONSTRUCTION——Example of Boya Chinese(Elementary)School: School of International EducationMajor: Linguistics and Applied LinguisticsResearch Field: Computational LinguisticsCandidate: Wang MeixinSupervisor: Guo ShulunSchool of International EducationShanghai Jiao Tong UniversityJanuary, 2012学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。

除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。

对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在 年解密后适用本授权书。

本学位论文属于不保密□。

(请在以上方框内打“√”)学位论文作者签名: 指导教师签名:日期: 年 月 日 日期: 年 月 日摘 要句型在对外汉语教学中的重要性不言而喻。

国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明

国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明

国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。

语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。

语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。

标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。

语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。

标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。

标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。

2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。

2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。

拟从大、中、小学教材和科普读物中选取。

其中,科普读物约占6%,共300万字。

教材字数另计。

2.1.4 报刊。

以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。

汉语树库构建——标注规范.pdf

汉语树库构建——标注规范.pdf
汉语树库构建——标注规范
1 引言
周强
清华大学计算机系 智能技术与系统国家重点实验室
北京 100084 zhouq@
对汉语语料库的多级加工处理,主要分为以下几个阶段:切词、词类标注、语块标注、 分析树标注、语义信息标注等。本规范主要涉及汉语句子的句法树标注问题。内容包括:1) 句法标记集的内容描述和不同句法标记的功能结构说明,2)句法树的划分规范,包括同形 结构的处理、多切分问题、结构分析的方向性等方面。
表 2 汉语句法结构标记集
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
标记代码
标记名称及其实例
ZW 主谓结构,如:我们买 态度和蔼
PO 述宾结构,如:看电影 给他一本书 SB 述补结构,如:做完 冷得直哆嗦
DZ 定中结构, 如:他的学生 中国内地 战争初期 这群 ZZ 状中结构,如:特别安静 努力工作
2 短语和单句的标注规范
在现代汉语中,对短语进行分类一般采用下面两大标准:① 内部结构,② 外部功能。 按照内部结构,可分为联合短语、偏正短语、述宾短语、述补短语、主谓短语、连谓短语等 几类;而按照外部功能,则一般可分为名词短语、动词短语、形容词短语和副词短语等几类。 两种分类方法在研究内容和方法上有不同的侧重点。一些比较系统地描述汉语短语的语言学 著作,如:范晓(1991),李子云(1991) 大多采用了结构分类的方法。针对中文信息处理的特 殊要求,陈小荷(1998)和詹卫东(1999)提出了汉语短语的功能分类体系,并在深入分析
下面以功能标记为主线,详细地分析各个句法成分的功能结构分布特点。
2.1 名词短语 np:
汉语中名词短语的常见组合包括: 1) 定中结构,主要分为以下情况:

现代汉语语料库加工中的切词与词性标注处理

现代汉语语料库加工中的切词与词性标注处理

现代汉语语料库加工中的切词与词性标注处理周强, 段惠明北京大学计算语言学研究所北京,100871目前,大规模真实文本处理已成为计算语言学界的一个热门话题。

一个重要的原因是因为它给我们提供了一种新的研究思路,即从大规模的语料库中提取所需要的知识。

而汉语语料库的加工和处理,又涉及到汉语语法研究的许多问题,如:词的定义,词类的划分,短语的确定等等。

在这方面,我们进行了一些探索,积累了一些经验。

本文只讨论切词与词性标注问题。

1. 汉语语料库的多级加工总结国内外语料库建设的经验,可以看到:一个计算机语料库的功能主要和下面三种因素密切相关,即库的规模、语料分布和语料的加工深度。

因为库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。

对于汉语语料库的处理,可以设想有以下几个阶段,如图1所示[5]。

这样,经过不同阶段的处理,语料库所携带的各类消息也不断增加,最终将成为一个名副其实的语言知识库。

这样的知识库可以为汉语统计分析、汉语理解和机器翻译提供重要的资源和有力的支持。

┌────┐┌────┐┌────┐┌────┐│"生图 1 库存语料的加工顺序2. 关于切词和标注结合处理的规范从92年初开始, 北大计算语言学研究所开始进行汉语语料库的多级加工处理的研究,其第一步工作是对原始语料进行切分和词性标注, 并且我们是将切词和标注结合起来进行的。

通过使用一个带词类标记的切词词典, 在自动切词的同时, 给每个切分单位标上初始词性标记, 然后通过规则与统计相结合的方法排歧, 实现词类的自动标注, 再利用构词规则, 发现一些符合汉语构词规律的未定义词并确定其词类。

[6]以上工作的基础是“信息处理用现代汉语分词规范”[1](下简称为“分词规范”)、现代汉语词语分类体系[2]、汉语构词法理论[3]和现代汉语语法电子词典[4]。

在对约40万字语料的切分与标注的实践基础上, 我们发现了一些新的处理规律, 积累了许多有益的经验。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范V1.0》。

几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。

因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。

由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。

合计约40个左右。

⑶ ⑶ 规范的多元性。

既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。

⑷ ⑷ 词组(短语)本位汉语语法体系的指导作用。

汉语的词类与句法成分之间不存在简单的一一对应关系。

同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。

《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。

在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。

同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。

当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也为汉语词的概率语法属性描述作准备。

⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。

⑹ 不是孤立使用本规范。

在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。

当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。

而经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述。

经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体的语言知识库。

语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。

⑺ 人机互助的工作方式。

以本规范为基准,继续扩充自动加工软件的功能并提高其精度。

人工校对是必要的。

需要重视校对人员之间的切磋,要将对学术问题的不同见解统一到规范的制订与执行上。

开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。

本规范分为三个部分:① 切分规范切分规范主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。

第2章中详细介绍对“分词规范”的补充与调整。

② 切分和标注相结合的规范在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。

因此,在本规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。

这部分内容主要集中在第3章中。

③ ③标注规范③-1 一般词性标注标注规范用以确定切分单位的标记。

以1999年2月份语法词典小组提供的7万词表为基本参照,其含义包括:a. a.标记集以26个词类标记为基准,名动词、副动词、名形词、副形词和专有名词的标记是在动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母。

b. b.一个词若在语法词典中已属于某一个或若干个词类,人工标注(校对)时不要轻易增加词性。

如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。

c. c.当语法词典给某个词确定的词性不对或不完备时,当然也要订正或补充。

这时应通知词典小组。

d. d.即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍标以j,而不要改为nt或ns。

e. e.“唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时间词收入,标注时仍标以t,不改为nz。

第4章集中论述标注规范。

③-2 专有名词标注这里“专有名词”的含义有了拓展。

短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来,并在右方括号之后标以相应的ns、nt、nz,方括号不嵌套。

第2章与第3章都涉及这部分内容。

⒉ 切分规范2.1 基本概念⑴ 切分单位“分词单位”是中国国家标准“分词规范”中的一个基本概念。

它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。

为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中长期使用,大家已经熟悉,而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。

按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组。

在某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中,如在动词的离合形式出/v 了/u 一/m 次/q 差/Ng 。

/w中,“差/Ng”是名语素;又如在鹧鸪/n 的/u 鹧/x 有/v 什么/r 意思/n 吗/y ?/w中,“鹧/x”是非语素字。

从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。

⑵ 词典词条“词典词条”(或“词条”)指《现代汉语语法信息词典》中收录的那些词语。

1999年2月提供给本项工程使用的词条的总数约7万,这些词语都已归了类,即带有词性标记。

⑶ 切分单位和词条的关系汉语中,词和词组的界限、成词语素和不成词语素的边界是模糊的。

本规范规定,凡收入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般都是切分单位。

由于语法词典中的词条多达7万,对真实文本的覆盖率很高,因此可以保证绝大多数切分单位和语法词典的词条是一致的,但两者之间还是有差异的。

例如5个字以上的成语、习用语是切分单位,但未被收入现在的语法词典。

像“一百二十八”、“五分之三”、“百分之九”、“1998年”、“10月30日”这样的数词和时间词实际上是无限多的,语法词典不可能全收,只可能收少量的构成成分。

反过来,像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位。

语法词典中包含的前接成分、后接成分、语素、非语素字不是切分单位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中。

当处理大规模真实文本时,不可避免地会碰到未登录词。

第3章给出了一些合成词的构造规则。

根据这些规则自动生成的或经校对者确认的切分单位,如果结合稳定,使用频度较高,以后有可能补充到语法词典中。

2.2 对分词规范的补充和调整为醒目起见,以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。

⑴ 人名: nr① 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。

张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr ② 姓名后的职务、职称或称呼要分开。

江/nr 主席/n, 小平/nr 同志/n, 江/nr 总书记/n,张/nr 教授/n, 王/nr 部长/n, 陈/nr 老总/n,李/nr 大娘/n, 刘/nr 阿姨/n, 龙/nr 姑姑/n③ 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。

老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr④ 明显带排行的亲属称谓要切分开,分不清楚的则不切开。

三/m 哥/n, 大婶/n, 大/a 女儿/n, 大哥/n, 小弟/n, 老爸/n* ⑤ 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。

鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr⑥ 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。

克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr,北研二/nr, 华盛顿/nr, 爱因斯坦/nrΔ 有些西方人的姓名中有小圆点,也不分开。

卡尔·马克思/nr⑵ 地名: ns安徽/ns, 深圳/ns, 杭州/ns, 拉萨/ns, 哈尔滨/ns, 呼和浩特/ns,乌鲁木齐/ns, 长江/ns, 黄海/ns, 太平洋/ns, 泰山/ns, 华山/ns,亚洲/ns, 海南岛/ns, 太湖/ns, 白洋淀/ns, 俄罗斯/ns,哈萨克斯坦/ns,彼得堡/ns, 伏尔加格勒/ns① 国名不论长短,作为一个切分单位。

中国/ns, 中华人民共和国/ns,日本国/ns, 美利坚合众国/ns, 美国/ns Δ② 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。

相关文档
最新文档