国家标准信息技术汉字编码字符集基本集-全国信息技术标准化

合集下载

我国汉字编码标准

我国汉字编码标准首先，我国的汉字编码标准在不同阶段都遵循了统一性、规范性和适用性的原则。

在GB2312-80发布之后，我国的计算机领域得到了长足的发展，但是随着信息化建设的深入，GB2312-80已经不能满足当今社会对汉字编码的需求。

因此，1995年发布了GBK编码，它在GB2312-80的基础上增加了对繁体字和少数民族文字的支持。

而随着国际化的发展，GB18030-2005标准的发布则进一步完善了我国汉字编码标准，使其更加符合国际标准。

其次，我国汉字编码标准的发展也受益于技术的进步和应用的需求。

随着计算机技术的不断发展，对于汉字编码的要求也越来越高。

GB18030-2005标准的发布，不仅支持了Unicode标准，还对繁体字和少数民族文字进行了更好的支持，使得我国的汉字编码标准更加符合当今信息化建设的需要。

再者，我国汉字编码标准的发展也受益于国际化的趋势。

随着我国在国际上的地位不断提升，对于国际标准的遵循和应用也越来越重要。

GB18030-2005标准的发布，使得我国的汉字编码标准更加符合国际标准，为我国在国际上的信息交流和合作提供了更好的支持。

最后，我国汉字编码标准的发展也为我国的信息化建设和文化传承提供了更好的支持。

汉字是我国的传统文化符号，对于汉字的数字化编码，不仅可以更好地保护和传承我国的传统文化，还可以更好地适应当今信息化建设的需要。

因此，我国汉字编码标准的不断完善和发展，为我国的信息化建设和文化传承提供了更好的基础和保障。

总之，我国汉字编码标准的发展经历了多个阶段，每一次的更新都是为了更好地适应当代社会的需求。

随着技术的进步、国际化的趋势以及信息化建设的需求，我国汉字编码标准将会不断完善和发展，为我国的信息化建设和文化传承提供更好的支持和保障。

国家标准化管理委员会公告2011年第1号――批准发布410项国家标准目录

国家标准化管理委员会公告2011年第1号――批准发
布410项国家标准目录
文章属性
•【制定机关】国家标准化管理委员会
•【公布日期】2011.01.10
•【文号】国家标准化管理委员会公告2011年第1号
•【施行日期】2011.01.10
•【效力等级】部门规范性文件
•【时效性】现行有效
•【主题分类】标准化
正文
国家标准化管理委员会公告
（2011年第1号）
关于批准发布《紧固件质量保证体系》等410项国家标准的公告国家质量监督检验检疫总局、国家标准化管理委员会批准《紧固件质量保证体系》等410项国家标准，现予以公布。

二〇一一年一月十日附件：。

中文信息处理重点题目及解答

中文信息处理①信息：是物质世界存在的形式、状态及各种关系，是与物质、能量共同构成世界的三大要素之一。

具有主观和客观双重属性。

中文信息，是特指以汉语言文字为载体形式的信息。

从宏观角度看，一类是自然性信息，一类是社会性信息。

②信息处理：就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。

③中文信息处理：是利用计算机对中文（包括口语和书面语）进行输入、转换、传输、存储、分析、加工的科学。

中文信息处理技术已到社会生活的各个方面，汉字/汉语信息处理。

④代码：汉字的代码有：汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。

从汉字代码的角度看，一个汉字信息处理系统，就是一个进行汉字代码转换的过程。

中文代码包括内部码和外部码两大类，内部码是中文在计算机系统内部进行处理和传输的代码，外部码作为人机接口由用户给计算机输入信息时使用的代码。

*中文计算机操作系统使用的代码系列一共三种，七位代码系列，八位代码系列和双八位代码系列。

中文信息内部处理代码包括存储码、运算码、传输码。

（是程序员用开发工具所支持的语言写出来的源文件，是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。

）⑤编码：是以固定的顺序排列字符，并以此做记录、存贮、传递、交换的统一内部特征，这个字符排列顺序被称为“编码”。

A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式，也是“机内码”的编码。

B.专指计算机键盘输入汉字的代码设计与实现，简称外码或人机界面编码。

汉字编码：广义的汉字编码就是汉字排检法，即确定一个排序规则使全部汉字成为有序的集合，以便能按照排序规则检索到所需要的汉字。

狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码，以便实现汉字的计算机输入。

*静态编码：指把汉字作为等概率的离散字符进行的编码，不考虑汉字的使用频率。

动态编码：是根据汉字的使用频率进行信息编码，如传输码、处理吗都采用动态编码。

全国信息技术标准化技术委员会简介20131030

9
中文平台分技术委员会负责全国信息技术领域与中文信息处理有关的输入法、字库和中文操作系统的 API 标准化工作。自动识别与数据采集分技术委员会负责全国信息技术领域条码、射频等自动识别与数据采集技术、应用等专业领域标准化工作。教育技术分技术委员会负责教育领域信息技术标准化及远程教育应用技术的标准化（不包括教学设备和仪器）。
13
试、集成测试和应用测试，有效地解决了基础软件之间的兼容性、适配性等问题。
电子文件电子文件是重要信息载体，直接关系国家信息安全。为确保电子文件安全交换和长期保存，打破国外对电子文件处理软件的垄断，急需制定拥有自主知识产权统一格式的电子文件标准。从 2010 年起，在中办、国办、工信部支持下，承担电子文件存储交换格式、党政机关电子公文、电子文件管理装备等相关标准研制工作。组织国内主要厂商自主研制了办公软件文档格式标准 UOF 和版式文档格式标准 OFD。支撑国家标准《党政机关公文格式》（GB/T 9704-2012）标准应用实施，组织软件厂商开发符合标准的工具软件。物联网承担国家物联网应用示范工程“物联网标准体系建设及关键技术标准研制”建设工作。提出我国物联网标准体系架构，开展了 47 项物联网和 16 项传感网标准研制工作，为物联网产业快速健康发
截至 2013 年 10 月，信标委共归口国家标准 740 项，国家标准制、修订项目计划 447 项，涉及词汇、编码字符集和字型、数据通信、软件和系统工程、卡和身份识别、程序设计语言、图形图像表示、信息技术设备、多媒体、自动识别和数据采集技术、数据管理、文件描述与处理语言、用户接口、信息技术教育、生物特征识别、分布应用平台与服务、信息技术可持续发展等领域。
10
附录一

全国信息技术标准化技术委员会工作交流

• 基本原则 – 鼓励自主知识产权纳入标准 – 鼓励优惠许可的技术 – 坚持公开、公正、透明的工作程序 – 与国家政策保持一致，便于专项标准化成果顺利转化为国家标准
• 要点 – 合理无歧视(RAND)/专利池/免费 – 互惠性和防御性 – 早期披露 – 默认许可义务 – 开放性（引用标准、参考实现、测试套件）
SVG VML
中间件
行业中间件
数据集成中间件
流程
中间件
服务集成中间件
门户中间件
…
应用服务器消息中间件事务中间件
嵌入式系统
• 《信息技术词汇嵌入式系统》
• 《嵌入式Linux平台规范》 • 《手持电子产品嵌入式软件API》 • 《移动终端浏览器技术规范》 • 《嵌入式软件质量保证要求》 • 《嵌入式软件质量度量》 • 《嵌入式软件编码规范要求》 • 《嵌入式软件可靠性测试规范》 • 《嵌入式系统系统工程应用及管理》 • 《车用软件开发指南》
SC36
SC1 SC5 SC10 SC11 SC12 SC14 SC21 SC30
WG WG WG WG WG WG WG WG WG WG
词汇
非建盘输入磁盘柔性磁媒体微处理机数据元表示连开放系统互连中文平台
藏文维、哈、柯文蒙文云南少数民族文字无线传感器网络 IT服务 SOA 通用布缆基于射频技术的电子支付技术实时定位系统技术
少数民族语言文字信息技术标准化
1、中国少数民族文字信息技术标准体系已初步建立
–
覆盖文种包括蒙古文、藏文、彝文、维哈柯文、朝鲜文等
–
标准类型包括编码、字型、键盘布局
–
标准数量目前已达到23项
2、构建和完善中国少数民族文字信息技术标准体系意义重大

各类内码详细解析

转换内码gb2312为utf-8各类内码详细解析[日期：2009-04-29] 来源：作者：sdiel 阅读：3706 次 [字体：大中小]GB2312 字符集GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施，是中国国家标准的简体中文字符集。

它所收录的汉字已经覆盖99.75%的使用频率，基本满足了汉字的计算机处理需要。

在中国大陆和新加坡获广泛使用。

其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。

这种表示方式也称为区位码。

它是用双字节表示的，两个字节中前面的字节为第一字节，后面的字节为第二字节。

习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。

计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1。

GBK字符集GBK字符集是GB2312的扩展(K)，GBK1.0收录了21886个符号，它分为汉字区和图形符号区，汉字区包括21003个字符。

GBK字符集主要扩展了繁体中文字的支持。

BIG5 字符集BIG5又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立，故称大五码。

信息技术习题(题目)

答案自己做的1．在下列有关不同进位制系统的叙述中,错误的是___________。

Ａ．在计算机中所有的信息均以二进制编码存储Ｂ．任何进位制的整数均可精确地用其它任一进位制表示Ｃ．任何进位制的小数均可精确地用其它任一进位制表示Ｄ．十进制小数转换成二进制小数，可以采取“乘以2取整法"2．在下列有关汉字编码字符集的叙述中，错误的是 ___________。

Ａ．GB2312—80是我国颁布最早的汉字编码字符集标准，它包含6000多个汉字Ｂ．UCS-2(Unicode）编码标准,西文字符采用单字节编码,汉字用双字节或四字节编码Ｃ．汉字扩展内码规范（GBK）保持与GB2312-80字符集的汉字编码完全兼容Ｄ．BIG5字符集是一种繁体汉字字符集，它包含10000多个汉字3．在下列有关PC机物理组成的叙述中,错误的是____________。

Ａ．通常所说的主机空机箱，一般包含电源盒Ｂ．系统板也称为主板或大底板,一般包含BIOS和CMOS集成电路芯片Ｃ．系统板上的内存插槽一般只有一个，扩展内存只能通过更换内存条进行Ｄ．一块系统板上通常包含多种类型的I/O接口4．为了使计算机有较高的性能/价格比,现代计算机均采用多种存储器组成的层次式结构体系。

在下列存储器中。

其存取周期一般为毫秒级的是____________.Ａ．Cache存储器Ｂ．主存储器Ｃ．硬盘Ｄ．磁带(库）5．1991年Intel公司提出的PCI局部总线标准（工作频率为33MHz)，因其高性能、低成本，目前仍广泛使用。

当数据线宽度为64位时，其传输速率约为 __________ 。

Ａ．33MB/s Ｂ．66MB/s Ｃ．133MB/s Ｄ．266MB/s6．构建不同的网络需要选择不同的网络设备.在构建局域网时，一般不需要__________ 。

Ａ．路由器Ｂ．集线器Ｃ．网卡Ｄ．中继器7．下列关于Internet网中主机、IP地址和域名的叙述中，错误的是___________。

国家标准《信息技术汉字编码字符集(基本集)-全国信息技术标准化

《信息技术通用多八位编码字符集(基本多文种平面)汉字64点阵字型第1部分：宋体》(征求意见稿)编制说明
1．工作简况
随着信息技术的不断发展，中文信息技术产品所使用硬件设备得到提升，中文信息系统及办公自动化设备对点阵字型出现了新的需求，为了满足中文信息系统对64点阵宋体的需求，根据工业和信息化部“2012年电子行业标准项目计划”的安排，对SJ 11242.1-2001进行修订，项目计划代号为2012-0526Q-SJ，标准名称为《信息技术通用多八位编码字符集（I区）汉字64点阵字型第1部分：宋体》。
本标准由中国电子技术标准化研究院，北京仓颉博雅信息技术有限公司等单位负责修订，标准主要起草人有代红、熊涛等。
根据上级主管部门下达的标准计划任务，由中国电子技术标准化研究院牵头成立了标准编制组和专家组，并制定了详细的标准研究实施方案。中国电子技术标准化研究院主要负责组织协调和标准文本起草，北京仓颉博雅信息技术有限公司负责字型设计，专家组负责字型审查工作。
为适应中文信息处理的发展和国际信息交换及汉字的规范化、标准化需求，在研制汉字字型的过程中，考虑到本标准的使用范围、时间和影响等因素，重点做了以下几个方面的工作：
（1）字形的正确性
常用字以《现代汉语常用字表》和《简化字总表》为依据容易确定，而超出规范字表的一些字在不同的字典里列出的字形不一致，因此，在字形整理时，不仅根据整理汉字字形的规则，还参考已有的标准及《康熙字典》、《汉语大字典》、《中华字海》等工具书，本着不放过任何一个疑问的原则，经过专家组的反复逐字审查讨论确定。
准确：字的笔划规范、偏旁规范、字形规范。
清楚：黑白适中、笔划清晰。
美观：字的结构要端正、大小匀称、组合比例协调，充分体现我国传统汉字各种字体的独特风格，做到“神、形”兼顾。

GBK字库介绍

GBK字库介绍【基本概念】GBK 是又一个汉字编码标准，全称《汉字内码扩展规范》(GBK)，英文名称Chinese Internal Code Specification ，中华人民共和国全国信息技术标准化技术委员会1995 年12 月 1 日制订，国家技术监督局标准化司、电子工业部科技与质量监督司1995 年12 月15 日联合以技监标函[1995] 229 号文件的形式，将它确定为技术规范指导性文件，发布和实施。

这一版的GBK 规范为 1.0 版。

GB 即“国标”，K 是“扩展”的汉语拼音第一个字母。

GBK 向下与GB 2312 编码兼容，向上支持ISO 10646.1 国际标准，是前者向后者过渡过程中的一个承上启下的标准。

ISO 10646 是国际标准化组织ISO 公布的一个编码标准，即Universal Multilpe-Octet Coded Character Set（简称UCS），大陆译为《通用多八位编码字符集》，台湾译为《广用多八位元编码字元集》，它与Unicode 组织的Unicode 编码完全兼容。

ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。

我国1993 年以GB 13000.1 国家标准的形式予以认可（即GB 13000.1 等同于ISO 10646.1）。

GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。

GBK编码方案于1995年10月制定，1995年12月正式发布，目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP等都支持GBK编码方案。

汉字的编码方式以及相应的关系

汉字的编码方式以及相应的关系汉字的编码方式以及相应的关系在当今信息时代，汉字编码方式是一个备受关注的话题。

汉字作为中文的基本表达形式，其编码方式的选择和规范对于信息技术、文化传承以及国际交流都具有重要的意义。

我们有必要对汉字的编码方式进行全面评估，并根据深度和广度的要求来探讨其相关的问题。

我们来看一下汉字的编码方式。

汉字的编码方式有多种，其中最为常见的是Unicode、GBK、Big5等。

Unicode是一个国际标准，它主要用于整合和统一世界上所有的符号和文字。

而GBK是我国最常用的字符集，它包含了大部分常用汉字和少量的生僻字，是我国计算机领域的标准。

与此相对应的是Big5编码，它是台湾地区所使用的一种传统编码方式。

这些不同的编码方式在一定程度上反映了汉字的传统与现代、国际化与本土化的关系。

进一步来说，汉字的编码方式与其发展历史、文化底蕴以及实际运用之间存在着紧密的关系。

汉字作为中国文字的代表，承载着悠久的历史和深厚的文化内涵。

其编码方式不仅仅是一种技术手段，更是对于汉字所承载的文化价值和民族认同的体现。

我们在选择和规范汉字的编码方式时，需要全面考量文化传承、技术发展和国际交流的多重需求，确保汉字得到妥善的保护和传承。

我们还需要深入思考汉字的编码方式对于教育、出版、文化创意产业等方面的影响和作用。

随着信息化技术的发展，汉字的编码方式不仅仅是影响计算机输入、网页显示等技术领域，更是对于教育教学、文学创作、文化传播等领域产生着深远的影响。

我们需要在汉字的编码方式上进行深入的评估和探讨，更好地发挥其在各个领域中的作用和效果。

在总结和回顾上述内容时，我们可以清晰地看到汉字的编码方式是一个涵盖文化、技术、教育等多个领域的综合话题。

其深度和广度不仅需要我们全面理解其相关知识和背景，更需要我们具备跨学科、跨领域的能力来进行分析和思考。

个人而言，我认为汉字的编码方式是一个值得我们深入研究和关注的话题，它不仅关乎我国的文化传承和软实力的提升，更关乎我们对于技术发展和人文精神的综合理解。

中文字符集、编码

前言由于工作的需要，参考了好多资料整理出来一份计算机汉字处理报告，不敢独享，希望与大家共享。

Ziggler 现代计算机技术虽然先进，但大多数人只知录入 GB-2313 字符集内的 6763 个简体汉字，对包含 21003 个简繁体汉字的 GBK 字符集的文字录入、字体显示就已不甚了解（市面上绝大多数所谓的繁体字体，其实采用的是 GB2313 字符集简体字的编码，用字体显示为繁体字，而不是直接用 GBK 字符集中繁体字的编码，错误百出）。

而汉字总数至少有近 10 万个，目前计算机能处理的，也有 70244 个，已非一般人所能知能用了。

由于汉字总数非常庞大。

汉字总共有多少字？到目前为止，恐怕没人能够答得上来精确的数字。

据估计，汉字数量达到 11 万左右。

这里所说的七万多汉字，是指 UNICODE 超大字集全部七万多中日韩汉字。

（注： Unicode 是指用两个字节表示每个字符的字符编码方案。

）那一般计算机能够显示多少个汉字呢？比如大陆这边普遍安装简体 Windows 系统，而简体 windows 以宋体为系统字型，宋体支持 GBK 编码，所以能显示 20902 个汉字。

要显示 71564 个汉字，可以采取多种方案，如：宋体-方正超大字符集+新细明体 EXTB、宋体-方正超大字符集+中易宋体 EXTB、宋体 GB18030+新细明体 ExtB、宋体 18030+宋体 ExtB 等等。

中文字符集、编码字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同。

计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

中文文字数目大，而且还分为简体中文和繁体中文两种不同书写规则的文字，而计算机最初是按英语单字节字符设计的，因此，对中文字符进行编码，是中文信息交流的技术基础。

信息技术信息交换用汉字编码字符集基本集的

ICS 35.040 L71
中华人民共和国国家标准
GB 18030— 2000
信息技术信息交换用汉字编码字符集基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set （报批稿）
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分本标准中，单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编码的欧元符号。 5.2 双字节部分本标准中，双字节的部分收录内容如下： GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。汉字数字“〇” 。表意文字描述符 13 个。增补汉字和部首/构件 80 个。双字节编码的欧元符号。 5.3 四字节部分本标准的四字节的部分，收录了上述双字节字符之外的，包括 CJK 统一汉字扩充 A 在内的 GB 13000.1 中的全部字符。总体结构本标准中，采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一个字节均由八位二进制位串组成，任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表示。单字节部分采用 GB 11383 的编码结构与规则，使用 0x00 至 0x80 码位。双字节部分采用两个八位二进制位串表示一个字符，其首字节码位从 0x81 至 0xFE，尾字节码位分别是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为 0x81308130 到 0xFE39FE39。见表 1 及图 1。 6

信息技术标准化讲座_三_信息技术标准化涉及的范围_

信息技术的复杂性,决定了其标准化范围的广泛性。

信息技术标准化主要涉及以下范围:1.信息技术术语标准化信息技术术语就是指称信息技术概念的词或词组。

不论发展什么信息技术,都要先解决好相应术语的标准化问题,否则,有关各方在业务交往中就会因为没有共同语言而难以达成共识。

信息技术术语标准化正向国际化发展,这是在世界范围内实现信息资源共享的基本前提。

一般来说,任何一个和信息技术有关的概念都应当有一个术语与之相对应,所以,信息技术术语标准化几乎涉及信息技术的所有方面。

开展术语标准化主要涉及以下三方面内容:一是要明确概念体系;二是要依次确定概念体系中每一个概念的内涵和外延;三是要给每一个概念确定一个贴切的定义。

随着信息交换日益频繁,各种信息网络不断扩大,国际社会普遍重视信息技术术语标准化问题,国际标准化组织已经组织制定了许多信息技术术语国际标准,这些国际标准大多数都已经被我国所采用。

术语标准在采用国际标准时,主要是力求定义的一致性,在确定名称时,由于有语言文字方面的差别,所以应结合国内的实际情况加以考虑。

通常的做法是有学名的采用学名,无学名的可以采用俗名或习惯叫法。

2.信息表示标准化古往今来,人类创造出了各式各样的信息表示技术,如语言、文字、图形、数字、符号、暗号等等。

随着科学技术的飞速发展,维持现代化社会正常的运转的各种信息与日俱增,各种信息系统如雨后春笋纷纷建立。

但是,除非信息系统对其所处理和交换的信息的表示有一致性的认识,否则信息系统的优越性就不能发挥,而对于各种信息表示一致性的认识,只有通过开展信息表示标准化才能达到。

(1)信息分类编码标准化作为现代信息系统基本工具的电子计算机,它只能处理数字化信息,更确切地说,它只能直接处理阿拉伯数字 0 和 1 。

计算机最大信息技术标准化讲座(三)信息技术标准化涉及的范围(1) Series of Lectures of the Information Technolo g ical Standardization(3) The Involved Sco p e of Information Technolo g ical Standardization中国标准化与信息分类编码研究所宫向东26--的优势就是具有巨大的处理速度,可是这种优势只有通过信息的数字化表示技术的支持,才能充分发挥出来,也就是说,只有把信息事先用数字表示出来,计算机才能处理,否则,它就无能为力。

中文字符集、编码

前言由于工作的需要，参考了好多资料整理出来一份计算机汉字处理报告，不敢独享，希望与大家共享。

而汉字总数至少有近 10 万个，目前计算机能处理的，也有 70244 个，已非一般人所能知能用了。

由于汉字总数非常庞大。

汉字总共有多少字？到目前为止，恐怕没人能够答得上来精确的数字。

据估计，汉字数量达到 11 万左右。

这里所说的七万多汉字，是指 UNICODE 超大字集全部七万多中日韩汉字。

（注： Unicode 是指用两个字节表示每个字符的字符编码方案。

中文字符集、编码字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同。

计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

GB 18030《信息交换用汉字编码字符集基本集的扩充》

《信息交换用汉字编码字符集基本集的扩充》(2001-09-24)国家标准ＧＢ１８０３０－２０００《信息交换用汉字编码字符集基本集的扩充》是我国继ＧＢ２３１２－１９８０和ＧＢ１３０００－１９９３之后最重要的汉字编码标准，是未来我国计算机系统必须遵循的基础性标准之一。

为保证该标准顺利贯彻执行，国家质监总局从９月１日起首先对影响广泛的计算机操作系统进行执法检查，凡不符合该标准的产品，视为不合格产品。

为此，全国信息技术标准化技术委员会将根据有关标准和规范，组织对市场上主要的操作系统产品进行标准符合性检测。

检测要求及标准的制定１．须经检测的产品范围ＧＢ１８０３０是信息产品必须遵循的基础性标准，考虑到一些客观实际，采取从基础抓起，分步实施的策略。

本次对必须经检测产品的范围规定如下：●个人计算机操作系统产品须经标准符合性测试，其他产品暂不做要求；●凡是在ＧＢ１８０３０发布日期（２０００年３月１７日）前正式发布或出厂的产品，视为历史性产品，不在ＧＢ１８０３０的监督检查范围之内；●在２０００年３月１７日后对历史性产品的更新版本或升级版本作为新产品对待；●凡是在ＧＢ１８０３０实施过渡期间（即２０００年３月１７日至２００１年８月３１日）正式发布或出厂的产品，应符合ＧＢ１８０３０相关要求。

不符合标准要求的产品应采用补救措施，以达到符合标准的相关要求。

补救措施应得到全国信息技术标准化技术委员会的认可；●凡是在ＧＢ１８０３０过渡期（即２００１年８月３１日）后正式发布或出厂的产品，必须符合ＧＢ１８０３０相关要求。

２．关于标准符合性测试为了配合ＧＢ１８０３０的实施，信息处理产品标准符合性检测中心（设在信息产业部电子工业标准化研究所）开展了ＧＢ１８０３０各项测试的准备工作，并且对国内外多个产品进行了测试。

为了指导标准实现者沿着正确的方向尽快在产品上实现ＧＢ１８０３０，信息处理产品标准符合性检测中心于２０００年１１月提出了《ＧＢ１８０３０标准符合性检测规范》。

汉字编码

11
例
54 区 0 1 2 3 4 5 6 7 8 9 55 区 0 1 2 3 4 5 6 7 8 9 帧症郑证芝枝支吱蜘住注祝驻抓爪拽专砖
1 知肢脂汁之织职直植殖 2 执值侄址指止趾只旨纸 3 志挚掷至致置帜峙制智 4 秩稚质炙痔滞治窒中盅 5 忠钟衷终种肿重仲众舟 6 周州洲诌粥轴肘帚咒皱 7 宙昼骤珠株蛛朱猪诸诛 8 逐竹烛煮拄瞩嘱主著柱 9 助蛀贮铸筑
4
汉字编码
ASCII码

美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码包括33个控制码，一个空格码，和94个形象码形象码中包括了英文大小写字母，阿拉伯数字，标点符号等国际上大部分电脑的通用编码
5
汉字编码
文本文件与二进制文件

字符大都是用一个八位二进制数字表示，美标只规定了128个编码，剩下的另外128个数码没有规范，美标中的33个控制码，各厂家用法也不尽一致文本文件(ASCII Text Files) ：美标形象码或空格码组成，通常可在不同电脑系统间直接交换二进制文件(Binary Files) ：含有控制码或非美标码的文件，通常不能在不同电脑系统间直接交换
汉字编码
9
例
09 区 0 1 2 3 4 5 6 7 8 9 ⒜ ⒝ ⒞ ⒟ ⒠ ⒡ 1 ⒢ ⒣ ⒤ ⒥ ⒦ ⒧ ⒨ ⒩ ⒪ ⒫ 2 ⒬ ⒭ ⒮ ⒯ ⒰ ⒱ ⒲ ⒳ ⒴ ⒵ 3 Ⓐ Ⓑ Ⓒ Ⓓ Ⓔ Ⓕ Ⓖ Ⓗ Ⓘ Ⓙ 4 Ⓚ Ⓛ Ⓜ Ⓝ Ⓞ Ⓟ Ⓠ Ⓡ Ⓢ Ⓣ 5 Ⓤ Ⓥ Ⓦ Ⓧ Ⓨ Ⓩ ⓐ ⓑ ⓒ ⓓ 6 ⓔ ⓕ ⓖ ⓗ ⓘ ⓙ ⓚ ⓛ ⓜ ⓝ 7 ⓞ ⓟ ⓠ ⓡ ⓢ ⓣ ⓤ ⓥ ⓦ ⓧ 8 9

编码字符集标准及分类研究_谢谦

中　文　信　息　学　报第20卷第5期　J OURNAL OF CH I NESE I NF OR MATI O N P ROCESSI NG V ol.20N o.5文章编号:1003-0077(2006)05-0083-08编码字符集标准及分类研究谢　谦1,2,芮建武1,吴　健1(1.中国科学院软件研究所开放系统与中文信息处理中心,北京　100080;2.河南大学计算机与信息工程学院,河南开封　475001)摘要:编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。

探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。

关键词:计算机应用;中文信息处理;编码字符集中图分类号:TP391 文献标识码:AResearch on Coded Character Set Standards and C lassificationX I E Q ian1,2,RU I Jian-wu1,W U Jian1(1.Open Syste m and Ch i nes e Infor m ati on Processi ng Cen ter,Institute of Soft w are,C h i nes e A cade m y of S ci en ces,B eiji ng100080,Ch i na;2.S chool of Compu t er and In for m ation Engineeri ng,H enan Un i versity,Kaifeng,H enan475001,Ch ina)Ab strac t:Coded character se t standa rd are t he base s of t he co m puter t ex t infor m ati on processing.In t his pape r,a3-turples m ode l is proposed t o descibe the coded character se.t The ex isting code standards are reviewed and su mma-rized.A nd t he ISO2022and it's deriv i ng standards are ana l y zed in de tail;incl uding the li m ita tion o f u tilizi ng IS O 2022in m ultili ngua l env iron m en.t N ecessit y o f foundi ng UCS(U niversa lCha racter Se t)is present ed,a long w it h an outline ana l y sis o f UCS.A ft e r eva l uating current c l assifica tion m e t hods o f coded character set standa rds,a new m eth-od is produced w ith applica tion i n ca talogu i ng existing standa rds.W e c l o se ou r paper w ith a brief ana l ysis of i m po r-tan t Chinese na tiona l st andards on Han character se.tK ey word s:compu t e r applicati on;Ch i nese inf o r m ati on processing;coded character se t计算机应用从单纯的科学计算转向信息处理,是引发二十世纪信息革命的里程碑事件,而支撑这一转变的重要基础就是字符编码;通过制定字符编码标准,在人能理解的文字信息与计算机内部表达之间建立了一个基本的沟通桥梁,直到今天,基于文字的交互途径仍然是最主要的人机界面。

中文编码字符集标准大全

中文编码字符集标准大全国家标准代码，简称国标码，是中华人民共和国的中文常用汉字编码集，亦为新加坡采用。

现时中华人民共和国官方强制使用GB 18030标准，但较旧的计算机仍然使用GB 2312。

较常见的国家汉字标准代码列表：GB 2312-80信息交换用汉字编码字符集基本集（又称 GB 或 GB0）GB 13000.1-93信息技术通用多八位编码字符集（UCS）第一部分（相当于 ISO 10646-1:1993 中文版）GB 18030-2005信息技术中文编码字符集---GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又称为GB0，由中国国家标准总局发布，1981年5 月1日实施。

GB2312编码通行于中国大陆；新加坡等地也采用此编码。

中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。

--GB 13000，中华人民共和国国家标准的国家标准代码之一，全称 GB 13000.1-93《信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面》。

此标准等同采用国际标准化组织 ISO/IEC 10646.1:1993《信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面》。

GB 13000的字符集包含20,902个汉字。

--GBK全名为汉字内码扩展规范，英文名Chinese Internal Code Specification。

什么是GB18030-2000

什么是GB18030-2000
2000年3月，国家信息产业部和质量技术监督局在北京联合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》，国家标准号为：GB18030-2000，收录了27000
多个汉字，还收录了藏、蒙、维等主要少数民族的文字，该标准于2000年12月31日强制执行。

GB18030-2000 作为 GBK for Unicode 3.0 的更新而诞生，并且作为GB2312-80《信息交换用汉字编码字符集基本集》的扩展，向下兼容 GBK 和 GB2312-80标准。

GB18030 编码是一二四字节变长编码：一字节部分从 0x0～0x7F 与ASCII 编码兼容。

二字节部分，首字节从 0x81～0xFE，尾字节从0x40～0x7E 以及0x80～0xFE，与 GBK标准基本兼容。

四字节部分，第一字节从 0x81～0xFE，第二字节从 0x30～0x39，第三和第四字节的范围和前两个字节分别相同。

四字节部分覆盖了从 0x0080 开始，除去二字节部分已经覆盖的所有Unicode 3.0码位。

也就是说， GB18030 编码在码位空间上做到了与Unicode 标准一一对应，包含了CJK + CJK扩展A的全部汉字。

GB18030是我国继GB2312-80和GB13000-1993之后最重要的汉字编码标准，是未来我国计算机系统必须遵循的基础性标准之一。

编码空间超过150万个码位，为彻底解决邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题提供了解决方案，也为汉字研究、古籍整理等领域提供了统一的信息平台基础。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《信息技术通用编码字符集（基本多文种平面）汉字15×16点阵字型》(征求意见稿)编制说明
一、工作简况
1、任务来源
随着信息技术的不断发展，中文信息技术产品所使用硬件设备得到提升，中文信息处理设备对点阵字型出现了新的需求，为了满足信息处理设备对15×16点阵的需求，国家标准化管理委员会在2015年第三批“制、修订国家标准项目计划”中安排了本标准的制定工作，计划代号为20153659-T-469，标准名称为《信息技术通用编码字符集（基本多文种平面）汉字15×16点阵字型》。

本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司等单位负责起草，标准主要起草人有代红、熊涛等。

2、主要工作过程
标准计划任务下达后，由中国电子技术标准化研究院牵头成立了标准编制组和专家组，并制定了详细的标准研究实施方案。

中国电子技术标准化研究院主要负责字型设计、组织协调和标准文本起草，北京仓颉博雅信息技术有限公司负责字型设计，火箭军装备研究院第四研究所和潍坊北大青鸟华光照排有限公司负责字型纠错修改，专家组负责字型审查工作。

按照标准实施方案的要求，标准编制组于2016年6月底，分批提供了15×16点阵字型的设计初稿，并将字型设计初稿提供给字型专家审查，在设计点阵字型时对有疑问的字进行查证讨论，做到每个字的修改确定有据可查。

根据字型专家提出的修改意见，标准编制组对字型设计初稿进行修改，于2017年7月底前完成了对字型设计初稿的修改整理。

在对字型设计稿修改的同时，标准编制组还进行了标准文本的起草工作，2017年10月完成了标准草案。

2017年11月标准草案提交中国电子技术标准化研究院进行标准专家内审，标准起草组根据标准内审专家提出的意见对草案进行修改，形成了标准的征求意见稿，现向各位征求意见。

3、标准编制的主要成员单位及其所做的工作
本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司、火箭军装备研究院第四研究所等单位负责起草。

中国电子技术标准化研究院主要负责标准文本的起草、标准研究的组织协调，北京仓颉博雅信息技术有限公司负责
标准字型数据的制作和修改，火箭军装备研究院第四研究所负责标准字型数据的审查，其他单位参与标准起草工作。

二、标准编制原则和确定主要内容的论据及解决的主要问题
本标准依据编码字符集国家标准GB/T 13000中基本多文种平面中CJK统一汉字、CJK统一汉字扩充A及《通用规范汉字表》中其余汉字的内容和编码顺序制定，汉字的位置与GB/T 13000中的编码位置相对应。

字形依照1965年1月30日中华人民共和国文化部、中国文字改革委员会发布的《印刷通用汉字字形表》、1988年3月25日国家语言文字工作委员会、中华人民共和国新闻出版署发布的《现代汉语通用字表》和2013年6月18日中华人民共和国国务院发布的《通用规范汉字表》而设计，以确保字形的准确性与规范化。

本标准以GB/T 13000编码字符集基本多文种平面中CJK统一汉字、CJK统一汉字扩充A规定的27558个汉字及《通用规范汉字表》中的其余196个汉字为依据设计了15×16点阵字型。

本标准编制的原则是充分利用15×16点阵栅格进行设计，要求足格、清晰、准确。

对点阵字的设计满足如下要求：
●准确：字形正确，笔形规范；
●清楚：黑白适中，笔画清晰；
●美观：字的结构端正，大小匀称，组合比例协调，充分体现汉字字体风格。

为适应中文信息处理的发展和国际信息交换及汉字的规范化、标准化需求，在研制汉字字型的过程中，考虑到本标准的使用范围、时间和影响等因素，重点做了以下几个方面的工作：
（1）字形的正确性
常用字以《通用规范汉字表》为依据容易确定，而超出规范字表的一些字在不同的字典里列出的字形不一致，因此，在字形整理时，不仅根据整理汉字字形的规则，还参考已有的标准及《康熙字典》、《汉语大字典》、《中华字海》等工具书，本着不放过任何一个疑问的原则，经过专家组的反复逐字审查讨论确定。

（2）规范性
虽然国家早已公布了规范字表，但是实际应用中，如报刊、杂志、书籍，甚至个别字典中，仍然有不规范的字出现。

在设计和整理字形时，为保证每个字在字形结构、笔画数、笔形等方面做到准确、规范，编制组查证了大量的资料，并
进行了多次研究，特别对那些笔形容易出错的字进行了重点检查。

在保证每个字形正确的前提下，整个字库要做到相同的部件尽量统一，防止出现前后矛盾。

（3）美观性
由于本标准所收的汉字数量多、字形结构复杂，笔画多的字占比大，受点阵字型像素空间的限制，给字型设计增加了难度。

为了保证整副字的质量，在字形设计时，对字的结构特征做了分类，结合人的视觉因素和阅读效果，在进行实验对比的基础上，使整副字达到结构端正、大小一致、排列整齐、字形清晰。

三、主要试验[或验证]情况分析
无
四、知识产权情况说明
本标准不涉及知识产权及专利内容。

五、产业化情况、推广应用论证和预期达到的经济效果
无
六、采用国际标准和国外先进标准情况
目前暂无与本标准相对应的国际标准。

七、与现行相关法律、法规、规章及相关标准的协调性
本标准是为配合编码字符集国家标准GB/T 13000《信息技术通用编码字符集（UCS）》的使用而制定的，本标准依据GB/T 13000编码字符集基本多文种平面中CJK统一汉字、CJK统一汉字扩充A规定的27558个汉字及《通用规范汉字表》中其余196个汉字设计了15×16点阵字型，字汇和字序与GB/T 13000的相关规定保持一致。

九、标准性质的建议
建议本标准作为强制性标准发布实施。

十、贯彻标准的要求和措施建议
建议本标准发布后，实施过渡期半年。

十一、替代或废止现行相关标准的建议
本标准替代GB 19966-2005。

十二、其它应予说明的事项
在本标准编制过程中，有许多有关汉字字形共性的问题和一些字的个性问题需要一一解决。

（1）汉字的正形
根据GB/T 13000中所提供的CJK统一汉字扩充A的汉字有6582个，其中G列的汉字是由我国提出。

为了适应信息处理的发展和国际交流的需要，对G 列空缺汉字采用了其他国家和地区相应的字形，并按照字形规范化的要求适当进行了整理和设计。

（2）重码字的处理
本标准对重码的汉字字形进行处理，原则上保留原字形，对有些字的笔形与旧笔形不同的地方做了部分修改。

标准编制组
2018年4月。

国家标准信息技术汉字编码字符集基本集-全国信息技术标准化

我国汉字编码标准

国家标准化管理委员会公告2011年第1号――批准发布410项国家标准目录

中文信息处理重点题目及解答

全国信息技术标准化技术委员会简介20131030

全国信息技术标准化技术委员会工作交流

各类内码详细解析

信息技术习题(题目)

国家标准《信息技术汉字编码字符集(基本集)-全国信息技术标准化

GBK字库介绍

汉字的编码方式以及相应的关系

中文字符集、编码

信息技术 信息交换用汉字编码字符 集基本集的

信息技术标准化讲座_三_信息技术标准化涉及的范围_

中文字符集、编码

GB 18030《信息交换用汉字编码字符集基本集的扩充》

汉字编码

编码字符集标准及分类研究_谢谦

中文编码字符集标准大全

什么是GB18030-2000

信息技术信息交换用汉字编码字符集基本集的