信息技术 信息交换用汉字编码字符 集基本集的

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

尾字节
0x40 0x81 0x7E 0x80 0xA0 0xA1 0xFE
双字节 3 区:6080 码位 0xA0 0xA1
首 字 节
双字节用户区 3:672 码位 0xA7 0xA8-0xA9 0xAA
双字节 1 区:846 码位 GB 18030
双字节用户区 1:564 码位 双字节 5 区: 192 码位
2000-03-17 发布
2000-03-17 实施
国 家 质 量 技 术 监 督 局 发布
GB 18030-2000


本标准作为 GB 2311 体系的字符编码标准,规定了信息交换用的基本图形字符及其二进 制编码的十六进制表示。 本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。 本标准是对 GB 2312 的扩充。 本标准具体规定了图形字符的单字节编码和双字节编码,并对四字节编码体系结构做出 了规定。 本标准的附录 A、附录 B、附录 C 和附录 D 是标准的附录。 本标准从生效之日期起,同时代替原国家技术监督局标准化司和原电子工业部科技与质 量监督司联合以技监标函[1995]229 号文发布和实施的技术规范指导性文件《汉字内码扩展 规范(GBK) 》1.0 版。 本标准由中华人民共和国信息产业部提出。 本标准由信息产业部电子工业标准化研究所归口。 本标准起草单位:信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北 大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中科院软件所、 长城软件公司、四通利方公司、中软总公司、金山软件公司、联想公司。 本标准主要起草人:陈堃銶、黄疆、胡万进、张建国、陈壮。
SP ! " # ꎤ % & ' ( ) * ESC + ´ . /
0 1 2 3 4 5 6 7 8 9 : ; < = > ?
@ A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ \ ] ^ _ 图2
` a b c d e f g h i j k l m n
5
GB 18030—2000
b4 b3 b2 b1
b8 b7 b6 b5
0 0 0 0 00
0 0 0 1 01
0 0 1 0 02
0 0 1 1 03
0 1 0 0 04
0 1 0 1 05
0 1 1 0 06
0 1 1 1 07
1 0 0 0 08
1 0 0 1 09
1 0 1 0 10
1 0 1 1 11
p q r s t u v w x y z { | } ~

o DEL 单字节区码位图
8.2
双字节部分的码位分配 本标准中,双字节的部分的码位安排分为 0x8140 至 0xFE7E 和 0x8180 至 0xFEFE 两部 分,共 23940 个码位。见图 3 及表 2。
6
GB 18030—2000
ICS 35.040 L71
中华人民共和国国家标准
GB 18030— 2000
信息技术 信息交换用汉字编码字符 集 基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set (报批稿)
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分 本标准中,单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编 码的欧元符号。 5.2 双字节部分 本标准中,双字节的部分收录内容如下: GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。 汉字数字“〇” 。 表意文字描述符 13 个。 增补汉字和部首/构件 80 个。 双字节编码的欧元符号。 5.3 四字节部分 本标准的四字节的部分,收录了上述双字节字符之外的,包括 CJK 统一汉字扩充 A 在 内的 GB 13000.1 中的全部字符。 总体结构 本标准中,采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一 个字节均由八位二进制位串组成, 任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表 示。 单字节部分采用 GB 11383 的编码结构与规则,使用 0x00 至 0x80 码位。双字节部 分采用两个八位二进制位串表示一个字符,其首字节码位从 0x81 至 0xFE,尾字节码位分别 是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对 双字节编码扩充的后缀,这样扩充的四字节编码,其范围为 0x81308130 到 0xFE39FE39。见 表 1 及图 1。 6
2000
双字节 4 区:8160 码位
双字节 2 区:6768 码位
双字节用户区 2:658 码位 0xFE 汉字区(21008) 图形符号区(1038) 用户自定义区(1894) 总计:23940 个码位
7
图3
双字节部分编码空间结构图
GB 18030—2000
表 2 双字节部分的码位安排 类别 符 号 区 汉 字 区 用户自 定义区 区名 双字节 1 区 双字节 5 区 双字节 2 区 双字节 3 区 双字节 4 区 双字节用户区 1 双字节用户区 2 双字节用户区 3 码位范围 A1A1—A9FE A840—A9A0 B0A1—F7FE 8140 —A0FE AA40—FEA0 AAA1—AFFE F8A1—FEFE A140—A7A0 码位数 846 192 6768 6080 8160 564 658 672 字符数 718 166 6763 6080 8160 字符类型 图形符号 图形符号 汉字 汉字 汉字
注:本标准中,凡数字前标有 0x 的表示采用十六进制,未标有 0x 的表示采用十进制。
3
GB 18030—2000
0x00 单字节结构
0x80
0x40 0x81
尾字节 0x7E 0x80
0xFE
首 字 节
0xFE 双字节结构
共 1260 组
0x81 第 一 字 节 0xFE 0x30 0x39 第二字节
码位空间 0x00~0x80
四字节字符的编码自第四个字节开始,编码码位为 0x30 至 0x39;其次是第三个字节, 编码码位为 0x81 至 0xFE;再次是第二个字节,编码码位为 0x30 至 0x39;最后是第一个字 节,编码码位为 0x81 至 0xFE。即, 0x81308130 至 0x81308139 ; 0x81308230 至 0x81308239 ; …… 0x8130FE30 至 0x8130FE39 ; 0x81318130 至 0x81318139 ; …… 0x8131FE30 至 0x8131FE39 ; …… 0x82308130 至 0x82308139 ; …… 0x8230FE30 至 0x8230FE39 ; …… 0xFE308130 至 0xFE308139 ; …… 0xFE39FE30 至 0xFE39FE39 。
1 GB 18030 — 2000
范围 本标准作为 GB 2311 体系的编码字符标准,规定了信息交换用的图形字符及其二进制 编码的十六进制表示。 本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。 引用标准 下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时, 所示版本均为有效。 所有标准都会被修订, 使用本标准的各方应探讨使用下列标准最新版本 的可能性。 GB 2311—1990 信息处理 七位和八位编码字符集 代码扩充技术(eqv ISO 2022:1986) GB 2312 —1980 信息交换用汉字编码字符集 基本集 GB 11383—1989 信息处理 信息交换用八位代码结构和编码规则(idt ISO 4873: 1986) GB 12345 —1990 信息交换用汉字编码字符集 辅助集 GB 13000.1—1993 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基 本多文种平面(idt ISO/IEC 10646.1-1993 ) 原则 本标准向下与国家标准 GB 2312 信息处理交换码所对应的事实上的内码标准兼容。 本标准在字汇上支持 GB 13000.1 的全部中、日、韩(CJK)统一汉字字符和全部 CJK 统一汉字扩充 A 的字符。 定义 本标准采用下列定义。 4.1 字汇 repertoire 用编码字符集表示的一个指定的字符集合。 4.2 字符 character 供组织、控制或表示数据用的元素集合中的一个元素。 4.3 编码字符 coded character 字符及其编码表示。 国家质量技术监督局 2000-03-XX 批准 2000-XX-XX实施
0x81 0x81 第 三 字 节 0xFE 0x30 0x39 第四字节 第 三 字 节
0xFE 0x30 第四字节
0x39
第一、二字节 结构
第三Fra Baidu bibliotek四字节 结构
四字节总体 结构
图1
总体结构图
4
GB 18030—2000
7 字符的排列顺序 7.1 单字节部分字符的排列顺序 本标准中单字节部分所有字符按照 GB 11383 中相应字符的顺序排列,单字节编码的欧 元符号置于 0x80 位置,对应于 GB 13000.1 的 0x20AC 位置。见图 2。 7.2 双字节部分字符的排列顺序 本标准双字节部分的字符排列顺序见附录 A。 7.3 四字节部分字符的排列顺序 自 0x81308130 至 0x8439FE39 共 50400 个码位, 对应本标准双字节部分未包括的所 有 GB 13000.1 的字符,按照 GB 13000.1 相应字符的顺序排列,剩余码位保留。 自 0x85308130 至 0x8539FE39 共 12600 个码位, 为本标准的保留区, 留待未来字符 扩展使用。 自 0x86308130 至 0x8F39FE39 共 126000 个码位,为本标准的保留区,留待未来汉 字字符扩展使用。 自 0x90308130 至 0xE339FE39 共 1058400 个码位,用于对应 GB 13000 的 16 个辅助 平面,字符排列顺序完全遵照 GB 13000 的 16 个辅助平面的相应码位顺序依次排列,剩余码 位保留。 自 0xE4308130 至 0xFC39FE39 共 315000 个码位,为本标准的保留区,留待未来标 准扩展使用。 自 0xFD308130 至 0xFE39FE39 共 25200 个码位,为用户自定义区。 8 码位分配 8.1 单字节部分的码位分配 本标准中, 单字节的部分的码位分配见 GB 11383。 单字节编码欧元符号置于 0x80 位置。 见图 2。
1 1 0 0 12
1 1 0 1 13
1 1 1 0 14
1 1 1 1 15
0 0 0 0 00 0 0 0 1 01 0 0 1 0 02 0 0 1 1 03 0 1 0 0 04 0 1 0 1 05 0 1 1 0 06 0 1 1 1 07 1 0 0 0 08 1 0 0 1 09 1 0 1 0 10 1 0 1 1 11 1 1 0 0 12 1 1 0 1 13 1 1 1 0 14 1 1 1 1 15
中华人民共和国国家标准
信息技术 信息交换用汉字编码字符集 基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set
2
GB 18030—2000
表1 字节数 单字节 第一字节 双字节 0x81 ~ 0xFE 第一字节 四字节 0x81~ 0xFE 0x30~ 0x39 第二字节
码位范围分配图 码位数目 129 个码位 第二字节 23940 个码位 0x40 ~ 0x7E , 0x80 ~ 0xFE 第三字节 0x81~ 0xFE 第四字节 0x30~0x39 1587600 个码 位。
相关文档
最新文档