GBK字库介绍

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GBK字库介绍

【基本概念】

GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会1995 年12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995 年12 月15 日联合以技监标函[1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的GBK 规范为 1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。

GBK 向下与GB 2312 编码兼容,向上支持ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。ISO 10646 是国际标准化组织ISO 公布的一个编码标准,即Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode 组织的Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国1993 年以GB 13000.1 国家标准的形式予以认可(即GB 13000.1 等同于ISO 10646.1)。

GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定,1995年12月正式发布,目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP等都支持GBK编码方案。

【知识链接】

我们经常使用各种编码标准的汉字,编码到底是什么呢?所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。和中文字库有关的编码标准有:国标GB码、GBK码、港台BIG-5

码等,不同编码的汉字字库都与汉字的应用有密切关系。

很多人在使用过程中,发现字不够用,因为目前大家使用的主要是GB编码字库,此编码标准只收录了6763个常用汉字,而GB字库以外大量汉字,只能通过方正女娲补字软件拼字或其它造字程序补字。尽管补出的汉字在字形上满足需要,但在字体风格、大小、结构方面难以协调统一,而采用手工贴图的方式补字,更不雅观。进而言之,如果用户建立信息系统,或需要查询新闻、出版内容时,靠补字是无法实现的。方正开发的GBK字库,将极大地缓解缺字现象。

从GB字库扩充到GBK字库,增加了1万4千多字。北大方正从1996年投入大量人力,开始做黑、宋、仿、楷GBK字库,并于1998年4月成为第一家通过国家权威部门组织的GBK 字库鉴定的专业厂商。到现在为止,北大方正已将全部字体转换成GBK字库,共46款,其中18款字数达21003个,是拥有GBK字库款数最多的厂商。

ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS 11643 标准中第1、2 字面(基本等同于BIG-5 编码)、第14 字面的汉字和符号。

【相关概念】

◎一、字汇

GBK 规范收录了ISO 10646.1 中的全部CJK 汉字和符号,并有所补充。具体包括:

1. GB 2312 中的全部汉字、非汉字符号。

2. GB 13000.1 中的其他CJK 汉字。以上合计20902 个GB 化汉字。

3. 《简化字总表》中未收入GB 13000.1 的52 个汉字。

4. 《康熙字典》及《辞海》中未收入GB 13000.1 的28 个部首及重要构件。

5. 13 个汉字结构符。

6. BIG-5 中未被GB 2312 收入、但存在于GB 13000.1 中的139 个图形符号。

7. GB 12345 增补的 6 个拼音符号。

8. 汉字“○”。

9. GB 12345 增补的19 个竖排标点符号(GB 12345 较GB 2312 增补竖排标点符号29 个,其中10 个未被GB 13000.1 收入,故GBK 亦不收)。

10. 从GB 13000.1 的CJK 兼容区挑选出的21 个汉字。

11. GB 13000.1 收入的31 个IBM OS/2 专用符号。

◎二、码位分配及顺序

GBK 亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除xx7F 一条线。总计23940 个码位,共收入21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。

全部编码分为三大部分:

1. 汉字区。包括:

a. GB 2312 汉字区。即GBK/2: B0A1-F7FE。收录GB 2312 汉字6763 个,按原顺序排列。

b. GB 13000.1 扩充汉字区。包括:

(1) GBK/3: 8140-A0FE。收录GB 13000.1 中的CJK 汉字6080 个。

(2) GBK/4: AA40-FEA0。收录CJK 汉字和增补的汉字8160 个。CJK 汉字在前,按UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。

2. 图形符号区。包括:

a. GB 2312 非汉字符号区。即GBK/1: A1A1-A9FE。其中除GB 2312 的符号外,还有10 个小写罗马数字和GB 12345 增补的符号。计符号717 个。

b. GB 13000.1 扩充非汉字区。即GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号166 个。

相关文档
最新文档