GBK字库介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GBK字库介绍
【基本概念】
GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会1995 年12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995 年12 月15 日联合以技监标函[1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的GBK 规范为 1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。
GBK 向下与GB 2312 编码兼容,向上支持ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。ISO 10646 是国际标准化组织ISO 公布的一个编码标准,即Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode 组织的Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国1993 年以GB 13000.1 国家标准的形式予以认可(即GB 13000.1 等同于ISO 10646.1)。
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定,1995年12月正式发布,目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP等都支持GBK编码方案。
【知识链接】
我们经常使用各种编码标准的汉字,编码到底是什么呢?所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。和中文字库有关的编码标准有:国标GB码、GBK码、港台BIG-5
码等,不同编码的汉字字库都与汉字的应用有密切关系。
很多人在使用过程中,发现字不够用,因为目前大家使用的主要是GB编码字库,此编码标准只收录了6763个常用汉字,而GB字库以外大量汉字,只能通过方正女娲补字软件拼字或其它造字程序补字。尽管补出的汉字在字形上满足需要,但在字体风格、大小、结构方面难以协调统一,而采用手工贴图的方式补字,更不雅观。进而言之,如果用户建立信息系统,或需要查询新闻、出版内容时,靠补字是无法实现的。方正开发的GBK字库,将极大地缓解缺字现象。
从GB字库扩充到GBK字库,增加了1万4千多字。北大方正从1996年投入大量人力,开始做黑、宋、仿、楷GBK字库,并于1998年4月成为第一家通过国家权威部门组织的GBK 字库鉴定的专业厂商。到现在为止,北大方正已将全部字体转换成GBK字库,共46款,其中18款字数达21003个,是拥有GBK字库款数最多的厂商。
ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS 11643 标准中第1、2 字面(基本等同于BIG-5 编码)、第14 字面的汉字和符号。
【相关概念】
◎一、字汇
GBK 规范收录了ISO 10646.1 中的全部CJK 汉字和符号,并有所补充。具体包括:
1. GB 2312 中的全部汉字、非汉字符号。
2. GB 13000.1 中的其他CJK 汉字。以上合计20902 个GB 化汉字。
3. 《简化字总表》中未收入GB 13000.1 的52 个汉字。
4. 《康熙字典》及《辞海》中未收入GB 13000.1 的28 个部首及重要构件。
5. 13 个汉字结构符。
6. BIG-5 中未被GB 2312 收入、但存在于GB 13000.1 中的139 个图形符号。
7. GB 12345 增补的 6 个拼音符号。
8. 汉字“○”。
9. GB 12345 增补的19 个竖排标点符号(GB 12345 较GB 2312 增补竖排标点符号29 个,其中10 个未被GB 13000.1 收入,故GBK 亦不收)。
10. 从GB 13000.1 的CJK 兼容区挑选出的21 个汉字。
11. GB 13000.1 收入的31 个IBM OS/2 专用符号。
◎二、码位分配及顺序
GBK 亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除xx7F 一条线。总计23940 个码位,共收入21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。
全部编码分为三大部分:
1. 汉字区。包括:
a. GB 2312 汉字区。即GBK/2: B0A1-F7FE。收录GB 2312 汉字6763 个,按原顺序排列。
b. GB 13000.1 扩充汉字区。包括:
(1) GBK/3: 8140-A0FE。收录GB 13000.1 中的CJK 汉字6080 个。
(2) GBK/4: AA40-FEA0。收录CJK 汉字和增补的汉字8160 个。CJK 汉字在前,按UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
2. 图形符号区。包括:
a. GB 2312 非汉字符号区。即GBK/1: A1A1-A9FE。其中除GB 2312 的符号外,还有10 个小写罗马数字和GB 12345 增补的符号。计符号717 个。
b. GB 13000.1 扩充非汉字区。即GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号166 个。