GBK汉字编码技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

F
福建电脑
UJIAN COMPUTER
福建电脑
2017年第11期基金项目:福建省教育厅B 类项目
(JB08049)1.引言
文字的数字化对不同民族、种族的交流有非常重要的意义,有利于文化传播;文字的数字化离不开文字的编码,这些编码方式会影响古籍、嵌入式设备上的字符输出显示。

文字编码标准、尤其汉字编码标准有很多,很有研究的必要,因此本文先
对现有汉字编码标准进行介绍,然后重点对编码标准GB2312-80和GBK 进行分析。

2.常见文字编码技术
文字的数字化是计算机处理文字的基础,
其主要过程是将文字映射为二进制整数,又称为文字的编码,
而真正写入内存的文字编码称为内码。

信息存储的最小单位是位(b ,bit ),基本
单位是字节(B ,Byte ),1B=8b 。

内码一般由固定长度的字节组成。

目前的文字编码标准主要有ASCII 、GB2312、GBK 、Unicode 等[1],下面分别对这些编码标准做介绍。

ASCII 编码是最简单的西文编码方案。

GB2312、GBK 、GB18030是汉字字符编码方案的国家标准。

ISO/IEC 10646和Unicode 都是全球字符编码的国际标准。

下面对与汉字相关的编码方案做简要的分析。

2.1ASCII 编码
标准ASCII 码使用7位二进制来编码常见的西文字符,对
应1个字节的低7位,最高位为0,可以表示128个符号,其中ASCII 码小于32的是控制字符。

32~126表示可打印字符。

扩展ASCII 码采用最高位为1的8位二进制来表示。

但西方国家对扩展ASCII 定义的字符集不统一。

表1GBK 编码标准编码空间2.2GB2312-80编码标准
GB2312-80是1980年制定的中国汉字编码国家标准。

共收录7445个字符,其中汉字6763个。

GB2312兼容标准ASCII 码,采用扩展ASCII 码的编码空间进行编码,一个汉字占用两
个字节,每个字节的最高位为1。

具体办法是:收集了7445个字符组成94*94的方阵,每一行称为一个
“区”,每一列称为一个“位”,区号位号的范围均为01-94,区号和位号组成的代码称为
“区位码”。

区位输入法就是通过输入区位码实现汉字输入的。

将区号和位号分别加上20H ,得到的4位十六进制整数称为国
标码,编码范围为0x2121~0x7E7E 。

为了兼容标准ASCII 码,
给国标码的每个字节加80H ,形成的编码称为机内码,
简称内码,是汉字在机器中实际的存储代码,GB2312-80标准的内码范围是0xA1A1~0xFEFE 。

2.3.GBK 编码标准
《汉字内码扩展规范》
(GBK )于1995年制定,兼容GB2312、GB13000-1、BIG5编码中的所有汉字,使用双字节编
码,编码空间为0x8140~0xFEFE ,共有23940个码位,
如表1所示[3][4],其中GBK1区和GBK2区也是GB2312的编码范围。

收录了21003个汉字。

3.字符的输入
3.1基于C 语言进行字符的输入和显示
WINDOWS 操作系统的中文版,默认采用“ANSI/OEM ╞简体中文GBK ”进行文字编码。

打印GBK 字符集,需要将GBK 编码按照2个字节一组写入文件,用记事本打开文件时会按照默认的字体显示对应编码的字符。

FILE*fp=fopen("GBKHZ.TXT","wb");unsigned int high,low;int i;unsigned int start [5]={0xB0A1,0x8140,0xAA40,0xA1A1,0xA840};
unsigned int end [5]={0xF7FE,0xA0FE,0xFEA0,0xA9FE,0xA9A0};
for(i=0;i<5;i++)
for (high =((start [i ]>>8)&0xFF);high <=((end [i ]>>8)
&0xFF);high++)
for(low=(start [i ]&0xFF);low<=(end [i ]&0xFF);low++){fputc(high,fp);fputc(low,fp);}fclose(fp);
3.2基于Excel 的字符输入和显示
Excel 表格可以比较直观的显示GBK 编码字符集。

在打开的Excel 文件中按ALT+F11键,进入VBA 代码模式编写如下过程,运行过程可在Excel 看到GBK 的字符集。

Sub OutputGBK
For Row =0To 255For col =0To 255
Sheet1.Cells(Row +1,col +1)=Chr(Row *256+
GBK 汉字编码技术研究
杨善超
(福建师范大学数学与信息学院福建福州350007)
【摘要】文字编码是现代社会信息传播的基础,对文化发展非常重要。

本文简述了常见的汉字编码方案,
重点分析了GB2312、GBK 编码标准的文字编码规则,并通过C 语言、Excel 进行GBK 文字符号的分类显示。

【关键词】GBK 编码;GB2312编码;C 语言;Excel 类别编码范围汉字区,GBK2区B0A1~F7FE 汉字区,GBK 3区8140~A0FE 汉字区,GBK 4区AA40~FEA0非汉字区,GBK1区A1A1~A9FE 非汉字区,GBK5区A840~A9A0用户自定义1区AAA1~AFFE 用户自定义2区F8A1~FEFE 用户自定义3区
A140~A7A0
DOI:10.16707/ki.fjpc.2017.11.006
(下转第30页)
13··
F
福建电脑
UJIAN COMPUTER
福建电脑2017年第11期
col)
Next col
Next Row End Sub 4.结束语
本文对GBK 和GB2312编码方案进行了分析,
采用C 语言和Excel 对内码对应的字符进行显示,是进行文字信息处理的重要基础,可以在此基础上做进一步的汉字信息处理。

参考文献:
[1]多媒体技术基础[M ],林福宗,北京:清华大学出版社,2017:27-42
[2]Unicode10.0Character Code Charts./charts/,2017
[3]Unicode 、GB2312、GBK 和GB18030中的汉字,/text24.htm,2017[4]GBK

Unicode
编码的转换,
http://www.chi2ko.
com/jingyan/gbk2uni.htm ,2017
作者简介:
杨善超(1979-),男(汉族),山东东平人,讲师,硕士,主要研究方向为图形图像处理、多媒体信息安全。

户通过用户界面提交处理请求并能接收处理结果,
该层还将根据用户的不同请求调用不同的业务逻辑,并提供操作所需要的界面控件。

(2)业务逻辑层业务逻辑层实现了该系统中的重要业务逻
辑,针对具体的问题完成相应的业务逻辑操作,
并返回处理结果。

该层是整个系统功能的核心部分,
我们将采用面向对象的方法来实现,面向对象程序设计的封装性、
继承性、多态性有助于降低了开发难度。

该层在实现时分成多个模块,
这些模块完整包含了医护查房系统的各个应用逻辑,
使得程序开发更加的高效合理。

(3)Web Service 与数据库交互层医院的各种信息系统通过Web Service 技术向运行在移动端的医护查房系统提供信息服务,他们之间的交互采用SOAP 协议。

Web Service 技术能使得
运行在不同机器上的不同应用无须借助附加的、
专门的第三方软件或硬件,就可相互交换数据或集成。

该层分为Web Service 模块和数据库操作模块两大模块。

3关键技术(1)Android 程序开发技术,主要包括Android 用户界面设计、Activity 、Intent 、事件处理、图形图像处理、多媒体应用开发、SQLite 本地存储等。

(2)Servlet 服务器端技术,
主要包括Servlet 远程服务交互技术,JDBC 数据库访问技术等。

(3)Web Service 技术和JSON 数据交换格式技术。

医护人
员从移动终端设备(平板电脑)
上获取或上传的数据都是与医院的各类信息系统进行交互的。

医院的各类信息系统利用Web Service 的分布式处理跨平台使用的特点完成了服务器与
移动终端之间跨平台的通信过程。

同时,
由于患者的相关数据信息量可能较大,把数据JSON 格式化,优化了通信性能,
提高了通信效率。

4创新点(1)技术的先进性,基于Android 手机的应用程序是近几年软件开发技术上新兴的一个方向,目前我院基于Android 手机的应用还比较少,选择这个可以项目为其他Android 手机应用
开发积累经验。

(2)有利于医院医护人员查房方式的升级,有助于医护人
员减轻了查房压力,提高了查房的效率,
使得查房信息数据完整、准确及时。

(3)本项目的业务流程易于理解,所用技术正好是我院软件技术专业(安卓应用开发工程师方向)
的核心技术,项目组成员在开发过程中能得到很好的锻炼,
并能为专业实践教学积累实训案例。

(4)本项目的顺利实施也将为我院医护专业的学生的学习
和实习提供良好的软件环境支撑,
提升他们的信息技术应用能力。

5结论基于Android 的医护查房系统是我院和河南圣坛软件开发有限公司的校企合作项目,它的开展和实施有助于深化校企合作,真正做到校企合作。

能够促使学院教师按照企业的开发流程和规范去研究和开发项目,并应用到教学实践中去。

相信校企共同合作,一定能使基于Android 的医护查房系统不断完善和成熟,早日应用到医院实践中。

参考文献:
[1]赵敏.基于平板电脑和PDA 的移动临床信息系统的设计与实现[D ].厦门大学,2012.
[2]仲晓伟等.医院临床用平板电脑的设计[J ].中国医疗器械杂志,2012,36(3):185-187.
[3]俞坤游.基于Android 平台医护查房系统的研究与设计[D ].广东工业大学,2014.
[4]杨建强.基于.NET 三层架构的多条件查询的实现[J ].中小企业管理与科技(下旬刊),2011(12):270.
作者简介:
杨建强(1978-),男,河南省滑县人,副教授,硕士,研究方向:软件开发、计算机应用。

(上接第13页)
30··。

相关文档
最新文档