汉字信息在计算机中的处理 汉字 计算机 汉字信息
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字信息在计算机中的处理
随着计算机技术的发展,计算机具有了中文信息处理的能力,那么汉字信
息在计算机中是如何被存储、输入输出和显示的呢?
一、汉字信息在计算机中的处理与存储
计算机对每一个字符进行编码形成其对应的唯一一个内码就是汉字的存储,然而同一个字符(例如“中”字)不同编码对应的内码不一样。
计算机中汉字
编码一般采用两个高位(左边第一位)为1 的ASCⅡ码表示一个汉字,即用两
个字节表示一个汉字。
汉字在计算机内的编码很复杂,涉及汉字的各种代码,
如汉字输入码,汉字机内码,汉字交换码,汉字字形码等。
1、汉字输入码
汉字输入码也叫外码,是为了通过键盘字符把汉字输入计算机而设计的一
种编码。
汉字的输入码种类繁多,大致有4种类型,即音码、形码、数字码和
音形码。
2、汉字机内码
汉字机内码又称内码或汉字存储码。
该编码的作用是统一了各种不同的汉
字输入码在计算机内的表示。
汉字机内码是计算机内部存储、处理的代码。
3、汉字交换码:汉字交换码主要是用作汉字信息交换的。
4、汉字字形码
汉字字形码是指确定一个汉字字形点阵的代码(汉字字形码)。
一般采用
点阵字形表示字符。
目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。
所谓“点阵字模码”,就是将汉字像图像一样置于网状方格上,每格是存储器
中的一个位,16×16点阵是在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。
这种用点阵形式存储的汉字字型信息的
集合称为汉字字模库,简称汉字字库。
通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。
汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要使用512个字节。
在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个,需要282.5KB磁盘空间。
而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间,这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)。
建立汉字字库是处理汉字的主要思想之一,在显示器、打印机上输出的汉字的字形放在计算机的外存储器中。
同时,汉字编码是有国家标准的,叫做“中华人民共和国国家标准信息交换汉字编码”,简称“国标码”,用“GB2312-80”表示。
GB2312-80包括了汉字字符基本集,共收录汉字、图形符号等共7445个,依据其位置,分为94个区,每区共94位。
“区”的序号由01至94,“位”的序号也是由01至94,“区”和“位”构成一个汉字的四位数字编码,因此四位阿拉伯数字就可以唯一地确定一个汉字或一个字符。
二、汉字信息的输入输出
汉字输入就是将汉字符号输入到计算机中,目前简便易行的方式是键盘输入。
有了汉字的内码和输入码,计算机就可以处理汉字了,下面的工作就是将处理后的汉字信息输出了。
汉字是一个特殊的图形符号,输出主要是指在显示器上或打印机上输出汉字的字形,将它用点阵的方式描述。
在汉字输出时,计算机根据汉字机内码从汉字库中取出相应的汉字字型码。
通过汉字处理系统的专门处理程序自动把要输出的汉字的内码转换成对应的汉字字形后输出。
三、汉字的显示
那么,我们存储的汉字是如何被调用现实屏幕显示的呢?不同的编码,存储方式,如何找到这个字符的呢?这是通过识别到文本编码后再通过这个字的内码,找到字库中存贮这个字符的位置,然后将汉字的形状显示出来。