计算机中的字是如何处理的

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

字符编码

一、西文字符编码:ASCII码

ASCII码全称为美国标准信息交换码(American Standard Code for Information Interchange)。它用8位二进制数来编码,第1位全部是0,因此ASCII码最多可以表示2^7=128个字符,包括字母、数字、标点符号、控制符号等西文字符。ASCII码已经被ISO认定为国际标准。

1)控制字符:0~31、127,共33个,不可显示;2)普通字符:95个,包括10个阿拉伯数字、52个英文大小写字母、33个标点符号和运算符。

常见ASCII码的大小规则,0-9<A-Z<a-z:

ASCII码表

记住几个常见字母的ASCII码大小:“A”为65;“a”为97;“0”为48;

在计算机系统中,用1字节来存储一个ASCII字符。上表是标准ASCII字符,有一个特点:最高位(第八位)为0。还有一种叫做扩充ASCII码,它是用8位二进制数给字符编码,这样可以表示256种字符。

二、汉字编码

计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。

1.汉字国标码

中国的文字不是拼音文字,汉字的个数有数万之多,远远超过区区256 个字符,因此我们就使用两个字节来表示一个中文。为了与ASCII 保持兼容,与ASCII码相同的编码我们不使用。

1980年我国颁布了《信息交换用汉字编码字符集(基本集)》GB2312-80,简称国标码(或GB码),一共收集了7445个字符,其中汉字6763个。一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首笔画汉字排列。。两个字节编码一个国标码字符。

2.汉字的机内表示:机内码:

计算机在信息处理时表示汉字的编码,称作机内码。现在我国都用国标码(GB2312)作为机内码。

中国的台湾省也在使用中文,但是由于历史的原因,那里没有使用大陆的简体中文,还在使用着繁体的中文,并且他们自己也制定了一套表示繁体中文的字符编码,称为BIG5,不幸的是,虽然他们的也使用两个字节来表示一个汉字,但他们没有象我们兼容ASCII 一样兼容大陆的简体中文,他们使用了大致相同的编码范围来表示繁体的汉字。天哪! ISO8859 的悲剧又出现在同样使用汉字的中国人身上了,同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏时,经常会遇到乱码的问题,问题根源就在于,大陆的计算机默认字符的编码就是

GB2312, 当碰到台湾使用BIG5 编码的文字时,就会作出错误的转换。

3.汉字输入码――输入码(外码)

汉字输入码是指直接从键盘输入的各种汉字输入方法的编码。编码方法主要有三种:数字编码、拼音编码和字型编码。数字编码:是用一串数字代表一个汉字。拼音编码:是以汉字读音为基础的输入法。字型编码:是根据汉字形状确定的编码。

(1)数字码(或流水码)如:电报码、区位码、纵横码

优点:无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。

缺点:是人为规定的编码,属于无理码,只能作为专业人员使用。

(2)字音码如:全拼、双拼、微软拼音

优点:简单易学。

缺点:汉字同音多,所以重码很多,输入汉字时要选字。

(3)字形码如:五笔字型、表形码、大众码、四角码

优点:不考虑字的读音,见字识码,一般重码率较低,经强化训练后可实现盲打。

缺点:拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。

(4)音形码如:声形、自然码、钱码

优点:利用音码的易学性和形码可有效减少重码的优点。

缺点:既要考虑字音,又要考虑字形,比较麻烦。

4.汉字的输出:字形码

在屏幕上显示或在打印机上打印出来的点阵存储信息,由汉字的字模信息所组成。

(1)点阵字形: 16X16、24X24、32X32、48X48、64X64

每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要32(16×16/8=32)个字节存储空间。(2)轮廓字形

字笔画的轮廓用一组直线和曲线勾画。记录的是这些几何形状之间的关系。精度高。Windows的TrueType字库采用此法。

5.计算机汉字的处理过程:

键盘输入(输入码)——编码转换(机内码)——编辑与输出(字型码)

相关文档
最新文档