计算机中的字是如何处理的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
字符编码
一、西文字符编码:ASCII码
ASCII码全称为美国标准信息交换码(American Standard Code for Information Interchange)。
它用8位二进制数来编码,第1位全部是0,因此ASCII码最多可以表示2^7=128个字符,包括字母、数字、标点符号、控制符号等西文字符。
ASCII码已经被ISO认定为国际标准。
1)控制字符:0~31、127,共33个,不可显示;2)普通字符:95个,包括10个阿拉伯数字、52个英文大小写字母、33个标点符号和运算符。
常见ASCII码的大小规则,0-9<A-Z<a-z:
ASCII码表
记住几个常见字母的ASCII码大小:“A”为65;“a”为97;“0”为48;
在计算机系统中,用1字节来存储一个ASCII字符。
上表是标准ASCII字符,有一个特点:最高位(第八位)为0。
还有一种叫做扩充ASCII码,它是用8位二进制数给字符编码,这样可以表示256种字符。
二、汉字编码
计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。
1.汉字国标码
中国的文字不是拼音文字,汉字的个数有数万之多,远远超过区区256 个字符,因此我们就使用两个字节来表示一个中文。
为了与ASCII 保持兼容,与ASCII码相同的编码我们不使用。
1980年我国颁布了《信息交换用汉字编码字符集(基本集)》GB2312-80,简称国标码(或GB码),一共收集了7445个字符,其中汉字6763个。
一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首笔画汉字排列。
两个字节编码一个国标码字符。
2.汉字的机内表示:机内码:
计算机在信息处理时表示汉字的编码,称作机内码。
现在我国都用国标码(GB2312)作为机内码。
中国的台湾省也在使用中文,但是由于历史的原因,那里没有使用大陆的简体中文,还在使用着繁体的中文,并且他们自己也制定了一套表示繁体中文的字符编码,称为BIG5,不幸的是,虽然他们的也使用两个字节来表示一个汉字,但他们没有象我们兼容ASCII 一样兼容大陆的简体中文,他们使用了大致相同的编码范围来表示繁体的汉字。
天哪! ISO8859 的悲剧又出现在同样使用汉字的中国人身上了,同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏时,经常会遇到乱码的问题,问题根源就在于,大陆的计算机默认字符的编码就是
GB2312, 当碰到台湾使用BIG5 编码的文字时,就会作出错误的转换。
3.汉字输入码――输入码(外码)
汉字输入码是指直接从键盘输入的各种汉字输入方法的编码。
编码方法主要有三种:数字编码、拼音编码和字型编码。
数字编码:是用一串数字代表一个汉字。
拼音编码:是以汉字读音为基础的输入法。
字型编码:是根据汉字形状确定的编码。
(1)数字码(或流水码)如:电报码、区位码、纵横码
优点:无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。
缺点:是人为规定的编码,属于无理码,只能作为专业人员使用。
(2)字音码如:全拼、双拼、微软拼音
优点:简单易学。
缺点:汉字同音多,所以重码很多,输入汉字时要选字。
(3)字形码如:五笔字型、表形码、大众码、四角码
优点:不考虑字的读音,见字识码,一般重码率较低,经强化训练后可实现盲打。
缺点:拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。
(4)音形码如:声形、自然码、钱码
优点:利用音码的易学性和形码可有效减少重码的优点。
缺点:既要考虑字音,又要考虑字形,比较麻烦。
4.汉字的输出:字形码
在屏幕上显示或在打印机上打印出来的点阵存储信息,由汉字的字模信息所组成。
(1)点阵字形: 16X16、24X24、32X32、48X48、64X64
每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要32(16×16/8=32)个字节存储空间。
(2)轮廓字形
字笔画的轮廓用一组直线和曲线勾画。
记录的是这些几何形状之间的关系。
精度高。
Windows的TrueType字库采用此法。
5.计算机汉字的处理过程:
键盘输入(输入码)——编码转换(机内码)——编辑与输出(字型码)。