汉字计算机中的表示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉字计算机中的

一、前言

众所周知,英文是拼音文字,一个不超过128种字符的字符集,就可满足英文处理的需要。汉字是平面结构,字数多,字形复杂、长期被认为不便于计算机存储和处理,因而常有一些知名人士主张用拼音文字来取代汉字。经过我国科技工作者的不懈努力,这一问题已得到了较好的解决,我国已经具备了成熟的汉字信息处理方法,并且得到了广泛应用。二、汉字在计算机中表示方法。

用计算机处理汉字,首先要解决汉字在计算机里如何表示的问题,即汉字编码问题。根据统计,在人们日常生活交往中,包括社会生活、经济、科学技术交流等方面,经常使用的汉字约有四、五千个。汉字字符集是一个很大的集合,至少需要用两个字节作为汉字编码的形式。原则上,两个字节可以表示256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。这个方案可以容纳128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。

国家根据汉字的常用程度定出了一级和二级汉字字符集,并规定了编码。国家标准局于1981年公布了国家标准GB2312-80,即信息交换用汉字编码字符集基本集,其中共收录汉字和图形符号(682个)7445个。

每一个汉字或符号都用两个字节表示。其中每一个字节的编码取值范围都是从20H 到7EH,即十进制写法的33到126,这与ASCII编码中可打印字符的取值范围一样,都是94个。因为这样两个字节可以表示的不同字符总数为8 836个。而国标码字符集共有7 445个字符,所以在上述编码范围中实际上还有一些空位。

汉字国标码作为一种国家标准,是所有汉字编码都必须遵循的统一标准,但由于国标码每个字节的最高位都是“0”,与国际通用的标准ASCII码无法区分。例如,“天”字的国标码是01001100 01101100 ,即两个字节分别是十进制的76 108 ,十六进制的4CH 6CH。而英文字符“L”和“1”的ASCII码也恰好是76和108,因此,如果内存中的两个字节76和108,就难以确定到底是汉字”天“字,还是英文字符“L”和“1”。显然,国标码必须进行某种变换才能在计算机内部使用。常见的用法是将两个字节的最高位设定为1(低7位采用国标码)。例如,汉字“天”字的机内码是11001100 11101100 ,写成十六进制是CCH ECH。即十进制的204 236。但这种用法对国际通用性以及ASCII码在通信传输时加奇偶检验位等都是不利的,因而还有改进的必要。

目前,汉字编码的标准还没有完全统一。在我国台湾,港澳地区多用BIG-5码,世界其它地区的汉字文化圈中也存在一些其它的汉字编码方案。这就造成了各种汉字处理系统之间无法通用的局面。为使世界上包括汉字在内的各种文字的编码走上标准化、规范化的道路,1992年5月国际标准化组织ISO通过了ISO/IEC10640,即《通用多八位编码集(UCS)》,同时我国也制定了新的国家标准GB13000-1993(简称CJK字符集)。全国信息标准化技术委员会在此基础上发布了《汉字扩展内规范》,其中收集了中国、日本、韩国三国汉字共20 902个(简称GBK字符集),可以在很大程序上满足汉字处理的要求。

2000年3月17日,信息产业部和国家技术监督局联合公布了国家标准GB 18030-2000《信息技术、信息交换用汉字编码字符集、基本集的扩充》(简称CJK字符集),并宣布GB 18030为国家强制性标准,自发布之日起实施,过渡期到2000年12月31日止。

GB 18030是GB 2312的扩展,共收录了2.7万个汉字,采用单/双/四字节混合编码,与现有绝大多数操作系统、中文平台在内码一级兼容,可支持现有的应用系统;在字汇上则与GB 13000.1-1993兼容,并包容了其中收录的所有汉字、藏、蒙、维等少数民族文字,以及世界上几乎所有的语言文字,为中文信息在因特网上的传输和交换提供了保障。该标准的实施将为制定统一的应用软件中文接口标准规范创造条件。

三、汉子的输入方法及优缺点

电脑是老外发明的,键盘是为打ABC而设计的,用电脑打中文,曾经是一个大难题,曾经被老外看作中国实现信息化的一头拦路虎。自从电脑传入中国来,多少人在日以继夜地研究汉字输入的方法?随着电脑的普及,随着时间的推移,一种种输入法出现了,据说汉字输入法申请专利的就有500多种。

目前,几百种汉字输入法,按输入工具而分,可分为键盘输入法(英文字母和数字键盘)和非键盘(鼠标、语音、手写)输入法。

键盘输入法

缺点:易学难输不实用,如当今流行的QQ拼音,搜狗拼音等输入法。

难学易输难普及,如王永民教授的五笔输入法。

优点:准确,输入错误率小,成本低。

非键盘输入法

扫描输入法:将文稿通过扫描仪输入到电脑,再用转换软件(如清华大学的OCR)转换为文本。

光笔输入法:用专用笔在一写字屏上写入汉字,通过软件转换成文本。

声音输入法:先引进标准的声音库,再通过话筒将文稿读入机器与之对应后由软件转换成文本。

缺点:当前技术水平有限,输入错误率高,成本高。

优点:输入速度快,效率高。

四、汉字输入法的科学性

发明一种汉字输入法其实不难,但要发明一种社会一致认可的输入法就确实很难了。这条路上有多少人在探索和追求,“引无数英雄竞拆腰”。国家电子部有专门的中文信息处理开放实验室,民间有汉字编码协会,老外有微软专门设立了中国研究开发中心中文技术部,摩托罗拉手机也搞了个摩托罗拉按键输入法。考量一个输入法好坏的标准,只有8个字:易学、好记、快打、规范。四者必须统一。易学难输(如拼音)不实用,难学易输(如五笔)难普及。

汉字输入法是一种工具,工具不需要多,实用就行了,就象吃饭,中国人只用筷子,西方人只用刀叉,仅此一种。工具太多,往往无所适从,例如:学习打字选择哪种输入呢?学校推广输入法,那一种符合语文教学规范呢?

由于输入法太多,已经给中国人带来了新的麻烦。没有汉字输入法,计算机难在中国普及,没有统一的输入法,也影响了计算机在中国的普及,影响了中国人的工作和生活。国家为什么不统一一个汉字输入法呢?实在也为难,选择什么输入法好呢?目前面市的各种笔和码,总是有较大的缺憾,总是不完美,如其匆促选定,那也坑害百姓,还是慢慢等待吧!

市场在呼唤,汉字在呼唤,祖国和人民也在呼唤!

相关文档
最新文档