电子化时代的汉字生存与变革

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子化时代的汉字生存与变革

我们正处于汉字电子化变革的最高潮,汉字在电子化时

代的生存与发展,也就成了在互联网时代,中国文化最紧迫、最复杂和最核心的文化命题之一。

汉字,目前有确切考古证明的历史,可追溯至约公元前1300年中国商代的甲骨文,迄今已有3000多年。汉字的演变和发展经历了两次最重大的变革,第一次是唐宋以降的印刷

术变革,第二次便是今天的电子化变革。汉字的电子化启动于19世纪后期。在20世纪中后期,汉字的电子化先后出现了两次高潮,第一次,在1980年代中期到1990年代中期,核心内容是汉字的计算机处理问题;第二次,1990年代末至今,汉字电子化的重点转向语音识别、语音合成和语义处理,以及互联网时代的数字遗产保护等方面。今天,我们正处于汉字电子化变革的最高潮,汉字在电子化时代的生存与发展,也就成了在互联网时代,中国文化最紧迫、最复杂和最核心的文化命题之一。

汉字的三道“电子化”门槛

汉字最早的电子化,是中文电码,又叫中文商用电码等,是

在电报之中传送汉字信息的方法。中文电码是历史上第一个把汉字的方块型字体,转化为电子讯号的编码表。1835年摩

尔斯电码发明后,只能传送英语或以拉丁字母拼写的文字。1880年,清政府雇佣丹麦人发明了中文汉字电报,该码表采用

四位阿拉伯数字作代号,从0001到9999按四位数顺序排列,

用四位数字最多可以表示10000个汉字、字母和符号。汉字先按部首,后按笔划排列,字母和符号放到电码表的末尾,这一

范畴后来不能满足中国人的姓氏户籍管理用字,于是,第二字

面汉字便出现了。总之,汉字是十分顺利地迈过了“电报门槛”。

1946年,世界上第一台电子计算机诞生,当时的计算机主

要的功能是计算。从1960年代开始,计算机的主要功能开始

多样化,出现了新的主要功能――处理大规模的数据,其中主

要的项目,便是图书馆的目录整理。当时,在美国国会图书馆

和许多美国大学,都拥有数量众多的汉字藏书。利用计算机来管理这批藏书,就必须要有一套有效处理汉字的系统。由此,

汉字的电子化(计算机化)时代正式揭幕。这时,汉字的电子化所面临的命题,通俗地说主要有两个方面:一,如何把汉字存储

在计算机内;二,如何在计算机上显示出汉字。

到了互联网时代,汉字的电子化又面临着全新的挑战,比如,第一,互联网上浩如烟海的汉字信息数据,为中文信息搜索

提出了新的挑战;第二,非键盘的汉字输入需要有全新的发展

方案,因为手机、PDA等移动设备已经大规模普及,汉字信息处理已经摆脱了计算机,人们可以不用键盘,比如汉字手写输入,

甚至都不必动手,比如汉字的语音输入等。

电子化“头痛”

电子化时代的“汉字”,并不仅仅是指中国大陆地区使用的简化汉字和标准汉语体系――“普通话”,而是指汉字文化圈里的通行的汉字和标准汉语。今天我们说的“汉字处理系统”,是基于多样化的汉字字体、多样化的标准汉语体系、多样化的汉文化传统、多样化的经济和社会发展水平,是跨国别、跨地域的文化现象和规律。

汉字文化圈,指的是文化相近,历史上受中国政治及中华

文化影响,过去或现在仍在使用汉字,在历史上,曾经共同使用

汉语文言文(日本、韩国、越南称之为:汉文)作为书面语言,

并覆盖东亚、东南亚部分地区,以及北美、南美、欧洲等特定的人口聚居区的文化区域。

汉文化圈的“汉字”,字体多样化,包括中国大陆地区、

新加坡、部分海外华人聚居区使用的简化汉字,中国港澳台地区、部分海外华人聚居区使用的繁体汉字,日本使用的国字,

韩国汉字,越南独有的汉字――喃字。另外,汉语体系也呈现

多样化,大陆地区使用“普通话”标准,台湾是“国语”,东南亚的华人聚居区是“华语”标准。

可以说,多样性是“汉字”的本质属性。这意味着即使是同一个汉字,在不同文化地区,它的字体结构有所不同、笔画多少有所不同、书写顺序有所不同、读音发音有所不同,乃至同一个字的拼写方案也会不同。

正是由于汉字的多样性,使得汉字在电子化进程中面临的技术难度极大。汉字的电子化,通俗的说分为六大领域,分别是:基础研究,比如汉字编码字符集、通用汉字样本库等;输入技术,比如汉字键盘输入法、手写输入、汉字语音输入、文字识别等;输出技术,比如汉字激光照排、汉语语音合成等;存储技术,比如汉字库标准等;转换技术,比如繁简转换等;信息处理,比如汉字情报检索、汉字文本校对、机器翻译等。如汉字语音输入,既要受到不同标准汉语体系的读音影响,还要受到中国各地方言口音的影响。目前最让文化界头痛的是,中国传统古籍的数字化保存,涉及到数以万计的中国正体字和异体字、常用字和冷僻字等,既牵扯到汉字字体库的丰富扩展,又牵扯到繁简汉字转换,比如,“二十四史”系列典籍现在最可靠的数字化文本,依然是图片格式的,并非字符格式,并未做到真正意义的数字化,既不能进行检索,更不能在互联网上实现“数字共享”。电子化对中国传统文化传承的促进作用,目前还刚刚启动,效果还很不理想。

诡异的瑕疵

正是因为汉字文化圈的多样性,所以,“信息交换”是汉字电子化最基础和最根本的部分。各个汉字的使用地区都制订了一系列汉字字符集标准。比如,中国在1974年8月开始了748工程,包括了用计算机来处理汉字,启动了各种研究工作,于1980年公布了GB 2312-80汉字编码的国家标准,最新的GB 18030收录27533个汉字。中国港澳台地区使用Big5码,收录13053个汉字。还有“中日韩统一表意文字编码”,收集了汉语、日语、韩语中的汉字集,越南随后也加入了这一系统。

不过,汉字字符集标准,并不一定和汉字的规范标准完全吻合,这听起来或许有些诡异,但的确是事实。比如,2005年,

中国香港公布了《香港电脑汉字字形参考指引》,就和《常用字字形表》(由香港教育局和香港教育学院制定)存在着差异。

此外,我国的汉字研究存在着学术空白,也使得汉字的电子化出现了“瑕疵”。比如,晚清时期,西学东渐,大量的西学文献和科学著作被翻译成中文,出现了一大批新造的汉字。比如在晚清,人们常用带有“口”字旁的字来翻译外来词,把

Ice-cream翻译成“冰(口忌)(口廉)”。“(口忌)(口廉)”二字,

相关文档
最新文档