一种汉字拼音化的实现方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种汉字拼音化的实现方法
吴胜远
山东大学计算机学院,济南 (250061)
E-mail:wsy@
摘要:汉字信息处理远远落后于字母式文字,汉字拼音化的初衷就是提高汉字处理水平。什么是汉字拼音化?能否实现?如何实现?颇有争议。本文旨在从理论和实验两方面说明:拼音能使汉字由无序变为有序,由形音分离变为结合,汉字处理能由字一级上升为词一级,拼音能使汉字兼有字母式文字的所有优点,汉字拼音化的“双轨制”,或者“双文制”能够实现。拼音能消除多音字和分词歧义,使汉字信息更为准确。随着拼音应用的创新,汉字处理的落后状态将彻底改变;汉字不仅仅是世界上使用人数最多的文字;而且与英文一样,将是世界上最先进和最准确的文字之一。
关键词:汉字处理,汉字拼音化,分词,编码
中图分类号:TP
1.引言
汉字不是字母式文字,而汉字处理远远落后于字母式文字。汉字拼音化的初衷就是提高汉字处理水平。[1,2]
周有光先生提倡汉字改革要分步进行,并提出汉字夹拼音的混合文字方案,即“双轨制”。冯志伟和尹斌庸先生提出了“双文制”的设想。[3,4]
对汉字拼音化持否定态度的也大有人在。
在1986年《全国语言文字工作会议纪要》中明确指出:“《汉语拼音方案》作为帮助学习汉语、汉字和推广普通话的有效工具,进一步推行并扩大其使用范围,但它不是代替汉字的拼音文字,可以用于汉字不便使用或不能使用的方面。关于汉语拼音化问题,许多同志认为这是将来的事情,现在不忙于作出结论。”[4]
《汉语拼音方案》颁布50周年了,《纪要》已经22年了,汉字拼音化一直处于争论之中,踟蹰不前。最近,一个新理论“多级标记编码理论”[5]开启了汉字拼音化新纪元,使得《纪要》中的“将来的事情”,变为“现在的事”。
字母式文字有两个主要特征,第一,顺序性,语音信息包含在字母中;第二,词与词用空格分隔,保存了分词信息。
汉字则不同。第一,汉字无序,顺序信息缺失;汉字形音分离,语音信息缺失;第二,汉字词与词之间没有分隔,分词信息缺失。因此,汉字处理远远落后于字母式文字。[2] 信息时代,汉字拼音化不是废除汉字,而是增加其信息含量,使汉字中含有正确的拼音信息,从而使汉字由无序变为有序,由形音分离变为结合,使汉字处理能由字一级上升为词一级,使汉字兼有字母式文字的所有优点;从而,彻底改变汉字处理的落后状态。由于汉字拼音化能消除多音字和分词歧义,使汉字准确度大大提高;汉字也将成为世界上准确度最高的文字之一。
理论和实验说明:汉字拼音化是能实现的,汉字的电子文档可以含有正确的拼音和分词信息,而不增加存储空间。在使用中,文档显示方式可有多种选择,例如:拼音与汉字混合显示,纯拼音显示,纯汉字显示。其中拼音与汉字混合显示,就是“双轨制”,或者“双文
制”的实现。在电子文档中,各种显示方式都是自动生成;拼音和汉字且能相互转换。经过适当练习,在熟练了阅读拼音文档之后,汉字拼音化的电子文档是完全可以读懂的。经过改进,纸质文档的“双轨制”,或者“双文制”也是可以读懂的,纸质文档的纯拼音方式,还有待于进一步研究和开发。[5-9]
2.汉字为何信息缺失
与字母式文字对比,汉字顺序、语音和分词信息缺失;为什么缺失呢?
实际上,汉字输入中已输入了拼音信息。例如:输入拼音“chong” ,应该输入读音为“chóng”的“重”;输入拼音 “zhong” ,应该输入读音为“zhòng”的“重”。但是,由于在机器内部“重zhòng”和“重chóng”仅用一个编码表示,究竟其读音是“zhòng”还是“chóng”,,就不清楚了。另外,拼音输入是按词输入的,词与词的拼音之间是有分隔的。
例如:输入“乒乓球拍卖完了”的过程如下:
如果输入过程为:“pingpangqiu paimai wan le ”;则分词信息为:
“乒乓球拍卖完了”
如果,输入过程为:“pingpang qiupai mai wan le ”;则分词信息为:
“乒乓球拍卖完了”。
但是,由于在机器内汉字是一个个连续存放的,词与词之间没有分隔;两种输入过程都保存为:
“乒乓球拍卖完了”
.输入中的分词信息丢失了。
因此,汉字多音字和分词歧义多,难以表达作者准确的意思。汉字处理也不得不通过上下文,采用人工智能去挖掘缺失的信息;占空间大、处理效率低,准确度低。
3.能保存缺失信息的最新理论
.输入中的分词信息丢失了。
如果,输入过程中,能将输入的拼音和分词信息保存下来;那么,汉字就可以完全自动正确地转换为按词分隔的拼音文字,使汉字兼有了字母式文字的优点。因此,汉字拼音化关键在于如何保存拼音和分词信息。
早在上世纪80年代,不少学者就提出采用加空格保存分词信息的方案,该方案简单易行,消除了分词歧义。但存在以下问题:1. 没有解决多音字的歧义问题;2.增加了存储空间,提高了打印成本;3.不符合中国人千百年来形成的阅读习惯;人们难以接受。[10-12] 上世纪90年代,在“计算机研究与发展”的有关论文中,我提出了通过编码保存多音字和分词信息方案,该方案通过词的编码保存分词信息,消除分词歧义;同时,多音字用多个编码表示,做到一个发音对应一个编码,能消除多音字的歧义。该方案不增加存储空间,不提高打印成本,也不改变中国人的阅读习惯[13,14],且能使汉字处理达到英文水平。但是,编码的有限性和编码系统的兼容性难题,使该方案难以付诸实践。最近,我创立了“多级标记编码理论”,破解了这个难题,使其得以实现。[5]
2007年,在美国召开的“国际计算机科学基础学术会议”介绍了我最近创立的“多级标记编码理论”。该理论成功地解决了编码的有限性问题和编码系统兼容难题;还提供了汉字多音字和分词信息的保存和处理方法。[5]
“2007国际多媒体系统和应用学术会议”、“2007国际互联网计算学术会议”、“2006