汉字电脑检索效率大大优于汉语拼音
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电脑新时代汉字不再落后,其处理效率已经反超英文(其四)
汉语拼音在纸质字、词典的检索中还保有优势,在电脑检索里变得不好用或不能用
其一:汉字信息电脑存储----从沉重负担到比英文节省一半
其二:汉字信息电脑编辑加工效率高过了英文
其三:汉字信息电脑编辑加工效率高过了汉语拼音
1.汉语拼音产生之前的汉文字、词典检索法
传统的汉文字、词典的检索,除少数专门韵书外,长期普遍使用基于字形的方法,依据笔画数、笔形、部首进行;注音则使用直音或反切的繁难、低效的方法。由于汉字字量庞大、结构复杂,长期发展、演变过程造成的理据性丢失、变异,部首、笔形、甚至笔画数有时难于简单、明确判定,使得检索产生困难。汉文字、词典里,很少有两种其检索法完全相同的;每种里都会有一批难检索字。这类字典今天的读者已经很少见到。1984年中华书局(北京)影印了1936年的《中华小字典》属于此种类型,可在国家图书馆工具书室见到。它完全使用字形检索法,注音使用反切,如‘到’字注音为‘朵奥切’。当西学东渐,英文词典呈现在中国人面前时,那种只依赖26个字母顺序的检索法,就显得格外简单、确切、统一、普遍有效。这导致汉字查检难的认识普遍流行,也刺激了汉语字典检索法的改革。1918年民国政府公布注音字母。这实际是一种民族形式的汉语拼音方案。随之就有了依据注音字母的字典检索法的汉语字、词典出现。这种字典使用注音字母注音,淘汰了反切,检索效率也和英文的类似,它迅速地成为主流方法。此期间,也刺激了一批依据字形的新检索法问世。如使用头尾号码法的《新国音学生字典》(陆衣言,中华书局,1929);《五笔检索学生字典》(陈立夫,中华书局,1934);周策勋的《永字八法国音字典》及最为著名的四角号码检字法(王云五)。四角号码检索法,对于大量汉字甚是简单、有效;但也有好些汉字因结构特别而难于给定四码;有的则因笔画太少(如一,卜、九、人、...),也使得四角同样需要特别约定;又四角号码原则上只能处理9999个汉字。这些与英文仅仅依赖26个字母顺序,能够无例外的普遍使用,仍然显得差距甚大。注音字母和四角号码是汉语拼音之前中国最流行的字、词典检索法。它们都可以看做是拉丁文字检索法影响、刺激的结果。注音字母在大陆为后来的汉语拼音取代,在台湾一直还在使用中。
2.《汉语拼音方案》产生后的汉文字、词典检索法
应该说汉语拼音的一个被普遍肯定的用处就是改善了汉文字、词典的注音及检索法;还可以说这种改进是明显的、有效的。四五十年来中国大陆大量通用的或普及型的字、词典几乎都使用了拼音检索法。这已经为大陆广大民众所熟悉、所习惯。但也必须说,这种改善并不是彻底的、完全的;使用它的一个
前提是:知道所查字的读音。在收字数目大大多于通用字时,读音不明的字就多起来。大型工具书,像词源、汉语大字典、汉语大辞典就都依然主要使用传统的基于字形的检索法。并且,在使用拼音检索法时,通常也必须同时附加字形检字表;拼音检索法本身,也必须利用字形信息区分同音字的顺序;单单知道读音和26个字母顺序,缺少必须的字形知识仍然是要出错的。应该说,常用的汉字字、词典中的汉语拼音检索法,是英、中‘混血儿’,并非纯粹拉丁字母检索法。具体些说,汉文的拼音检索和英文的检索还是有显著区别的。如矛盾(maodun)和毛竹(maozhu)两个词,按拉丁字母序,矛盾(maodun)应该在毛竹(maozhu)之前;实际上使用拼音检索的汉文字、词典中,大多总是毛竹(maozhu)排印在矛盾(maodun)之前。因为在读音为mao的汉字中,‘毛’的笔画数为4,‘矛’的笔画数为5,故‘毛’在‘矛’之前。汉语词是先按首个汉字排序的,故毛竹(maozhu)排印在矛盾(maodun)之前;并且所有以‘毛’字打头的词都排在以‘矛’字打头的词之前。
3.人工检索法的原理解说
以上所说的都是人工检索法,主要适用于对纸介质印刷文本。这是电脑普遍使用之前的通行方式,或主要方式。它的原理或者说操作步骤有两步:①利用某种知识或理据,把所有可能要检索的字、词排列个顺序,按这个顺序把字、词典正文印刷为纸质文本。英文词典所依据的排序知识就是26个字母的字母表。这一点是每个用户自然都把握的、知道的。排序,换句话说,就是给出一个‘比较大小’的规则,把小的放在前边,大的放在后边。两个英文词比较,先看第一个字母,哪个词的第一字母在字母表里排在前面,这个词就排在前面(这个词就小)。第一个字母相同时,再比较第二个字母,...。而传统的汉文字、词典检索法,所需要的排序知识涉及到数千汉字,自然难于非常简单;所涉及的知识也多得多,包括:汉字笔画数、首笔笔形、部首等具体知识以及所有需要检索汉字实际的笔画数、首笔笔形、部首;这比26个字母顺序知识也难得多。至于用汉语拼音的汉字、词典检索法,所需要的排序知识则包括:26个字母序,汉字读音的拼音表示,该汉字的笔画数、首笔笔形及部首;后三个知识用于区分同音字,一般只用到笔画数和首笔笔形可能就够了。②当正文内容按检索排序规则排好顺序并印刷为纸质文本时,查字、词典就是人工的把查找的字(检索字)和书中的某个字(当前字)比较,若检索字大,则在书中当前字后边再取一个字和检索字比较;若检索字小,则在书中当前字前边再取一个字和检索字比较;直到在书里找到检索字位置。从实际使用的情况可以看出:汉语拼音检索法,在收汉字数量不太多的情况下,在知道读音时,区分同音字时往往只用到笔画数和首笔笔形,这相当于用26个字母表知识取代了大量部首知识。所以它在这种时候显得比传统汉字、词典的字形检索法简单、快捷。4.高速、自动、电脑化检索的实现
在改革开放仅仅十五个年头的1994年(748汉字信息工程20周年时),中国在全国范围内基本淘汰了汉字机械打字机,淘汰了汉字四码电报,淘汰了铅字排版、印刷;中国被国际有关机构承认已经是全功能接入国际互联网。这些标志了汉字的基本复兴,标志着中国在快速步入电脑化、信息化、数字化。这时汉字信息检索也自然地实现了电脑化、高速化、智能化、自动化。电脑化的检索有什么新特点呢?特点至少有:①电脑化之前,人们常用的检索主要是查字、词典,查图书目录等。在网络化、数字化的现今,几乎什么信息都能通过网络检索、查找。像查公交线路,查餐饮、旅店,查基金、股票,查有关新