《统一的中日韩汉字编码字符集》(CJK)字根系统研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《统一的中日韩汉字编码字符集》(CJK)字根系统研究

《统一的中日韩汉字编码字符集》(CJK)作为新的汉字信息处理国际标准,使汉字信息处理向国际化方向迈出了重要的一步,对汉字字形的定量定性研究也提出了更高的要求。在此基础上,依靠计算机字形技术的支持,采用字根分解与合成的方法,有可能表示出CJK的全部字符从而实现其无字库化处理。因此,研究CJK字根系2统,对于CJK的工程应用具有重要作用。

中日韩汉字字形有别而音义互异,但都是可分析的文字,其基本构形单位都是笔画或字根,因此,字根分析法对其同样适用。本文认为,要得出一个较为科学的CJK字根系统,在理论和实践上必须着重解决两个问题,一个是笔画与字根的分野即单笔字根的问题,另一个就是字根变体的问题。本文主要分析了CJK的单笔字根和字根变体,并对统计得出的CJK676个字根的有关数据进行了系统的分析,希望能为CJK的相关研究提供参考。

一、CJK的单笔字根

(一)为什么要提出"单笔字根"

字根是汉字字符的直接构形成分,是可以独立运用的最小构形单位。一般说来,字根包含两个以上笔画,但当单一笔画与字根直接参与汉字字符构形时,这一笔画由于具备了字根的价值和功能而上升到字根层级,称为"单笔字根"。提出这一概念主要基于以下考虑:

1、汉字字符的构形成分中确实存在许多相对独立的单一笔画,归入邻近的任一字根都不合适,CJK中就有400多个字符包含这种笔画。如果说汉字字符都是由作为笔画组合体的字根构成的,显然不符合事实;如果说汉字字符是由字根与笔画组成的,固然也未尝不可,但这样就难以清晰地体现字符构形的层级性,故"单笔字根"的提出有其现实的必要性。

2、CJK字符集收入了"一丨丶丿乀乁乙乚乛亅"十个单笔画的字符,如果不引入"单笔字根"的概念,则这十个字符无法进行字根分析。

3、适当拆出字符中的单笔字根,可以大大简化字根系统。

(二)如何析出单笔字根

笔画与字根毕竟是不同层级的构形成分,因此单笔字根以尽量少析出为宜。我们在分析CJK单笔字根的过程中,主要采用了以下方法:

1、某一单笔画如果与字符中其它笔画处于相交或相接的关系,则不能析为单笔字根。如"子、孑、孓"都是由字根"了"与单笔画相交或相接而成,故不再析出单笔字根。

2、如果单笔画与字符中其它笔画均处于相离的关系,则根据以下情况处理:

(1)对于点笔来说,若其与某一字根呈内聚之势,且作为整体具有构字能力,则合为一个字根,如"犬、太、刃、玉"等;反之,若作为整体无构字能力,则立点笔为单笔字根,如"乓"。这样处理可使字根系统的层级性得以体现,同时也照顾了通常的字根拆分习惯。

(2)如果某一单笔画用另一笔画或字根替换后成了另一字符,则只能析为单笔字根,如"糺"中的"乚"替换为"工"后成了另一字符"紅",因此"乚"为单笔字根。能用这种方法来判断的单笔字根在CJK单笔字根中约占24%。

(3)偏旁部首通常使用频率较高,一般作为整体进入字根系统,不再拆出单笔字根,如"纟"、"刂"、"寸"、"灬"等。

为简化字根系统,有时也需要作变通处理,如"示"中与第一横笔相邻的也不是分笔字根,但将其析出后,余部分无构字能力,为简化字根系统,"示"拆为"二、小",不涉及单笔字根问题。

(三)CJK的单笔字根统计

我们采用上述方法得出了CJK单笔字根的有关数据,详见下表:

如果把提归入横,捺归入点,竖钩归入竖,其它的归入折,则五种基本笔画在CJK中

的出现次数、出现频率以及作为单笔字根时的出现次数与出现频率可列表比较如下:统计结果表明,CJK的20902字符总笔画数为211436,平均每个字符含10.116个笔画,与《汉字信息字典》对《基本集》平均笔画数的统计结果类似[1]。在CJK的五种基本笔画中,横的出现频率最高,其次为点、竖、折、撇。五种基本笔画作单笔字根时的总出现次数为1569次,占CJK字根总出现次数(76743)的百分比为2.0445%。

二、CJK的字根变体

字根是以各种"变体"参与字符构形的,所谓"正体"其实是对其各种"变体"的归纳,例如我们把作独体字用的"止"定为"正体",但它在合体字"肯、耻、此"中却呈现不同的形状。此外,对于CJK的同一字符,中台日韩"三国四方"可能有不同的字形标准,有的字符结构相同而字根异形,这就产生了字根变体。这种变体在CJK中数以千计,假如均单独立为字根,则CJK字根系统将不堪重负。因此,我们在拆分CJK字根的过程中采用并坚持了"变体归一"的原则。

概言之,CJK的字根变体主要有两种形式,即字根结构变体与字根地域变体,下面分开来谈。

(一)字根结构变体

1、什么是"字根结构变体"

汉字字形呈拓扑结构,字根在组形结体时都要受到其它字根的制约,不得不调整其形状,甚至改变某一笔形,以保持字形整体的匀称美观。这种由于字形结构的整体制约而形成的字根变体,我们称为"字根结构变?quot;。

字根结构变体是字根经常存在的形式,广义的字根结构变体,包括同一字根的不同长短、肥瘦、高低等不同形状的变体,其范围之广几乎无法囊括。我们这里仅讨论狭义变体,即因为结构整体制约而引起某一笔形变化的字根结构变体。

2、字根结构变体的本质--笔形通借

同一字根,由于处在字形结构中的不同部位而引起外部制约格局的变化,这一字根相关部位的笔形往往调整为另一相似的笔形,并且呈现出一定的分布规律,这就是笔形通借。字根结构变体就是由此而形成的。

笔形通借有两个互相制约的条件。首先,通借笔形与原笔形相似,但不属于同一种笔形,通常是横借为提、捺借为点、竖钩借为竖、竖借为竖撇、竖弯钩借为竖提等。其次,通借笔形与原笔形没有辨字作用?quot;笔形通借,在一个字的全体结构中,要接受内部所具有的组形结体的制约;在整个现行汉字体系中仍要接受外部来的别的字的制约。"[2]如果两个笔形因其不同形而构成了不同的字符,则它们之间不构成通借关系,如"地"中的"土"字旁是"土"的变体而非"士"的变体,则其提笔与"士"中短横不构成通借关系。"干"与"千"、"天"与"夭"中的短横与平撇都是相似笔形,但均具有辨字作用,因此也不能构成通借关系。

笔形通借与笔势(即运笔的方向和气势)有着十分密切的关系。相通借的笔形一般都有相通的笔势,如横与提的笔势从左往右,捺与点的笔势从左上往右下,竖弯钩与竖提的笔势先自上而下,再从左往右。"千"的平撇与"干"的短横,之所以不相通借,除了它们具有辨字作用的因素外,笔势在其中也起着重要的作用。

《印刷通用汉字字形表》和《现代汉语通用字表》把汉字的基本笔画确定为"横竖撇点折"五种,是深入研究笔形通借现象而得出的科学结论。同样,由于"丨"与"亅"之间的通借关系,我们也可以据此确定"亅"在五种基本笔画中的归属。

我们根据笔形通借的不同情况,对CJK字根结构变体作了分析统计,统计结果表明,CJK常见的字根结构变体共110个,尚难以概括其全貌,假如把这些变体都作为字根的话,那么CJK总字根数将增加至少110个,这个代价不可谓不大!武汉大学和文改会《辞海》字根统计也进行了变体的合并,如把" "归入"土",把"朩"归入"木",但其字根总表中却收入

相关文档
最新文档