汉字编码标准中的类推简化
GB2312、GB 13000、GBK、GB18030 介绍和说明文档
1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312:又称为GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。
GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。
该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。
制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。
GBK:随着信息技术在各行业应用的深入,GB 2312 收录汉字数量不足的缺点已经初步显露出来。
例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。
1995年,全世界大多数的PC 操作系统都实现了16/32 位。
GB 13000.1 的实现出现了一线曙光。
一方面为了对GB 2312 进行扩充,一方面顺应当时技术的发展向GB 13000.1 推进,同时兼顾当时最广泛采用GB 2312 内码系统。
原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。
在GBK的内码系统中,GB 2312 汉字所在码位保持不便,这样,保证了GBK 对GB 2312 的完全兼容。
同时,GBK 内码与GB 13000.1 代码一一对应,为GBK 向GB 13000.1 的转换提供了解决办法。
微软对GB 2312 的扩展,也就是CP936 字码表(Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。
《简化字总表》的类推简化原则不能丢
用规范汉字表〉 的通知》 ( 以下简称 《 通知》 ) , 随后 发布了 《 通 用 规 范 汉 字 表》 ( 以下简称 《 字 表》 ) 。 以国务院 《 通知》 精神为纲, 正确宣传 《 字表》 , 是语 言文字工作者的一项重要任务。我们注意到, 《通 “ 说明” 相对照, 有一处明显的不同, 那就是: 《通 知》 删去了 《 征求意见稿》 中 “ 本字表以外的字, 不 再类推简化” 的表述。 然而, 有人却背离 《 通知》 精神, 借宣传 《 字表》 的机会, 塞进自己的想法。例如, 《 〈 通用规范汉字 表〉 解读》 一书中就这样写道: “ 《 通用规范汉字表》 态度, 使汉字的形体在一个时期内保持相对稳定’ 的指示精神, 对类推简化采取了严格掌握的原则, 一般不再扩大类推的范围; 但考虑到汉字应用的现 实, 也收录了少数已经被社会所习用, 并符合 《简 化字总表》 规定的类推简化字。今后表外字不再
一、 引
言
文字工作者为人民群众做的一件大好事。简化字 在减轻汉字学习的繁难程度、 普及文化教育方面的 作用, 前人多有论述, 本文暂不赘述。我们要着重 说明的是: 《 简化字总表》 的 “ 类推简化” 原则是整 个汉字简化工作中不可分割的一部分, 在实际应用 中限制 “ 类推简化” , “ 汉字简化” 政策就变得不完 整, 也将从根本上遭到破坏。 化字总表》 的形式呈献给世人, 我们的前辈进行了 现在让我们回顾一下简化工作的历程。 《 汉字 的方式简化是重要的一环。1956 年公布的 在 “ 简化” 这个大原则确定之后, 采取什么样 到 1964 年简化字以 《简 从上世纪 50 年代初,
[ 1] 类推。 ” 我们认为, 这是在向广大群众传达一种
2013 年 6 月 5 日, 国务院发出 《 关于公布 〈通
中文编码规则 -回复
中文编码规则-回复什么是中文编码规则,以及其重要性?中文编码规则,即用数字或字符表示中文字符的一套规范和标准。
在计算机中,中文字符无法直接表达,所以需要使用编码来进行转换和存储。
中文编码规则对于正确显示和处理中文字符是至关重要的。
在编程、数据库管理和网页设计等领域,正确的中文编码规则使用可以避免产生错误和混淆。
本文将逐步探讨中文编码规则的必要性以及常见的中文编码规范。
首先,中文编码规则的重要性在于确保数据的准确性和一致性。
不同的编码规则可能导致中文字符的错误解析和显示,甚至产生乱码。
例如,在数据库管理中,如果使用了不同的中文编码规则,可能导致查询结果中的中文字符乱码,影响数据的正确使用。
正确选择和使用中文编码规则,能够确保中文数据的准确性和一致性,提高数据处理的效率和可靠性。
其次,中文编码规则的正确使用也关系到中文字符在网络环境中的传输和显示。
在互联网时代,中文信息在网络中的广泛传播和共享成为常态。
如果中文编码规则不正确,会导致中文信息在传输过程中产生乱码,影响信息的传播和理解。
为了确保中文信息在互联网上的正常传输和显示,使用正确的中文编码规则是必要的。
然后,常见的中文编码规范主要有GBK、GB2312、UTF-8等。
GBK编码是一种双字节编码,兼容GB2312编码,能够表示绝大部分中文字符。
GB2312编码是中国国家标准,是一种双字节编码,主要用于简体中文字符集,能够表示基本汉字集和扩展汉字集。
UTF-8编码是一种变长字符编码,可以表示全世界所有的字符,包括中文字符。
UTF-8编码兼容ASCII 编码,是目前使用最广泛的中文编码规范之一。
在实际应用中,选择合适的中文编码规范并正确使用是非常重要的。
在编程过程中,需要根据具体的编程语言和开发环境选择合适的编码规则,并在读取、存储和显示中文数据时进行相应的编码和解码操作。
对于网页设计和互联网应用开发,应该以UTF-8编码为主,确保中文信息在不同平台和设备上正确显示。
从构形法和汉字简化看姓氏的口头阐释
从构形法和汉字简化看姓氏的口头阐释作者:贾安琪来源:《求知导刊》2017年第33期摘要:汉字中存在大量的音同音近的姓氏以及使用频率较低的姓氏,需要说话人对姓氏进行阐释。
文章从拆字的角度分析姓氏,探讨了适用于拆字的姓氏的特点,分析了部件在拆字过程中的应用,在姓氏统计后分析了汉字简化对姓氏阐释的影响,考察了姓氏的口头阐释所蕴藉的文化内涵。
关键词:姓氏;口头阐释;拆字;简化中图分类号:H0-05;H02文献标识码:A张:弓长章:立早江:江河的江周:周全的周以上是一些简单的口头阐释姓氏的方法,从中可以看出阐述姓氏的方式有以下两类。
①拆字法。
张:弓长;章:立早。
②组词。
江:江河的江;周:周全的周。
除了这两种以外,也可以用别的方法阐释姓氏。
③结构变换。
翦,解释为:剪刀的“剪”去掉“刀”字底,加上羽毛的“羽”。
④增减笔画。
奚:溪水的“溪”,去掉三点水。
臧:西藏的“藏”去掉草字头。
卞:下面的“下”,上面加一点。
这几种解释方法的优先顺序为:拆字法>组词>结构变换=增减笔画。
1.拆字法适用的姓氏的特点第一,这些姓氏极为常用,使用人数众多,都是合体字,具有拆分的可能。
第二,虽然具体到每个汉字中的部件组合模式不一,但是在拆分的时候,可以不考虑字形结构位置。
社会上对这些字有约定俗成的一套拆分程序,使用者不需要改变原有的拆分方法。
第三,拆字重在说得通俗易懂,有时候会忽视理据。
人们把“章”分为“立早”两部分,可见是着眼于视觉上的先后。
2.从部件的使用方式看姓氏的拆字(1)每个成字部件都被提及。
如:木子李、古月胡。
这是被接受程度最高的拆字方式,这样的姓氏一般是上下结构或左右结构,一个汉字由两个成字部件组成,两个部件分出来后,人们可以迅速地判断出姓氏,从语调上说这种拆分也具有读起来朗朗上口的特点。
(2)三个成字部件中只提及两个。
如:禾木程。
拆字法基本上是形成三字的构式,第三个字必须多是所要阐述的姓氏,因此只给部件留出来两个字的空间。
汉字编码_精品文档
汉字编码
概述:
汉字编码是指将汉字字符转换为二进制数的过程,便于计算机系统
存储和处理。
由于汉字数量庞大,常用汉字超过几千个,因此需要
一种编码系统来表示汉字。
在计算机发展的早期阶段,汉字编码是
一个相当有挑战性的问题,因为不同的地区和国家都有自己的汉字
字符集和编码规范。
历史背景:
早期的汉字编码系统主要是为了满足打印和显示的需要,没有一致的、标准的编码规范。
在20世纪60年代和70年代,中国大陆、
台湾地区和香港地区分别制定了自己的汉字编码方案,如GB2312、Big5和HKSCS等。
这些编码方案都有各自的特点和局限性,使得
不同地区和系统之间的文字兼容性成为一个大问题。
随着计算机技术的发展,国际化和信息交流的需求也日益增加,汉
字编码的问题越来越凸显。
为了解决这一问题,中日韩三国在1990年代开始合作,共同制定了统一的汉字编码方案——Unicode,旨
在统一全球范围内的文字编码。
Unicode通过给每个字符分配一个唯一的代码点,涵盖了世界上几乎所有的文字,包括汉字。
汉字编码方案:
目前最常用的汉字编码方案是Unicode,其中Unicode 6.0版本以后的汉字编码范围为0x4E00至0x9FA5。
Unicode编码采用16位的二进制数表示一个字符,通常以十六进制的形式表示。
例如,汉字\。
一级简码和二级简码口诀
一级简码和二级简码口诀一级简码和二级简码是计算机汉字输入中常用的一种编码方式,它们可以帮助用户更快速地输入汉字。
以下是关于一级简码和二级简码的口诀和解释:一、一级简码口诀一级简码口诀如下:“G是国,H是欢,F是发,J是经”。
“TP河,MQ直,R日边,T可早”。
“禾草季,白和的细辛集”。
“工虫及吃中原而上否享受”。
“山湖陕山河湖西西南向东南”。
“东南西西南,上北下南左西右东”。
解释:1.“G是国,H是欢,F是发,J是经”:这句口诀表示的是第一排的25个键位对应的汉字。
其中,“G”对应的是“国”字,“H”对应的是“欢”字,“F”对应的是“发”字,“J”对应的是“经”字。
2.“TP河,MQ直,R日边,T可早”:这句口诀表示的是第二排的25个键位对应的汉字。
其中,“TP”对应的是“河”字,“MQ”对应的是“直”字,“R”对应的是“日”字,“T”对应的是“可”字,“K”对应的是“早”字。
3.“禾草季,白和的细辛集”:这句口诀表示的是第三排的25个键位对应的汉字。
其中,“禾”对应的是“草”字,“木”对应的是“季”字,“白”对应的是“和”字,“月”对应的是“的”字,“金”对应的是“细”字,“木”对应的是“辛”字,“火”对应的是“集”字。
4.“工虫及吃中原而上否享受”:这句口诀表示的是第四排的25个键位对应的汉字。
其中,“工”对应的是“虫”字,“I”对应的是“及”字,“E”对应的是“吃”字,“A”对应的是“中”字,“N”对应的是“原”字,“B”对应的是“上”字,“D”对应的是“否”字,“E”对应的是“享”字,“受”对应的是“受”字。
5.“山湖陕山河湖西西南向东南”:这句口诀表示的是第五排的25个键位对应的汉字。
其中,“山”、“湖”、“陕”、“山”、“河”、“湖”、“西”、“南”、“向”、“东”、“南”等对应的汉字都是按。
《通用规范汉字表》表外字类推简化问题研究
《通用规范汉字表》表外字类推简化问题研究上个世纪五十年代实行汉字简化政策以来,汉字类推简化问题一直都是学界关注的焦点之一。
《通用规范汉字表》(后文简称《字表》)作为新世纪重大汉字规范,对一般社会领域和计算机信息处理领域的汉字应用都发挥了很大影响。
很多专家学者在《字表》研制过程中已对这一重大问题作过深入讨论,但是《字表》颁布以后,对此问题的争论不仅没有停止,反而激发了不同观点的交锋。
类推简化作为汉字简化的一种重要手段,对汉字简化的系统性具有积极的意义和作用。
本文在前人研究的基础上,对这一问题进行综合性的论述与研究,一方面对《字表》公布后这一问题的实际情况进行调查分析,另一方面也从学术与应用两个角度进行进一步探究,对表外字有无必要类推简化提出建议。
本文共分为五个部分,第一部分简要介绍选题的背景、意义、研究内容及方法;第二部分概述类推简化问题及《字表》对类推简化问题的处理原则,介绍了类推简化产生的背景、优点以及《字表》发布的背景和意义;第三部分是本文的重点,介绍本文对工具书、语文教材及社会用字中的表外字类推简化情况的测查并对测查结果进行整理分析;第四部分根据测查结果,对汉字类推简化范围进行客观综合分析;第五部分是对《字表》将来修订时处理类推简化问题的建议。
汉字编码标准
汉字编码标准汉字编码标准是指对汉字进行数字化编码的规范和标准化。
在计算机和信息技术领域中,汉字编码标准起着至关重要的作用,它影响着文字输入、显示、存储和传输等方方面面。
本文将介绍汉字编码标准的发展历程、常见的编码标准以及其在实际应用中的重要性。
首先,汉字编码标准的发展经历了多个阶段。
最早期的汉字编码是基于汉字的笔画和部首进行编码的,比如康熙字典中的部首索引。
随着计算机技术的发展,人们意识到需要将汉字数字化,以便计算机能够处理和显示汉字。
于是,出现了GB2312编码,它是中国国家标准局1980年发布的汉字编码标准,包括了6763个常用汉字和682个生僻汉字。
随后,GBK编码和GB18030编码相继出现,不断完善和扩展了汉字编码的范围,以适应不同地区和不同历史时期的汉字需求。
其次,现在常见的汉字编码标准主要包括GB2312、GBK、GB18030和Unicode。
GB2312是最早的汉字编码标准,它采用双字节编码,能够表示6763个常用汉字和682个生僻汉字,同时还包括了拉丁字母、标点符号和其他特殊字符。
GBK编码在GB2312的基础上进行了扩展,能够表示21003个汉字。
GB18030编码是中国国家标准局于2000年发布的最新的汉字编码标准,它能够表示27484个汉字,包括了中国国内外所有已知的汉字。
而Unicode编码是国际上通用的字符编码标准,它不仅包括了世界上所有的文字字符,还包括了符号、标点、图形、控制字符等。
最后,汉字编码标准在实际应用中具有重要的意义。
首先,它保证了汉字在计算机系统中的正确显示和输入。
其次,它方便了信息的存储和传输,使得不同地区和不同系统之间的文字交流变得更加便利。
再次,汉字编码标准的统一性,有利于软件开发和系统集成,提高了计算机系统的互操作性和兼容性。
最后,汉字编码标准的完善和发展,为汉字信息处理技术的进步提供了基础和保障。
综上所述,汉字编码标准是计算机和信息技术领域中的重要基础设施,它的发展历程、常见标准和实际应用都具有重要意义。
汉字信息编码标准
1.国家标准汉字代码体系??汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括:??(1)汉字机内码。
它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统的基础代码。
??(2)汉字交换码。
它们是国标汉字(如机内码)进行信息交换的代码标准。
??(3)汉字输入码。
它们是在计算机标准键盘上输入汉字用到的各种代码体系。
??(4)汉字点阵码。
它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。
??(5)汉字字形控制码。
为了打印各种风格的字体和字形所制定的代码。
??这些代码系统有的必须有统一的国家标准,有的则不要求统一。
近年来我国已经制定系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。
2. 国家标准汉字交换码??我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
??在国标GD2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01 位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
区位码的前两位是它的区号,后两位是它的位号。
用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。
汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。
??所有的汉字和符号所在的区分为以下四个组:? ? (1)01区到15区。
图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。
??01区到09区的具体内容如下;??1)01区。
一般符号202个,如间隔符、标点、运算符、单位符号及制表符;??2)02区。
汉字编码原理
汉字编码原理
汉字编码原理是指如何将汉字字符转化为计算机可识别的二进制数据。
根据汉字编码原理,计算机系统使用不同的标准来表示汉字字符,其中最常见的编码标准有Unicode和GBK。
Unicode是一个国际标准,它为世界上所有的字符都分配了唯一的编码值。
每个汉字字符在Unicode中都有一个独特的编码点,通常用U+加上一个十六进制数字来表示。
例如,汉字字符“中”在Unicode中的编码点是U+4E2D。
GBK编码是针对汉字字符而设计的中国国家标准。
GBK编码使用两个字节表示一个汉字字符,其中一个字节表示高位,另一个字节表示低位。
GBK编码共收录了21003个汉字字符。
在计算机中,当我们输入或显示一段文本时,计算机会根据当前使用的编码标准来识别和转换字符。
当我们输入汉字时,计算机会将其转换为对应的编码值,从而存储在内存中或在传输中使用。
同样地,当计算机需要将二进制数据转换为可读的文本时,它会根据编码标准将编码值转换为相应的字符。
通过了解汉字编码原理,我们可以更好地理解计算机是如何处理和显示汉字字符的。
这对于开发汉字处理软件、设计数据库存储方案以及进行多语言文本处理等应用是非常重要的。
汉字编码的分类
汉字编码的分类汉字是中华民族的独特文化象征,它的记录方式在不同的时期也经历了不同的发展。
为了能够在电脑和网络等数字化环境中准确地表示和储存汉字,汉字编码技术应运而生。
汉字编码的分类根据其不同的标准和应用领域而有所不同。
本文将介绍几种常见的汉字编码分类。
一、GB2312编码GB2312编码是中国国家标准局于1980年发布的一种汉字编码标准,是最早被广泛应用的汉字编码之一。
GB2312编码采用双字节表示一个汉字,共收录了6763个常用汉字和682个生僻字。
该编码不仅包含了繁体字的简化字形,还考虑到了中国各个地区的方言差异。
GB2312编码被广泛应用于计算机操作系统、文字处理软件和打印机等设备。
二、Unicode编码Unicode编码是一种国际标准的字符编码方案,旨在成为全球范围内所有文字的统一编码标准。
Unicode编码采用了统一的字符映射方案,为每个字符分配了一个唯一的代码点。
其中,汉字使用双字节表示,每个字节可以取值范围是0x00-0xFF。
Unicode编码的优势在于能够准确地表示世界上所有的文字,包括各种语言和符号。
目前,Unicode编码已经被广泛应用于各种操作系统、浏览器和应用软件中。
三、UTF-8编码UTF-8编码是一种对Unicode编码进行可变长度编码的方案,它主要用于在互联网上传输和储存文本信息。
UTF-8编码根据字符的不同范围采用1到4个字节进行编码,对于ASCII字符(0x00-0x7F),UTF-8编码和ASCII编码是兼容的,使用一个字节进行表示。
对于汉字等非ASCII字符,UTF-8编码使用多个字节进行表示,能够准确地表示Unicode字符集中的所有字符。
UTF-8编码在国际化和跨平台应用中得到广泛应用,成为互联网上最常用的字符编码方式。
四、GBK编码GBK编码是国家标准GB2312的扩展编码,也是一种常见的汉字编码方案。
由于GB2312编码的局限性,无法表示一些罕见字和繁体字,GBK编码在保留GB2312编码的基础上,又增加了近7000个字符。
汉字编码分类
汉字编码分类汉字编码是指将汉字字符映射到计算机可识别的数字或二进制表示的过程。
在计算机领域,常见的汉字编码方式包括:* GB2312:GB2312 是一种简体中文字符集编码,它包含了6763个常用汉字和682个非汉字字符,是中国国家标准的一部分。
GB2312使用两个字节表示一个汉字。
* GBK:GBK 是GB2312的扩展,包括更多的汉字字符和符号,支持超过21,000个字符。
GBK同样使用两个字节表示一个汉字。
* GB18030:GB18030是中国国家标准的一部分,是GB2312和GBK的扩展,支持更多的字符,包括繁体中文和少数民族文字。
GB18030支持1到4个字节表示一个字符。
* Unicode:Unicode是一种用于字符编码的标准,包括世界各种语言的字符。
汉字在Unicode中有唯一的编码,通常使用两个字节表示一个汉字。
UTF-8、UTF-16和UTF-32是Unicode的不同编码方式。
* UTF-8:UTF-8 是一种可变长度的Unicode字符编码,使用1到4个字节表示字符。
UTF-8在表示ASCII字符时只需要一个字节,而对于汉字等字符需要多个字节。
* UTF-16:UTF-16是Unicode的另一种字符编码方式,使用2或4个字节表示一个字符。
* Big5:Big5是一种繁体中文字符集编码,主要用于台湾地区。
Big5使用两个字节表示一个汉字。
这些汉字编码方式在不同的地区、系统和应用中有着不同的应用场景。
在选择使用时,需要根据具体的需求、系统支持以及国际化考虑来确定合适的编码方式。
现代应用中,推荐使用Unicode及其变体(UTF-8、UTF-16等)来支持更广泛的字符范围。
再谈汉字的类推简化
第 15 卷
第1 期
北华大学学报 ( 社会科学版) jOURNAL OF BEIHUA UNIVERSITY ( Social Sciences)
Vol. 15
Feb. 2014
No. 1
《 通用规范汉字表》 笔谈 □ 语文现代化:
编者按: 历时多年, 由教育部、 国家语言文字工作委员会组织研制的 《 通用规范汉字表》 于 2013
鉴于上述情况, 我们倾向于要对类推简化规定 范围, 比如可限制在通用字 ( 或再扩大一些) 的范 围内, 在此范围之外, 不再类推。现在字、 词典及已 制定的计算机用字标准、 各类计算机字库, 凡与规 定范围不合的, 允许使用一段时间, 同时进行修订, 使之逐步与新的规范保持一致。普通出版物的用 字也按上述类推简化的规定执行。 但是, 如果限定类推简化的范围, 也会带来一 些问题。如在同一出版物中就可能出现同一偏旁 有时简化, 有时不简化的情况, 读者看起来会很别 扭。因此, 也有人建议采用灵活的处理方法, 即工 具书的类推范围可自定, 出版物中可类推简化的繁 体字一律简化。 此外, 还有一种意见, 就是认为类推范围群众 不易掌握, 不如无限类推。至于无限类推的问题究 竟有多大, 需要拿出一个切实的说法。这种意见不 无道 理, 目前我们正组织专人做这方面的摸底
[ 2] 工作。
总表》 的 《 说明》 中讲得是很清楚的, 现转引如下: “ 第三表所收的是应用第二表的简化字和简化偏 旁作为偏旁得出来的简化字。汉字总数很多, 这个 表不必尽列。例如有 “ 车” 旁的字, 如果尽量地列, 就可以列出一二百个, 其中有许多是很生僻的字, 不大用得到。现在为了适应一般的需要, 第三表所 第三版, 只收汉字八千个左右) 为标准。未收入第 三表的字, 凡用第二表的简化字或简化偏旁作为偏 旁的, 一般应该同样简化。 ” 这段话告诉我们, 《 简化字总表》 第三表是类 推简化的示范, 而不是给类推简化限定范围。第三表 未收的字, 只要含有第二表所列的简化字或简化偏 旁, 不仅可以类推简化, 且 “一般应该同样简化” 。 但是, 当一系列大、 中型字、 词书相继问世, 大 型计算机字库相继建立, 简体版的古籍纷纷出版 时, 类推简化中的矛盾就逐渐显露出来了。例如: 1. 字数大量增多。以含 “纟 ( 糹) ” 的字为例, 列的简化字的范围, 基本上以 《 新华字典》 ( 1962 年
汉字类推简化与规范性辞书编纂
作者: 邓春琴
作者机构: 西华师范大学文学院,四川南充637002
出版物刊名: 宁夏大学学报:人文社会科学版
页码: 72-74页
年卷期: 2010年 第1期
主题词: 类推简化 辞书编撰 收字 立目 字形
摘要:当前,人们对于汉字简化是实行有限类推还是无限类推,说法不一。
有些人认为,汉字类推简化是一种历史的倒退,没有必要在辞书中给予位置,而有些人认为,汉字简化符合现代实情,有利于汉语学习与交流,应当在辞书中恰当处理类推简化后的汉字。
但是,类推简化汉字,在辞书中具体如何处理,讨论的还相对薄弱。
笔者从无限类推给规范性辞书编纂造成的三方面具体困难进行阐述,从而肯定有限类推在规范性辞书编纂的作用。
浅论汉字类推简化
第22卷第6期 辽宁工业大学学报(社会科学版)Vol.22,No.6 2020年12月Journal of Liaoning University of Technology (Social Science Edition)De c.2020收稿日期:2020-06-10基金项目:国家社会科学基金重大项目(14ZDB099)作者简介:丁明(1997-),男(满族),辽宁绥中人,硕士生。
本刊核心层次论文 DOI :10.15916/j.issn1674-327x.2020.06.014浅论汉字类推简化丁 明(渤海大学 文学院,辽宁 锦州 121013)摘 要:类推简化是一种非常重要的汉字简化手段,通过将汉字中相同的构件进行简体写法替换,从而达到成批量、成系统的简化。
类推简化早在国民政府时期就作为汉字的简化方法存在,新中国成立后对类推简化的原则不断修订,并最终确立了现阶段的类推简化政策。
类推简化具有一定的优点,也存在一定的不足。
由于现行汉字简化方案并没有对类推简化的范围进行明确规定,这使得类推简化成为了学界讨论的焦点之一。
通过对学界基本观点的梳理可知,类推简化主要分为有限类推和无限类推。
应该在《通用规范汉字表》的基础上,适时对现有字表补充和修订,以维护汉字系统的稳定和发展。
关键词:类推简化;有限类推;无限类推;类推范围中图分类号:H024 文献标识码:A 文章编号:1674-327X (2020)06-0056-06汉字是用来记录汉语的书写符号,也是世界上使用时间最长的表意文字之一。
但由于汉字自身结构较为复杂且汉字字符较多,所以汉字在书写和辨识上都存在一定的难度。
汉字的简化极大地降低了汉字在书写和识记上的难度,有利于汉字更好地发展。
20世纪50年代,国家开始推行汉字简化政策。
汉字的简化引起了学界的高度重视,而类推简化作为汉字简化的重要方式,也成为了学界讨论的主要焦点之一。
所谓类推简化,就是指在汉字字形简化的基础上,汉字相同构件成系统的简化。
类推简化字B
难输入、难显示的“类推简化字”在《通用规范汉字字典》的字表中,无国际标准ISO/IEC 10646编码的字约为一百多个。
这些字大多数为类推简化字。
在一般的电脑中,目前尚不知用何种输入法能够打印这些汉字。
E6??区的字被称为“缺字增补”。
这些字在多数网站中不能显示。
难以通用。
由此可以想象这些“无ISO/IEC 10646编码”的类推简化字在短时间内很难达到通用。
热切盼望早日补齐这些字的国际标准ISO/IEC 10646编码!下面绿色的字是E6??区的类推简化字;红色的字是大字库中扩展区的类推简化字:鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏鿏键入字上面的字符然后再按Alt+X组合键就可以打出该字E616E628E660E61C E64D E66E E61E E61F E676E662E672E69B E69C E60D E609E657E679E67A E67B E64EE6AA E64F E639E60A E658E623E630E67C E67D E67EE680E681E600E62D E642E6AC E650E60B E643E69FE65B E62A E638E666E667E69D E651E652E6AF E653(这些字属于私自编码区的字,用一般的输入法难以输入。
也不能显示)键入字上面的字符然后再按Alt+X组合键就可以打出该字E624E6C4E6CC E618鿏9FCF E684E685E6A0E61B E69A E62F E6B0E674E645E66F E605E688E689E647E6B5E6B6E6C6E646E68C E6B7E6B8E6C7E669E654E690E6C8E6B2E659E6CD E691E692E6C9E693E695E696E6CA E6BA E6BB E6BC E65A E655E6BF E6C0E656E6CE(这些字属于私自编码区的字,用一般的输入法难以输入。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类推技术标准说一说汉字编码技术标准中的类推简化1.引言随着《通用规范汉字表》发布,一场宣传已经展开,随之也有一些争论出现。
争论中一个重要问题,或焦点性问题:是应该实行有限制的类推,还是无限制的类推?这个问题不仅仅是语言文字学里的理论性争论,它密切关联着电脑的实际使用。
实际上,此次的《字表》已经继续类推出一批电脑汉字编码中没有的汉字,即新造了一批电脑外字,160余个。
这将带来一系列不良后果。
由于汉字编码技术标准是新事物,其产生历史不过仅仅三十多年,又具有较强的技术性,领导机构管理者、广大公众对其了解较少。
本文将对此做简要但也是较为完整的介绍。
2.文字编码技术标准的产生世界上最早的文字计算机编码技术标准是ISO646—1973(约40年前)。
这是一个关于拉丁字母文字的国际编码标准。
编码的字符包括拉丁字母、数码以及标点等其他符号,总计94个可见图形字符,及一些起控制作用符号共计128个,占用7位二进制位。
此标准的前身是美国国内的编码技术标准,1960年代的版本中只有大写字母,没有小写字母;后来补充大写字母,又被称为ASCII字符集。
这个ISO646或者说是ASCII字符集,成为世界信息技术界最重要的技术标准。
它决定了拉丁字母文字信息的表达、存储、加工、以及传输,保障了一大批西方文字、科技语言、程序语言在全球范围的电子化流通。
这个信息化的、电子化的字符集,取代了历史久远,在工业时代、机械化时代成功广泛应用的,以纸质印刷形式为主的‘字母表’,成为文字规范的新形式、新手段。
以此为基础的英文信息处理电脑化的成功,极大地刺激了、推动了世界各国文字处理技术的电脑化浪潮。
3.中国汉字编码技术标准的初期,简化字无限制类推阶段中国的第一个汉字计算机编码技术国家标准是GB2312—1980(刚刚33年)。
这是在国际性文字处理电脑化浪潮初起时期的一项开创性工作。
主持者是一位比王选还年轻十来岁的青年技术工作者。
该标准的语言文字学依据,自然靠向语文学家请教,遵循了当时语文界的主流认识。
它不包含任何一个繁体字。
这个标准并不完美,甚至还有错字出现。
但正是这个标准的适时推出,保障了中国汉字电脑化浪潮有了一个可用的基础,对汉字的电脑化迅猛但有序的发展作出了重大贡献,曾经被授予科技重奖。
这个国家标准GB2312—1980,收字仅仅6763个,不包含任何繁体字。
标准实施过程中,同时设计了五个称为‘辅助字符集’的编码标准,总计约四万余汉字,以实现对汉字文献的完整表达。
其中,第二、第四辅助集,是经过无限制类推简化得到的,不包含任何繁体字。
而第一、第三、第五辅助集,是与前者并立的繁体汉字系统集,其中不包含任何简化字。
这种思路,自然来自当时语文界的主流认识。
其政策依据是《简化字总表》的说明(1964年5月)。
在类推简化字表的说明中指出:“汉字总数很多,这个表不必尽列。
”表中未列出的字,在实际使用中需要用到时,“凡用第二表的简化字或简化偏旁作为偏旁的,一般应该同样简化”。
政策依据。
由于文字处理技术产品的广大市场,特别是迅速发展的中国市场,吸引了西方信息产业巨头及国际标准化组织关注,而汉字问题是其中的一个重要关键。
这给中国联合台、港、澳专家与日、韩专家合作研制简、繁体汉字,中、日、韩汉字兼容的编码技术标准提供了机会。
这种编码标准是国际标准化组织主持的几乎包含世界现行大多数文字的、大字量、多用途的全新结构的编码标准的一部分。
该项目进展顺利,于1993年国际标准化组织发布第一个版本,即ISO10646—1993;几乎同时中国发布符合此国际标准的中国国家标准GB13000—1993.。
该标准收字20902个,是简、繁体,中、日、韩兼容的。
从完整表达汉字文化的角度出发,从不断完善简繁体汉字关系的多种可能性做好准备出发,该标准收入了已经产生的简化字及对应的所有繁体字,收入了一度宣布为异体字的那些字。
没有再实行类推简化,即保留了大量金字旁、言字旁、....而没有对偏旁再做简化。
由于这个标准是全新结构,一时间没有可用的操作系统及文字处理软件支撑,所以GB13000—1993实际上没有马上得到使用。
经过两年的努力,一个与GB2312—1980 为子集又与GB13000—1993兼容的GBK1(汉字编码字符集扩充),于1995年开始推行应用。
中国和华人世界,开始使用简繁体兼容的汉字系统。
由于它与GB2312—1980极好的兼容性,大多数用户,于不知不觉中开始享用着电脑信息新技术的便捷。
2000年的GB18030是这个GBK1的扩展版本,又称GBK2,收汉字27484个。
它是简繁体兼容的,但也是停止了无限制类推简化的。
即它收入当时已经产生的简化字,没有自己再造新的简化字。
这个GB18030是国家的强制性技术标准。
正是它支撑了中国行行业业跨入了数字化、网络化、信息化的全新时代。
4.无限制类推简化是电脑外字不断产生的最重要原因此次《字表》里的新造电脑外字,主要是类推简化字。
我们就从《字表》里,找5个出来吧。
样式:序号对应繁体字新类推简化字4004 熰(火区)注:由于计算机里没有这些新简化的字,所以括号里只能列出部件组合。
这一类外字,我们已经发现近一百多个。
下面再给出另外4个。
6547澫(氵万) 6551詝(讠宁) 6560塸(土区) 6564埨(土仑)这些字,国家语委已经通过《字表》称它们是通用规范汉字,是那宝贵的8105个之一。
但你在自己的电脑上,输入一下看,无论你用什么输入法,都打不出它们来,只能打出这些字对应的繁体字。
例如,可以打出繁体的‘熰’,但打不出简化了的:(火区)。
这几个新类推后果字就是‘电脑外字’。
显然地,是因为从GB13000—1993起,GBK1—1995,GBK2—2000,都没有再无限制类推;此期间,文字改革家们再继续无限制类推简化,就制造了外字。
对于‘外字’,计算机根本无法表达;包括无法输入、无法显示、无法编辑加工、无法传输,...商务印书馆《现代汉语词典》中新造的外字;许多出版社、印刷厂新造的外字,也基本上是这种类推简化字。
5.汉字已经跨入了电脑时代早在1994年,汉字就已经跨入了电脑时代。
其根据是铅字打字、铅字排版印刷、印字四码电报成功地被电脑化新设备取代;铅字退出历史舞台。
汉字电脑处理效率已经反超英文。
这个事实完全没有被认识、被承认。
从“汉字五千年”和“汉语拼音50年”两次纪念活动看,主流语文界仍然把近百年来看作是统一的现代,是汉字一直落后的时代,仍然是需要继续汉字改革的时代。
确实地,在铅字时代,汉字处理设备及处理效率,显著地比英文的落后、低效、繁难。
这是明显的、外露的、直观的、感性的,在不同党派、不同专业、不同年龄的人群中几乎没有异议。
但在电脑时代,由于汉英兼容,核心技术被封装在芯片、光盘、U盘里,汉英处理设备及其效率的比较,变得模糊、内敛、隐秘、不直观、理性,不同人之间,特别是语文界与技术界之间,认识上存在巨大差异。
主流语文界认为只有拉丁字母最适合计算机;汉字电脑处理比英文还是落后、低效、繁难,主张继续汉字改革。
而信息技术界,认为汉字不再落后、不再繁难,汉字改革应该终止。
语言文字界与信息技术界之间的这种认识差异,正是两个时代差异的反映。
语言文字界的一些人,对汉字电脑处理成就迟钝、麻木、视而不见;对许多电脑技术常识知之不多或知之甚少。
语言文字界主流认识脱离了、背离了时代潮流。
6.《字表》与《编码技术标准》:两个时代的纠葛这里《字表》专指《通用规范汉字表》;泛指它与其前的五表:《第一批异体字整理表》,《简化字总表》,《印刷通用汉字字形表》,《现代汉语常用字表》,《现代汉语通用字表》。
这里的《编码技术标准》专指‘GB18030’,泛指它与其前的其他汉字编码技术标准。
文字处理的电脑化、智能化、数字化、网络化,是新时代的一个显著特征。
这种新形势带来一个重要变化就是:汉字和技术产生了空前密切的联系;汉字规范越来越依赖技术标准;规范不仅仅是面对人的,也是面对海量的仪器设备的。
1994年,汉字处理全面地进入了电脑时代。
打字、排版印刷、远程通讯都实现了电脑化(参见【1】§九。
1)汉字处理,从比英文显著的落后、低效、繁难,变得几乎全面反超英文(参见【1】§九)。
这之后,编码技术标准是最重要的汉字规范的事实就变得十分突出了。
这种技术标准与传统的人类专家通过会议、研讨制定出来的书面文件(法规条文、字词典、常用字表、通用字表、...)有重大区别。
我们称传统的专家们制定的这种书面文件为“专家同人约定”,简称“约定”,其代表是各种《字表》。
称新的技术标准为“技术标准”,简称“标准”。
“约定”通常主要是针对人的,由有关人员执行,执行后果强烈依赖于人的态度、素质、意愿。
而“标准”则即针对人,也针对设备,通常是大量甚至是海量设备。
它的后果相对说来,对有关人员的态度、素质、意愿的依赖大为减轻。
“约定”通常并不十分严格、确切,有时有所含混、不明确;其正确性靠执行的人。
而“标准”必须严格、确切、毫不含混。
我们称“标准”的这种性质为可操作性。
而“约定”通常操作性不强。
标准的可操作性是极其重要的属性,因为它是要由没有意识、没有思维的仪器、设备(而且通常是海量的)去执行的。
汉字处理的电脑化、智能化、数字化、网络化,使得标准化成为规范的新形式,也是高级形式。
标准才是最重要、最有效的规范化手段,是能够管理、限制、控制海量设备的最重要的东西。
信息时代,《字表》仍然起作用,但其相对重要性下降。
并且有一点特别重要的新要求:它不能违背、违反技术标准。
任何专家、高级管理者,甚至权威乃至领袖,都不能以“一己之见”、“一己之利”改变标准。
标准只能以一定程序进行修订,并且通常要涉及海量相关设备的改造,也一定涉及大量人力、资金、甚至能源、材料的投入。
就此而言,技术标准对汉字行为的限制,远远大于历史上任何信息工具的作用;也远远大于任何个人、机构的影响力。
可惜地是,技术标准作为汉字规范的新形式、高级形式的事实,远没有被认识,被承认。
2001年立项,延续十余年的《通用规范汉字表》制定进程中,居然在任何文件、材料、谈话、访谈中(包括最新的《字表》文本、《字典》,《解说》,访谈及大量文章),都只字不提技术标准,特别是自2000年起实施的强制性编码标准GB18030。
并且还公然地违背强制性标准。
十余年、四千余人参与的巨大项目,居然见不到技术标准的影子。
这说明中国语文界与当今中国信息化进程是多么地疏离,多么地不合拍,多么地格格不入,甚至是背道而驰。
作者理科教书匠:许寿椿。