古文字的字形整理 及其编码的原则
古代汉语 通论部分
王力《古代汉语》(通论)笔记(精华梳理版)通论(一)1、汉语字典的编排方式主要有三种:A、按音序排列。
现在通行按照汉语拼音字母次序排列(汉语拼音方案);古代按照平水韵106韵排列(上、下平声各15韵,上声29韵、去声30韵,入声17韵)。
B、按部首和笔划排列。
同一部首的字归在一起,部首的先后以笔划多少为序;同一部首内,字的先后以笔划多少为序。
笔划相同时,在按起笔的笔形排列。
一般是把起笔分成点(、)、横(一)、直(ㄧ)、撇(ノ)四种或点、横、直、撇、折(┐)五种依次排列。
C、按编码排列。
通行的是四角号码检字法。
汉字方形有四个角,角的形式共十种,用0至9代表。
角的顺序是左上角、右上角、左下角、右下角。
每字得四码。
2、《康熙字典》张玉书、陈廷敬等编,在明代梅膺祚《字汇》和张自烈《正字通》基础上编成。
按照部首排列,分成214部,再按十二地支分十二集,每集分上中下三卷。
释字体例先音后义。
先列主要韵书的反切,再释义,每义引古书为证。
3、王引之《字典考证》、王力《康熙字典音读订误》,进行纠正。
4、《中华大字典》陆费逵、欧阳溥存主编,1915年中华书局。
部首排列,注音用《集韵》的反切,还加注直音。
5、《辞源》1915商务印书馆,陆尔奎、方毅等人编写,是近代出版最早的以语词为主,兼顾百科常识的大辞书。
部首排列法,沿用《康熙字典》214部首。
注音反切,全部采用清代李光地《音韵阐微》的改良的反切。
基本奠定了汉语现代词典的编纂体例格局。
1958年修订为“以语文为主,百科为副”的帮助阅读古籍的较大较好的语文工具书,吴泽炎、黄秋耘、刘叶秋负责。
采用汉语拼音字母和注音字母注今音。
采用《广韵》和《集韵》的反切,保留反切意在溯源,用来标志这个字的中古音。
6、《辞海》1936中华书局编印,舒新城、沈颐,张相主编。
1958年修订为综合性辞书。
舒新城、陈望道主持。
还收录了百科性的古代词语。
“古今兼收,源流并重”:《汉语大字典》偏重古今的汉字,反映汉字形音义的发展。
古文字的字形整理 及其编码的原则
古文字字形整理和编码的单位
• 字系:同时代、同形制全部的字符群 • 字组:同一字系中记词职能相同(音义相同) 的多个字形的群体 • 字种:记词职能相同、结构(构意)相同的多 个字形的群体。同一字组中不同的字种互为异 构字 • 字样:同一字种中仅仅写法不同的个体。同一 字种中不同的字样互为异写字 指称型古文字字库搜集字种,全原形古 文字字库搜集字样。古文字编码应当以字种为
古文字不能作为某种字体与现代汉字对应
职能与现代汉字不对应 辖——暴爆曝 闲——窒钟—— 蟯——景影
化——(变)化、 (教)化不同形
• 形体与现代汉字不对应 癝 眤 堡 狈 辫 • 字样繁多难以穷尽 “酉”在甲文中的字样约有 24 种 • 未识字只有字形而无音义
古文字字库的两种类型
• 古文字字库可以有两种类型:(1)指称型古 文字字库。这种字库的功用,是在创建某些文 本时,出于讲述或引用的需要,在行文中提到 某个或某几个古文字时,能够把这些个古文字 插到文本里去。(2)全原形古文字字库。这 种字库的最高要求是要在计算机里再现一切现 有的古文字实用文本中的字样。后一种要以前 一种为基础。 • 创建一种指称型历史字体的字库,要求字形准 和全,一般采用从古文字实用文本中选择字形, 即使重新写字模,也要以选择好的字形为依据。 字形选择必须整理文本用字。
“酉”的甲骨文异形字样
一般的甲骨文异形字样
齒:
一般应选择上面列举字形的8作主形
“隹”的甲骨文异形字样
隹:
一般应选择上面列举字形的8作主形
字种的划分
以甲骨文为例,在字组中选择的字种数: 一 1 元 3 天 4 史 2 上 2 帝 6 旁 3 下 2 示 3 福 6 祭 3 祀 4
古文字编码的有利条件
字符编码 汉字编码规则 -回复
字符编码汉字编码规则-回复字符编码是计算机中用于表示字符的规则和方法。
在计算机中,所有的字符都需要被编码成二进制形式才能被处理。
中国的汉字编码规则是为了表示汉字而制定的特定的字符编码规则。
本文将详细介绍字符编码和汉字编码规则,并逐步解释相关概念和原理。
一、字符编码1.1 字符编码的概念字符编码是指用特定的二进制数表示某个字符的方法,是文本在计算机中存储和传输的基础。
因为计算机只能处理二进制数据,所以字符需要被转换成对应的二进制数才能被计算机识别和处理。
1.2 字符编码的历史最早的字符编码是ASCII码,它是一种7位的编码方式,能表示128个字符,包括英文大写字母、小写字母、数字、标点符号和一些控制符号。
但ASCII码无法表达其他国家和地区的字符,所以后来出现了各种不同的扩展编码,如Latin-1、GB2312等。
1.3 Unicode编码Unicode编码涵盖了全世界几乎所有的字符,为每个字符分配了唯一的数字码点。
Unicode编码可以用不同的表示方式进行存储和传输,包括UTF-8、UTF-16和UTF-32等。
其中,UTF-8是最常用的Unicode编码方式,它使用变长的编码,能够表示任何字符,并且对于ASCII字符保持与ASCII编码一致的兼容性。
二、汉字编码规则2.1 GB2312编码GB2312是中国国家标准,用于汉字的编码。
它采用双字节编码,其中一个字节表示高位,另一个字节表示低位,可以表示超过6000个常用简体汉字和少量符号、字母和数字。
GB2312编码在1981年发布,是目前广泛使用的汉字编码之一。
2.2 GBK编码GBK编码是GB2312编码的扩展,用于表示更多的汉字。
GBK编码采用双字节编码,兼容GB2312编码,在GB2312的基础上增加了几千个汉字的编码。
GBK编码是标准的中国汉字编码,广泛应用于各种操作系统、软件和设备。
2.3 GB18030编码GB18030编码是在GBK编码基础上进行扩展的新一代中国汉字编码。
汉字编码原理
2、确定码元类型和数量
• 码元是用来作为汉字代码的元素。例如, • 电报码的码元就是0-9这十个阿拉伯数字。 • 码元的种类和数量与编码容量、以及码长、重 码数等指标直接相关。 • 比如电报码,采用十个数目字作码元,四位码 长的编码容量至多10000个汉字,从00 00到9999。超过1万字就是出现重码, 否则就必须增加码长。
• 十个数字如果转换为二进制表示,则只 需四位二进制单位。这样,用“嘀 —— 嗒” 两种状态就可以传输汉字了。 • 电报码的特点是“字”-“码”一一对 应,没有重码。 • 缺点是难以记忆,非经过专门训练无法 使用。
三、编码原理
• 1、确定编码对象 • 汉字的总字数有6万多,现代汉语常用的也有 1万左右。《信息交换用汉字编码字符集基本 集》根据各种统计数据确定收入汉字6763 个。这些汉字就是一个编码对象的数量级。 • “大字符集” 包括大陆、台湾、日本、韩国所 使用的全部汉字的集合。有20902字。 • 数量不同,有关参数也不同。
第四节汉字编码类型
1、流水码
• 流水码的特点是: • ①码元只有10个阿拉伯数字; • ②一般多为等长四码,有效数字不足四 位的在前面加零补足四位; • ③字、码一一对应,没有重码; • ④字、码之间没有理据性,就是没经过 专门训练不能做到“见字识码”;
2、拼音码
• 是以汉字的读音属性为编码依据,采用 键盘上的拉丁字母做为码元的编码方法。 又分为 • “全拼音码”、 • “简化拼音码”、 • “双拼音码”三种。 • 一般不加声调。
四、汉字编码的技术参数指标
• 汉字编码是一个理论与实践性都很强的 课题,而最重要的是它的实践性,也即 在实际应用中的效果。 • 因为这是要解决汉字信息处理的第一个 “人机界面”,所以,几乎全部技术指 标都与“人”密切相关。
汉语言文学古代汉语期末重点整理
通论——字典辞书一、文史工具书的编排方式(一)部首编排法:根据汉字的形体结构,把具有相同偏旁的归为一部,这个共同的偏旁就是部首。
部首按笔画的多少为先后次序。
同部首的字也按字的笔画多少的先后次序排列。
(二)音序排列法:音序排列法是按汉字的读音来编排所收的字词的。
古代字典辞的音序排列法主要有两种:一种是按传统36字母的顺序编排。
一种是按《广韵》韵部或平水韵韵部韵的顺序编排。
(三)号码查字法把汉字按照一定的原则分别编出号码,通行的是四角号码检字法。
四角号码检字法由王云五发明,1925年5月出版《号码检字法》。
二、主要工具书(一)《说文解字》简称《说文》,东汉许慎撰。
正文十四篇书末“叙”和目录为一篇,共十五篇。
收字以小篆为主,兼收古文、籀文、重文。
据《叙》载,全书共收字9353个,重文1163个,合计10516个。
体例:一是按小篆的形体,把9353字分成540部;二是于每一篆下先释义,再分析字形结构。
(二)《康熙字典》用十二地支分成十二集,每集又分为上、中、下三卷,加上书前凡例、等韵、总目、检字及书后的补遗、备考等六卷,凡四十二卷。
全书正文共收字47035个。
按《字汇》《正字通》体例立部首214个。
体例:于单字下先注音释义,注音:依次列举《唐韵》、《广韵》等前代韵书的反切,并标注直音;释义:解说字的本义、别音别义,并于每一义项下面列举书证。
有所考辨就在释文末用“按”字表示。
主要特点:一是收字多,超出了以前的任何一部字书;二是注重解形和注音;三是义项收录完备;四是引例十分丰富,例句出处明确。
五是确定了后世字典辞书的部首数量与基本编排方式。
(三)《汉语大字典》按部首排列,设200个部首,共收汉字56000个,是目前我国收字最多的字典之一。
先列楷书字形,然后收列能够反映形体流变、源流演变关系的有代表性的甲骨文、金文、小篆和隶书的形体。
释义:古今兼备以古为主,义项排列一般按照本义、引申义、通假义的顺序,义项下面尽可能征引文献为证。
字形历史演变的规律
这种简化方式在独体字和合体字中都有发 现。
截除性简化使字形发生了突变,从截余的 部分是难以推测未截之前的字形原貌的。
但是,当未截形体和已截形体均已发现的 情况下,知道有这种简化方式,就可以很 快的发现它们之间的联系。如果不知道有 这种简化方式,往往会误以为它们是毫不 相干的两个字。
过去古文字研究者在比较字形时总结的填 实与虚框无别,方圆无别等原则,都是总 体性简化的一方面局部现象。而最主要的 趋势是把各部宽窄不一的图形变为粗细均 匀的单线条,以达到方便书写的目的。
同类图形在简化中往往有相似的演变过程 。因此,在利用简化的规律来判定不同的 形体是否为同一独体字或同一基本偏旁时 ,最好能有已知的同类实例作为旁证。
字形历史演变的规律
汉字字形的历史演变呈现着错综复杂的现 象。当我们用历史比较法从字形上去判断 一个未识的古文字应该是哪个已识字的前 身时,自然会产生这样的问题:究竟什么 样的形体差异可以视为同一字或同一偏旁 历史演变的结果,而什么样的形体差异就 是不同字和不同偏旁相区别的标志呢?
从我们已知的古文字资料分析总结,在汉字脱胎于 图像而成为记录语言的符号体系,逐步发展到小篆 的过程中,持续作用于字形演变的主要原因有三个 :1,为了便于掌握和使用,符号要求越简单越好 。其结果是字形的简化。2,为了保证记录语言的 精确性并不断提高这种精确性,一方面在简化的过 程中力图保持不同符号的区别,另一方面使原来承 担不止一音一义的同一符号在形体上增加新的区别 标志,使之分别承担原有音义的一部分。其结果是 字形的分化。3,由于简化和分化都是群众性的行 为,其结果必然导致同一个字存在多种异体。为了 保证文字在社会上的统一使用,必须把异体字限制 到最低数量,其结果就是字形的规范化。
古代汉语怎样查字典辞书
《左传· 成公十三年》:“国之大事,在祀与 戎。” 殷商时代的“贞人”都有很高的政治地位。 “祭酒”本指祭之以酒,引申则指主祭人. 至汉代遂成官名,经学博士之首称“博士祭 酒”。后世甚至称一校之首为“祭酒”,如清 代王懿荣为“国子监祭酒”,实际上相当于今 人所说的贵族子弟大学校长。
许慎是古文经学大师贾逵的受业弟子,贾逵是 贾徽之子,父子之间本有学术传承关系,贾徽 是古文经学的开山祖师刘歆的学生,因此许慎 是刘歆的再传弟子。 许慎的治学道路和学术成就,与这一点密切相 关。
每笔用过后,再充当其他角时,也作“0”。 如:大4003、十4000、車5000、时6400、古4060 。
四角号码检字法查找便捷。 但掌握起来有一定的难度。有些角的归类只能 凭死记,如不常用,容易忘记。 上海古籍出版社的《说文解字注》后附《说文 解字四角号码通检》。
三种排检法各有利弊。
在相切的两个字中,取声母的字叫做反切上字, 取韵母和声调的叫做反切下字,反切下字和被 切字的声调是一致的。 但是由于古今汉语语音的变化,大部分古注中 的反切拼出来的音和今天的不同,还有的用现 在的读音无法拼切。
3、注音字母和拼音字母。 注音字母注音: 按照汉字的26个注音字母的顺序进行注音。 这种注音法是解放前最为流行的一种检字法。 缺点是汉语同音字太多,一个字往往有几十个同 音字,也带来一定的麻烦, 另外,方言区的人在使用时,往往会遇到平舌音 与翘舌音、前鼻韵母与后鼻韵母、鼻音与边音等 容易混淆的字音的困扰,直接影响了注音的效果。 这种注音方式的书写也比较繁难,但是已经比以 前的平水韵或者反切注音要好多了。
甲骨文象形编制方法研究
摘要随着科技的发展,甲骨学乃至古文献研究方法面临着一场由手工操作到自动化处理的变革。
这场变革的瓶颈则在于古文字学,特别是甲骨文字学的信息化革命,而这一切又有赖于文字的编码。
作为汉字最早而成系统的殷商甲骨文字,其编码方法的生成取决于甲骨文字形体结构特征与编码方法的有机结合。
本文在演绎与归纳的基础上结合现代汉字的编码原理,综合出一套新的甲骨文字编码方法——象形码法。
这一方法由字形学出发,通过非线性到线性转换把甲骨文字的信息(结构要素)特征与电子信号的信息处理方式结合起来,最后使二者达成一致,从而达到甲骨文字可以电子化信息处理的目标。
关键字甲骨文、象形码、编制方法AbstractInputmethodisregardedasabottleneck,whichistheorganicpartwhenawords--processing--systemforms.asfarasInscriptionsonBonesorTortoiseareconcerned,thatisthemostcomprehensiveproblem.ThePictographicCode,beingakindofinputmethod,hasmappedoutandpreparedhere.Thespecificpropertyonconfigrationandstructureaboutinscriptionshasbeenstudiedcarefullythatisbasedonthefullyconsiderationwiththeregularityofpartssysteminwordsprocessing.Thentherulesofthees—tablishmentbetweencharacterrootswithencodingunitshavebeenacquiredbyreferringtOthecontempararyencod—ingregularpatterns,andthecoexisfenceofgrapheticallyvaluewhichisagainstwiththeportableoperationhasmani—festeditself,whilethecompleteencodingunits、characterroots、pertinentexamplesaswellasexhaustiveinstructionsonruleshavebeinggiven·KeywordsInscriptionsOnBonesorTortoiseShells、PictographicCode、HowtOcodeⅡ一、引言rFn骨文字乃至整个古文字的研究与传承,多少年来一直处于手工作业状态。
小篆字形记号及记号字的分析-模板
小篆字形记号及记号字的分析古文字中有很多成分,这些成分既和字义没有,又和字音毫不相干,这样的成分就是记号。
记号在汉字中大量存在,从古文字时代起常用的就有·、—、︱、八、十、×等几种。
,我们从类型上分析将之分成四种,即填空记号、别形记号、指示记号和代替记号。
随着字形的简化,汉字的象形性质消失,许多汉字的声符失去了表音的功能。
这样汉字中就出现了大量的符号性质的文字,这就是记号字。
论文关键词:记号,填空记号,别形记号,指示记号,代替记号,记号字,半记号字早在上世纪40年代,唐兰先生在其《中国文字学》一书中就提出了记号字的观点,1986年,裘锡圭先生在其《文字学概要》一书中再次提出这个观点,并进一步发展了这个理论。
在本文中,笔者正是基于这一理论,试图对小篆做一个较为全面和系统的分析。
二、小篆中常用记号分析通过分析《说文解字》中保留的小篆字形,我们把小篆中经常使用的记号分成四大类,即:填空记号、别形记号、指示记号和代替记号。
下面我们逐一讨论这些记号。
(一)填空记号填空记号在汉字早期使用较多,主要是加在字形结构比较空虚的地方,使字形看上去对称、匀称、美观,比如在长横上加一个短横,或者在圆形中间加“·”(以下称点)或“-”(以下称短横),这些记号没有任何语言意义,只起一个补充空缺,使字形结构稳定、充实、美观的作用。
这样的记号就叫做填空记号。
例如:“日”字,《说文解字》:“实也,太阳之精不亏。
从口一,象形。
”在古文字中“日”通常写作○,有时也写作⊙,在小篆中还写作一个椭圆中间加一个短横,这都不影响意义的表达,都是代表太阳。
小篆中,常用的填空记号主要有:“·”、“-”、“︱”、“彡”、“+”、“?”等几种。
(1)用“·”的。
点在小篆中是一个经常使用的填空记号,主要加在方框形、圆形或较长的竖线中间。
例如:“丹”,小篆写作“”,《说文解字》:“丹,巴越之赤石也,象采丹井,一象丹形。
王力古代汉语(通论)笔记(精华梳理版)
精心整理王力《古代汉语》(通论)笔记(精华梳理版)(一~十八)通论(一)1、汉语字典的编排方式主要有三种:A、按音序排列。
现在通行按照汉语拼音字母次序排列(汉语拼音方案);古代按照平水韵106韵排列(上、下平声各15韵,上声29韵、去声30韵,入声17韵)。
B、按部首和笔划排列。
同一部首的字归在一起,部首的先后以笔划多少为序;同一部首内,字的先后以笔划多少为序。
笔划相同时,在按起笔的笔形排列。
一般是把起笔分成点(、)、横(一)、直(ㄧ)、撇(ノ)四种或点、横、直、撇、折(┐)五种依次排列。
C、按编码排列。
通行的是四角号码检字法。
汉字方形有四个角,角的形式共十种,用0至9代表。
角的顺序是左上角、右上角、左下角、右下角。
每字得四码。
2、《康熙字典》张玉书、陈廷敬等编,在明代梅膺祚《字汇》和张自烈《正字通》基础上编成。
按照部首排列,分成214部,再按十二地支分十二集,每集分上中下三卷。
释字体例先音后义。
先列主要韵书的反切,再释义,每义引古书为证。
3、王引之《字典考证》、王力《康熙字典音读订误》,进行纠正。
4、《中华大字典》陆费逵、欧阳溥存主编,1915年中华书局。
部首排列,注音用《集韵》的反切,还加注直音。
5、《辞源》1915商务印书馆,陆尔奎、方毅等人编写,是近代出版最早的以语词为主,兼顾百科常识的大辞书。
部首排列法,沿用《康熙字典》214部首。
注音反切,全部采用清代李光地《音韵阐微》的改良的反切。
基本奠定了汉语现代词典的编纂体例格局。
1958年修订为“以语文为主,百科为副”的帮助阅读古籍的较大较好的语文工具书,吴泽炎、黄秋耘、刘叶秋负责。
采用汉语拼音字母和注音字母注今音。
采用《广韵》和《集韵》的反切,保留反切意在溯源,用来标志这个字的中古音。
6、《辞海》1936中华书局编印,舒新城、沈颐,张相主编。
1958年修订为综合性辞书。
舒新城、陈望道主持。
还收录了百科性的古代词语。
“古今兼收,源流并重”:《汉语大字典》偏重古今的汉字,反映汉字形音义的发展。
秦系简帛文字国际编码的初步设想
秦系简帛文字国际编码的初步设想沙宗元(安徽大学中文系 安徽 合肥 230039)摘 要 古汉字的计算机国际编码对于古籍整理研究、文字学研究、中华传统文化在信息时代的传播和弘扬等都具有十分重要的意义。
目前,关于甲骨文、小篆、金文等类型古汉字的整理和国际编码工作已经陆续展开,并且已经取得了相当的进展。
作为秦文字的重要类型之一,秦系简帛文字的整理及编码目前还没有开展,相关的研究工作还比较薄弱。
本文介绍了秦系简帛文字国际编码的背景和意义、秦系简帛文字的研究资料,并着重对编码工作的实施提出了一些初步的设想,认为字形的收集整理、字形属性的系统描述、异体的认同和别异、字形的筛选等这几个方面是编码工作的重点。
关键词 古汉字;秦系简帛文字;国际编码近年来,随着汉字信息处理技术的不断发展,古汉字的计算机国际编码问题不断被提上议事日程。
由于古汉字自身形体结构方面的特点,其编码与现代汉字有着较大差别,与古汉字编码相关的许多问题还需要进行深入研究和探讨。
为保证古汉字编码的质量,我们必须充分考虑古汉字本身的特点、古汉字字库的应用特点以及国际标准化组织对字符编码的要求,对各类古汉字进行全面的字样整理。
①本文将对秦系简帛文字国际编码的背景和意义、秦系简帛文字的资料、编码的初步设想等相关问题进行初步的探讨,以求正于各位方家学者。
一、编码的背景和意义目前,信息交换用现代汉字编码字符集的国家标准已经陆续颁布。
随着一系列字符集(包括基本集、辅助集和扩充集)和相关国家标准的颁布,可以说汉字信息处理已经取得了令人瞩目的成绩。
与此同时,古汉字的信息处理问题也引起了人们越来越多的关注,相关的研究已经取得了不少成果。
各类古文字字库的建设有的已经取得了重要进展,有的正在纳入计划之中,积极做好启动的准备工作。
例如,台湾中央研究院史语所与资讯所合作的古文字信息系统,北京师范大学民俗典籍文字研究中心的小篆教学与研究系统,华东师范大学中国文字应用与研究① 张再兴:《古文字标准编码中的金文原形字字样整理》,《中国文字研究》第5辑,广西教育出版社2004年版。
汉字编码方案
汉字编码方案一、汉字编码方案的常见类型汉字编码方案主要有以下几种类型:1. 国标码:国标码是中国国家标准规定的汉字编码方案,主要用于汉字信息处理和交换。
国标码采用 Unicode 编码标准,每个汉字用 16 位二进制数表示,可以表示 65536 个不同的汉字。
2. 区位码:区位码是一种基于汉字拼音的编码方案,主要用于汉字输入法。
区位码将汉字拼音分解成声母、韵母和声调,每个部分用一个数字表示,总共用三个数字表示一个汉字。
3. 拼音码:拼音码是一种基于汉字拼音的编码方案,主要用于汉字输入法和搜索引擎。
拼音码将汉字拼音转换成一串数字,每个数字代表一个拼音字母。
二、汉字编码方案的编码原理汉字编码方案的编码原理主要有以下几种:1. 形意编码:形意编码是根据汉字的形状和意义进行编码的方法。
例如,国标码中的汉字编码就是根据汉字的笔画数、笔顺和结构特征进行编码的。
2. 音形编码:音形编码是根据汉字的拼音和形状进行编码的方法。
例如,区位码中的汉字编码就是根据汉字的拼音进行编码的。
3. 纯音编码:纯音编码是根据汉字的拼音进行编码的方法。
例如,拼音码中的汉字编码就是根据汉字的拼音字母进行编码的。
三、汉字编码方案的应用场景汉字编码方案主要应用于以下场景:1. 汉字信息处理和交换:在计算机系统中,汉字需要转换成计算机可处理的编码,才能进行存储、传输和处理。
汉字编码方案可以将汉字转换成数字或字母组成的序列,以便在计算机中进行处理。
2. 汉字输入法:汉字输入法需要将键盘上的按键与汉字相对应,才能实现汉字的输入。
汉字编码方案可以将汉字转换成数字或字母组成的序列,以便在键盘上输入。
3. 搜索引擎:搜索引擎需要将汉字转换成数字或字母组成的序列,才能实现汉字的检索和排序。
汉字演变的规律
汉字演变的规律
1、笔画线条化
笔画:有一个形成过程。
从甲骨文到篆字的古文字阶段,笔画逐渐形成直笔和圆转两种。
隶变以后逐渐形成笔画匀称、线条统一的楷体字的笔画系统。
2、字形符号化
汉字历史上曾经有过“六书”理论,把字形和字义联系起来,以便于分析和理解汉字的读音和意义。
这种做法不是把汉字作为符号,而是作为表达意义的图形组合来看待。
每个组成部分都有其由来和理性。
通过分析可以找出字形演变的来龙去脉,从而发现意义的根据。
随着汉字的发展演变,这种理性逐渐被破坏和丧失。
最大的一次字形系统演变是从篆书到隶书的“隶变”。
“隶变”从根本上打破了古代汉字的理据性。
近现代汉字特别是经过了简化的现代汉字,已经彻底打破了楷书所继承的微弱的理据性,就是汉字符号系统彻底地符号化了。
3、结构规范化
经过长期的发展演变,汉字逐渐由不规范变得整齐规范、大小一致、造型美观。
这种规范是印刷术发明以来,长期历史实践中形成的。
解放后经过字形的整理,改变了老宋体,确定了现代汉字的结构体系。
中文信息处理的汉字点阵字模技术以及相应国家标准的制定和实施,通过电脑激光照排技术的推动,把汉字规范化的结构普及到千家万户、世界
各地。
4、字集标准化
标准化是信息革命带给汉字的新特点。
由于计算机中文信息处理技术的应用发展,促进了汉字“形、音、义、用”各方面的标准化。
其中最主要的就是字符集的标准化。
比较重要的是《信息处理交换用汉字编码字符集·基本集》。
与之相关的有《现代汉语常用汉字表》《现代汉语通用汉字表》《印刷通用汉字字形表》等。
汉字的编码规则
汉字的编码规则一、概述汉字的编码规则是涉及计算机处理和传输汉字的重要技术。
为了使计算机能够准确、快速地处理和传输汉字,制定了各种编码规则,包括汉字的输入编码、存储编码、输出编码和通信编码。
二、汉字的输入编码规则汉字的输入编码规则是将汉字输入计算机的一种方式。
常用的汉字输入方式有:拼音输入法、五笔输入法、手写输入法等。
每种输入方式都有其独特的编码规则。
1. 拼音输入法:根据汉字的拼音进行输入,输入的编码长度较短,但同音字较多,需要用户进行选择。
2. 五笔输入法:根据汉字的字形进行输入,输入的编码长度较长,但能够较准确地输入汉字,不需要用户进行选择。
3. 手写输入法:根据用户的手写输入进行识别,能够快速地输入汉字,但需要用户进行手写,并需要一定的手写技巧。
三、汉字的存储编码规则汉字的存储编码规则是将汉字在计算机内存中进行存储和管理的规则。
常用的存储编码方式有:UTF-8编码、UTF-16编码等。
1. UTF-8编码:是一种可变长度的编码方式,每个汉字的编码长度可以是1到4个字节,具有较好的兼容性和可读性,是目前使用最广泛的编码方式。
2. UTF-16编码:是一种定长编码方式,每个汉字的编码长度为2个字节,适用于处理大量的汉字数据。
四、汉字的输出编码规则汉字的输出编码规则是将汉字在计算机屏幕上或打印机上输出的规则。
常用的输出编码方式有:GB2312编码、GBK编码等。
1. GB2312编码:是一种国家标准的汉字编码方式,包含了6763个汉字,适用于一般的文本输出。
2. GBK编码:是一种扩展的汉字编码方式,包含了20902个汉字,适用于处理大量的汉字文本。
五、汉字的通信编码规则汉字的通信编码规则是用于在计算机网络中传输汉字的数据格式。
为了保证传输的准确性和效率,需要使用统一的通信编码规则。
常用的通信编码方式有:MIME编码、HZ编码等。
1. MIME编码:是一种通用的数据编码方式,可以将汉字转换为二进制数据或ASCII码进行传输。
古代汉语通论知识整理
一、汉语字典辞书编排的方法有三种:1、按音序排列:现在通行的是汉语拼音字母次序排列。
在汉语拼音方案公布之前的几十年内,有按照注音字母排列的。
如杨树达《词诠》。
在古代,大多是按平水韵106韵排列。
如阮元主编的《经籍纂诂》。
缺点:查字方便,但不明字音或读音不准时,就难以找到要查找的字。
2、按部首和笔画排列。
把同一部首的字归在一起,部首的先后以笔画的多少为序。
同一部首的,笔画少的在前,笔画多的在后。
缺点:字归属哪一部,多少画,不容易确定。
3、按编码排列。
把汉字按照一定的原则,编出号码,通行的是四角号码检字法。
缺点:字角的归类要靠死记,如不常用,容易忘记。
二、汉语字典辞书注音方法1、直音法:直接用同音字注音,如:“篙”,音“高”2、反切法:用两个汉字拼注一个汉字读音的注音方法。
其方法是:反切上字与被切字声母相同,下字与被切字韵母、声调相同。
如:“呼报反”,即用“呼”的声母h和“报”的韵母ao声调(ˋ)相拼,是“号”或“爱好”的“好”。
3、注音字母和拼音字母注音。
(读若:读音像,如琎,读若津;叶韵:通过临时改读字音,以求韵文和谐的注音方法。
叶同协,意思是和谐。
如《诗经。
周南。
汉广》:江之永矣,不可方思。
朱熹:“方,叶甫妄反。
”)平水韵:唐宋以后人们写诗所用的诗韵。
上平声15韵,下平声15韵,上声29韵,去声30韵,入声17韵,共106韵。
三、《说文解字》的体例、价值和说文四家《说文解字》的体例:简称《说文》,东汉许慎著。
是我国规存最早的字典。
全书分汉字为540部,开创了以部首统率汉字的字典编纂法,收字以小篆为主。
收字9395个,另有重文1163个。
《说文解字》的价值:1、确定了“六书”理论;2、按照“六书”原则,创立了汉字部首,制定了按部首编排字数的体例;3、保留了小篆,便于从字形说明本意,并为释读甲金骨文提供了依据;4、保留了先秦词义和汉代训诂资料;5、保留了古音资料;6、记载了丰富的古代文化资料。
说文四家:清代研究《说文解字》的四大家:段玉裁《说文解字注》,桂馥《说文解字义证》,王筠《说文句读》,朱骏声《说文通训定声》。
中国古代编号方法
中国古代编号方法
《中国古代编号方法》
嘿,中国古代的编号方法可真是个有趣的事儿,这里面的门道可多啦!
就说咱常见的天干地支编号吧。
我有一次看古装剧,里面提到了年份的记录,一下子就把我吸引住了。
天干就是甲、乙、丙、丁、戊、己、庚、辛、壬、癸这十个,地支呢,是子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥这十二个。
它们组合起来可就厉害了,就像一个超级密码锁。
比如说甲子年,这就是一个编号啦,60年一循环,就像一个大轮回。
古人用这个来记年,可清晰着呢。
还有啊,古代的编户制度里的编号也很有趣。
我看过一本书,讲的是古代官府给老百姓编号。
那时候,每个家庭都有自己的户籍,就像我们现在的身份证一样重要。
官府会给每户编上号,像什么某乡某里某甲第几户。
这编号可细致啦,能清楚地知道这家人在哪里,方便管理。
这就像给每个家庭都贴上了一个专属标签,谁也别想混。
军队里也有编号。
我想象着古代士兵们站成一排排,每
个人都有自己的编号。
可能是根据队伍、方阵来编的。
比如说第一营第三队第五个士兵,这一套编号下来,指挥起来可就方便多了。
要是打起仗来,将军一声令下,喊某个编号的士兵,那家伙就得马上行动,就像我们玩游戏喊某个队友一样。
这些编号方法,都是古人智慧的结晶,让古代社会的管理、记录等各方面都井井有条。
它们就像一个个小小的螺丝钉,虽然不起眼,但却把整个古代社会这个大机器牢牢地固定住,正常运转呢!这中国古代编号方法,真值得我们好好研究。
古文字字库建设的几个问题
古文字字库建设的几个问题
张再兴
【期刊名称】《中文信息学报》
【年(卷),期】2003(017)006
【摘要】随着古文字信息化处理研究的发展,古文字的标准字库建设已经显得十分迫切.本文探讨了古文字标准字库建设中需要注意的四个方面的问题:通过建立古文字资料库,穷尽性地收集整理古文字字形保证字形收集的全面性,通过拓片扫描造字保证所造字形的准确性;在字形与字之间建立对应关系时须考虑两者之间的异用、歧释、异体等复杂关系;字形归纳过程中应遵循形体的归并原则和区别原则;字符进入标准字符集时的分级应根据字频原则和形频原则.
【总页数】6页(P60-65)
【作者】张再兴
【作者单位】华东师范大学,中国文字研究与应用中心,上海,200062
【正文语种】中文
【中图分类】TP391
【相关文献】
1.古文字在国际标准字符集中的编码与古文字通用数字化平台建设 [J], 刘志基
2.略论古文字字库的形音义标注 [J], 徐时仪
3.金文字库和输入法研制成功今后在电脑上打印和出版印刷古文字书刊方便多了[J],
4.华东师范大学中国文字研究与应用中心古文字字库建设信息 [J],
5.古文字字库建设与古文字研究手段现代化学术研讨会 [J], 张德劭
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
古文字不能作为某种字体与现代汉字对应
职能与现代汉字不对应 辖——暴爆曝 闲——窒钟—— 蟯——景影
化——(变)化、 (教)化不同形
• 形体与现代汉字不对应 癝 眤 堡 狈 辫 • 字样繁多难以穷尽 “酉”在甲文中的字样约有 24 种 • 未识字只有字形而无音义
古文字字库的两种类型
• 古文字字库可以有两种类型:(1)指称型古 文字字库。这种字库的功用,是在创建某些文 本时,出于讲述或引用的需要,在行文中提到 某个或某几个古文字时,能够把这些个古文字 插到文本里去。(2)全原形古文字字库。这 种字库的最高要求是要在计算机里再现一切现 有的古文字实用文本中的字样。后一种要以前 一种为基础。 • 创建一种指称型历史字体的字库,要求字形准 和全,一般采用从古文字实用文本中选择字形, 即使重新写字模,也要以选择好的字形为依据。 字形选择必须整理文本用字。
古文字编码可使用的区别因素
• 已识字与未识字首先分开。后者无法设置音 码,应考虑基础部件的作用。 • 基础构件中成字构件可以采用读音(一般与 《说文》小篆认同来确定);非字构件只能 利用线条类型。例如:小篆可分:横、竖、 左斜、右斜、弧、曲、折、封八类。 • 小篆结构图式共146种,再次归纳为基本图式 12种,可以套用。 • 重码率:甲骨文经过处理可降低到1.9,但每 码带动字样数平均7.4个,最多39个。
古文字编码的有利条件
• 古文字字库的作用有两个层面:第一,给专 业人员研究和贮存文字使用;第二,供普及 领域指称。后者用量不大,可以单独处理。 主要考虑专业人员使用,编码在易学性上可 以放宽。 • 他不需要通篇连续采用来创建长篇文本,在 快速性上可以放宽;因而在码长(码元可以 多一些)的设计上可以不必过于拘泥。 • 古文字信息量大、形体的参照系多,为其设 计形码的区别因素多于现代汉字。
“酉”的甲骨文异形字样
一般应选择上面列举字形的6或7作主形
“齿”的甲骨文异形字样齒:源自一般应选择上面列举字形的8作主形
“隹”的甲骨文异形字样
隹:
一般应选择上面列举字形的8作主形
字种的划分
以甲骨文为例,在字组中选择的字种数: 一 1 元 3 天 4 史 2 上 2 帝 6 旁 3 下 2 示 3 福 6 祭 3 祀 4
古文字字形整理和编码的单位
• 字系:同时代、同形制全部的字符群 • 字组:同一字系中记词职能相同(音义相同) 的多个字形的群体 • 字种:记词职能相同、结构(构意)相同的多 个字形的群体。同一字组中不同的字种互为异 构字 • 字样:同一字种中仅仅写法不同的个体。同一 字种中不同的字样互为异写字 指称型古文字字库搜集字种,全原形古 文字字库搜集字样。古文字编码应当以字种为
古文字字形部件的拆分与归纳
• 已识字的拆分和归纳均采用依理操作 • 未识字的拆分和归纳均采用依形操作 • 甲骨文已识字基础部件拆分归纳为基础构件 后,能覆盖未识字构件的89·43%
古文字编码的难点
• 甲骨文包括未识字只有三千多个,字量更大的字 系重码率及带字的字数都会增加,需要再做一定 的技术处理。 • 编码是依字系分层面编制的,各层面各体制的 字系最好进行历时认同,不要各行其是,但是, 这一点做起来难题很多,目前只能采用分别编 码。 • 古文字字库的排序一般采用与《说文》小篆一 致,利用《说文》部首,其实削足适屦,需要 考虑新的、科学的、易于操作的排序原则。
古文字字形整理与编码 对信息处理的重要作用
由于造字技术的发展,已经有不少单位创建了某 种字体的古文字原形字库。拥有古文字字库后,遇到 的最大难题是如何将需要的字形及时找到,以便提供 给其他专业领域和普及层面在创建文本时任意调用。 现有的GB13000.1字符集不可能与已经出土 的古文字一一对应,即将出台的超大字符集仍然不够 与各种形制和各时代的古文字对应。古文字的调出只 有依靠自己的编码,要想作好编码,字形的整理必须 先行。新出土的古文字加上原有的古文字,有些已经 编成字表形式或加上解释编成诂林形式,但是,它们 的字形整理还不能符合信息处理的需要。更达不到国 际化的要求。
谢谢!
为编码进行的古文字字形整理
• •
• • 古文字字形整理的主要任务是认同与优选: 分别已识字与未识字 对已识字的职能认同(类聚字组),在同一 字组的字种在排序时应当邻近,并优选领字 字种,置于前列,作为本组字的信息代称 对字种的形体认同(类聚字样),优选主形, 作为本字种的信息代称,同一字样应视为一 个字,坚持同码 指称型古文字字库只保留主形字样,全原形 古文字字库字组中的其他字样与主形认同。
古文字的字形整理 及其编码的原则
王 宁 北京师范大学民俗典籍文字研究中心
古文字进入计算机的必要性
• 80年代以来中国内地大量出土的文字,一部分已经进入今文字 阶段,另一部分属于古文字。这一部分古4文字由于是考古发掘 的成果,历史时代确定,无需辨伪,充实了从宋代就开始搜集 的金石文字,掀起了世界性的中国古文字热。 • 新出土的古文字,不仅使汉字史的研究发生了很大的变化,也 不仅对人类学、历史学、文化学、古地理学、历史语言学…… 起了新的推动作用,而且由于这部分文字所具有的十分典型的 表意文字特点,以及所含有的文化内涵,被不断引进文化教育 领域,迅速走向普及,成为世界各国了解中国文化的一个重要 窗口,因此,已经在印刷品和影视传媒中频频出现。我们统计 了2000年国内的8种重要的报纸和在国际上销量排前10位的普及 刊物,其中的文章已经采用或需要采用古文字原形的地方有561 处,涉及334个字形。 • 古文字进入计算机已经势在必行,科学整理字形,解决编码问 题,是古文字信息处理的前提。