《统一的中日韩汉字编码字符集》(CJK)字根系统研究
《统一的中日韩汉字编码字符集》(CJK)字根系统研究
![《统一的中日韩汉字编码字符集》(CJK)字根系统研究](https://img.taocdn.com/s3/m/2586d8aad1f34693daef3e6d.png)
《统一的中日韩汉字编码字符集》(CJK)字根系统研究《统一的中日韩汉字编码字符集》(CJK)作为新的汉字信息处理国际标准,使汉字信息处理向国际化方向迈出了重要的一步,对汉字字形的定量定性研究也提出了更高的要求。
在此基础上,依靠计算机字形技术的支持,采用字根分解与合成的方法,有可能表示出CJK的全部字符从而实现其无字库化处理。
因此,研究CJK字根系2统,对于CJK的工程应用具有重要作用。
中日韩汉字字形有别而音义互异,但都是可分析的文字,其基本构形单位都是笔画或字根,因此,字根分析法对其同样适用。
本文认为,要得出一个较为科学的CJK字根系统,在理论和实践上必须着重解决两个问题,一个是笔画与字根的分野即单笔字根的问题,另一个就是字根变体的问题。
本文主要分析了CJK的单笔字根和字根变体,并对统计得出的CJK676个字根的有关数据进行了系统的分析,希望能为CJK的相关研究提供参考。
一、CJK的单笔字根(一)为什么要提出"单笔字根"字根是汉字字符的直接构形成分,是可以独立运用的最小构形单位。
一般说来,字根包含两个以上笔画,但当单一笔画与字根直接参与汉字字符构形时,这一笔画由于具备了字根的价值和功能而上升到字根层级,称为"单笔字根"。
提出这一概念主要基于以下考虑:1、汉字字符的构形成分中确实存在许多相对独立的单一笔画,归入邻近的任一字根都不合适,CJK中就有400多个字符包含这种笔画。
如果说汉字字符都是由作为笔画组合体的字根构成的,显然不符合事实;如果说汉字字符是由字根与笔画组成的,固然也未尝不可,但这样就难以清晰地体现字符构形的层级性,故"单笔字根"的提出有其现实的必要性。
2、CJK字符集收入了"一丨丶丿乀乁乙乚乛亅"十个单笔画的字符,如果不引入"单笔字根"的概念,则这十个字符无法进行字根分析。
3、适当拆出字符中的单笔字根,可以大大简化字根系统。
我国公民姓名用字中的生僻字分析
![我国公民姓名用字中的生僻字分析](https://img.taocdn.com/s3/m/e2076e0f50e2524de5187eea.png)
我国公民姓名用字中的生僻字分析在社会信息化进程不断深入的今天,信息处理过程对文字系统的标准化程度要求日益凸现。
为了充分发挥汉字的交际作用,必须实现对其规范化。
建国以来公布的通用字表及后来制订的GB信息交换用汉字编码字符集为汉字的规范化提供了标准和依据,但对于人名用字范围却没有做出相应的规定。
长期的规范缺失致使这一方面的汉字应用逐渐混乱无序,显著特征之一就是取名频繁使用生僻字。
已经制订完成的公安部《姓名登记条例(初稿)》和由国家语委主持制订的《规范汉字表》对人名用字的范围做出了明确划定,施行之后将会逐渐减少取名无序的现象。
从列举实际姓名中生僻字用例开始,对此种现象进行了分析并为户籍管理工作人员提出了建议。
标签:姓名用字;生僻字;规范汉字表;户籍管理1 中国人姓名中冷僻字的使用情况中国是一个人口大国,同时也是一个姓氏大国。
我国历史上记载过的姓氏共有5652个,其中单音姓氏3438个,双音姓氏2030个,目前使用的大约有2800多个。
在这两千多个姓氏中,大姓张、王、李、赵、陈、杨、吴、刘、黄、周姓公民就占全国人口总量的40%。
大姓与惯常普遍的人名用字组合便形成重复率极高的姓名形式,一个名为“中国姓氏权威”的博客于2007年公布的《中国重名最多的50个姓名列表》显示“张伟”、“王伟”、“王芳”、“李伟”、“王秀英”居于列表前五位,是当今中国最大众化、最“流行的”名字。
该博客称其数据来源是公安部全国公民身份证号码查询服务中心。
数据显示全国有“张伟”290607人,“王伟”281568人,二伟数量庞大,甚至超过了冰岛和马尔代夫两国人口数量之和。
随着人口的不断增长,社会内部人员信息流动性增强,姓名相同的人在生活诸方面遇到了意想不到的身份证明问题――升学就业,户籍管理,储蓄信贷,社会保障……跟随自己多年的名字居然会带来如此多的烦恼与不便,这在以前是未曾预料的。
“赐子千金不如授子一艺,授子一艺不如赐子好名”,在中国传统文化中,姓名早已超越了本身的符号性,传承着人的情、意、志,蕴含了人的精、气、神。
《多媒体技术》复习试题与答案
![《多媒体技术》复习试题与答案](https://img.taocdn.com/s3/m/02017d87ab00b52acfc789eb172ded630a1c985e.png)
多媒体技术复习思考题及参考答案第1章引论1.ITU定义了哪五类媒体?通常所说的媒体是指此中的什么媒体?答:感觉(Perception)、暗示(Representation)、展现(Presentation)、存储(Storage) 和传输(Transmission)媒体;感觉。
2.目前多媒体所能处置的有哪些具体媒体对象?它们被分为哪两类?答:文本、图形、图像、声音、动画、视频等;静态媒体〔文本、图形、图像〕、流式媒体〔声音、动画、视频〕。
3.多媒体技术的特点有哪些?为什么传统电视不是多媒体?举出几种常见的多媒体设备。
答:多样性、集成性、交互性、[实时性];不交互;DVD、计算机、、数字电视。
4.多媒体的核心技术是什么?答:数据压缩第2章文字1.计算机对文字的处置,包罗哪三个局部?答:文字输入、字符编码、文字输出。
2.文字录入计算机的方法主要有哪几类?答:键盘输入、手写输入、语音输入、扫描输入。
3.汉字有哪三个要素,各对应于什么键盘输入法?答:形、音、义,对应形码〔如五笔字形〕、音码〔如全拼〕、基于词汇与整句的智能化输入法〔如微软拼音〕。
4.语音识别系统可以如何分类?语音识此外目标是开发什么样的语音识别系统?答:小/中/大词汇量、孤立词/连接词/持续语音、特定人(1人)/限定人(n人)/非特定人(任意人);大词汇量、非特定人的持续语音识别系统。
5.ASCII的英文原文和中文译文是什么?ASCII是由什么组织在什么时候制定的?答:American Standard Code for Information Interchange,美国信息交换尺度码;ANSI于1963年制定。
6.ASCII所对应的ISO尺度号是多少?该ISO尺度是什么时候制定的?答:646;1972年。
7.给出尺度化组织ANSI、ISO和IEC的含义。
答:ANSI = American National Standards Institute,美国国家尺度协会;ISO = International Organization for Standardization,国际尺度化组织——是由各国的尺度协会联合组成的一个非当局国际组织;IEC = International Electrotechnical Commission,国际电工技术委员会——国际尺度化权威组织,属于联合国的甲级咨询机构,负责制定关于电工电子各方面的尺度。
同本共源海峡两岸语文词典编纂概览——以“不”字头词条为例
![同本共源海峡两岸语文词典编纂概览——以“不”字头词条为例](https://img.taocdn.com/s3/m/0443ab4b1fd9ad51f01dc281e53a580216fc50f3.png)
2021年1月鲁东大学学报(哲学社会科学版)Jan.2021第38卷第1期LudongUniversityJournal(PhilosophyandSocialSciencesEdition)Vol.38,No.1 收稿日期:2020-08-18 基金项目:国家语委语言文字科研优秀成果后期资助计划项目“从语文辞书比照与词汇实地调查看两岸词汇整合”(HQ135-29)、江苏省博士后科研资助计划项目“中古汉语词缀多维研究”(2020Z365) 作者简介:赵越(1979—),男,吉林松原人,文学博士,南京师范大学国际文化教育学院副教授、硕士生导师;南京师范大学中国语言文学博士后流动站研究人员。
同本共源:海峡两岸语文词典编纂概览———以“不”字头词条为例赵 越1,2(1.南京师范大学 国际文化教育学院,南京210097;2.南京师范大学 文学院,南京210097) 摘 要:两岸汉语同本共源。
在语文词典编纂方面,总体来说,从释文的简明原则、通俗原则看,大陆出版的《现代汉语词典》诸版及《现代汉语规范词典》表现略优于《国语辞典》等台湾地区出版的语文词典;从释文的概括原则、准确原则看,两岸语文词典则各擅胜场;推普并服务于民众,发挥对日常言语的引领和示范作用,是两岸规范性语文词典编纂出版的不变目标。
关键词:同本共源;海峡两岸;词典编纂;“不” 中图分类号:H061 文献标志码:A 文章编号:1673-8039(2021)01-0001-07 一、1949年后的台湾地区语文词典 本文以《重编国语辞典》等台湾地区词典为考察起点,比较两岸汉语分袂后各自所编纂的语文词典之异同。
《重编国语辞典》纸质版于1981年11月由台湾商务印书馆发行初版,1982年1月由台湾商务印书馆发行第四版。
其以1947年中国大辞典编纂处重版的《国语辞典》(1937年3月初版)为底本。
1962年台湾地区对《国语辞典》(汪怡主编/赵元任校订,全四册)进行首次修订,并于1971年进行二次修订,《国语辞典》第三版由台湾商务印书馆出版发行。
GBK字库介绍
![GBK字库介绍](https://img.taocdn.com/s3/m/3495684633687e21af45a9d9.png)
GBK字库介绍【基本概念】GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会1995 年12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995 年12 月15 日联合以技监标函[1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。
这一版的GBK 规范为 1.0 版。
GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。
GBK 向下与GB 2312 编码兼容,向上支持ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。
ISO 10646 是国际标准化组织ISO 公布的一个编码标准,即Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode 组织的Unicode 编码完全兼容。
ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。
我国1993 年以GB 13000.1 国家标准的形式予以认可(即GB 13000.1 等同于ISO 10646.1)。
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。
GBK编码方案于1995年10月制定,1995年12月正式发布,目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP等都支持GBK编码方案。
CJK统一汉字表(笔画数排序)
![CJK统一汉字表(笔画数排序)](https://img.taocdn.com/s3/m/61e4b1f44bfe04a1b0717fd5360cba1aa8118c90.png)
CJK统一汉字表(20902字,笔画序)排序要求:字体以《G B 14245.1-2008信息技术汉字编码字符集(基本集) 64点阵字型第1部分:宋体》(接近于“宋体-方正超大字符集”)为准,“羐”、“蘷”等字字形上部为“艹”而非“卝”排序规则:《GB13000.1字符集汉字字序(笔画序)规范》,部分排序错误的字进行了修改1.按字的笔画数排序,少的在前多的在后;2.同笔画数的,按主笔形“横竖撇点折(一丨丿丶乛)”排序,前一笔相同则比后一笔;3.主笔形相同的,按“横→提,竖→竖钩,点→捺”排序,折笔按折点数排序,同折点数按折笔每段的笔形(横竖撇点)排序;4.笔形相同的,按笔画组合方式“相离→相接→相交”排序;相离的按离开位置“左边→右边→上边→下边”排序,相接的按“笔画端相接→笔画身相接”排序,笔形有长短差别时先短后长;5.组合方式相同的,则按字的结构“上下→左右→包围”结构来排序。
【一画】(一)一(丨)丨亅(丿)丿(丶)丶乁乀(乛)乛乚乙【二画】(一)二丅十丁厂丆匚匸七丂(丨)丄刂卜冂(丿)亻八人入乂勹儿匕几九(丶)亠冫丷冖讠(乛)刁了凵丩卩阝刀力乃又厶乄廴巜乜【三画】(一)三干亍于亏亐工土士扌艹卄才下寸丌廾大丈兀尢与万弋夨(丨)上小凣口囗山巾(丿)千乇乞川亿彳彡凢亼个乊亽亾兦亇犭夕久夂夊么勺凡丸及饣(丶)丬广亡门丫义氵忄宀辶之(乛)彐卂尸己已巳弓孒子孑卫屮孓卪也女乆刃刄飞劜习叉马彑纟乡幺巛【四画】(一)亖丰王亓开井天夫元无韦云弌专耂圡丐圠扎廿艺木朩乤五帀巿邒支丏厅卅不冇仄犬太区历歹友厷尤厄匹辷车戸巨牙屯戈旡兂比互切瓦(丨)卝止攴少尐曰日冃冄中円乢贝罓冈内內水见禸(丿)午牛手气毛壬牜升夭攵长仁什仃片仆仈化仉仇屲币仂仍仅仏斤爪丯戶反仐兮刈介父从仌爻尣乥仑爫仒今凶分乏公仓月勻卆厃氏勿欠勽匁风匂勼丹匀乌卬殳勾凤厹(丶)卞亣六文亢方闩火兯为斗忆灬计订户礻讣认冘冗讥心(乛)肀丮尹卐尺夬弖引弔丑卍爿巴孔队阞収丒刅办夃以允予邓劝双厸毌书毋幻乣【五画】(一)弍玊玉匞玌刊未末示击邗邘丼戋圢打巧正圤扑卉圦扒扖圥扏凷壭卭邛功扐扔去払甘艼世丗卌艾芁艽古节芀艻艿本术札朰朮刌辻可叵匝丙厈圧左厉丕石右布厇夳夲夰冭夯厺戊龙犮匛平灭巪乬轧东匜劢戉(丨)卡仧北占凸歺卢业旧帅归氺旦目且叶曱甲申叮电号田由卟只叭叺史央叱兄叽叼叫叩叨叧叻另叹甴亗冉帄屵罒皿冊凹冋邖屶屴屷囚四囙囘冎囜(丿)钅玍生矢失氕乍禾尓刋叐刉仨仠丘仜仕付仗代仩仦仙仟仛仡仫仢伋们仪白仔他仞仭斥卮瓜仝仺尒仚屳乎丛込令用甩肊印氐尔乐句叴凧匆犰匃册卯匇犯匄外处処冬鸟夘邜务夗刍饤包饥(丶)主冮市庁庂庀疒邝広立冯邙玄闪氷兰半汁汀汇汅乧头汃汄氿汈氻汉氾忊忉忇宁穴它宂宄讦讧讨戹写让衤礼冚讪讬讫训议必讯记永讱(乛)司叏尼凥尻民弗邔弘疋阢叾出阡阣辽阠阤氶氹奵邚奶奴丱尕召加皮辺边辸孕发圣对弁厼台癶矛纠驭母幼丝廵【六画】(一)弎弐匡耒邦玎兲玐玑玏丟式迀迂幵刑邢邞刓戎邧忈动迃圩扞扜圬扝圭扛扗寺圷扙扤圵卋吉扣圸圲扦考圫圪托扥扢圳老圴巩圾扚执扱圹扩扪赱扫扟圮圯地扡场扬扨扠耳芉芋芌芏芐共芖芅芇芊芕芍芃芄芨芒亚芝芑芎芓芆芗朾朽朴朳朲杁朼机朹朻朷朸权过亘臣吏再襾覀朿両协西亙攰压厌厍厊戌在百有乭存而页匠夸圶夺夶夵夻夼灰达戍匢尥列死成匟夹夷轨邪邨攷尧划迈毕至瓧邷(丨)尗丠此乩贞虍师尘尖劣光当旪早吁叿吐吓吋旯曳旫虫曲团団吅吕同吊吀吒吃因吸吖吇吔吗吆屽屸屼屿屾岀屹岁岋岌帆辿回屺岂屻岃则刚网肉氼凼囝囡(丿)钆钇年朱缶劧刏氘気氖先牝牞丢廷舌竹迁圱乔迄毎仹仼伕伟伝传乒乓休伍伂伎伓伏伛伖优伌臼伡佢伢伅伐仳仾延佤仯仲伣仵件任仸伤伥伒乑仮价伦仱份伀伧仴华伜伆伨仰伇伩伉仿伙伪伫伔伈自伊癿甶伬伄血向囟似伃后邤劤行彴彶彵甪舟全会杀合兆企氽汆乯众爷伞兇邠兊创刖肌肍肋凨朵凩杂夙危氒凪旬旨旮旭负犴犲犵刎犳犱犷匈乮犸刐舛夅名各灳多奿凫争邬色饦饧(丶)冴冱壮冲妆冰庄庆亦庅刘齐交衣次邟劥产决吂巟亥邡充妄闫闬闭问闯羊并关米屰灯灲灮邩灱州弚汗汙污汚江汢汏汕汘汑汔汌汐汣汷汋汍汎汲汒汛汜汓池汝汤汊忓忖忕忏忔忛忣忙忋忚兴宇守宅穵宆字安讲讳讴军讵讶祁礽肎讷许讹论讻讼农讽邥设访诀(乛)聿寻帇那夛艮厾迅刔尽迉弙导异弜弛妀阱阮孙阫阨阵孖阰阯阳阥阩收阪阶阴艸阬防阦阧乪丞阭迆奸妅朶如奾奷奼奺妁妇妃好她奻妈乫刕劦戏羽乨贠观牟欢买叒厽纡红纣驮纤纥驯约纨级纩纪驰纫糸糹巡【七画】(一)匤寿玕玗玒弄玙玔麦玖玓迋玘玚玛攼坓形进戒吞迗坖远违韧刬运抂扶坃抏抚镸坛抎抟技坏抔抠坜抜扰扼拒坉扽找批坘瓨址扯走抄抇贡汞坝抐抙抍攻坆扷扸赤圻折抓坂扳圿扴抡扵坅扲坋扮抸抢抈坁扺孝圽坎扻坍均抣坞抑抛坄投抅抃坟抆坑抗坊灻抖护売壱壳坈抌志抋块択抉扭声把报刦拟抁却抒刧劫毐抝耴茾芙芫芜苇邯芸芾芰芣苈苃苊苉苣芽芚芘苆芷芮苋芞芼芺苌芢花芿芹苅芥苁芲芩芬苍芪芴芡芟芶苄芠苀芳严苂苎芦芯劳芛芵克芭芤苏苡芧杆杅杇杠杜杢材村杕杖杌杤杙杏杣杄杔杚杊杉巫杦杓杋极杧杞杛杍李杝杨杒杈杩求忑孛車甫匣更亜束吾叓豆戓迊两邴酉丽医辰厐励兏丣奀邳否还矴矵厑矶劯厏厎夽奁奆夾迖迏夿尫尪豕尨尬歼来亊忒连欤轩轪轫迓迍坒匥瓩巠坙(丨)邶忐芈步卤卣邺児坚盀肖旰旱旴盯呈圼刞时咞貝吴呋旲呒見助呍县囯里呓呆旵吱囲吥吠呔呕园呖吰旳昅呃旷围呀吨妟旸曵吡囩咓町甼甹足虬邮男廸困吵迚肙串呗员呐呙吶吘吽呏呚吪囨呂听吤吟吩呛別吻吹呁呜吺呅吭吙呌吣吚呎吷呉吳吲吜吧邑吼囤别吮岍岏帏岐岖岠岈囬刪岗汖岘岆帐岓岅岕岒岑岎帉岄岉岚岇帎兕岜帊囦囮坔财囧冏呇囵囫觃囥図(丿)针钉钊钋钌吿迕劮毜氙氚毝牡告牤牠牣我乱利秂禿秃秀私忎呑岙每佅佞佂兵邱佉佄伳估体何佐伾佦佑佈伻佧佔攸但伹伸佃伷伿佒佀伵佚作伯伱佡伶佣低你佝佟佨住位伭伴佇佗佖皁身皂臫皀皃劰廹伺伲兎佛伮佋伽佊囪囱佁乕近巵彺彻彸役坕彷辵返佘余希佥兌釆坐谷尦寽孚妥豸含刢邻坌弅岔肝肟肛肚肘肐肜肑肒肞迌肔肗肠肕凬匉帋邸龟甸奂免邭劬狂狇犻犾犹犽狆狈狅犿犺狄飏角删狃犼狁鸠夆条彤卵灸斘岛邹刨饨迎饩饪饫饬饭饮系(丶)訁言冹冻状亩况亨庑庒床庋库庌庉庇亪庍庎庈疔対疕疗疖疓吝彣应这冷庐斈応乲序迒辛竍冸竌杗冺肓弃冶忘闰闱闲闳间闵闶闷羌判兑灴灶灷灿灹灼灺炀弟沣汪汧汫沅沄沐沞沛汥沔汱汰沤沥汯沋洰沌沘沍沏沚沙汩汨沖汭汻汼汽沃沜沎沂沠汳沦汵汹汾泛沧汦泲沕沨汮没沒沟汴汶沆汸沩沪沈沉沁沢決沑泐泤沇汿忹忨怃忶忮怀忲怄忧怇忳忡忤忾怅忻忦忴忷忪怆忰忯忺忭忟忼忱快忸忬労宑完宋宊宏宐牢宒宎究穷宍灾良证诂诃戻启帍戺评补初社礿祀祂祃冝诅识诇诈诉罕诊诋诌邲吢词诎诏诐译诒(乛)君灵即层杘屁屃尿尾迟局戼弡刡改攺张刜弞忌弝际陆阷阹阿陃壯孜妝陇孞陈岊阽妛阻阼陁附坠阾阺陀阸陂陉妦妍妌妋妧妩妘姉妓妚妪姖妣呄妙妕妠妊妖妡妎妗妢姂妐姊妏妔妨妫妒妉妜妞妑姒妤努刟卲邵劭盁忍刭劲甬刣邰矣夋鸡纬纭驱纮纯纰纱驲纲纳纴驳纵纶纷纸纹纺纻驴纼纽纾糺災【八画】(一)邼劻耓奉玤玨玞玩玮环玡玭珁武青靑责现玝玫玠玪玢玜玱玥表玬玣玟玦玧甙盂郉汬烎刱忝昋规匦拝抺抹長刲卦邽劸抾坩拑抴邿坷抲抦坯抷坧拓抪垅拢坺拔拋坪抨拣拤坫拈垆尭坦坥担抯坤押抻抽坱抧抰拀郆劼拐抩垇坰垁抶拃拖坵拞坿拊者拍顶坼拆乴坬坴垀抮夌坽拎拥坻抵坸拘拠势垉抱拄拡垃拉拦幸坢拌坾拧坹坨拕抭坭抳垊抿坲拂拙招拁坡披拨择弆拚坮抬迲刼亞坶拇坳拗耵刵其耶取苿茉苷苦苯昔苛苪苤若茂茏茇苹炗迣苝苫苜苴苗苖英苢苒苘苬苼苵苲茊茌苻苮苩苽苶苸苓苚茚茋苟茐茆苳茑茒苑苞苙范苧茓茔苾茕直苨苠苐茀苰茁苕茄茎苔茅苺苭枉枅枎杬枟林杮枝杯枤枢枥枙柜枒杶枇枑杫杪枏杳枘枧杵杽枆枡枖枚枨杹析枛板枍來枞枔枌柉松枩枪枂枠柹杴枫枬枃枊杸构杭枋枓杰述枦枕杺杻杷杼丧刯軋東乶或画叀卧臥臤忢事尀刺兩枣雨廼協卖厓厔矸矼矹郁矺矻矽矾砐矿矷砀码靣厕厒奈刳郀奔奇匼奄奋奃奅态瓯欧殴豖垄劽殀歽歾殁歿郕刾郏疌妻轰顷转轭斩轮软旾戔枈兓毞炁到郅鸢瓲瓱瓪瓰(丨)非叔歧歫歨歩肯齿些羋卓奌迠卥肻虎虏肾贤尙毟尚坣盰盱旺具昊昙味杲果呩昁盵昃盳昛旽昆咑国呿咁呭哎咕呠畃迧昍昌冐門呵咂畅旿咗昇呸咘昕昄昑昐昖明昒易欥咙昀昂昗旼旻昉昘呯炚炅昈咔畀畁囸呫甽畂虰甿虲虮虯虭迪典固忠呾咀呷呻黾呺丳呮咉呪咒郘呥呬呹咋咊咐咃呱呼呤呧呴咚鸣咆呟咛咜呝咇咏呞呢呡咈咄呶咖咍呣呦咝帓岵岢岸岯岩帗岼岽岾帖罖罗岿岨岬岫峀岟帜岲帙岞岝岴岶帕岭岺岻岣峁刿峂岦岤岮廻迥岷剀岪凯岹岧岥帔峄峅岰囷囶沓沝败账贩贬购贮囹沀图岡罔囻咼囼(丿)钍钎钏钐钓钒钑钔钕钖钗邾制缷幷知迭氜氝氛忥迮牫垂牪牦牧牬物牨牥乖刮舏秆和秈秊秅秇秄季委竺竻秉迤侙侀佳侍佶岳侤佬佴供姇使侢価佰侑侟侕侉例侠臾兒侇侥版侄垈岱帒郔佌侦侊侣侗侃佪侧侏侁凭侹佸侨侐侜佺侩佮佻佾佩佹侚货佭佲佫俢侈隹侂侪佼依佽侅侫佯併侎侘侒侬侓郋帛卑的迫佷侭阜卹侞侔质斦欣郈劶征徂徃彾彽往爬彿彼径所郍舠瓝佱舍金釒刽郐舎刹侖郃命肴郄肏斧怂爸尩采籴觅受爭乳飠侌贪欦念瓫贫攽炃忿枀瓮忩戗肨肼肤朊肺肢肧肰肽肱肬肫肶肿肭胀肵肸肹肣朌朋胏肳肷股肮肪肥服胁周剁凮昏迩郇鱼兔狋匋狜狉狘臽狚狙狎狌狏狛曶狐狑忽狝狗狍匌狞狖狔狒狓狕肦咎迯备夝匊卶炙枭妴饯饰饱饲饳饴(丶)迬冽变京享冼庞店夜庘庙府底庝庖疞疘疜疛疟疠冾疝疙疚疡斉剂卒郊効忞兖庚废净乵竎咅竏妾冿盲瓬放斻刻斺於郂劾育氓闸闹劷郱奍郑券劵卷並籵籶单炐炜炑炋炬炖炒炇炛炘炍炌炂炝炊炈炞炆炕炏炎炓炉炔炄沬沫沶浅泟泋法泔泄沽泍沭河沰泷沷泙泧沾泸乷泹泪沮沺油泱況泂泅泗泩泆泎沲泭泊泝泒泘沴泠泜沵泺沿泃泖泈泡注泣泫泮泞泬沱泻泌泳泀泥泦泯沸泓泏沼泇波泼泽泾治泑怽怔怯怈怙怵怲怌怖怦怴怗怛怚怞怾怏怳怬性怢怍怕怜怟怐怉怰怑怭怺怩怋怫怓怊怶怿怪怡怮畄鼡峃学実宝宗定宕宠宜审宙官穻空帘穸穹迱宛宔实宓宖诓诔试剆郎勆诖诗诘戾肩房诙戽诚郓衦衧衬衫衱衪衩祆祎祉祌视祍祅祈祄祇祋祊诛诜话诞诟诠罙诡瓭询诣沊诤该详冞诧诨诩(乛)建肃录隶帚孠屆屉居屇届刷鸤迡屄屈矤弣弧弤弥弦弢弨弪承孟陋牀狀戕陌陏陑斨孤陓孢陕孡旹亟陎陒降陊函陔限卺乸妹妺姃姏姑妸妬妭刴妲姐妽妯姎姌姍姓妷妰姀姈妳姁姗妵妶姅妼妮姄妱始帑弩孥驽姆虱迢迦巶妿驾皯迳叁参迨劺癷艰亝叕线绀绁绂练彔驵组绅细驶织驷驸驹终驺绉驻绊驼绋绌绍驿绎经骀绐贯毑糽糾糿糼孧甾【九画】(一)砉耔契贰奏春帮珏珐玵玴珂珑玶玷珇玾珅珃珄玳珀顸珍玲珎玽珊珋玸玹珌珉玿珈玻珆毒型沗匧兘韨垹挷拭壵垚挂封持奊拮拷挕垬拱垭挜挝垣挋拺拪拵项垮挎拻垯挞挒城挟挗捓挠垤挃垰挊政赴赵赳赲桒贲挘垙挄垱挡拽垌捛挏壴迼哉垲挺括挢垘埏挻拰郝垍乽垖垧垢垳挀耇耉拴垥拾垗挑巬垛挆垝指垫垎挌垑拸埩挣挤挍垴挔垓垟垪拼垨垞挓挖垵按挥垏挦挪垠拫拯逇巭垜挅拹挧叝拶某甚荆荊茙茥荖羐茿茸荁革茞茦茜茬荐荋荂荙巷荗茢荿荚枼荑贳荛荜荎茮茈茪带草茰茧莒茼茵茴荝茱莛荞茠茯茷莚茽荏茩荇荃荟茶荅荕荀荈茗茖茤荘荠茭茨荒荄茺垩荓茳茫荡荢茡荌荣荤荥荦荧茟荨乹茛瓳故荩胡兙剋勀勊怘荪荍荫茹茘荔南荬荭荮药茲枺标柰栈柾枿桏柑枻枯栉枾柯柄柸柘柨栊柭柩枰栋枮栌柦相柤查査柙柛枵柚枳柍柷枴柺柟柵柶栍柣柞柇柂柎柏柝栃栀柧柗柃柢栎枸栅柳柊栁桞枹柱柿柆栏柈柠柼柁怸柲栐柌柅柫柮柖枷柀柽树枱柕栂柪怷郣勃軌郙郠匽専剌栆勅畐郚剅郖垔要酊迺郦柬厙咸厖威歪盃甭研頁砆砖厘砈迶砗厚砑砘砒砌砙砋砂砅泵砚厛斫砎砛砏砭砕砍砜砃砓砇砊砄面耐耎耏耍奎耷厗郟奓奒盇羍昚牵鸥虺卼尯残迾姴殂殃殅殇殄殆尮轱轲轳轴轵轶匨轷轸轹轺轻匩鸦虿皆毖剄勁(丨)韭背茍呰姕貞战敁觇点虐临览竖尜尛省削尝盽盶眃哐昧昩眄狊眍盹昰是昻郢昮眇昞昺眊盺眅盻則昦郥盼眨眀眂昜昽盷盿眆眈県哇咭咾哋咠咡哄哑显冒咺閂閁映禺昷哂甠星昳昨咟哊咵昣咴哒昤昫曷昴咧昸昿昱昡昹昵昲咦昢哓昭哔咥昪畊畉畎畏毗毘趴呲胃冑胄贵畋畈畍界畇虷虶虹虾虴虼虳虻蚁虸虵思蚂盅咣咢剈虽品哃咽迵骂哕剐郧勋哖咮咶咻唌哗咱囿咿响哘哌哙哈咷哚咰哅哛咯哆哜咬咳咩咲咪咤咹哝哪哏哞哟峙峔峘峟帞峏耑峚炭峢峛峸峡峓峫峣峌峠廽罘帧罚峒峝峤峑峆峇帢峜峗峞峋峈峉峥峕峧峐帡峖峍迴峎贱沯贴畓贶泴圀贻骨幽(丿)钘钙钚钛钜钝钞钟钡钢钠钣钤钥钦钧钨钩钪钫钬钭钮钯卸乗缸拜看矩矨怣矧氞毡氠氡氟氢牯牱怎牰郜勂牭牲牴选牳适臿秐秓秬秕秒香种秏秗秎秖秭秔秋科重复竿竽笁竼笂笈笀竾笃勄俦段侾俧俨俅怤侼俥俌便俉侸俩俪侲俖俠俫舁帠叟垡柋贷牉牮牊俓顺修俏侱俣俔俚保俜促侽侶俁俋侺俈俄俐俬侮俆俙俭侳俗俘俀俛俇係信侻俤俒俕俍皇鳬皍泉敀侰皈卽鬼侵皅禹侯侷峊帥追衂逈怹俑俟俊盾垕逅衎徍待徔徆徊徇徉爮衍律很後须乺舡舢舤舣叙釓釔剎俞弇兪郗剑侴逃剉俎爼卻郤爰爯郛食瓴兺盆鸧胠朑胢胚胧胈胓胨胩胋胪胆胛胂胑胦胜胅胙胣胕胉胍胗朎胝朐胞胘胖脉胒胇朏胫胎胟鸨匍矦負迿敂斪欨勉奐狨狤狫狟狭狮独風狪狦狧狿甮狯狣怱狥狢狰狡飐飑狩狱觓觔狠狲訇訄胊胐逄昝迻粂夈贸怨急饵饶炰蚀饷饸饹饺饻胤饼(丶)計訂訃訅訆殶凁峦変弯孪娈将奖亰畒畆亯哀亭亮庤度庢庛亱弈奕帟迹庭庥庣凃疬疣疨疪彥疥疭疺疮疩疧庡疯疫疢疦疤兗庠庰凂垐咨姿亲攱竑竗音竒竓竔彦竕飒竐帝衁斾斿施乻旀玅闺闻闼闽闾闿阀阁阂差羏养羗美羑姜迸剏叛帣送巻弮籿类粀籼粁籷籺迷籸籽籹娄籾前酋首逆兹总炡炢炣炳炻炦炼炶炟炠畑炽炴炾炯炸秌炧炿烀炩烁炵炮炷炫烂炨炥炪炤烃炲剃為洭洡洼洔洁洘洱洪洹洅洓洒洦洧洊洏洿洃洌浃柒洟浇洷泚浈浉洸洩浊浀洞洇洄测洙洗涏活洑浌涎洎洢洫洉洐派洀洤浍洽洮洕染洬洈洵洶洚洺洛浄乼洂浏济洨浐洋洴浂洣洲洝浑浒浓津浔泿浕洆洳洠恇恜恸恃恄恅恾恒恓恆恹恠恗恢恞恎恍恫恛恺恻恬恘恤恦恮恰恡恌恱恑恂恉恟恪恀恔恼恲恽恨恊恈举単栄泶觉宣宦宥宬室宫宪穽穼突穿窀宨窃窂穾窆客宩叜诪诫冠郞诬軍语扂扁扃衭袆衼衵衻衶衲衽袄衸衿衯衳衹袇袀衴袂祙祛祜祏祐祓祖神祝祑祚祔诮祗祢祕祠祒误诰诱诲冟诳鸩说昶诵诶(乛)郡垦退既叚屍屋屌昼咫屏屎弭弫昬敃盄费巺陦陡逊陣陠韋陙牁眉胥陜陝孩孨巼陛陘陟陗陧陨凾芔欪陞除险陥埅院巹陖姸娀娃姞姥娂娅姮姫姷姱娍姨娆姪姯姛帤姻姩姝姺娗姡娇娫姙姠娰姤姾姶姚姵姽姰姳姼婙姣姟姘姹姲娜姧姦姢拏怒架贺毠欩飛姭盈怼羾羿貟覌枲勇勈瓵炱怠癸発癹蚤柔敄矜垒绑绒结绔骁绕绖骃骄骅绗绘给绚彖绛骆络绝绞骇统骈骉蚃紆紅紂紇紃約紈級紀紉紁【十画】(一)耕耘耟耖耗耙艳栔洯挈恝泰秦珡珪珯珥珙珬珛珔顼珹琊玼珖珰郬珚珠珤珗珽珦珩珘珨珧珮珟珣珞琤珓珫珜班珱珲珒珢敖珕珝素冓匿祘唜栞蚕顽盏匪挵髟镹捇恚埖捞栽捄挬捙埔捕埂挭捒捂馬振埉挾载挳埗捗赶赸起枽盐捎垾捍埕挰捏埘貢垻垷挸捑埋捚捜捉捆埍捐埙埚损欯袁挹捌埁埛捁挿耊挴捠都埑哲逝娎耆耄捈勎捡挩挫埒埓捋垺捊挼换挽埆捔埄捀贽挚热恐捣垿垶捝烖挮挱垸捖埌壶捃埐揤捤挶埇捅唟盍埃挨埈捘紥耺耾聀耻耼毦剘耹聁耿耽恥郰聂華荴莏莰荺茝荰莕莁莍荸莗剒莆莄荳莤莀鄀恭拲莢莽莱莲莖荹帯莦莳茣莫莧莇荲莡莮莴荶莂莔莪莉莠莓荷莜莋莅莵菦荼莃莶莝莩荽莟莬获莸荻莥莑莘莣晋恶莌莯菃莎莈莐莞莹莨莺真倝莙莭畞巸荱尅兛鸪莊莻荵荾莼框梆桟栻柡桂桔栲栳栮栱桠郴桓栕栜栖栢栯栫栭桍栵桋桡桎桛桢桄档栧梠桐栶桤株梃栝桥栴栿桕栰梴栣桦桘桖桁栓桧桃郲勑桅栒栺桝栙格栘棦栬栤桩校栨核样栟栚栦桜桉桪梛根桗栛栩桙桚逑索軒軑軏軎軕軓連軐軔尃逋彧曺哥恵速逜鬲豇逗剚栗贾覂敇酐酑酎酌逎配酏彨逦翅辱唇厝烕厞孬砡砞夏砝砹砵砢砸砺砳砰砧砠砷砟砤砶砼砱砽砥砾砲砫砿砬砯砣砨砩础破硁唘砪恧厜原套剞剦眘豗匫逐剢砻烮烈殊殈殉盋肂翃顾郪轼轾轿辀辁辂较鸫顿趸剗毙粊致貣晉袃瓸逕(丨)剕鬥敊歭歬龀柴赀桌逌卨鸬虔虑监丵紧覍帰逍党眛眜眎眐眪眬眓晆時哢唛逞畢晎晅眒眏眖晒眣晇財眕貤眡眗覎晠晟眩眫眝眿眤眠晓眧晊眙眑唗唝哧哳哮唞唠鸭晄晃哱唓冔閅哺哽閃閄唖唔晍哣唡唒晔晌晑晀晁唊剔哤曻晈晐晏晖晕鸮哶趶趷趵趿畕畘畖畛畟蚌蚟蚈蚨蚖蚞蚑蚘蚅蚷蚜蚍蚎蚦蚛蚋蚬畔蚝蚚蚧蚥蚙蚡蚣蚏蚔蚒蚐蚊蚢蚄蚪蚇蚗蚓蚆哨唢哻唄員哯哩圃哭戙哫圄唈哵哠哦唎唀哬唕唣唋唏欭恩盎唑唂鸯哷哹哸唅唤圂唙唃唁哼唥唴哾唦唍哰哴唚唧啊唨唉唆帱崋崁崂峬峺峿豈帪峽崃逥罡罢罟眔罝罛罜罠罞峭帩峴埊峼峨峩峲峳崄峪崅峰峯訔峷帨峵崀峮圆觊峻贼贿赂赃赅赆圁剛剮(丿)钰钱钲钳钴钵钶钷钸钹钺钻钽钼钾钿铀铁铂铃铄铅铆铇铈铉铊铋铌铍铎眚甡缻缼缹缺毧氩氥毢氤毨毥氦氧氣毩氨毪特牺郵造牷牸埀乘敌舐秣秙秫秠秡秤秥租秞积秧盉秩秨秝秢秪称剓秚秘秜秛透秮谸笄笎笌笓笍笕笔笑笊笅笒笫笏笉笇笐笋笆笖俸倵倩债俵倀偖倰倖屔俹倛倻借偌偀值値倈倯烋恷倲倳倆倷倴倚俺倢郳倾俴倒俳俶倬俿條倏脩倐倘倶俱倮倱倡們倎個候倂倁栠倕赁恁俰倭倪倠俾俽倽倫倹倄倸倊倗俷倜倃俻隼隽隻倞俯倅俲倍倿倣俼倦倓倧倌倥倇皌臬健臭射皋躬息島畠郫皊烏倨倔師衃欰衄恖逓颀衏徒徕衐虒徑徏徎徐垼従殷舦舭舯舰舨舧舩舱般航舫舮舥瓞瓟峹途針釘釗釙釟釞釠釚釕釖釛釢殺敆拿剣欱郩釡釜夎耸逧爹舀爱豻豺豹奚鬯倉飣飤飢衾鸰颁蚠颂毤翁胿胹胯脄胰胵胱胴胭朒脌脡脠胻脈脍脎朓脆脂胸胮胳脃脏脐胶脑胲羘胼朕脒胺脓脇郮匎鸱虓玺眞鱽鸲烉逛狾狹狵狴猂狽狸狷猁狳狶猃狺猐逖猀狼胷觙卿峱狻逢脁桀夞洜敋鸵留袅眢盌鸳皱饽饾芻饿馀馁馂(丶)凊訐訏訌討訕託訖訓訋訙訉訯這訊記訑訒訍凌凇凍凄衺栾挛恋桨浆衰恴畝凅剠勍衷畗高亳郭庪庨席庫庯庮庬准庩座症疳疶凎疴病痁斊疸疽疻疾痄斋疹痈疷痀疼疱疰痃痆疿痂疲痉蚉剤脊效凈离衮紊唐凋颃栥瓷资恣凉站竜剖竞部勏竛竘竝竚旁旆旊旄旂旅旃欬畜玆阃阄訚阅阆羒羖羞羓羙羔恙瓶剙桊牶拳勌粏粔粃粆粍敉粄粉粋粅粇料粐粎粌粈粑益兼朔欮郸烒烓烤烘烡烵烞烜烥烠烦烣烧烛焒烔烟烍烶烌烻烨烅烆烐烇烩烚烑烙烄烗烊烪剡郯烢烬递涛浾浙涍涜淽淓涝洍涁浗浡浦浭涑浯浢酒浱浹浝涞涟浳涇涉逤娑消涆浧涅浿洖涀浬涠涄浞涃涓涢涡浥涔浻浩涐浰海浜浟涖垽峾涂浠涗浴浖浮浽浛涣浼浲涤浵涥流润涧涚涕浺浣浨涋浤浶浪涙浫涒浸浘涨烫涩涊涌涘浚悈悖悑悚悟悏悂悭悄悍悜悮悓悝悃悁悞悒悎悧悔悇悕悅悗悙悋悯悦悌悩悢悀悛挙鸴害宼宯宽宧宸家宵宲宺宴宮宾宱窍窉窅窄宷窊容窌窎窇窋窈剜宰宭案宻请冦冡朗欴诸冣诹诺冧读扄扅扆肁冢诼扇诽袜袪袣袔袏袥袚袩袒袓袖袡袟袮袘袝袙袗袊袛袧袍袨袢袕袉袐袦袑被袯袎祮祬祯祩祣祫祧祪祥祤课冥诿谀隺谁谂调冤谄谅谆谇谈谊谉(乛)書剥帬恳堲叞展剧屒屑屓屗屘屐屖屙弬弳弰弲弱陚陼陸陵陬孭陳娿勐弉奘娤陭疍牂孫陫蚩祟陲陹陮陴陯険陰陶陷陱陪脀烝娡婲姬娔娕娪娠娝娏娙娋娨娱娊娌桇娉娖娚娟娲挐恕娯娛娥娳娒娦娐娞娢娩娮娴娧娣娘娓婀恏砮娭哿皰脋脅奙畚翄翀毣翂翆通能圅逘难逡预矝務斚桑剟绠骊剝绡骋绢绣验绤绥绦骍继绨骎骏郷紜紑紎紘紌純紕紗納紝紤紒紟紛紣紙紋紡紏紞紖紐紦紓邕鸶【十一画】。
最新汉字编码
![最新汉字编码](https://img.taocdn.com/s3/m/2ca7af38a8114431b90dd8c8.png)
bjhk
ASCII码
bjhk
美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规 范编码 包括33个控制码,一个空格码,和94个 形象码 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 国际上大部分电脑的通用编码
5
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
bjhk
ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode
3
汉字的几种通行名称
Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字 符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan
6
bjhk
国标、区位、“准国标” 、机内 码
bjhk
国标:中华人民共和国国家标准信息交换用汉 字编码 国标(GB2312-80)表(基本表)把七千余汉字、 以及标点符号、外文字母等,排成一个94行、 94列的方阵 每一横行叫一个“区”,每个区有九十四个 “位” 一个汉字在方阵中的坐标,称为该字的“区位 码” 例如“中”字在方阵中处于第54区第48位, 它的区位码就是5448 7
Unicode汉字和英文编码范围
![Unicode汉字和英文编码范围](https://img.taocdn.com/s3/m/f22eb66b25c52cc58bd6be50.png)
Unicode汉字和英文编码范围2008年10月26日星期日 20:38中文的unicode码的范围4e00-9fa5如果是英文asc,高自己是0x001)标准CJK文字/Public/UNIDATA/Unihan.htmlCode point range Block name ReleaseU+3400..U+4DB5 CJK Unified Ideographs Extension A 3.0U+4E00..U+9FA5 CJK Unified Ideographs 1.1U+9FA6..U+9FBB CJK Unified Ideographs 4.1U+F900..U+FA2D CJK Compatibility Ideographs 1.1U+FA30..U+FA6A CJK Compatibility Ideographs 3.2U+FA70..U+FAD9 CJK Compatibility Ideographs 4.1U+20000..U+2A6D6 CJK Unified Ideographs Extension B 3.1U+2F800..U+2FA1D CJK Compatibility Supplement 3.12)全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF/charts/PDF/UFF00.pdf3)CJK部首补充:2E80-2EFF/charts/PDF/U2E80.pdf4)CJK笔划:31C0-31EF/charts/PDF/U31C0.pdf5)康熙部首:2F00-2FDF/charts/PDF/U2F00.pdf6)汉字结构描述字符:2FF0-2FFF/charts/PDF/U2FF0.pdf7)注音符号:3100-312F/charts/PDF/U3100.pdf8)注音符号(闽南语、客家语扩展):31A0-31BF/charts/PDF/U31A0.pdf9)日文平假名:3040-309F/charts/PDF/U3040.pdf10)日文片假名:30A0-30FF/charts/PDF/U30A0.pdf11)日文片假名拼音扩展:31F0-31FF/charts/PDF/U31F0.pdf12)韩文拼音:AC00-D7AF/charts/PDF/UAC00.pdf13)韩文字母:1100-11FF/charts/PDF/U1100.pdf14)韩文兼容字母:3130-318F/charts/PDF/U3130.pdf15)太玄经符号:1D300-1D35F/charts/PDF/U1D300.pdf16)易经六十四卦象:4DC0-4DFF/charts/PDF/U4DC0.pdf17)彝文音节:A000-A48F/charts/PDF/UA000.pdf18)彝文部首:A490-A4CF/charts/PDF/UA490.pdf19)盲文符号:2800-28FF/charts/PDF/U2800.pdf20)CJK字母及月份:3200-32FF/charts/PDF/U3200.pdf21)CJK特殊符号(日期合并):3300-33FF /charts/PDF/U3300.pdf22)装饰符号(非CJK专用):2700-27BF/charts/PDF/U2700.pdf23)杂项符号(非CJK专用):2600-26FF/charts/PDF/U2600.pdfUnicode字符编码分布表――语言文字类编码分布表――标点符号类。
汉字的utf-8编码
![汉字的utf-8编码](https://img.taocdn.com/s3/m/60d9ec4b53ea551810a6f524ccbff121dc36c55c.png)
汉字的utf-8编码
UTF-8 是一种可变长度的字符编码,可以用于表示Unicode 字符集中的所有字符,包括汉字。
汉字的UTF-8 编码通常是由一个或多个字节组成,具体的编码方式如下:
1. 常用汉字的编码范围:
-汉字的编码范围主要位于Unicode 的CJK(中日韩)统一表意文字区块,即U+4E00 到U+9FFF。
2. UTF-8 编码规则:
-单字节字符(ASCII 字符):对于ASCII 字符,UTF-8 使用一个字节表示,与ASCII 编码相同。
-多字节字符(包括汉字):UTF-8 使用多个字节表示。
汉字的编码规则如下:
-对于U+4E00 到U+7F 的范围,采用三个字节表示。
-对于U+800 到U+FFFF 的范围,采用三个字节表示。
-对于U+10000 到U+10FFFF 的范围,采用四个字节表示。
3. 汉字的例子:
-汉字"中" 的Unicode 编码是U+4E2D,其UTF-8 编码是三个字节:`E4 B8 AD`。
-汉字"国" 的Unicode 编码是U+56FD,其UTF-8 编码也是三个字节:`E5 9B BD`。
UTF-8 编码采用可变长度的方式,使得表示范围更广泛的字符需要更多的字节。
这种灵活性使得UTF-8 成为目前互联网上最为广泛使用的字符编码方案之一。
请注意,UTF-8 编码的字节顺序是固定的,不受字节顺序标记(BOM)的影响。
中日韩统一表意文字 一览表
![中日韩统一表意文字 一览表](https://img.taocdn.com/s3/m/73a00e40011ca300a6c390bf.png)
3300-33FF
U3300.pdf CJK Compatibility
CJK 兼容
CJK互換用文字
3400-4DBF 4DC0-4DFF 4E00-9FBF A000-A48F A490-A4CF
U3400.pdf U4DC0.pdf U4E00.pdf UA000.pdf UA490.pdf
CJK Unified Ideographs Extension Yijing Hexagrams Symbols CJK Unified Ideographs Yi Syllables Yi Radicals
货币符号 字母式符号 数字形式 箭头
通貨記号 文字様記号 数字に準じるもの 矢印
2200-22FF
U2200.pdf Mathematical Operator
数学运算符
数学記号 (演算子)
2300-23FF 2460-24FF
U2300.pdf Miscellaneous Technical U2460.pdf Enclosed Alphanumerics
East Asian Scripts
Unicode Unicode 範囲 PDF
0000-007F
名称
中国語名称
日本語名称
U0000.pdf C0 Control and Basic Latin
C0控制符及基本拉丁文 基本ラテン文字 (ASCII互換)
0080-00FF
U0080.pdf C1 Control and Latin 1 Supplement C1控制符及拉丁文补充-1ラテン1補助
0100-017F 0180-024F 0250-02AF
U0100.pdf Latin Extended-A U0180.pdf Latin Extended-B U0250.pdf IPA Extensions
汉字编码
![汉字编码](https://img.taocdn.com/s3/m/aac3b920af45b307e87197a8.png)
例
54 区 0 1 2 3 4 5 6 7 8 9 55 区 0 1 2 3 4 5 6 7 8 9 帧 症 郑 证 芝 枝 支 吱 蜘 住 注 祝 驻 抓 爪 拽 专 砖
1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑
4
汉字编码
ASCII码
美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规 范编码 包括33个控制码,一个空格码,和94个 形象码 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 国际上大部分电脑的通用编码
5
汉字编码
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
汉字编码
9
例
09 区 0 1 2 3 4 5 6 7 8 9 ⒜ ⒝ ⒞ ⒟ ⒠ ⒡ 1 ⒢ ⒣ ⒤ ⒥ ⒦ ⒧ ⒨ ⒩ ⒪ ⒫ 2 ⒬ ⒭ ⒮ ⒯ ⒰ ⒱ ⒲ ⒳ ⒴ ⒵ 3 Ⓐ Ⓑ Ⓒ Ⓓ Ⓔ Ⓕ Ⓖ Ⓗ Ⓘ Ⓙ 4 Ⓚ Ⓛ Ⓜ Ⓝ Ⓞ Ⓟ Ⓠ Ⓡ Ⓢ Ⓣ 5 Ⓤ Ⓥ Ⓦ Ⓧ Ⓨ Ⓩ ⓐ ⓑ ⓒ ⓓ 6 ⓔ ⓕ ⓖ ⓗ ⓘ ⓙ ⓚ ⓛ ⓜ ⓝ 7 ⓞ ⓟ ⓠ ⓡ ⓢ ⓣ ⓤ ⓥ ⓦ ⓧ 8 9
基于CJK统一汉字扩充B的输入法研究(可编辑)
![基于CJK统一汉字扩充B的输入法研究(可编辑)](https://img.taocdn.com/s3/m/5baac207caaedd3383c4d397.png)
基于CJK统一汉字扩充B的输入法研究(可编辑)基于CJK统一汉字扩充B的输入法研究内蒙古大学硕士学位论文基于CJK统一汉字扩充B的输入法研究姓名:张瑞申请学位级别:硕士专业:计算机应用技术指导教师:巩政20090508内蒙古大学硕士学位论文基于统一汉字扩充的输入法研究摘要汉字输入法研究是自然语言处理的一个重要课题,自颁布以来‘,许多研究人员一直在研究支持该超大字符集的输入法,而本课题的主要研究目的是实现处于统一汉字扩充区汉字的输入与显示’。
本文主要从输入法码表的制作和输入法程序的编写两方面来详细介绍输入法的制作。
该输入法码表采用笔画顺序、笔画模糊匹配和部首笔形码三种模式对四字节汉字进行编码, 在具体使用时,笔画输入法只需要按照汉字的书写顺序输入对应的键盘码,就可以显示并输出目标汉字,笔画模糊匹配只需要输入汉字对应笔画的前四笔和后四笔,即可输出目标汉字,部首笔形输入法只需按照笔形对应码将部首和汉字的编码通过键盘输入,便能输出对应的汉字。
输入法的实现符合的删/结构规范卜争“,是目前输入法广泛采用的编程方法之一。
由于处于统一汉字扩充区的汉字主要出现在各种典籍文献中,因此基于统一汉字扩充输入法的实现,为许多用字量大的汉字辞书、古籍文献实现数字化起到了有利的推动作用。
关键词:统一汉字扩充,笔画,笔形,删/结构基于统一汉字扩充的输入法研究匣 . .一气 .’.,,,,.,.,, ,,,, ./.: ?十 , .:,, ,/ 内蒙古大学硕士学位论文图标目录表. 通用编码字符集四维代码结构【引表.笔画输入法中笔画对应的键盘码.图.笔画输入过程示例表.部首编码表.表.部首编码表.表.笔形码码元【】表.笔画输入法与简笔输入法部分码表?。
表.部首笔形输入法部分码表??.表.笔画输入码表重码情况统计?。
表.笔画输入法统计概况表.部首笔形输入法码表重码情况统计? 图. .基本工作过程图.输入法的组成【.表. 窗口处理的消息响应.图.主要接口函数??。
中文编码字符集标准大全
![中文编码字符集标准大全](https://img.taocdn.com/s3/m/d142cf2b7375a417866f8f7f.png)
中文编码字符集标准大全.txtゅ你不用一上线看见莪在线,就急着隐身,放心。
莪不会去缠你。
说好的不离不弃现在反而自己却做不到╮中文编码字符集标准大全国家标准代码,简称国标码,是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。
现时中华人民共和国官方强制使用GB 18030标准,但较旧的计算机仍然使用GB 2312。
较常见的国家汉字标准代码列表:GB 2312-80信息交换用汉字编码字符集基本集(又称 GB 或 GB0)GB 13000.1-93信息技术通用多八位编码字符集(UCS)第一部分(相当于 ISO 10646-1:1993 中文版)GB 18030-2005信息技术中文编码字符集---GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5 月1日实施。
GB2312编码通行于中国大陆;新加坡等地也采用此编码。
中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。
--GB 13000,中华人民共和国国家标准的国家标准代码之一,全称 GB 13000.1-93《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。
此标准等同采用国际标准化组织 ISO/IEC 10646.1:1993《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。
中文汉字的各种编码标准
![中文汉字的各种编码标准](https://img.taocdn.com/s3/m/fc0c6ae10408763231126edb6f1aff00bed570bb.png)
中文汉字的各种编码标准
随着计算机技术的不断发展,中文汉字的编码标准也相应地出现了多种。
这些编码标准的出现,对于中文汉字的输入、存储、传输等方面都起到了重要的作用。
目前,常见的中文汉字编码标准主要有以下几种:
1. GB2312编码:GB2312是我国首个官方公布的中文字符集,共收录了6763个常用汉字和682个生僻汉字,是目前使用最广泛的汉字编码标准之一。
2. GBK编码:GBK是GB2312的扩展版本,包含了大约21000个汉字,包括了GB2312中的所有字符,并增加了一些生僻汉字和繁体汉字。
GBK编码标准的出现,大大方便了中文汉字的输入和存储。
3. GB18030编码:GB18030是我国最新的汉字编码标准,共收录了70244个字符,包括了GB2312、GBK中的所有字符以及一些罕见汉字、藏文、蒙文等字符。
GB18030编码标准的出现,使得中文汉字在国际间的交流变得更加便捷。
4. Unicode编码:Unicode是一种全球范围内通用的字符集标准,包括了世界上所有的语言和符号。
其中,汉字部分被分为中日韩统一表意文字(简称CJK汉字),是目前最常用的汉字编码标准之一。
总之,中文汉字编码标准的多样化和不断更新,为中文汉字的计算机化应用提供了强有力的支持。
在未来,随着技术的不断发展,我们也有理由期待更加先进、更加智能的汉字编码标准的出现。
- 1 -。
韩国《汉字研究》简介
![韩国《汉字研究》简介](https://img.taocdn.com/s3/m/7a602f1269dc5022abea0039.png)
参考文献黄易青2007《上古汉语同源词意义系统研究》,商务印书馆。
刘钧杰1999《同源字典补》,商务印书馆。
王凤阳2011《古辞辨》(增订本),中华书局。
王力1992《王力文集》第8卷,山东教育出版社。
杨伯峻(编著)1990《春秋左传注》(修订本),中华书局。
杨树达2007《积微居小学金石论丛》,上海古籍出版社。
殷寄明2007《汉语同源字词丛考》,中国出版集团东方出版中心。
殷寄明2018《汉语同源词大典》,复旦大学出版社。
张博2003《汉语同族词的系统性与验证方法》,商务印书馆。
张履祥华蓿蓿1987《“铤而走险”的“铤”可作“挺”》,《辞书研究》第6期。
钟如雄2002《“铤而走险”考辨》,《西南民族学院学报》第9期。
(责任编辑:刘秋瑞)韩国《汉字研究》简介《汉字研究》(The Journal of Chinese Character Studies)(JCCS),由大韩民国韩国汉字研究所主办,2009年12月创刊,2017年起正式成为韩国核心期刊(KCI)。
《汉字研究》旨在为世界范围内汉字研究者和爱好者提供一个学术交流平台。
编辑委员会由韩国,法国,德国,美国,加拿大,挪威,日本,越南,中国大陆、台湾、香港等地汉字学著名专家组成。
主编为韩国汉字研究所所长河永三教授,副主编为中国上海交通大学海外汉字文化研究中心主任王平教授。
《汉字研究》每年出版三期,分别为当年的4月30日、8月30日、12月30日。
论文提交到当年的2月27(28)日、6月30日、10月30日截止。
经两个月的审稿与编辑后出版发行。
每期发表文章10篇左右,内容涵括出土文字研究、字书与字典学研究、汉字规范传播研究、汉字理论及教学研究、汉字文化学研究等。
除论文外,刊物也刊发介绍新出汉字学著作、世界著名汉语言文字学家、汉语言文字研究机构等。
所有已发表论文均可在《汉字研究》网站上免费下载。
查询T解更多关于《汉字研究》的信息,敬请访问网站:/o《汉字研究》网上投稿系统:http://hanja.submission.or.kr/。
中日韩统一表意文字(CJKUnifiedIdeographs)[转]
![中日韩统一表意文字(CJKUnifiedIdeographs)[转]](https://img.taocdn.com/s3/m/a94aa45f777f5acfa1c7aa00b52acfc789eb9f3f.png)
中⽇韩统⼀表意⽂字(CJKUnifiedIdeographs)[转]中⽇韩统⼀表意⽂字中⽇韩统⼀表意⽂字中⽇韩统⼀表意⽂字(英语:CJK Unified Ideographs),⽬的是要把分别来⾃中⽂、⽇⽂、韩⽂、越⽂中,本质相同、形状⼀样或稍异的表意⽂字(主要为汉字,但也有仿汉字如⽇本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
越南⽂后来加⼊此计划,所以亦有 CJKV (中⽇韩越统⼀表意⽂字)的称呼。
Unicode亦开始收录其仿汉字——喃字版本 ISO 10646 版本Unicode 版本新增置放平⾯字数累计字数19931.0 中⽇韩统⼀表意⽂字基本多⽂种平⾯(BMP)20,90220,914位于“表意⽂字兼容区”中但实则独⼀的汉字基本多⽂种平⾯1220003.0中⽇韩统⼀表意⽂字扩展A区基本多⽂种平⾯6,58227,49620013.1中⽇韩统⼀表意⽂字扩展B区表意⽂字补充平⾯(SIP) 42,71170,2072003第⼀修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加⼊ ISO 10646 的汉字基本多⽂种平⾯2270,229未有6.0(预计)中⽇韩统⼀表意⽂字扩展C区表意⽂字补充平⾯(预计)4,25174,480历史于1990年代初ISO 10646制订时,来⾃台湾的代表提出将源⾃中国的中⽇韩汉字予以统⼀(Unify, ISO术语称为认同),可以⼤量节省编码空间,获其他代表接纳。
字源最初期统⼀汉字最初期的统⼀汉字(20,902字)字源来⾃以下字集:中国⼤陆的G源G0:GB 2312-80:6,763字G1:GB 12345-90:2,352字(含58个⾹港字和2个吏读字,不包括和G0重覆的字)G3:GB 7589-87:7,237字G5:GB 7590-87:7,039字G7:现代汉语通⽤字表:642(G0, 1, 3, 5, 8未包括的字)G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)台湾的T源T1:CNS 11643-1986第⼀字⾯:5,401+9字(含9个计量⽤汉字)T2:CNS 11643-1986第⼆字⾯:7,650字TE:CNS 11643-1986第⼗四字⾯:6,319+239+10(含239个CCCII特字和10个XCCS特字)⽇本的J源J1:JIS X 0208-90:6,335+1字J2:JIS X 0212-90:5,801字韩国的K源K0:KS C 5601-87:4,888字(含268个重见字)K1:KS C 5657-91:2,856字以上的来源字集会实施字源分离原则。
sa-6标准
![sa-6标准](https://img.taocdn.com/s3/m/c94123c1f9c75fbfc77da26925c52cc58bd690dc.png)
sa-6标准SA-6标准是指ISO/IEC JTC1/SC2/WG2于2014年发布的Unicode标准的一部分,也是中文字符的Unicode编码。
其全称为《SA-6:中文》(SA代表Sorted Alias)。
SA-6标准中包括了中文字符集的所有字符,包括汉字、注音符号、拼音符号、注注音符号、日音(KANA)、部首、偏旁、CJK符号、中日韩符号、箭头、标点符号等。
它是在Unicode标准的基础上,对中文字符集进行了整理和排序,并对其编码进行了规范化。
对于中文字符的编码,SA-6标准遵循Unicode标准,采用16位无符号整数(即Unicode 码点)进行编码。
其中,中文字符的编码范围为4E00~9FFF,共20992个字符。
SA-6标准的制定是为了解决中文字符编码的混乱和不统一问题。
在过去,由于历史、地域等因素的影响,中文字符存在着多种不同的编码方案,如GBK、GB18030、Big5等。
这些方案之间存在交叉、重叠、不兼容等问题,给中文字符的处理和传输带来了很多麻烦。
而SA-6标准的制定终于解决了这一问题,使得中文字符在不同的系统和平台上都能够得到正确地处理和显示。
SA-6标准的制定过程经历了多轮讨论和修订,参与者包括了来自不同国家和地区的专家、学者和技术人员。
他们在研究和分析现有的中文字符编码方案的基础上,提出了完整、规范、统一的中文字符编码方案,即SA-6标准。
总之,SA-6标准是中文字符的Unicode编码方案,它的制定解决了中文字符编码的混乱和不统一问题,使得中文字符在不同的系统和平台上都能够得到正确地处理和显示。
它的制定是中文信息技术发展的重要里程碑,有助于促进中文信息技术的应用和发展。
古籍数字化过程中汉字字库不足的解决思路-信息管理论文-管理学论文
![古籍数字化过程中汉字字库不足的解决思路-信息管理论文-管理学论文](https://img.taocdn.com/s3/m/e23f4ad487c24028905fc3ac.png)
古籍数字化过程中汉字字库不足的解决思路-信息管理论文-管理学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——古籍数字化是加快古籍流通,有效保护古籍的重要手段。
中文古籍数字化肇始于1978 年,美国人PJIvanhoe 使用电子计算机编制了《戴震孟子字义疏证索引》《王阳明大学问索引》《王阳明传习录索引》《朱熹中庸章句索引》《朱熹大学章句索引》机读目录。
目前在美国,由北美36 家图书馆组成的美国图书馆研究学会,拥有25 000 条数据的数据库做到了馆际资源共享,并还在不断地扩充完善中。
哈佛燕京图书馆拥有的线装古籍计算机检索系统中的1 000 余种家谱的资料,目前已经编目完成。
在英国,大量中国珍贵文献和古籍收藏在大英图书馆,大英图书馆开发的古版书简明标题目录是当前全球古籍文献数据库最大的联机数据库。
以上这些成果为我国古籍数字化建设提供了宝贵的经验。
据2010 年不完全统计,我国大陆地区有179 家单位从事古籍数字化,形成各类数据库(包括各种古籍书目数据库、古籍全文数据库等)415 个,许多数据库的字数都在 1 亿以上。
较权威的统计表明,2012年我国公藏机构已经拥有超过20 亿字的数字化文本格式的古籍。
一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善。
中国大陆地区开始中文古籍数字化工作以来,制约古籍数字化进程的主要问题是汉字字库问题。
业界就这一问题进行了深入的研究和探讨。
1 国内外古籍数字化过程中对汉字字库问题的研究概况1.1 汉字字库的研究情况我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究,自20 世纪70 年代中期开始,我国逐渐加快在计算机中文信息处理方面的发展步伐,在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成就。
陆续开发的汉字键盘输入方法,解决了汉字进入计算机的难题;汉字输出实现了多字体、多字号;汉字字库的制作也由点阵字库、矢量字库逐步过渡到曲线轮廓字库;汉字自动识别技术达到国际先进水平,并有商品投入市场;ISO/IEC 10 6 的CJK 字符集,由早期的20 902个CJK 统一汉字逐步扩充,扩充集A 和扩充集B 已经完成,现在正讨论扩充集C1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统一的中日韩汉字编码字符集》(CJK)字根系统研究《统一的中日韩汉字编码字符集》(CJK)作为新的汉字信息处理国际标准,使汉字信息处理向国际化方向迈出了重要的一步,对汉字字形的定量定性研究也提出了更高的要求。
在此基础上,依靠计算机字形技术的支持,采用字根分解与合成的方法,有可能表示出CJK的全部字符从而实现其无字库化处理。
因此,研究CJK字根系2统,对于CJK的工程应用具有重要作用。
中日韩汉字字形有别而音义互异,但都是可分析的文字,其基本构形单位都是笔画或字根,因此,字根分析法对其同样适用。
本文认为,要得出一个较为科学的CJK字根系统,在理论和实践上必须着重解决两个问题,一个是笔画与字根的分野即单笔字根的问题,另一个就是字根变体的问题。
本文主要分析了CJK的单笔字根和字根变体,并对统计得出的CJK676个字根的有关数据进行了系统的分析,希望能为CJK的相关研究提供参考。
一、CJK的单笔字根(一)为什么要提出"单笔字根"字根是汉字字符的直接构形成分,是可以独立运用的最小构形单位。
一般说来,字根包含两个以上笔画,但当单一笔画与字根直接参与汉字字符构形时,这一笔画由于具备了字根的价值和功能而上升到字根层级,称为"单笔字根"。
提出这一概念主要基于以下考虑:1、汉字字符的构形成分中确实存在许多相对独立的单一笔画,归入邻近的任一字根都不合适,CJK中就有400多个字符包含这种笔画。
如果说汉字字符都是由作为笔画组合体的字根构成的,显然不符合事实;如果说汉字字符是由字根与笔画组成的,固然也未尝不可,但这样就难以清晰地体现字符构形的层级性,故"单笔字根"的提出有其现实的必要性。
2、CJK字符集收入了"一丨丶丿乀乁乙乚乛亅"十个单笔画的字符,如果不引入"单笔字根"的概念,则这十个字符无法进行字根分析。
3、适当拆出字符中的单笔字根,可以大大简化字根系统。
(二)如何析出单笔字根笔画与字根毕竟是不同层级的构形成分,因此单笔字根以尽量少析出为宜。
我们在分析CJK单笔字根的过程中,主要采用了以下方法:1、某一单笔画如果与字符中其它笔画处于相交或相接的关系,则不能析为单笔字根。
如"子、孑、孓"都是由字根"了"与单笔画相交或相接而成,故不再析出单笔字根。
2、如果单笔画与字符中其它笔画均处于相离的关系,则根据以下情况处理:(1)对于点笔来说,若其与某一字根呈内聚之势,且作为整体具有构字能力,则合为一个字根,如"犬、太、刃、玉"等;反之,若作为整体无构字能力,则立点笔为单笔字根,如"乓"。
这样处理可使字根系统的层级性得以体现,同时也照顾了通常的字根拆分习惯。
(2)如果某一单笔画用另一笔画或字根替换后成了另一字符,则只能析为单笔字根,如"糺"中的"乚"替换为"工"后成了另一字符"紅",因此"乚"为单笔字根。
能用这种方法来判断的单笔字根在CJK单笔字根中约占24%。
(3)偏旁部首通常使用频率较高,一般作为整体进入字根系统,不再拆出单笔字根,如"纟"、"刂"、"寸"、"灬"等。
为简化字根系统,有时也需要作变通处理,如"示"中与第一横笔相邻的也不是分笔字根,但将其析出后,余部分无构字能力,为简化字根系统,"示"拆为"二、小",不涉及单笔字根问题。
(三)CJK的单笔字根统计我们采用上述方法得出了CJK单笔字根的有关数据,详见下表:如果把提归入横,捺归入点,竖钩归入竖,其它的归入折,则五种基本笔画在CJK中的出现次数、出现频率以及作为单笔字根时的出现次数与出现频率可列表比较如下:统计结果表明,CJK的20902字符总笔画数为211436,平均每个字符含10.116个笔画,与《汉字信息字典》对《基本集》平均笔画数的统计结果类似[1]。
在CJK的五种基本笔画中,横的出现频率最高,其次为点、竖、折、撇。
五种基本笔画作单笔字根时的总出现次数为1569次,占CJK字根总出现次数(76743)的百分比为2.0445%。
二、CJK的字根变体字根是以各种"变体"参与字符构形的,所谓"正体"其实是对其各种"变体"的归纳,例如我们把作独体字用的"止"定为"正体",但它在合体字"肯、耻、此"中却呈现不同的形状。
此外,对于CJK的同一字符,中台日韩"三国四方"可能有不同的字形标准,有的字符结构相同而字根异形,这就产生了字根变体。
这种变体在CJK中数以千计,假如均单独立为字根,则CJK字根系统将不堪重负。
因此,我们在拆分CJK字根的过程中采用并坚持了"变体归一"的原则。
概言之,CJK的字根变体主要有两种形式,即字根结构变体与字根地域变体,下面分开来谈。
(一)字根结构变体1、什么是"字根结构变体"汉字字形呈拓扑结构,字根在组形结体时都要受到其它字根的制约,不得不调整其形状,甚至改变某一笔形,以保持字形整体的匀称美观。
这种由于字形结构的整体制约而形成的字根变体,我们称为"字根结构变?quot;。
字根结构变体是字根经常存在的形式,广义的字根结构变体,包括同一字根的不同长短、肥瘦、高低等不同形状的变体,其范围之广几乎无法囊括。
我们这里仅讨论狭义变体,即因为结构整体制约而引起某一笔形变化的字根结构变体。
2、字根结构变体的本质--笔形通借同一字根,由于处在字形结构中的不同部位而引起外部制约格局的变化,这一字根相关部位的笔形往往调整为另一相似的笔形,并且呈现出一定的分布规律,这就是笔形通借。
字根结构变体就是由此而形成的。
笔形通借有两个互相制约的条件。
首先,通借笔形与原笔形相似,但不属于同一种笔形,通常是横借为提、捺借为点、竖钩借为竖、竖借为竖撇、竖弯钩借为竖提等。
其次,通借笔形与原笔形没有辨字作用?quot;笔形通借,在一个字的全体结构中,要接受内部所具有的组形结体的制约;在整个现行汉字体系中仍要接受外部来的别的字的制约。
"[2]如果两个笔形因其不同形而构成了不同的字符,则它们之间不构成通借关系,如"地"中的"土"字旁是"土"的变体而非"士"的变体,则其提笔与"士"中短横不构成通借关系。
"干"与"千"、"天"与"夭"中的短横与平撇都是相似笔形,但均具有辨字作用,因此也不能构成通借关系。
笔形通借与笔势(即运笔的方向和气势)有着十分密切的关系。
相通借的笔形一般都有相通的笔势,如横与提的笔势从左往右,捺与点的笔势从左上往右下,竖弯钩与竖提的笔势先自上而下,再从左往右。
"千"的平撇与"干"的短横,之所以不相通借,除了它们具有辨字作用的因素外,笔势在其中也起着重要的作用。
《印刷通用汉字字形表》和《现代汉语通用字表》把汉字的基本笔画确定为"横竖撇点折"五种,是深入研究笔形通借现象而得出的科学结论。
同样,由于"丨"与"亅"之间的通借关系,我们也可以据此确定"亅"在五种基本笔画中的归属。
我们根据笔形通借的不同情况,对CJK字根结构变体作了分析统计,统计结果表明,CJK常见的字根结构变体共110个,尚难以概括其全貌,假如把这些变体都作为字根的话,那么CJK总字根数将增加至少110个,这个代价不可谓不大!武汉大学和文改会《辞海》字根统计也进行了变体的合并,如把" "归入"土",把"朩"归入"木",但其字根总表中却收入了"牛、车、月"的结构变体"牜、、",[3]应该说是一个不小的失误。
(二)字根地域变体CJK是一个繁简异兼有、新旧字形并存的跨国大字符集,由于语言、文化条件的差异以及地理因素的影响,"三国四方"汉字字形发生了某种程度的分化,我们把这种由于地域差异而形成的字根变体称为"字根地域变?quot;。
CJK字形分歧主要有以下情况:笔画数相同,个别笔形或笔画组合方式有差异,如"氐"、"与"等;笔画数不同,但字形总体相似,如"及"、"垂"等;笔画数和个别笔画组合方式均有差异,字形相似度低,如"丑"。
我们在判断一个笔画组合体是否为某字根地域变体时,一般采用下面的方法:1、如果"三国四方"只有一方有此笔画组合体,且在CJK中有单独的区位码,则独立字根,如(4E2F)"丯"、(4E8A)"亊"等。
2、如果两个笔画组合体在"三国四方"的某一方中是两个字根,则其中任一个都不视为地域变体,如" "和" "在台湾字形中是两个字根(7DD2)"緒"、(7DD6)"緖",因此分立字根。
3、我们在CJK的字形标准中通常采用大陆字形为优先级,依次为中(C)、台(T)、日(J)、韩(K)。
按照优先级顺序,如果C中的某一字根在T(或J、K)中断为两个相离的笔画组合体,则按两个字根处理,如"艹"在T、K中断开为"卝",则拆"卝"为"十、十",不视为"艹"的地域变体。
这样处理可以有效减少字根总数,也便于保持字根拆分标准的一致性。
三、CJK字根系统的定量分析明确了单笔字根及字根变体的原则与方法,字根的拆分就有章可循了。
我们在拆分工作完成以后,在FOXBASE+环境下建立了CJK字根数据库,对有关数据进行分类汇总后,得出了CJK的676个字根及其出现次数和出现频率,建立了CJK字根系统。
初步测试结果表明,该字根系统基本覆盖了CJK全部字符,有一定的系统优化度,对于CJK工程应用有一定的参考价值。