编码字符集标准及分类研究_谢谦
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中 文 信 息 学 报
第20卷第5期 J OURNAL OF CH I NESE I NF OR MATI O N P ROCESSI NG V ol.20N o.5文章编号:1003-0077(2006)05-0083-08
编码字符集标准及分类研究
谢 谦1,2,芮建武1,吴 健1
(1.中国科学院软件研究所开放系统与中文信息处理中心,北京 100080;2.河南大学计算机与
信息工程学院,河南开封 475001)
摘要:编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。
关键词:计算机应用;中文信息处理;编码字符集
中图分类号:TP391 文献标识码:A
Research on Coded Character Set Standards and C lassification
X I E Q ian1,2,RU I Jian-wu1,W U Jian1
(1.Open Syste m and Ch i nes e Infor m ati on Processi ng Cen ter,Institute of Soft w are,C h i nes e A cade m y of S ci en ces,B eiji ng100080,
Ch i na;2.S chool of Compu t er and In for m ation Engineeri ng,H enan Un i versity,Kaifeng,H enan475001,Ch ina)
Ab strac t:Coded character se t standa rd are t he base s of t he co m puter t ex t infor m ati on processing.In t his pape r,a3-turples m ode l is proposed t o descibe the coded character se.t The ex isting code standards are reviewed and su mma-rized.A nd t he ISO2022and it's deriv i ng standards are ana l y zed in de tail;incl uding the li m ita tion o f u tilizi ng IS O 2022in m ultili ngua l env iron m en.t N ecessit y o f foundi ng UCS(U niversa lCha racter Se t)is present ed,a long w it h an outline ana l y sis o f UCS.A ft e r eva l uating current c l assifica tion m e t hods o f coded character set standa rds,a new m eth-od is produced w ith applica tion i n ca talogu i ng existing standa rds.W e c l o se ou r paper w ith a brief ana l ysis of i m po r-tan t Chinese na tiona l st andards on Han character se.t
K ey word s:compu t e r applicati on;Ch i nese inf o r m ati on processing;coded character se t
计算机应用从单纯的科学计算转向信息处理,是引发二十世纪信息革命的里程碑事件,而支撑这一转变的重要基础就是字符编码;通过制定字符编码标准,在人能理解的文字信息与计算机内部表达之间建立了一个基本的沟通桥梁,直到今天,基于文字的交互途径仍然是最主要的人机界面。正如Unicode标准中所言[1],“对计算机软件系统而言,字符编码就像螺钉和螺母———虽然微小,却以各种方式被普遍使用。”
收稿日期:2005-07-08 定稿日期:2006-05-22
基金项目:国家863计划资助项目(2003AA1Z2110);中国科学院知识创新工程资助项目(KGCX2-S W-504)
作者简介:谢谦(1968—),男,博士生,主要研究领域为系统软件国际化,X W i ndow系统,L inux标准化.
1 编码字符集标准:概念及发展
文字是语言的载体,字符则是计算机处理文字信息的最基本抽象元素,通过使用特定的位组合(即所谓编码)来表示字符,文字信息得以存储和交换。确定文字的字符编码就是要对三元组(G,C,f:C→G)做出定义,其中G代表字符集,C代表编码空间,f是C→G上的函数,定义了编码到字符的单值映射。
为了交换信息,字符编码必须进行标准化,即针对特定文字形成在一定范围内公认的三元组定义。在实践中,存在不同类型的标准化,一种是在一个标准中对三元组做出完整规定,另一种是用不同标准对不同部分进行标准化。
字符编码技术和编码字符集标准经过了长期的发展,早期标准主要针对英文环境,最广为人知的是ANS I制定的ASC II。在编码字符集标准发展过程中起重要作用的I SO2022《字符编码结构和扩充技术》最早发布于1973年[2],规定了编码空间的框架结构以及相应的编码扩充机制,为针对其他文字的编码字符集标准发展提供了坚实的基础。
ISO2022之后的大多数正式国家/地区标准均符合该框架,典型例子包括I SO8859系列单字节8位编码字符集标准、1978年日本发布的JI S C6226、1980年中国发布的GB2312、1986年中国台湾标准局发布的CNS-11643、1987年韩国发布的KS C5601等。这一时期制定的编码字符集标准也有不符合I SO2022框架,然而被厂商较多使用而成为事实标准,如中国台湾地区的B I G5、日本的Shift-JI S等。
通用字符集(UCS)编码标准的制定是编码发展历程中另一个转折点,面向多语言应用环境,使用一个编码字符集覆盖世界上主要文字。UCS起源于1984年,第一个被广泛接受的标准版本发布于1991年。UCS由Unicode联盟和I SO/I EC JTC1/S C2W/G2两个机构进行标准化,二者协调工作保证标准的一致性。
2 IS O2022
ISO2022规定了8位和7位编码的总体结构,定义了统一的编码元素,使得符合标准的编码可以在8位和7位形式之间自由转换;利用标准提供的各项技术,可以扩充基本编码空间的表示能力。I SO2022使信息处理系统能够采用统一的编码处理方法,保证信息交换过程中使用一致的字符集,减少互操作系统之间产生冲突的机会。
2.1 IS O2022要点
ISO2022的编码扩充技术非常灵活,要点包括抽象的编码元素规定、实际编码空间结构表示、在编码中使用特定编码字符集的方法、对特定编码方案定制的方法。
编码元素提供了一个连接实际编码字符集和编码空间的抽象层次,I SO2022规定的编码元素分四类:固定编码字符、编码图形字符集、编码控制字符集和编码单独附加控制功能。编码扩充技术操作的主要对象是编码图形字符集和编码控制字符集,编码图形字符集可容纳字符数有四种限制值:94、96、94n、96n,n>1表示多字节字符集,标准中规定的该类编码元素包括G0、G1、G2和G3;编码控制字符集可容纳32字符,标准中规定的该类编码元素包括C0、C1。
ISO2022使用二维的码表描述其编码空间,用十进制的“列号/行号”表示码点。编码空间中的不同区域及其用途如下:CL(00-01列)用于表示主控制功能集;CR(08-09列,仅适用于8位编码)用于表示辅控制功能集或不使用;GL(02-07列)和GR(10-15列,仅适用于8位编码)用于表示图形字符集。
在数据交换过程中表示一个特定编码字符集需要把该字符集“装入”到编码空间的特定