GB 18030《信息交换用汉字编码字符集基本集的扩充》
GB2312GB_13000_GBKGB18030介绍讲解
![GB2312GB_13000_GBKGB18030介绍讲解](https://img.taocdn.com/s3/m/9f9953c5a58da0116c1749d3.png)
1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312:又称为GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。
GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。
该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。
制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。
GBK:随着信息技术在各行业应用的深入,GB 2312 收录汉字数量不足的缺点已经初步显露出来。
例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。
1995年,全世界大多数的PC 操作系统都实现了16/32 位。
GB 13000.1 的实现出现了一线曙光。
一方面为了对GB 2312 进行扩充,一方面顺应当时技术的发展向GB 13000.1 推进,同时兼顾当时最广泛采用GB 2312 内码系统。
原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。
在GBK的内码系统中,GB 2312 汉字所在码位保持不便,这样,保证了GBK 对GB 2312 的完全兼容。
同时,GBK 内码与GB 13000.1 代码一一对应,为GBK 向GB 13000.1 的转换提供了解决办法。
微软对GB 2312 的扩展,也就是CP936 字码表(Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。
汉字信息在计算机内部的表示
![汉字信息在计算机内部的表示](https://img.taocdn.com/s3/m/a3c75403dcccda38376baf1ffc4ffe473268fd19.png)
当计算机系统只使用BMP的字符码时,可以省略组八位和面八位。因而将字符由32位降为16位。 ISO10646所有字面中,目前仅有第0、第1、第2字面真正收录了编码字符。WG2截至目前所收集、整理得非表意文字和符号部分,扣除已编入BMP者,其余全部编入第1字面,而表意文字部分扣除已经编入BMP者,其余全部编入第2字面。 ISO10646的BMP编码如下: (1)0000-007F:基本拉丁字母区。 (2)0080-00A0:控制符区。其中0080-009F为C1控制区,00A0为软回车。 (3)00A1-1FFF:拼音文字区。收录各种拼音文字字符。 (4)2000-28FF:符号区,收录各种符号,包括标点符号、上下标、钱币符号、数字、箭头、数学符号、工程符号等。
按照一组无歧义的规则而定义的汉字词汇的有序几个称为汉字编码字符集。其中每一个汉字和代码之间具有一一对应的关系。在信息处理中,汉字编码字符集用于汉字信息表示、交换、传输、处理、存储、输入及显示。
GB2312-80共收录7445个汉字及其他字符。
GB2312-80
1986年国家标准局颁布GB2312-80的更正和增补版,简称为GB6345.1-86
1
图形字符区
2
3
4
5
6
7
8
9
A
B
C
D
E
F
扩展ASCII码
由于ASCII码只能表示94个字符,因此若需要使计算机还能够处理其他西文(如德文、法文、西班牙文等),则必须对ASCII码进行扩充。
仿宋_gb2312
![仿宋_gb2312](https://img.taocdn.com/s3/m/6a80b60d4a73f242336c1eb91a37f111f0850d73.png)
仿宋_GB2312是一种电脑字体,公文标准字体之一。
仿宋是字体名称,GB2312是字符编码名称,属简体中文编码的一种,简体中文自1980年代以来通常使用中华人民共和国国家标准总局公布的GB 2312,以及其后继的GBK和GB18030中文编码。
近年来随着Unicode跨语言编码集的出现,也被广泛使用,所以通常说的仿宋就基本上是仿宋_GB2312了。
一、名称简体中文系统环境支持国标 GB2312、GB18030 和 Unicode (UTF-8) 编码。
它们在系统中设置的locale(亦指语言别)名称为:1.国标 GB2312: zh_CNhp15CN2.国标 GB18030: zh_CNgb180303.Unicode (UTF-8): zh_CNutf8二、编码字节1.国标 GB2312 编码 (zh_CNhp15CN)国标 GB2312 是基于 1980 年发布的《信息交换用汉字编码字符集基本集》,是中文信息处理的中国国家标准,是强制执行的中文编码。
国标码共收录 6763 个简体汉字、682 个符号,其中汉字部分:一级字 3755 个,以拼音排序,二级字 3008 个,以偏旁部首排序。
该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
该标准用双字节表示一个汉字:高字节A1-F7(其中字符区 A1-F9,汉字区 B0-F7)低字节 A1-FE2.国标 GB18030 编码 (zh_CNgb18030)国标 GB18030 基于 2000 年 3 月发布的《信息技术信息交换用汉字编码字符集基本集的扩充》,是最新推出的中国国家强制执行中文信息处理标准编码。
该标准涵盖了单字节、双字节、四字节的字符和汉字,共计约 28,000 多个。
三、如何设置打开WORD文档,温截选中文档里的文字。
单击字体,倘段下拉选择仿宋GB2312,如果没有这种字体,可以从网上下载安装。
选中文字设置为仿宋GB2312字体。
国标码 区位码等的区别
![国标码 区位码等的区别](https://img.taocdn.com/s3/m/08fda9ed19e8b8f67c1cb984.png)
即GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而ASCII码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和字形码),称为汉字的输入法,区位码、五笔字型码、拼音码、智能ABC、微软拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
专升本计算机基础知识
![专升本计算机基础知识](https://img.taocdn.com/s3/m/6513a51bfc4ffe473368ab79.png)
计算机基础知识一、选择题(1) 下列叙述中,错误的是A) 把数据从内存传输到硬盘叫写盘B) 把源程序转换为目标程序的过程叫编译C) 应用软件对操作系统没有任何要求D) 计算机内部对数据的传输、存储和处理都使用二进制(2) 通常所说的I/O设备指的是A) 输入输出设备B) 通信设备C) 网络设备D) 控制设备(3) 计算机的存储单元中存储的内容A) 只能是数据B) 只能是程序C) 可以是数据和指令D) 只能是指令(4) 在计算机领域中通常用MIPS来描述A) 计算机的可运行性B) 计算机的运算速度C) 计算机的可靠性D) 计算机的可扩充性(5) 下列关于存储器的叙述中正确的是A) CPU能直接访问存储在内存中的数据,也能直接访问存储在外存中的数据B) CPU不能直接访问存储在内存中的数据,能直接访问存储在外存中的数据C) CPU只能直接访问存储在内存中的数据,不能直接访问存储在外存中的数据D) CPU既不能直接访问存储在内存中的数据,也不能直接访问存储在外存中的数据(6) 在微型计算机中,应用最普遍的字符编码是A) ASCII码B) BCD码C) 汉字编码D) 补码(7) 下列叙述中,正确的是A) 激光打印机属于击打式打印机B) CAI软件属于系统软件C) 软磁盘驱动器是存储介质D) 计算机运算速度可以用MIPS来表示(8) 微型计算机的内存储器是A) 按二进制位编址B) 按字节编址C) 按字长编址D) 按十进制位编址(9) 操作系统的五大功能模块为A) 程序管理、文件管理、编译管理、设备管理、用户管理B) 硬盘管理、软件管理、存储器管理、文件管理、批处理管理C) 运算器管理、控制器管理、打印机管理、磁盘管理、分时管理D) 处理器管理、存储器管理、设备管理、文件管理、作业管理(10) 最大的10位无符号二进制整数转换成十进数是A) 511 B) 512 C) 1023 D) 1024(11) 下面有关计算机操作系统的叙述中,不正确的是A) 操作系统属于系统软件B) 操作系统只负责管理内存储器,而不管理外存储器C) UNIX是一种操作系统D) 计算机的处理器、内存等硬件资源也由操作系统管理(12) 大写字母“A”的ASCII码为十进制数65,ASCII 码为十进制数68的字母是A) B B) C C) D D) E(13) 下列存储器中存取速度最快的是A) 内存B) 硬盘C) 光盘D) 软盘14) 软盘不能写入只能读出的原因是A) 新盘未格式化B) 已使用过的软盘片C) 写保护D) 以上均不正确(15) 在16×16点阵字库中,存储一个汉字的字模信息需用的字节数是A) 8 B) 16 C) 32 D) 64(16) 下面有关计算机的叙述中,正确的是A) 计算机的主机只包括CPUB) 计算机程序必须装载到内存中才能执行C) 计算机必须具有硬盘才能工作D) 计算机键盘上字母键的排列方式是随机的(17) 用户用计算机高级语言编写的程序,通常称为A) 汇编程序B) 目标程序C) 源程序D) 二进制代码程序(18) 微型机使用Pentium Ⅲ800的芯片,其中的800是指A) 显示器的类型B) CPU的主频C) 内存容量D) 磁盘空间(19) 显示器显示图象的清晰程度,主要取决于显示器的A) 对比度B) 亮度C) 尺寸D) 分辨率(20)目前微型计算机中CPU进行算术运算和逻辑运算时,可以处理的二进制信息长度是A) 32位B) 16位C) 8位D) 以上三种都可以(21)微型计算机使用的键盘上的Alt键称为A) 控制键B) 上档键C) 退格键D) 交替换档键(22)与十六进制数(BC)等值的二进制数是A) 10111011B) 10111100C) 11001100D) 11001011(23)在操作系统中,存储管理主要是对A) 外存的管理B) 内存的管理C) 辅助存储器的管理D) 内存和外存的统一管理(24)16个二进制位可表示整数的范围是A) 0~65535 B) -32768~32767 C) -32768~32768D) -32768~32767或0~65535(25)下列设备中,多媒体计算机所特有的设备是A) 打印机B) 视频卡C) 鼠标器D) 键盘(26)下列四项中不属于微型计算机主要性能指标的是A) 字长B) 内存容量C) 重量D) 时钟脉冲(27)目前各部门广泛使用的人事档案管理、财务管理等软件,按计算机应用分类,应属于A) 实时控制B) 科学计算C) 计算机辅助工程D) 数据处理(28)下列关于计算机病毒的四条叙述中,有错误的一条是A) 计算机病毒是一个标记或一个命令B) 计算机病毒是人为制造的一种程序C) 计算机病毒是一种通过磁盘、网络等媒介传播、扩散,并能传染其它程序的程序D) 计算机病毒是能够实现自身复制,并借助一定的媒体存的具有潜伏性、传染性和破坏性的程序(29) 在计算机内存中,每个基本存储单元都被赋予一个唯一的序号,这个序号称为A. 字节B. 编号C. 编码D. 地址(30). 在微型计算机的系统总线中不包括A. 内部总线B. 地址总线C. 数据总线D. 控制总线(31) 计算机内的数有浮点和定点两种表示方法。
视频安防监控系统字符叠加基本命名规则
![视频安防监控系统字符叠加基本命名规则](https://img.taocdn.com/s3/m/03d3804077232f60ddcca1ce.png)
视频安防监控系统字符叠加基本命名规则1. 适用范围本要求规定了视频安防监控系统中叠加字符的命名规则。
安全技术防范系统基本适用。
2. 术语与定义2.1. 物理区域是指在同一个安全技术防范系统项目中涉及不同类型的需要用以区分描述的区域。
2.2. 监控部位是指在安全技术防范系统中需要设置视频监控的监控对象、区域或部位。
2.3. 时间标注是指图像或图片产生时的准确时间。
3. 基本要求视频安防监控系统中摄像机字符叠加应能明确区分摄像机监视的区域,一个视频监控系统中不能出现相同的监视区域字符。
标注时,一般不采用图片镶嵌方式标注,除个别确无法用中文标注的情况外,应采用16×16点阵简体中文汉字(字符集采用GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》)和数字、字母、符号标注。
汉字要求字体为标准宋体,正方形,无空心、下划线、粗体等修饰,采用白色或能自动与背景图像颜色进行高对比反差,以清晰显示字符内容的颜色。
字符标注要求100%透明,即除了组成字符的点线图案外,字符空白处能正常显示原图像、图片的信息。
标注用汉字标准大小宜为图像或图片长和宽中较短边的1/15,要求误差不超过文字标准大小的1/20。
小号汉字大小为标准汉字大小的2/3。
半角符号高度与汉字一致,宽度为汉字的一半,字间距为0。
未特别注明时,标注内容均采用上述标准汉字尺寸。
字符叠加区域不应对图片、图像关注信息遮挡,如果有遮挡,应调整摄像机监视位置或有效画面。
4. 字符组成视频监控系统叠加字符应包含物理区域、监视部位、顺序编号以及其他必要描述等,要求能统一、简洁标明布点位置及监控目标。
完整字符格式为“(序号+物理区域)+(序号+监控部位)+摄像机编号+摄像机属性”4.1. 字符基本组成叠加字符一般为中文字符、英文字符及数字。
4.2. 名称格式名称一般由两部分组成,为“物理区域+监控部位”。
4.2.1. 标准配置表名称根据相应标准,名称选定优先依据配置表的表述。
信息技术 信息交换用汉字编码字符 集基本集的
![信息技术 信息交换用汉字编码字符 集基本集的](https://img.taocdn.com/s3/m/8214fa0d763231126edb11e5.png)
中华人民共和国国家标准
GB 18030— 2000
信息技术 信息交换用汉字编码字符 集 基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set (报批稿)
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分 本标准中,单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编 码的欧元符号。 5.2 双字节部分 本标准中,双字节的部分收录内容如下: GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。 汉字数字“〇” 。 表意文字描述符 13 个。 增补汉字和部首/构件 80 个。 双字节编码的欧元符号。 5.3 四字节部分 本标准的四字节的部分,收录了上述双字节字符之外的,包括 CJK 统一汉字扩充 A 在 内的 GB 13000.1 中的全部字符。 总体结构 本标准中,采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一 个字节均由八位二进制位串组成, 任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表 示。 单字节部分采用 GB 11383 的编码结构与规则,使用 0x00 至 0x80 码位。双字节部 分采用两个八位二进制位串表示一个字符,其首字节码位从 0x81 至 0xFE,尾字节码位分别 是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对 双字节编码扩充的后缀,这样扩充的四字节编码,其范围为 0x81308130 到 0xFE39FE39。见 表 1 及图 1。 6
汉字字符集的概念
![汉字字符集的概念](https://img.taocdn.com/s3/m/3056b9c2bb4cf7ec4afed069.png)
“计算机文化基础”教学辅导三Word 2000一、汉字字符集的概念1、国标GB2312-80《信息交换用汉字编码字符集》:该字符集收录了6763个常用汉字,其中一级汉字3755个,二级汉字3008个。
另外还收录了各种符号682个,合计7445个。
2、国标GB13000.1-1993(等同于国际标准ISO/IEC 10646.1-1993)《通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》:又称大字符集字库GBK,是《GB2312-80》、《GB12345-90》、《BIG5》等字符集标准的超集,一共收录了中、日、韩20902个汉字。
3、国标GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是未来我国计算机系统必须遵循的基础性标准之一,收录了27564个汉字。
二、汉字信息的编码知识1、区位码:GB2312-80字符集,组成一个94*94的矩阵。
每一行称为一个“区”,每一列称为一个“位”。
一个汉字的区号和位号合在一起构成“区位码”,区位码的编码范围是:0101~9494。
2、国标码:国标码=(区位码的十六进制表示)+2020H,国标码的取值范围:2121H~7E7EH。
3、机内码:中文或西文信息在计算机系统中的代码表示称为机内码。
ASCII码是一种西文机内码,用一个字节表示。
汉字机内码用连续两个字节表示,每个字节的最高位是1。
机内码= 国标码+8080H =(区位码的十六进制表示)+A0A0H。
GB2312-80的机内码编码范围为:A1A1H~FEFEH。
4、输入码:汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
主要分顺序码(无重码)、音码、形码和音形码或形音码四类。
5、字形码:(1)向量(矢量)法:将汉字分解成笔画,每种笔画使用一段段的直线(向量)近似地表示,这样每个字形都可以变成一连串的向量。
(2)点阵法(字模点阵码):每一个汉字以点阵形式存储在记录介质上,有点的地方为“1”,空白的地方为“0”。
汉字编码及区位码查询算法
![汉字编码及区位码查询算法](https://img.taocdn.com/s3/m/1b555d735acfa1c7aa00cc22.png)
汉字编码及区位码查询算法为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,简称GB18030。
由于国标码是四位十六进制,为了便于交流,大家常用的是四位十进制的区位码。
所有的国标汉字与符号组成一个94×94的矩阵。
在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。
一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。
在汉字的区位码中,高两位为区号,低两位为位号。
在区位码中,01-09区为682个特殊字符,16-87区为汉字区,包含6763个汉字。
其中16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。
从汉字到区位码的转换。
区位码是与汉字一一对应的编码,用四位数字表示,前两位从01 到94称区码,后两位从01到94称位码。
一个汉字的前一半为“160+区码”的字符,后一半为“160+位码”的字符。
例如:“刘”的区位码是3385,其意为区码33位码85,它是由160+33=193和160+85=245的两个字节组成。
即C1F5,它就是汉字的gb2312 编码。
下面程序将汉字gb2312 转为相应的区位码:#include <iostream>#include <iomanip>using namespace std;int main(){// temp[0] 为高字节,temp[1] 为低字节// 当输入单个ascii 字符时,只存进temp[0]// 当输入的不是中文或单个ascii 字符时,程序退出unsigned char temp[2];cin >> temp;while(temp[1]){cout << setw(2) << setfill('0') << temp[0] - 160; // 高2 位cout << setw(2) << setfill('0') << temp[1] - 160 << endl; // 低2 位// 输入下一个字符前,先将temp[1] 清零temp[1] = 0;cin >> temp;}return 0;}字符编码简介Unicode是一种字符编码规范。
国家行政机关电子公文交换格式技术规范
![国家行政机关电子公文交换格式技术规范](https://img.taocdn.com/s3/m/7ab3f10fbe1e650e53ea9904.png)
国家行政机关电子公文交换格式技术规范12国家行政机关电子公文交换格式技术规范目次前言 (IV)引言 (V)1 范围 (1)2 规范性引用文件 (1)3 术语和定义 (2)3.1 电子公文 electronic official document (2)3.2 基于XML的电子公文 electronic official document based on XML (2)3.3 公文体 document body (2)3.4 显现 display (2)3.5 命名空间 namespace (2)3.6 文档类型定义 DTD (3)3.7 模式 Schema (3)3.8 元素 element (3)3.9 属性 attribute (3)4 符号和缩略语 (3)I4.1 DTD (3)4.2 UML (3)4.3 W3C (3)4.4 XML (3)5 电子公文基本要素 (4)6 电子公文特性 (5)6.1 真实性 (5)6.2 可靠性 (5)6.3 完整性 (5)6.4 可用性 (5)7 电子公文分类 (6)7.1 党的机关公文 (6)7.2 行政机关公文 (6)7.3 其它机关公文 (6)8 电子公文处理过程 (6)8.1 过程模型 (6)8.2 创立 (7)8.3 显现 (7)8.4 办理 (7)8.5 交换 (7)II8.6 归档 (7)8.7 销毁 (7)9 标准各部分内容和相互关系 (8)9.1 各部分综述 (8)9.1.1 第1部分:总则 (8)9.1.2 第2部分:公文体 (8)9.1.3 第3部分:显现 (8)9.1.4 第4部分:办理 (8)9.1.5 第5部分:交换 (8)9.1.6 第6部分:归档 (9)9.1.7 第7部分:安全 (9)9.2 各部分之间相互关系 (9)9.3 各部分依赖关系模型 (10)10 电子公文XML描述规则 (11)10.1 字符集 (11)10.2 命名方法 (11)10.3 映射规则 (11)10.4 命名空间 (11)III。
(7条消息)汉字编码,GB2312、GB13000、GBK、GB18030介绍
![(7条消息)汉字编码,GB2312、GB13000、GBK、GB18030介绍](https://img.taocdn.com/s3/m/8d95f76ae418964bcf84b9d528ea81c758f52ece.png)
(7条消息)汉字编码,GB2312、GB13000、GBK、GB18030介绍1、GB2312、GB 13000、GBK、GB18030介绍GB 2312:又称为 GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。
GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。
该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。
制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。
GBK:随着信息技术在各行业应用的深入,GB 2312收录汉字数量不足的缺点已经初步显露出来。
例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。
1995年,全世界大多数的PC操作系统都实现了16/32位。
GB 13000.1的实现出现了一线曙光。
一方面为了对 GB 2312进行扩充,一方面顺应当时技术的发展向 GB 13000.1推进,同时兼顾当时最广泛采用 GB 2312内码系统。
原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。
在GBK的内码系统中,GB 2312汉字所在码位保持不便,这样,保证了 GBK对 GB 2312的完全兼容。
同时,GBK内码与 GB 13000.1代码一一对应,为 GBK向 GB 13000.1的转换提供了解决办法。
微软对 GB 2312的扩展,也就是 CP936字码表 (Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。
信息交换用汉字编码字符集
![信息交换用汉字编码字符集](https://img.taocdn.com/s3/m/19810c2e4b73f242326c5f07.png)
《信息交换用汉字编码字符集--基本集》—即国家标准 GB2312-80从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。
1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
以前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。
《GB2312-80》对 7445 个图形字符作了二进制数编码,这些图形字符是:6763 个汉字,字体为简化字,分成两级。
第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。
一、二级汉字约占累计使用频度 99.99% 以上。
202 个一般符号。
其中包括 1.~20.,(1)~(20),①~⑩,(-)~(+) 等。
22 个数字。
其中 0~9 共 10 个,Ⅰ~Ⅻ 共 12 个。
52 个拉丁字母。
其中大写字母A~Z 26 个,小写字母a~z 26 个。
169 个日文假名。
其中平假名 83 个,片假名 86 个。
48 个希腊字母。
其中大写字母Α~Ω24 个,小写字母α~ω 24 个。
66 个俄文字母。
其中大写字母А~Я33 个,小写字母а~я 33 个。
各类内码详细解析
![各类内码详细解析](https://img.taocdn.com/s3/m/59a0cbd433d4b14e8524682b.png)
转换内码gb2312为utf-8各类内码详细解析[日期:2009-04-29] 来源: 作者:sdiel 阅读:3706 次 [字体:大中小]GB2312 字符集GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。
它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。
在中国大陆和新加坡获广泛使用。
powered by GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445 个图形字符。
其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。
这种表示方式也称为区位码。
它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。
习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。
“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。
以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。
计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
GBK字符集GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。
GBK字符集主要扩展了繁体中文字的支持。
BIG5 字符集BIG5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码。
关于GB18030汉字编码标准集
![关于GB18030汉字编码标准集](https://img.taocdn.com/s3/m/bbd4fbd776a20029bd642d5e.png)
关于GB18030汉字编码标准集 2001/07/26 赛迪网-中国计算机报林宁清华大学经济管理硕士,信息产业部电子工业标准化研究所副所长,全国信息技术标准化技术委员会副秘书长,承担多项国家级项目的标准化工作,并曾出版多本著述。
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。
为保证该标准顺利贯彻执行,国家质监总局将在9月1日起首先对影响广泛的计算机操作系统进行执法检查,凡不符合该标准的产品,视为不合格产品。
为此,全国信息技术标准化技术委员会将根据有关标准和规范,组织对市场上主要的操作系统产品进行标准符合性检测。
检测要求及标准的制定1.须经检测的产品范围GB18030是信息产品必须遵循的基础性标准,考虑到一些客观实际,采取从基础抓起,分步实施的策略。
本次对必须经检测产品的范围规定如下:●个人计算机操作系统产品须经标准符合性测试,其他产品暂不做要求;●凡是在GB 18030发布日期(2000年3月17日)前正式发布或出厂的产品,视为历史性产品,不在GB 18030的监督检查范围之内;●在2000年3月17日后对历史性产品的更新版本或升级版本作为新产品对待;●凡是在GB 18030实施过渡期间(即2000年3月17日至2001年8月31日)正式发布或出厂的产品,应符合GB 18030相关要求。
不符合标准要求的产品应采用补救措施,以达到符合标准的相关要求。
补救措施应得到全国信息技术标准化技术委员会的认可;●凡是在GB 18030过渡期(即2001年8月31日)后正式发布或出厂的产品,必须符合GB 18030相关要求。
2.关于标准符合性测试为了配合GB 18030的实施,信息处理产品标准符合性检测中心(设在信息产业部电子工业标准化研究所)开展了GB 18030各项测试的准备工作,并且对国内外多个产品进行了测试。
区位码国标码机内码转换问题
![区位码国标码机内码转换问题](https://img.taocdn.com/s3/m/c9941c086c85ec3a87c2c5ae.png)
国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有一个相对位置差的代码,;再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。
如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。
输入码、区位码、国标码与机内码国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。
GB2312 80中共有7445个字符符号:汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列)二级汉字3008个(按部首笔划顺序排列)非汉字符号682个GB2312 80规定,我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉字时的编码。
目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
汉字交换码(国标码)主要用于汉字信息交换,我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),;所有的国标码汉字及符号组成一个94行94列的二维代码表中。
在此方阵中,每一行称为一个"区",每一列称为一个"位"。
这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。
达梦数据库要求的字符集
![达梦数据库要求的字符集](https://img.taocdn.com/s3/m/01c0ff5bf4335a8102d276a20029bd64793e627c.png)
达梦数据库要求的字符集
【最新版】
目录
1.达梦数据库简介
2.达梦数据库支持的字符集
3.达梦数据库字符集的选用建议
4.总结
正文
【达梦数据库简介】
达梦数据库(DM)是我国自主研发的一款关系型数据库管理系统,具有高性能、高可靠性、高安全性等特点。
自 1988 年开始研发以来,已经经历了多个版本的迭代,广泛应用于各个行业领域,为我国的信息化建设做出了重要贡献。
【达梦数据库支持的字符集】
达梦数据库支持多种字符集,包括:
1.GBK:是我国国家标准汉字信息交换编码,包含了 6763 个字符,包括常用汉字、繁体字和一些符号等。
2.GB18030:是我国国家标准《信息交换用汉字编码字符集基本集的扩充》,包含了 27536 个字符,覆盖了大部分古今汉字和一些符号等。
3.UTF-8:是一种可变长度的编码方式,可以表示世界上所有的字符,包括汉字、英文字符、数字和符号等。
【达梦数据库字符集的选用建议】
在选择达梦数据库的字符集时,需要根据实际业务需求和数据量来选择。
对于一般的中文信息处理系统,可以选择 GBK 字符集,其覆盖的汉
字已经足够日常使用。
对于涉及大量古籍、方言等特殊场景,可以选择GB18030 字符集。
而对于涉及到国际化的场景,可以选择 UTF-8 字符集。
【总结】
总的来说,达梦数据库支持多种字符集,为用户提供了灵活的选择。
计算机操作试题及答案汇总
![计算机操作试题及答案汇总](https://img.taocdn.com/s3/m/9c5c3c621ed9ad51f01df26a.png)
计算机操作试题及答案汇总一、单项选择题1 下面选项是对信息的实质的理解和说明,其中错误的选项是________。
信息就是计算机的处理对象信息就是关于事物运动的状态和规律的知识信息就是信息,既不是物质,也不是能量信息就是人类同外部世界进行交换的内容的名称 A2 计算机技术和_________构成了现代信息技术的核心内容。
微电子技术通信技术能源技术材料技术3 信息技术的发展大致经历了符号信息时代、模拟信息时代和_________三个阶段。
媒体信息时代电子信息时代数字信息时代知识信息时代 C4 信息技术在教学中常用作获取学习资源的工具,人们常说,"因特网是知识的海洋"。
在用IE浏览网页时,下面几种操作中可将图片保存下来的是__________。
使用菜单:文件-保存将图片选中,复制下来在图片上单击右键,在出现的快捷菜单中选:图片另存为使用菜单:收藏-添加到收藏夹。
5 下面选项中列举的技术,不属于现代自然科学的三大支柱技术的是__________。
信息技术材料技术能源技术传感技术 D6 下列有关信息技术说法不正确的是__________。
信息技术包括传感技术和缩微技术计算机技术与微电子技术构成了信息技术的核心内容传感技术的任务是延长人的感觉器官收集信息的功能缩微技术具有延长人的记忆器官存储信息的功能7 将信息技术作为知识获取工具,主要有三个获取途径,其中只有________不属于主要获取途径。
利用搜狐等搜索引擎利用各种教育科研等网站利用OICQ等通信工具利用地区或学校教育资源库C8 在数字化学习环境下,关于信息技术有助于学习者知识建构的说法不准确的是__________。
利用"几何画板"、"作曲"、"作图"工具,培养学生创作作品的能力利用汉字输入和编辑排版工具,培养学生的信息组织、意义建构能力利用网页开发工具,培养学生对信息的甄别、获取、和应用组织能力利用电子公告牌等网络通信工具培养学生的独立思考、对话交流和团队合作能力 D9 信息技术提供的数字化学习环境具有强大的通信功能,下面列举的软件或系统全部是常用网络通信工具的选项是_________。
五笔字型输入法教程
![五笔字型输入法教程](https://img.taocdn.com/s3/m/34bdbff43186bceb19e8bb9f.png)
例:计算机__YTSM,教育部__FYUK 例:五讲四美__GYLU,蜀犬吠日__LDKJ
例:王顾左右而言他__GDDW
万能学习键Z
1.代替识别码 例:个: WHZ
2.代替字根
例:菥:ASZ
部分难拆字
矛 CBT 年 RH 段 WDMC 民 NA 牙 AHT 尴尬 DNDN 兆 IQV 拜 身 怎 乐 东 鸩 敖 RDFH 凹 MMGD TMDT 凸 HGMG THFN 追 WNNP QI 囊 GKH AI 鹤 PWY PQQ 率 YXI GQTY 卑 RTFJ
1.2 汉字的三个层次
1.笔画
①横 ②竖 ③撇 ④捺 ⑤折 .提为横
2.字根
札
.点为捺 .竖钩为竖 .带转折笔划为折
注意 : 3.单字
1.2 汉字的三个层次
2.字根
.概念:由五种笔画组成的相对不变的结构 .数量:基本字根约130个,加上变形共200个左右 .分布:除Z键外划分为5个区,每区5个键位--区位号
常用五笔输入方法 1. 微软Office自带五笔 2.搜狗五笔 3.极品五笔 4.陈桥五笔 5.万能五笔 6.海峰五笔 注:拼音输入法的辅助功能
ห้องสมุดไป่ตู้
学习软件与工具
1.五笔打字通 2.金山打字通 3.字根图
练
习
打开“记事本”,切换到“王码五笔型 输入法86版”,然后输入下列编码:
1. kwwl 2. mait 3. uxxa 4. gtpg 4. 除了Z键外,连按任一个字母键四下
1.9五笔字型简码输入规则
2. 二级简码 输入规则:该字前二码+空格 例:燕:AU 3. 三级简码 餐:HQ 事:GK
输入规则:该字前三码+空格
例:输:LWG 喜:FKU 巍:MTV
什么是GB18030-2000
![什么是GB18030-2000](https://img.taocdn.com/s3/m/70b03ad3d5bbfd0a79567382.png)
什么是GB18030-2000
2000年3月,国家信息产业部和质量技术监督局在北京联合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27000
多个汉字,还收录了藏、蒙、维等主要少数民族的文字,该标准于2000年12月31日强制执行。
GB18030-2000 作为 GBK for Unicode 3.0 的更新而诞生,并且作为GB2312-80《信息交换用汉字编码字符集基本集》的扩展,向下兼容 GBK 和 GB2312-80标准。
GB18030 编码是一二四字节变长编码:一字节部分从 0x0~0x7F 与ASCII 编码兼容。
二字节部分,首字节从 0x81~0xFE,尾字节从0x40~0x7E 以及0x80~0xFE,与 GBK标准基本兼容。
四字节部分,第一字节从 0x81~0xFE,第二字节从 0x30~0x39,第三和第四字节的范围和前两个字节分别相同。
四字节部分覆盖了从 0x0080 开始,除去二字节部分已经覆盖的所有Unicode 3.0码位。
也就是说, GB18030 编码在码位空间上做到了与Unicode 标准一一对应,包含了CJK + CJK扩展A的全部汉字。
GB18030是我国继GB2312-80和GB13000-1993之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。
编码空间超过150万个码位,为彻底解决邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题提供了解决方案,也为汉字研究、古籍整理等领域提供了统一的信息平台基础。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息交换用汉字编码字符集基本集的扩充》(2001-09-24)
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。
为保证该标准顺利贯彻执行,国家质监总局从9月1日起首先对影响广泛的计算机操作系统进行执法检查,凡不符合该标准的产品,视为不合格产品。
为此,全国信息技术标准化技术委员会将根据有关标准和规范,组织对市场上主要的操作系统产品进行标准符合性检测。
检测要求及标准的制定
1.须经检测的产品范围
GB18030是信息产品必须遵循的基础性标准,考虑到一些客观实际,采取从基础抓起,分步实施的策略。
本次对必须经检测产品的范围规定如下:
●个人计算机操作系统产品须经标准符合性测试,其他产品暂不做要求;
●凡是在GB18030发布日期(2000年3月17日)前正式发布或出厂的产品,视为历史性产品,不在GB18030的监督检查范围之内;
●在2000年3月17日后对历史性产品的更新版本或升级版本作为新产品对待;
●凡是在GB18030实施过渡期间(即2000年3月17日至2001年8月31日)正式发布或出厂的产品,应符合GB18030相关要求。
不符合标准要求的产品应采用补救措施,以达到符合标准的相关要求。
补救措施应得到全国信息技术标准化技术委员会的认可;
●凡是在GB18030过渡期(即2001年8月31日)后正式发布或出厂的产品,必须符合GB18030相关要求。
2.关于标准符合性测试
为了配合GB18030的实施,信息处理产品标准符合性检测中心(设在信息产业部电子工业标准化研究所)开展了GB18030各项测试的准备工作,并且对国内外多个产品进行了测试。
为了指导标准实现者沿着正确的方向尽快在产品上实现GB18030,信息处理产品标准符合性检测中心于2000年11月提出了《GB18030标准符合性检测规范》。
《检测规范》对检测使用的软件和硬件环境、测试要求、测试步骤、适用范围等做了明确而详细的规定。
检测一般要求如下:
●字汇完整性:产品的字汇范围应是国家标准GB18030中所有给出字形的字符;
●体系正确性:产品必须能够正确识别和处理按照国家标准GB18030进行编码的文本文件。
需要说明的是:检测范围不包括嵌入系统,如PDA、手机;单字节货币符号的编码不在检测范围之内;操作系统为近期检查重点。
3.对少数民族文字的支持
●产品应具备支持GB18030所规定我国少数民族文字编码空间的能力;
●销往我国少数民族地区的产品,鼓励安装当地少数民族字体和输入方法。
4.按国际惯例制定标准
GB18030收录了27484个汉字,总编码空间超过150万个码
位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。
目前,我国大部分计算机系统仍然采用GB2312编码。
GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。
从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB18030是我国目前较好的选择,而GB13000.1更适用于未来国际间的信息交换。
考虑到GB18030和GB13000的兼容问题,标准起草组编制了GB18030与GB13000.1的代码映射表,使得两个编码体系可以自由转换。
同时,还开发了GB18030基本点阵字型库。
世界许多国家和地区从方便本国和民族应用的角度出发,制定了相应的编码标准和内码体系。
制定GB18030同样符合国际惯例,它全面兼容GB2312,在字汇上兼容GB13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软件产业留有巨大的发展空间。
可以相信,GB18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。