常用字符集编码详解:ASCII、GB2312、GBK、GB18030、...

合集下载

GB2312GB_13000_GBKGB18030介绍讲解

GB2312GB_13000_GBKGB18030介绍讲解

1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312:又称为GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。

GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。

该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。

制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。

GBK:随着信息技术在各行业应用的深入,GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年,全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充,一方面顺应当时技术的发展向GB 13000.1 推进,同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。

在GBK的内码系统中,GB 2312 汉字所在码位保持不便,这样,保证了GBK 对GB 2312 的完全兼容。

同时,GBK 内码与GB 13000.1 代码一一对应,为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展,也就是CP936 字码表(Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。

GB2312、GB 13000、GBK、GB18030 介绍和说明文档

GB2312、GB 13000、GBK、GB18030 介绍和说明文档

1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312:又称为GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。

GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。

该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。

制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。

GBK:随着信息技术在各行业应用的深入,GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年,全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充,一方面顺应当时技术的发展向GB 13000.1 推进,同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。

在GBK的内码系统中,GB 2312 汉字所在码位保持不便,这样,保证了GBK 对GB 2312 的完全兼容。

同时,GBK 内码与GB 13000.1 代码一一对应,为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展,也就是CP936 字码表(Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、...

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、...

ASCIIASCII码是7位编码,编码范围是0x00-0x7F。

ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中0x00-0x20和0x7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。

HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。

区位码一般用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。

在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。

它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。

一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0x7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名,和GB2312完全相同。

区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。

mysql 常用编码格式

mysql 常用编码格式

mysql 常用编码格式
MySQL 支持多种字符集,以下是常用的编码格式:
1. UTF-8:UTF-8 是一种 Unicode 编码,支持多种语言字符,是目前互联网上最常用的字符集。

MySQL 默认使用 UTF-8 编码。

2. latin1:latin1 是一种单字节编码,支持西欧语言字符。

3. gbk:gbk 是一种中文字符集编码,主要用于简体中文。

4. big5:big5 是一种繁体中文字符集编码。

5. gb2312:gb2312 是一种简体中文字符集编码。

在创建数据库或表时,可以使用 `CHARACTER SET` 关键字指定字符集,例如:
```sql
CREATE DATABASE mydb DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```
在插入或更新数据时,也可以使用 `CHARACTER SET` 关键字指定字符集,例如:
```sql
INSERT INTO mytable (name) VALUES ('你好') CHARACTER SET utf8mb4;
```
注意,在使用不同编码格式时,要确保数据的一致性和兼容性。

编码标准:ASCII、GBK、Unicode(UTF8、UTF16、UTF32)

编码标准:ASCII、GBK、Unicode(UTF8、UTF16、UTF32)

编码标准:ASCII、GBK、Unicode(UTF8、UTF16、UTF32)
英⽂编码(单字节字符集,码值范围0~127):字节最⾼位是0
ASCII编码,⽤于英⽂字符。

中⽂编码(双字节字符集):⾸字节(8位)的最⾼位是1。

可依据⾸字节最⾼位来判断中英⽂。

GB2312,旧版,6763个汉字。

GBK,中⽂字符升级版,21000多个汉字。

国际编码:Unicode编码,各国语⾔字符
不同编码⽅式,值不同,如“中”的GBK编码:0xD6D0,Unicode编码:0x4E2D
Unicode编码的3种实现⽅式:UTF8、UTF16、UTF32。

UTF8变长编码,智能分配1-4个字节。

UTF16定长编码,2个字节。

UTF32定长编码,4个字节。

UTF16编码,中英⽂字符都占2个字节。

其定义的类型称为宽字符类型wchar_t,使⽤⽅式如下
wchar_t d[] = L"中国"; //宽字符类型
wcout.imbue(locale("chs"));//Windows系统,语⾔设置为简体中⽂。

Unicode转GBK
wcout << d; //宽字符输出,中国。

GB2312,GBK,GB18030这几种字符集主要的区别是什么?

GB2312,GBK,GB18030这几种字符集主要的区别是什么?

GB2312,GBK,GB18030这几种字符集主要的区别是什么?早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年):16位字符集,收录有6763个简体汉字,682个符号,共7445个字符;优点:适用于简体中文环境,属于中国国家标准,通行于大陆,新加坡等地也使用此编码;缺点:不兼容繁体中文,其汉字集合过少。

GBK(1995年):16位字符集,收录有21003个汉字,883个符号,共21886个字符;优点:适用于简繁中文共存的环境,为简体Windows所使用(代码页cp936),向下完全兼容gb2312,向上支持 ISO-10646 国际标准;所有字符都可以一对一映射到unicode2.0上;缺点:不属于官方标准,和big5之间需要转换;很多搜索引擎都不能很好地支持GBK汉字。

GB18030(2000年):32位字符集;收录了27484个汉字,同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准;缺点:目前支持它的软件较少。

补充:•现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。

所以手机、MP3一般只支持GB2312。

•从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。

在这些编码中,英文和中文可以统一地处理。

区分中文编码的方法是高字节的最高位不为0。

GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

•GB18030是中国所有非手持/嵌入式计算机系统的强制实施标准。

各种文字编码简介+常见的编码都有介绍

各种文字编码简介+常见的编码都有介绍

各种文字编码简介ASCIIASCII码是7位编码,编码范围是0×00-0×7F。

ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中0×00-0×20和0×7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。

HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。

区位码一般用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。

在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。

它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。

一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0×7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名,和GB2312完全相同。

区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

中文编码解析

中文编码解析

中文编码解析中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8(Unicode Transformation Format-8 bits):UTF-8是一种可变长度的字符编码方式,可以表示任何Unicode标准中的字符。

UTF-8编码的字符以1到4个字节表示,最多可以表示21位的数字。

UTF-8编码是目前互联网上最常见的编码方式之一,因为它可以兼容ASCII 编码,并且支持全球范围内的语言文字。

2. GBK(GuóBǐng Kǎo):GBK是一种双字节字符编码方式,用于简体中文。

它兼容GB2312编码,但支持更多的字符集。

GBK编码的字符以1到2个字节表示,最多可以表示16位的数字。

3. GB2312(GuóBǐng 2312):GB2312是一种单字节字符编码方式,用于简体中文。

它支持6000多个常用汉字和一些标点符号、数字和字母。

GB2312编码的字符以1个字节表示,最多可以表示94位的数字。

4. BIG5(Bǐng Wén GuóTōng):BIG5是一种双字节字符编码方式,用于繁体中文。

它兼容GB2312编码,但支持更多的字符集。

BIG5编码的字符以1到2个字节表示,最多可以表示16位的数字。

在进行中文编码解析时,需要先将中文字符转换为相应的编码方式,然后再进行传输或存储。

在接收或读取时,需要将编码方式还原为中文字符,以便正确显示或处理。

常见的中文编码解析工具包括iconv、libiconv等。

中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8(Unicode Transformation Format-8 bits):UTF-8是一种可变长度的字符编码方式,可以表示任何Unicode标准中的字符。

常见的文字编码格式

常见的文字编码格式

常见的文字编码格式
GB2312字符集
作用:国家简体中文字符集,兼容 ASCII。

位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。

范围:高字节从A1-A7,低字节从A1到 FE 。

将高字节和低字节分别加上0xA0即可得到编码。

GBK 字符集
作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。

位数:使用2个字节表示,可表示21886个字符。

范围:高字节从81到 FE ,低字节从40到 FE。

GB18030字符集
作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。

位数:它采用变字节表示(1ASCII,2,4字节)。

可表示27484个文字。

范围:1字节从00到7F;2字节高字节从81到 FE,低字节从40到7E和80到 FE ;4字节第一三字节从81到 FE,第二四字节从30到39。

汉字字符集编码

汉字字符集编码

汉字字符集编码
汉字字符集编码是指将汉字转换为计算机可以使用的编码方案,常用的汉字字符集编码方案有GBK、GB2312、UTF-8等。

以下是一些常见的汉字字符集编码及其用途:
1. GBK:GBK编码是将GB2312字符集扩展到5位,用于存储大部分中文汉字。

GBK编码在Windows和MacOS操作系统中广泛使用,也被许多中文应用(如网页、电子书等)所支持。

2. GB2312:GB2312编码是一种基于UTF-8的字符集编码方案,用于存储中文字符。

与UTF-8相比,GB2312在某些情况下可能会出现编码错误,但比UTF-8更稳定。

3. UTF-8:UTF-8是一种无符号多字节编码方案,可以表示任意汉字。

UTF-8编码在中文字符的存储和传输方面都是最好的选择,但在一些情况下可能会出现编码错误。

4. ASCII: ASCII编码是一种单字节编码方案,用于存储只有字符和符号。

虽然ASCII编码可以表示所有的中文字符,但在传输和存储时可能会出现编码错误。

在实际应用中,选择合适的汉字字符集编码方案取决于具体需求和设备。

ASCII表、ASCII中英文对照表和键盘常用ASCII码

ASCII表、ASCII中英文对照表和键盘常用ASCII码

ASCII 表、ASCII 中英文对照表和键盘常用ASCII码
一、ASCII 概述。

目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。

适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。

因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以表示(22)=4种状态:00、01、10、11;依次类推,7位二进制数可以表示(27=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。

所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。

第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;
第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

二、ASCII 中英文对照表
二、ASCII 对照表
三、键盘常用ASCII码。

各类内码详细解析

各类内码详细解析

转换内码gb2312为utf-8各类内码详细解析[日期:2009-04-29] 来源: 作者:sdiel 阅读:3706 次 [字体:大中小]GB2312 字符集GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。

它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。

在中国大陆和新加坡获广泛使用。

powered by GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445 个图形字符。

其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。

这种表示方式也称为区位码。

它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。

习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。

计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

GBK字符集GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。

GBK字符集主要扩展了繁体中文字的支持。

BIG5 字符集BIG5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码。

ascii码 中文编码规则

ascii码 中文编码规则

ascii码中文编码规则
"ascii码中文编码规则"这句话的意思是:将英文字符和符号编入电脑的方式或过程称为ASCII码,中文的编码规则指的是将中文字符和符号编入电脑的方式或过程。

"ascii码中文编码规则"具体包括:
1.ASCII码:这是最基础的编码规则,主要用于英文字符。

它将每一个英文
字母、数字或符号分配一个独特的码位,这些码位是以十进制表示的,并且在0-127的范围内。

2.中文编码规则:有多种中文编码规则,例如GB2312、GBK、GB18030和
UTF-8等。

这些规则定义了中文字符与二进制代码之间的对应关系。

例如,GB2312是最早的国家标准编码,它收录了6000多个常用的汉字和英文符号;GBK是在GB2312的基础上扩展而来的,支持更多的汉字和符号;
GB18030是更新的国家标准编码,支持更多的汉字和其他符号;而UTF-8是一种可变长字符编码,它支持多种语言,包括中文。

总结:"ascii码中文编码规则"这句话具体指的是将英文字符和中文字符编入电脑的方式或过程,其中ASCII码是英文字符的编码规则,而中文的编码规则有多种,例如GB2312、GBK、GB18030和UTF-8等。

这些编码规则定义了中文字符与二进制代码之间的对应关系,使得计算机可以正确地处理和存储中文字符。

GB2312、GBK、GB18030字节对照

GB2312、GBK、GB18030字节对照

GB2312、GBK、GB18030字节对照字节对照第一字节:ASCII:00-7FGB2312:A1-FE(实际A1-A9/B0-F7)(A1-A9为符号,B0-F7为汉字)(单字节编码同ASCII)BIG-5:81-FE(实际A1-F9)(81-A0/F9-FE为用户自定义使用)(单字节编码同ASCII)GBK:81-FE(单字节编码同ASCII)GB18030:81-FE(单字节编码同ASCII)(双字节编码同GBK)(四字节编码实际81-84/90-E3)第二字节:GB2312:A1-FEBIG-5:40-7E、A1-FEGBK:40-FE(7F去除)GB18030:30-39 、40-FE(7F去除)(双字节编码同GBK)(四字节编码30-39)第三字节:GB18030:81-FE第四字节:GB18030:30-39附GBK编码空间GBK/1:A1A1-A9FE,GB2312非汉字符号717个GBK/2:B0A1-F7FE,GB2312汉字6763个GBK/3:8140-A0FE,CJK汉字6080 个GBK/4:AA40-FEA0,CJK汉字、增补汉字及《简化字总表》中未收入 GB 13000.1 的 52 个汉字,共8160个汉字GBK/5:A840-A9A0,BIG5收入GB13000.1的非汉字符号、结构符和“○”,共166个符号用户自定义区:1区:AAA1-AFFE,码位 564 个。

2区:F8A1-FEFE,码位 658 个。

3区:A140-A7A0,码位 672 个。

常见字符编码辨析

常见字符编码辨析

常见字符编码辨析在说常见的字符编码(ASCII、gb2312、gbk、utf-8等)之前,我们先来看看编码的历史吧。

编码编年史•先是ASCII编码,使用一个字节的7位来表示128个字符(大小写字母,数字0到9、标点符号、及在美式英语中使用的特殊控制字符);•表示的字符实在太少,出现了EASCII,EASCII码比ASCII码扩充出来的128符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号;•太小家子气了,中国使用两个字节扩充了ASCII,称之为GB2312,支持汉字6763个和非汉字图形字符682个;•罕用字和繁体字GB2312处理不过来,GBK及GB 18030汉字字符集相继出现以解决这个问题;•ISO(国际标准化组织)看不下去了,制定了专为解决传统的字符编码方案的局限性的Unicode;•为了节约传输消耗和存储空间,UTF-8和UTF-16应运而生;•Base64主要是为了解决有些系统只能使用ASCII的尴尬,本身比较适合处理文本数据的传输和存储;•encodeUriComponent:它是将中文、韩文等特殊字符转换成utf-8格式的url编码。

ASCII编码ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。

它主要用于显示现代英语,而其扩展版本EASCII则可以部分支持其他西欧语言,并等同于国际标准ISO/IEC 646。

ASCII第一次以规范标准的型态发表是在1967年,最后一次更新则是在1986年,至今为止共定义了128个字符;其中33个字符无法显示(一些终端提供了扩展,使得这些字符可显示为诸如笑脸、扑克牌花式等8-bit符号),且这33个字符多数都已是陈废的控制字符。

控制字符的用途主要是用来操控已经处理过的文字。

在33个字符之外的是95个可显示的字符,包含用键盘敲下空白键所产生的空白字符也算1个可显示字符(显示为空白)。

中文编码字符集标准大全

中文编码字符集标准大全

中文编码字符集标准大全国家标准代码,简称国标码,是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。

现时中华人民共和国官方强制使用GB 18030标准,但较旧的计算机仍然使用GB 2312。

较常见的国家汉字标准代码列表:GB 2312-80信息交换用汉字编码字符集基本集(又称 GB 或 GB0)GB 13000.1-93信息技术通用多八位编码字符集(UCS)第一部分(相当于 ISO 10646-1:1993 中文版)GB 18030-2005信息技术中文编码字符集---GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5 月1日实施。

GB2312编码通行于中国大陆;新加坡等地也采用此编码。

中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

--GB 13000,中华人民共和国国家标准的国家标准代码之一,全称 GB 13000.1-93《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。

此标准等同采用国际标准化组织 ISO/IEC 10646.1:1993《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。

GB 13000的字符集包含20,902个汉字。

--GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。

ASCII 表、ASCII 中英文对照表和键盘常用ASCII码

ASCII 表、ASCII 中英文对照表和键盘常用ASCII码

ASCII 表、ASCII 中英文对照表和键盘常用ASCII码一、ASCII 概述。

目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。

适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。

因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以表示(22)=4种状态:00、01、10、11;依次类推,7位二进制数可以表示(27=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。

所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。

第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

二、ASCII 中英文对照表二进制十进制十六进制缩写/全称解释00000000 0 00 NUL(null)空字符00000001 1 01 SOH(start of handing)标题开始00000010 2 02 STX(start of text)正文开始00000011 3 03 ETX(end of text)正文结束00000100 4 04 EOT(end of transmission)传输结束00000101 505 ENQ(enquiry)请求00000110 6 06 ACK(acknowledge)收到通知00000111 7 07 BEL(bell)响铃00001000 8 08 BS(backspace)退格00001001 9 09 HT(horizontal tab)水平制表符00001010 100A LF(NL line feed, newline)换行键00001011 11 0B VT(vertical tab)垂直制表符00001100 12 0C FF(NP form feed, newpage)换页键00001101 13 0D CR(carriagereturn)回车键00001110 140E SO(shift out)不用切换00001111 15 0F SI(shift in)启用切换00010000 16 10 DLE(data link escape)数据链路转义00010001 17 11 DC1(device control 1)设备控制1 00010010 18 12 DC2(device control 2)设备控制2 00010011 1913 DC3(device control 3)设备控制3 00010100 20 14 DC4(device control 4)设备控制4 00010101 21 15 NAK(negative acknowledge)拒绝接收00010110 22 16 SYN(synchronous idle)同步空闲00010111 23 17 ETB(endof trans. block)传输块结束00011000 2418 CAN(cancel)取消00011001 25 19 EM(end of medium)介质中断00011010 26 1A SUB(substitute)替补00011011 27 1B ESC(escape)溢出0001110028 1C FS (file separator)文件分割符00011101 291D GS(group separator)分组符00011110 30 1E RS(record separator)记录分离符00011111 31 1F US(unit separator)单元分隔符00100000 32 20空格00100001 33 21 !00100010 3422 "00100011 35 23 #00100100 36 24 $00100101 37 25 %00100110 38 26 &00100111 39 27 '00101000 4028 (0010100141 29 )00101010 42 2A *00101011 43 2B +00101110 46 2E . 00101111 47 2F / 00110000 48 30 0 00110001 49 31 1 00110010 50 32 2 00110011 51 33 3 00110100 52 34 4 00110101 53 35 5 00110110 54 36 6 00110111 55 37 7 00111000 56 38 8 00111001 57 39 9 00111010 58 3A : 00111011 59 3B ; 00111100 60 3C < 00111101 61 3D = 00111110 62 3E > 00111111 63 3F ? 01000000 64 40 @ 01000001 65 41 A 01000010 66 42 B 01000011 67 43 C 01000100 68 44 D 01000101 69 45 E 01000110 70 46 F 01000111 71 47 G 01001000 72 48H 01001001 73 49 I 01001010 74 4A J 01001011 75 4B K 01001100 76 4C L 01001101 77 4D M 01001110 78 4E N 01001111 79 4F O 01010000 80 50 P 01010001 81 51 Q 01010010 82 52 R 01010011 83 53 S 01010100 84 54T 01010101 85 55 U 01010110 86 56 V 01010111 87 57W 01011000 88 58 X 01011001 89 59 Y 01011010 90 5A Z 01011011 91 5B [01011110 94 5E ^ 01011111 95 5F _ 01100000 96 60 ` 01100001 97 61 a 01100010 98 62 b 01100011 99 63 c 01100100 100 64 d 01100101 101 65 e 01100110 102 66 f 01100111 103 67 g 01101000 104 68 h 01101001 105 69 i 01101010 106 6A j 01101011 107 6B k 01101100 108 6C l 01101101 109 6D m 01101110 110 6E n 01101111 111 6F o 01110000 112 70 p 01110001 113 71 q 01110010 114 72 r 01110011 115 73 s 01110100 116 74 t 01110101117 75 u 01110110118 76 v 01110111 119 77 w 01111000 120 78 x 01111001 121 79 y 01111010 122 7A z 01111011 123 7B{ 01111100 124 7C | 01111101 125 7D } 01111110 126 7E ~ 01111111 127 7F DEL二、ASCII 对照表三、键盘常用ASCII码。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ASCII
ASCII 码是7位编码,编码范围是0x00-0x7F ASCII 字符集包括英文字母、 阿拉伯数字和标点符号等字符。

其中 0x00-0x20和0x7F 共33个控制字符。

只支持ASCI 码的系统会忽略每个字节的最高位,只认为低 7位是有效位。

HZ 字符编码就是早期为了在只支持 7位ASCII 系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII 编码,为了传输中文邮件必须使用 BASE64或 者其他编码方式。

GB2312
GB2312是基于区位码设计的,区位码把编码表分为 94个位,每个字符的区号和位号组合起来就是该汉字的区位
码。

10进制数来表示,如 1601就表示 16区1 位,对应的字符是 区号和位号上分别加上0xA0就得到了 GB2312编
码。

区位码中 01-09区是符号、数字区, 16-87区是汉字区,
未定义的空白区。

它将收录的汉字分成两级:
第一级是常用汉字计 3755 个,置于 16-55 区,按汉语拼音字母 /笔形顺序排 列;第二级汉字是次常用汉字计 3008 个,置于 56-87 区,按部首 /笔画顺序排 列。

一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中 的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片 假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。

可以 用繁体汉字测试某些系统是不是只支持 GB2312编码。

GB2312的编码范围是0xA1-0x7E 去掉未定义的区域之后可以理解为实际 编码范围是 0xA1-0xF7FE 。

EUC-CN 可以理解为GB2312的别名,和GB2312完全相同。

区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而 94个区,每个区对应 区位码一般用 “啊”。

在区位码的
10-15和 88-94是
GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

HZ和ISO-
2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉
字。

区位码和GB2312编码的关系有点像Unicode和UTF-&
GBK
GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了
Uni code基本多文种平面中的所有CJK汉字。

同GB2312 一样,GBK也支持希腊
字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。

GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。

GBK的整体编码范围是为0x8140-0xFE不包括低字节是0X 7的组合。

高字节范围是0X81-0xFE低字节范围是0X40-7E和0x80-0xFE低字节是0x40- 0x7E的GBK字符有一定特殊性,因为这些字符占用了ASCI码的位置,这样会给一些系统带来麻烦。

有些系统中用0x40-0x7E中的字符(如“I)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个GBK字符的低字节,这样就会造成错误判断。

在支持GB2312的环境下就不存在这个问题。

需要注意的是支持GBK的
环境中小于0x80的某个字节未必就是ASCII符号;另外就是最好选用小于0X 40 的ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。

Big5编码中也存在相应问题。

CP936和GBK的有些许差别,绝大多数情况下可以把CP936当作GBK的别名。

GB18030
GB18030编码向下兼容GBK和GB2312兼容的含义是不仅字符兼容,而且相同字符的编码也相同。

GB18030收录了所有Unicode
3.1中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。

GBK和GB2312都是双字节等宽编码,如果算上和ASCI兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。

GB18030编码是变长编码,
有单字节、双字节和四字节三种方式。

GB18030的单字节编码范围是0x00-0x7F,完全等同与ASC;双字节编码的范围和GBK相同,高字节是0x81-0xFE低字节的编码范围是0x40-0x7E和0x80- FE四字节编码中第一、三字节的编码范围是0x81-0xFE二、四字节是0x30-
0x39。

Windows中CP936代码页使用0x80来表示欧元符号,而在GB18030编码中没有使用0x80编码位,用其他位置来表示欧元符号。

这可以理解为是GB18030
向下兼容性上的一点小问题;也可以理解为0x80是CP936对GBK的扩展,而
GB18030只是和GBK兼容良好。

unicode
每一种语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。

因而人们制定了一个世界标准,叫做uni code。

uni code为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。

也就是说,它世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。

Unicode 的最初目标,是用1 个16 位的编码来为超过65000字符提供映
射。

但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题
(im pla ntati on head-ache's),尤其在那些基于网络的应用中。

已有的软件必须做大量的工作来程序16 位的数据。

因此,Unicode 用一些基本的保留字符制定了三套编码方式。

它们分别是UTF-8,UTF-16和UTF-32正如名字所示,在UTF- 8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。

这种方式的最大好处,是UTF—8 保留了ASCI字符的编码做为它的一部分,例如,在UTF-8和ASCI中, “A”编
码都是0x
41.
UTF—16和UTF— 32分别是Uni code的16位和32位编码方式。

考虑到最初的目的,通常说的Uni code就是指UTF-16在讨论Un icode时,搞清楚哪种编码方式非常重要。

UTF-8
Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。

是用以解决国际上字符的一种多字节编码,它对英文使用8 位(即一个字节),中文使用24为(三个字节)来编码。

UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。

UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。

如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。

GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。

GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。

GBK GB2312等与UTF8之间都必须通过Uni code编码才能相互转换:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF-8 节省空间。

不过现在很多论坛的插件一般只支持GBK。

相关文档
最新文档