西文字符编码与汉字编码16页PPT
2.3.2--汉字信息的编码与交换
第二讲计算机信息数字化基础☐汉字信息的编码与交换●字数多。
共6万左右,需要的编码多。
●字形复杂。
20画以上需要字模点阵多。
●同音字多。
需要输入方法灵活。
计算机对于汉字的处理实际上就是对各种汉字代码进行转换。
汉字的特点⏹字符信息编码与标准交换☐西文字符的编码与标准交换☐汉字信息的编码与交换☐通用字符编码集UCS汉字信息处理☐汉字信息的编码与交换输入码●zhong 中种终全拼●zh中这找真智能拼音●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换国标码:也称汉字信息交换码,用区编码和位编码对汉字进行编码。
国标码分为以下几类:●GB 2312-80●GB 12345-90●GBK编码●GB 18030-2000●BIG5 编码●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码汉字信息的编码与交换编码21H ……………... 7EH位码01D ……………… 94D区码01D15D 16D55D 56D87D 88D94D 15×94=1410 40×94=3760 32×94=3008 7×94=658数字、图形符号、希腊、俄日等字符(682个)一级汉字(3755个),按汉语拼音排列二级汉字(3008个)按部首排列空啊-区位码:1601D 国标码:3021H☐汉字信息的编码与交换机内码:为了在计算机内部对汉字进行存储、处理的汉字代码。
由2字节组成。
内码用于计算机内部处理、存储和传输汉字。
由国标码演化而来。
●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换机内码编码编码原则:码长短、有序且连续、与交换码对应中西文兼容编码方式:多种,常用的是:将交换码的两个7位变为两个字节,两个字节的最高位为1汉字“啊”●交换码3021H--00110000 00100001●内码B0A1H--10110000 10100001●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换字形码:按汉字字形得到的编码,又称字模。
字符编码
23
GB码区位示例
01区
78位
24
GB码区位示例(续)
16 区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨 哎 唉 哀 皑 癌 1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺 2 按 暗 岸 胺 案 肮 昂 盎 凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 5 耙 坝 霸 罢 爸 白 柏 百 摆 佰 6 败 拜 稗 斑 班 搬 扳 般 颁 板 7 版 扮 拌 伴 瓣 半 办 绊 邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 9 苞 胞 包 褒 剥 17 区 1 2 3 4 5 6 7 8 9 0 薄 雹 保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背 2 贝 钡 倍 狈 备 惫 焙 被 奔 苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖 5 币 庇 痹 闭 敝 弊 必 辟 壁 臂 6 避 陛 鞭 边 编 贬 扁 便 变 卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰 9 柄 丙 秉 饼 炳
19
二、计算机中中文字符的表示 汉字交换码
国家标准将每个汉字和图形符号的两个字节分 别用两位的十进制编码(不足补0),前字节的编 码称为区码,后字节的编码称为位码,排列在一个 94行94列的二维代码表中,形成区位码表。 如“保”字在二维代码表中处于17区第03位 ,区位码即为1703D 。 把区位码按一定的规则转换成的二进制代码叫 做信息交换码(简称国标码)。
字 符 编 码
1
提
纲
一 计算机中字符的表示(ASCII码) 二 计算机中中文字符的表示
2
概 述
第3讲_信息编码
计算机基础知识 2013-9-15 7
1.2.2
d6d5d4 d3d2d1d0 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 计算机基础知识 1111
000 NUL SOH STX EXT EOT ENQ ACK BEL BS HT LF VT FF CR SO SI 2013-9-15
计算机基础知识 2013-9-15 23
1.2.2
输入码
信息编码
交换码(国标码) 机内码 字形码
⑸ 汉字编码之间的关系
例如,我们通过键盘输入一个汉字“计”,并在屏幕上显示, 其编码的转换过程如下: ① 通过键盘输入输入码:ji(拼音输入法)。 ② 通过输入法控制程序,依据交换码(国标码00111100 01000110),把输入码(ji)转换成机内码(10111100 11000110),并保存在计算机内。 ③ 汉字显示驱动程序根据机内码计算出“计”的字形码所在 字库的地址,通过相应的地址把字库中的字形码取出,存入到相 应的显示内存单元中。 ④ 在显示驱动程序的控制下,根据显示内存中的字形码,在 屏幕的相应位置显示汉字“计”的字形。
8
1.2.2
信息编码
通常计算机中用一个字节(8位二进制码)来 表示一个字符,右边七位对应字符的ASCII码, 最左边的一位通常用作奇偶校验,用来发现错误。 所谓“奇校验”是指在校验位上设置0或1,以保 证一个字节中“1”的个数为奇数。
奇偶校验码是一种最简单的校验码,如果数码 在存储、传送过程中,由于某种原因使得字符编 码的某一位发生变化(由1变为0或由0变为1), 在接收到的字节中,“1”的个数不是原规定的 偶(或奇)数,于是就能发现错误。
汉字编码课件.ppt
范围重合,称为该字的“国标码”,与其相对应 的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
..
15
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
非汉字
一级汉字 二级汉字
第一字节 A1~A2 A3 C6 C7~C8 A4~C5 C6 C9~F8 81~A0
第二字节 40~7E/A1~FE 40~7E/A1~E0
A1~FE 40~7E/A1~FE 40~7E/A1~FE
每一组包含256个平面(plane),每一个平面包 含256行(row),每一行包含256个字位(cell), 又称为“列”,plane、row、cell的值范围都 是从00到FF全编码
整个编码字符集的每个字符都是由4个八位序 列表示,(按照组八位、面八位、行八位、列八 位的顺序)
可编码空间为:128X256X256X256=32KX64K
..
27
UTF-8
为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网)
用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数
通常用于数据交换
Unicode 范围
Unicode 编码点和 UTF-8 编码字符之间的关系 UTF-8 编码的字节
的变形显现形式、特殊字符等均放在此区
..
23
ISO/IEC 10646空间分配现状
第二章 汉字信息在计算机内部的表示
0
1
2
3
4
5
6
7
ASCII码字符标准中用7 ASCII码字符标准中用7位 码字符标准中用 二进制数定义了128个字符, 128个字符 二进制数定义了128个字符, 其中94个为图形字符, 94个为图形字符 其中94个为图形字符,32 个为控制字符, 个为控制字符,1个为空格 字符和一个Del Del键 字符和一个Del键。 ASCII的编码空间如图所示, ASCII的编码空间如图所示, 的编码空间如图所示 图中把7位二进制数分为高 图中把7位二进制数分为高 位作为列号, 3位作为列号,低4位作为 行号,并用十六进制表示, 行号,并用十六进制表示, 从而组成了一个ASCII编码 从而组成了一个ASCII编码 ASCII 空间。 空间。
7.代码页 代码页 不同国家的人使用着不同语言的操作系统。然而, 不同国家的人使用着不同语言的操作系统。然而,操 作系统厂商若要根据各个国家和地区使用不同语言文字的 人开发不同的操作系统,在成本、 人开发不同的操作系统,在成本、系统维护与升级等方面 的开销太大。为此,微软公司在开发MS DOS和 MS的开销太大。为此,微软公司在开发MS-DOS和Windows3.1 的各种产品时, 的各种产品时,进一步将依赖于各具体平台的各文种的字 符集加以整理,并对各个具体的代码页都赋予一个代号, 符集加以整理,并对各个具体的代码页都赋予一个代号, 称作“代码页ID ID”。 称作“代码页ID 。
0 0 1 2 3 4 5 6 7 8 9 A B C D E F
1
2
3
4
5
6
7
8
9
A
B
C
D
E
Fቤተ መጻሕፍቲ ባይዱ
C0控制 字符区
数制与编码资料PPT课件
二、十和十六进制数
三种计数制之间的对应表示
二进制
0000 0001 0010 0011 0100
十进制
0 1 2 3 4
十六进制
0 1 2 3 4
二、十和十六进制数
二进制 0101 0110 0111 1000 1001
二进制 十六进制 方法:从小数点开始,分别向左向右出 发,四位一组,不足四位补零,四位划 一位。 例: 1011010.00101B=5A.28H
二、十和十六进制数
十六进制 二进制 方法:一位划四位。 例: 5A.28H=1011010.00101B
二、十和十六进制数
十进制 十六进制 方法一:先将十进制转换为二进制,再 将二进制转换为十六进制。 例: 97D=110 0001B=61H
二、十和十六进制数
二进制 加法规则“逢二进一” 二进制的特点: 1)简单可行,容易实现。 因为二进制只有两个数码0、1,可以用 两种不同的稳定状态来表示,如有磁和 无磁,高电位与低电位。 2) 运算规则简单。以加法为例,二进制 加法仅有四条:即0+0=0;1+0=1;
二、十和十六进制数
0+1=1;1+1=10。 3) 适合逻辑运算。二进制中的0和1正好 分别表示逻辑代数中的假值(False)和真 值(True)。二进制代表逻辑值容易实现逻 辑运算。
数制的基本概念
76.2Q=7X81+6X80+2X8-1 256.12D=2X102+5X101+6X100
+1X10-1+2X10-2 A2B.FH=10X162+2X161+11X160
信息的编码.ppt
每种信息编码都有相应的国家标准,目前 国际上普遍采用ASCII码
ASCII码
1) 美国信息交换标准代码 ( American Standard Code for Information Interchange, ASCII ) 2) 用于计算机在相互通信时用作共同遵 守的西文字符编码标准
啊
阿 雹
饼
(3)在计算机内部怎样处理汉字—— 机内码
已知:一个区位码占用两个字节,每个字节最高位为0;英 文字符的机 内码是7位ASCII,最高位也是0.[思考]两者如何区分呢?
为了在计算机中能区分二者,将区位码最高位置的0改 设置为1(故ascii码小于128,机内码大于128)并将区 号和位号各增加一个适当的常数,构成了汉字的机内 码。
声音的量化与编码(P10图)
采样-----就是采集声音模拟信号的样本,
量化-----再转换成数字信号 . 电脑中的声音文件是用数字0和1来表示的。所 以在电脑上录音的本质就是把模拟声音信号转 换成数字信号。反之,在播放时则是把数字信 号还原成模拟声音信号输出。
总结: 计算机只能理解用二进制表示的信息。 所以不管采用什么编码方式表示信息, 最终都要转化为二进制代码才能够被机 器执行 。
3.在计算机内部,信息的存储和处理都采 用二进制,最主要的原因是( D ) A.便于存储 B.数据输入方便 C.可以增大计算机存储容量 D.易于用电 子元件实现
图像编码
由矢量图和位图组成
矢量图-----用直线和曲线描述图形. 数据量 小, 图形放大和缩小不会失真. 但色彩不丰富. 位图-----图形是由许多像素点组成的. 数据 量大, 图形放大会失真. 但色彩丰富, 用于对图象要求很高的领域.
西文字符的编码
缺点:4字节的字符编码使存储空间浪费严重
5.文字与文本
1)文本(text):文字信息在计算机中的表示形式,组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2)文本处理过程
文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。
汉字编码例
国标码=区位码+2020H
机内码=国标码+8080H
机内码=区位码+A0A0H
例如:“啊”
区位码:16 01 => 10 01H 0001 0000 0000 0001
国标码:30 21H <= 10 01H
+20 20H 0011 0000 0010 0001
机内码:B0 A1H <= 30 21H
B.第二部分:一级常用汉字,共3755个,按汉语拼音排列
C.第三部分:二级常用字,共3008个,按偏旁部首排列
区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示{如:“大”字的区号20,位号83,区位码是20 83
D.像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目
3)图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8
数据压缩类型
A.无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同
字符编码
GB2312
GB2312也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉 字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。其中最有影响 的是于1980年发布的《信息交换用汉字编码字符集基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常 被通称为国标码。GB2312编码通行于我国内地;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件 都支持GB 2312。
UTF-8的编码是这样得出来的,以”汉”这个字为例:
“汉”字的Unicode编码是U+00006C49,然后把U+00006C49通过UTF-8编码器进行编码,最后输出的UTF-8 编码是E6B189。
Base64
Base64编码有的电子邮件系统(比如国外信箱)不支持非英文字母(比如汉字)传输,这是历史原因造成的(认 为只有美国会使用电子邮件?)。因为一个英文字母使用ASCII编码来存储,占存储器的1个字节(8位),实际上只 用了7位2进制来存储,第一位并没有使用,设置为0,所以,这样的系统认为凡是第一位是1的字节都是错误的。 而有的编码方案(比如GB2312)不但使用多个字节编码一个字符,并且第一位经常是1,于是邮件系统就把1换成0, 这样收到邮件的人就会发现邮件乱码。
ASCII码使用7位2进制数表示一个字符,7位2进制数可以表示出2的7次方个字符,共128个字符。EBCDIC码 使用8位,可以表示出2的8次方个字符,256个字符。
汉字编码
汉字的编码(二)
(1)GB2312-80汉字编码 区位码: 区位码 : GB2312国标字符集构成一个二维平面,它分 成94行、94列,行号称为区号,列号称为位号。每一 个汉字或符号在码表中都有各自的位置,字符的位置 用它所在的区号(行号)及位号(列号)来表示。每个汉 字的区号和位号分别用1个字节来表示, 如:“大”字的区号20,位号83,区位码是20,83 用2个字节表示为:00010100 01010011
汉字 6763 所有 字符 7445
汉字的编码(二)
(1)GB2312-80汉字编码 区位码: 区位码 : GB2312国标字符集构成一个二维平面,它分 它分 94行 94列 行号称为区号,列号称为位号。 成 94 行 、 94 列 , 行号称为区号 , 列号称为位号 。 每一 个汉字或符号在码表中都有各自的位置,字符的位置 用它所在的区号(行号)及位号(列号)来表示。每个汉 字的区号和位号分别用1个字节来表示, 如:“大”字的区号20,位号83,区位码是20,83 用2个字节表示为:00010100 01010011
使用7个二进位对字符进行编码( 使用7个二进位对字符进行编码(叫做标准 ASCII码),每个ASCII以一个字节存放 每个ASCII以一个字节存放。 ASCII码),每个ASCII以一个字节存放 基本的ASCII字符集共有128个字符:96个可打 印字符(常用字母、数字、标点符号等),32 个控制字符 特殊字符的ASCII码 空格(32);A 65); 特殊字符的ASCII码:空格(32);A(65); ASCII ); 97); );0 48) a(97);0(48)
国标交换码: 国标交换码:
问题:信息通信中,汉字的区位码与通信使用的控制码 (00H~1FH)发生冲突。 解决方案:为避免汉字区位码与通信控制码冲突,ISO2022规 定,每个汉字区号和位号必须分别加上32(即20H)。(注意: 是逻辑加,而非算术加) 经过这样处理得到的代码称为汉字的“国标交换码”(简称交 换码)。因此,“大”字的国际交换码是: 区位码( 01010011) 32=交换码( 01110011) 区位码(00010100 01010011)+32=交换码(00110100 01110011)
汉字编码表示与显示
汉字编码表示与显示一、汉字的编码1981年5月,我国国家标准总局颁布了《信息交换用汉字编码字符集》(GB2312-80),简称国家标准汉字编码,也叫国标码。
国标码共收进标准字符7445个。
其中一级汉字3755个,二级汉字3008个,共计6763个汉字。
由于汉字的字符多,一个字节即8位二进制代码不足以表示所有的常用汉字。
同时为了不与西文的ASCII码混淆,汉字国标码的每个汉字或符号都使用2个字节(16位二进制)代码来表示。
西文字符采用一个字节表示,即ASCII码,一般只用七位来表示128个字符,而把最高位用作奇偶校验(或者不用)。
国标码介绍:在GB2312-80代码表中,纵向分为0~93,共94行;横向也是0~93,共94列。
行与列分别用b7b6b5b4b3b2b1七位二进制码表示,第一字节表示行,第二字节表示列。
其值从0100001到1111110(十六进制为21-7E)。
这正是ASCII码的可打印字符的编码范围。
国标码是将第一字节和第二字节连写而得。
由于二进太长,一般用十六进制表示。
区位码介绍:在国标GB2312-80中,国标码除了用双七位二进制表示外,还可以表示成区位码的形式。
即在国标代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。
区号和位号用十进制表示,不足两位前面补0。
这样每个汉字或符号都可用4位十进制表示。
区位码因此可以用来作输入码。
是汉字输入的基本编码方法之一。
机内码介绍:在计算机中双字节汉字与单字节西文字符混合使用、处理,汉字编码的各个字节若不予以特别标识,就会与单字节的ASCII码混淆不清;为此,将标识汉字的两个字节编码的最高位置为1,这种最高位为1的双字节汉字编码就是中国大陆普遍采用的汉字机内码,简称内码,是计算机内部存储、处理汉字所使用的代码。
内码、国标码、区位码三者的关系是:高字节内码=高字节国标码+80H=区码+20H+80H=区码+0A0H=区码+160低字节内码=低字节国标码+80H=位码+20H+80H=位码+0A0H=位码+160 繁体汉字在一些地区和领域仍在使用,国家又制定出相应的繁体汉字字符集,国家标准代号是GB12345-90“信息交换用汉字编码字符集——辅助集”,包含了717个图形符号和6866个繁体汉字。
计算机应用基础1.3字符的编码1.3 字符的编码
1.3 字符的编码
9
4. 汉字字形码
汉字字形码 —— 汉字字形点阵的代码
计算
16×16点阵显示汉字, 需要多少存储空间?
16×16/8 = 32字节
用于汉字在显示屏或打印机输出。 通常有两种表示方式:点阵和矢量表示方式。
9
1.3 字符的编码
10
5. 汉字地址码
汉字库中存储汉字字形信息的逻辑地址码
计算机用一个字节(8个二进制位)存放一个7位 ASCII码,最高位置为0。
1.3 字符的编码
2
7位ASCII代码表
1.3 字符的编码
3
字符 十六进制表示
空格
20H
‘0’~‘9’ 30H~39H
‘A’~‘Z’ 41H~5AHHale Waihona Puke ‘a’~‘z’ 61H~7AH
十进制表示
32 48~57 65~90 97~122
1.3 字符的编码
1
1.3.5 字符的编码
1.西文字符的编码
计算机中最常用的字符编码是ASCII(American Standard Code for Information Interchange,美国信 息交换标准交换代码),为国际标准。
国际通用的ASCII码是7位ASCII码,用7位二进制数 表示一个字符的编码,共有27=128个不同的编码值,相 应可以表示128个不同字符的编码。
汉字内码:2个字节存储 每个字节最高位置“1”
例
目地:区分于ASCII码 方法:汉字的国标码 +8080H
“中”字的国标码转换为汉字内码: 国标码 (5650)H+(8080)H=(D6D0)H 或:( 0101 0110 0101 0000)+(1000 0000 1000 0000)