第四章信息编码技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013-7-12
25
信息存储与检索
4.1.3 汉字输入/输出编码
2、汉字字模与汉字库
• 汉字以内码的形式在计算机内部被存储、处理和 传送。但显示或打印时,内码还不能作为汉字字 形信息输出。为此,汉字信息处理系统还须配有 汉字字形库。汉字字形库集中了全部汉字字形编 码信息。但需要显示时,根据汉字内码,在字模 库中检索出该汉字的字型控制显示,显出汉字。 • 汉字库一般有点阵字库、向量字库、TrueType字 库,为了显示不同的字体,还须设计出各种不同 字体的汉字库。
2013-7-12
24
信息存储与检索
4.1.3 汉字输入/输出编码
1、汉字输入编码方案
– 汉字字音编码:以汉语拼音为基础,在键盘上直接 输入拼音即可实现。 – 汉字字形编码:不同的汉字因为组成的构字部件和 字形构件的顺序不同,就可获得一组不同的编码。 – 汉字音形编码 – 汉字数字编码 – 整字编码
2013-7-12
8
信息存储与检索
2013-7-12
9
信息存储与检索
ASCII编码
2013-7-12
10
信息存储与检索
• 8858-1
2013-7-12
11
信息存储与检索
ISO-8859编码标准
• • • • • • • • • • • • • • • ISO-8859-2(Latin2 - 中、东欧字符) ISO-8859-3(Latin3 - 南欧字符) ISO-8859-4(Latin4 - 北欧字符) ISO-8859-5(Cyrillic - 斯拉夫语) ISO-8859-6(Arabic - 阿拉伯语) ISO-8859-7(Greek - 希腊语) ISO-8859-8(Hebrew - 希伯来语) ISO-8859-9(Latin5) ISO-8859-10(Latin6) ISO-8859-11(Thai - 泰国语) ISO-8859-12(保留) ISO-8859-13(Latin7) ISO-8859-14(Latin8) ISO-8859-15(Latin9) 本文来自CSDN博客,转载请标明出处: 2013-7-12 12 信息存储与检索 http://blog.csdn.net/sfdev/archive/2009/01/13/3770706.aspx
2013-7-12
5
信息存储与检索
4.1 信息编码
4.1.1 信息编码的原则
• 为了便于计算机进行处理,信息编码应遵循以下原则:
– – – – – – 系统性 唯一性 可扩充性 简单性 纠检错能力 兼容性和标准化
2013-7-12
6
信息存储与检索
4.1 信息编码
4.1.2 字符编码
字符编码定义了计算机处理的数据项中的 字符的表示方法。字符编码通常列成表,表中 的每个字符被分配一个名称和数值。数值可以 作为编码表的索引,通常称为代码点。
2013-7-12
27
信息存储与检索
不等长码也称为统计编码,即其熵处于概率 场的模糊处,它与信息源中元素出现概率的不 均匀性紧密联系在一起。
2013-7-12
28
信息存储与检索
4.1.4 信息论基本知识
1、通信系统
信源 信源 编码器 信道 编码器 信道 译码器 信源 译码器 信宿
噪声干扰
通信的主要目标之一是使接收端能尽可能准确 地复制信源发出的消息。
2013-7-12
3
信息存储与检索
4.1 信息编码
• 通过信息分类和编码工作,产生了一系列的信息分类 和编码标准。这些标准在信息管理当中有着非常重要 的作用。有了统一的标准,信息才能畅通地交换,有 了信息的存储和压缩技术,多媒体信息才便于利用, 有了信息的加密技术,信息系统的安全性才能得到保 障。 • 信息代码是一组有序的、易于计算机和人识别与处理 的符号。代码具有标志、分类、排序、压缩、加密等 许多功能。
2013-7-12
18
信息存储与检索
BMP平面字符分配情况
• (A000-A4C6)彝族字符区 由1,165个中国南方彝族音节和50个其字根组成。 • (AC00-D7A3)韩字符拼音区 由11,172个预先组合的韩字符拼音音节组成。 • (D800-DFFF)代理区 这个区被平分为1024个“高半代理区”(D800-DBFF)码 位和1024个“低半代理区”(DC00-DFFF)码位,用来形成代 理对,可以得到超过一百万个扩充编码位。 • (E000-F8FF)私人专用区 包含6,400个编码位,用于用户或开发商自行定义的字符编码。 • (F900-FA2D)兼容字符区 一些被许多行业协会和国家标准广泛使用的字符,但在 Unicode编码中有不同的表现形式。包含一些专用字符。
2013-7-12
16
信息存储与检索
2013-7-12
17
信息存储与检索
BMP平面字符分配情况
•(0000-1FFF)基本拼音字符区 包括所有拼读文字的字母拼音和音标。它的字符集一般较小, 如拉丁文、西里尔文、希腊文、希伯来文、阿拉伯文、泰文、天 成文书(梵文)等。 •(2000-28FF)符号区 包括许多种用于标点、数学、化学、科技及其它特殊用途上 的“符号”和“丁贝符”(示意图形符号)。 •(2E80-33FF)中日韩语音及符号区 包括用于中国、日本、韩国语言中的标点、符号、字根(笔 画)及发音等字符。 •(3400-9FA5)中日韩汉字字符区 由27,484个中日韩(越)的统一汉字组成。
4.1.2 信息编码
5、汉字编码
– GB2312 • GB 2312或GB 2312-80是一个简体中文字符集的 中国国家标准,全称为《信息交换用汉字编码字 符集•基本集》,又称为GB0,由中国国家标准总 局发布,1981年5月1日实施。GB2312编码通行 于中国大陆;新加坡等地也采用此编码。中国大 陆几乎所有的中文系统和国际化的软件都支持GB 2312。
2013-7-12
13
信息存储与检索
UCS的结构
– UCS的结构是一个四维的编码空间,每一维由一个字节(八 位二进制位)组成,范围是00-FF。总体上分为128个群组 (Group 00-7F),每个群组由256个平面(Plane 00-FF) 组成,每一平面有256行(Row 00-FF),每一行有256个编 码位(Cell 00-FF)。所以,每一平面包括65,536个字符位 (0000-FFFF)。 – 整个编码字符集的每个字符由4个字节,按“组-面-行-列” 的顺序表示。所以UCS的编码空间为:
2013-7-12
26
信息存储与检索
汉字字模
所谓汉字字模就是用0、1表示汉字的字形,将汉 字放入n行*n列的正方形内,该正方形共有n2个小方格, 每个小方格用一位二进制表示,凡是笔划经过的方格 值为1,未经过的值为0。
汉字点阵字模有16*16点、24*24点、32*32点, 48*48点几种,每个汉字字模分别需要32、72、128、 288个字节存放,点数愈多,输出的汉字愈美观。
2013-7-12
19
信息存储与检索
UCS的表现形式
UCS有两种方式来表示一个字符编码:四字节正规形式 (UCS-4)和双字节基本平面形式(UCS-2)。 • UCS-4 —— 四字节正规形式 UCS-4用4个字节来表示一个字符。第一个字节表示组 (Group),第二表示平面(Plane),第三表示行(Row), 第四表示单元号或列(Cell)。 • UCS-2 —— 双字节基本平面形式 当系统只使用BMP的字符码时,可以省略群组和平面中的 八位,将字符码由32个位缩短为16个位(2个字节)。标记为 UCS-2。 • Unicode和UCS-2同样采用16位编码。所以一般可以把Unicode 和UCS-2看作是同一样东西。 20 2013-7-12 信息存储与检索
4.1.2 信息编码
– BIG-5 • BIG-5码是通行于台湾、香港地区的一个繁体字 编码方案,俗称“大五码”。 • BIG-5码收录汉字13053个,分为常用字和次常用 字两部分,各部分中的汉字按笔划/部首排列。其 中常用字5401个,次常用字7652个。
2013-7-12
23
信息存储与检索
小结
4.1、信息编码
3、Unicode编码
– Unicode(统一码、万国码、单一码)是一种在计算 机上使用的字符编码。它为每种语言中的每个字符 设定了统一并且唯一的二进制编码,以满足跨语言、 跨平台进行文本转换、处理的要求。1990年开始研 发,1994年正式公布。随着计算机工作能力的增强, Unicode也在面世以来的十多年里得到普及。
第四章 信息编码技术
学习内容
4.1 信息编码 4.2 信息压缩技术 4.3 信息分类编码
2013-7-12
2
信息存储与检索
4.1
信息编码
• 信息编码是将事物或概念(编码对象)赋予有 一定规律性的,易于计算机和人识别与处理的 符号。
• 对信息进行编码,是一种映射过程;再由编码 还原成原来的信息,也是一种映射,即译码。
2013-7-12
29
信息存储与检索
(1)信源编码
• 信源编码器:为了有效进行通信,往往对有冗余的消 息先进行无冗余或少冗余编码,称为压缩编码。 信源译码器:对收到的压缩后的信息进行编码的逆运 算,称译码。 – 理论:无失真信源编码
2013-7-12
7
信息存储与检索
4.1.2 字符编码
1、7位ASCII
– ASCII码共 27 =128 个字符(一个字节的最高位作奇 偶校验用),称为标准ASCII码(此外还有扩展ASCII 码)。
2、8位编码
– ISO定义了称为8859系列的一组编码标准。8859系 列编码标准使用8位代替7位。8859系列编码标准中 的前128个字符都与ISO646中的相同。
2013-7-12
4
信wenku.baidu.com存储与检索
4.1 信息编码
• 信息编码一般取两种编码方式,即等长码和不 等长码。
– 等长码假设在它所描述的信息集合中各符号出现的 概率相等的。等长码符合最大熵的条件,其编码效 率最低。但是,为了便于存储、计算机和显示等各 种处理,计算机代码取等长码。 – 有时,为了压缩信息存储空间和节省信息传输时间, 需要提高信息的编码效率。这时,需要采用不等长 码编码方式。
2013-7-12
21
信息存储与检索
GB2312
– 每个汉字及符号以两个字节来表示。第一个字节称为“高位 字节”(也称“区字节)”,第二个字节称为“低位字节” (也称“位字节”)。 – 基本集共收入汉字6763个和非汉字图形字符682个。GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字 /符号。这种表示方式也称为区位码。 • 01-09区为特殊符号。 • 16-55区为一级汉字,按拼音排序。 • 56-87区为二级汉字,按部首/笔画排序。 • 10-15区及88-94区则未有编码。 • 例如啊”字是GB2312之中的第一个汉字,它的区位码就 是1601 。 2013-7-12 22 信息存储与检索
128×256×256×256=231。
2013-7-12
14
信息存储与检索
Unicode编码
• UCS将其第一个平 面(00群组中的00 平面)称作基本多语 种平面(Basic Multilingual Plane, BMP)。
2013-7-12
15
信息存储与检索
• 在UCS中,目前只有00组是重要的,Unicode学术学 会断言,在可以预见的将来,甚至不可能用完00组中 的前17个平面(00平面到10平面)。因此,Unicode 只定义了ISO 10646的第00组的前17个平面。事实上, 目前绝大多数字符,都分配在第00平面BMP中。
• 字符编码是抽象字符在计算机中的数字表示。 • 字符编码集是一批字符编码的集合。世界上存在大量互不兼容 的字符集,给国际交流带来了困难。 • ASCII码是最古老的字符编码,它总共只定义了7位共128个字 母、数字和符号。但它是其它所有字符编码的基础。 • ISO 8859系列字符集,定义了单字节字符编码的标准。其中最 特殊的是ISO-8859-1编码,它的编码和Unicode中最开始的256 个字符编码完全相同。 • Unicode用16位整数编码,将世界上所有主要文字的字符统一起 来了。如果利用代理对最多可以表示从0到1FFFF的字符。然而 绝大多数情况下,只需要用到0到FFFF之间的字符就足够了。 • GB18030编码是中国大陆的国家标准,在字汇上等同于 Unicode,在编码上和GB2312编码以及GBK编码兼容。
25
信息存储与检索
4.1.3 汉字输入/输出编码
2、汉字字模与汉字库
• 汉字以内码的形式在计算机内部被存储、处理和 传送。但显示或打印时,内码还不能作为汉字字 形信息输出。为此,汉字信息处理系统还须配有 汉字字形库。汉字字形库集中了全部汉字字形编 码信息。但需要显示时,根据汉字内码,在字模 库中检索出该汉字的字型控制显示,显出汉字。 • 汉字库一般有点阵字库、向量字库、TrueType字 库,为了显示不同的字体,还须设计出各种不同 字体的汉字库。
2013-7-12
24
信息存储与检索
4.1.3 汉字输入/输出编码
1、汉字输入编码方案
– 汉字字音编码:以汉语拼音为基础,在键盘上直接 输入拼音即可实现。 – 汉字字形编码:不同的汉字因为组成的构字部件和 字形构件的顺序不同,就可获得一组不同的编码。 – 汉字音形编码 – 汉字数字编码 – 整字编码
2013-7-12
8
信息存储与检索
2013-7-12
9
信息存储与检索
ASCII编码
2013-7-12
10
信息存储与检索
• 8858-1
2013-7-12
11
信息存储与检索
ISO-8859编码标准
• • • • • • • • • • • • • • • ISO-8859-2(Latin2 - 中、东欧字符) ISO-8859-3(Latin3 - 南欧字符) ISO-8859-4(Latin4 - 北欧字符) ISO-8859-5(Cyrillic - 斯拉夫语) ISO-8859-6(Arabic - 阿拉伯语) ISO-8859-7(Greek - 希腊语) ISO-8859-8(Hebrew - 希伯来语) ISO-8859-9(Latin5) ISO-8859-10(Latin6) ISO-8859-11(Thai - 泰国语) ISO-8859-12(保留) ISO-8859-13(Latin7) ISO-8859-14(Latin8) ISO-8859-15(Latin9) 本文来自CSDN博客,转载请标明出处: 2013-7-12 12 信息存储与检索 http://blog.csdn.net/sfdev/archive/2009/01/13/3770706.aspx
2013-7-12
5
信息存储与检索
4.1 信息编码
4.1.1 信息编码的原则
• 为了便于计算机进行处理,信息编码应遵循以下原则:
– – – – – – 系统性 唯一性 可扩充性 简单性 纠检错能力 兼容性和标准化
2013-7-12
6
信息存储与检索
4.1 信息编码
4.1.2 字符编码
字符编码定义了计算机处理的数据项中的 字符的表示方法。字符编码通常列成表,表中 的每个字符被分配一个名称和数值。数值可以 作为编码表的索引,通常称为代码点。
2013-7-12
27
信息存储与检索
不等长码也称为统计编码,即其熵处于概率 场的模糊处,它与信息源中元素出现概率的不 均匀性紧密联系在一起。
2013-7-12
28
信息存储与检索
4.1.4 信息论基本知识
1、通信系统
信源 信源 编码器 信道 编码器 信道 译码器 信源 译码器 信宿
噪声干扰
通信的主要目标之一是使接收端能尽可能准确 地复制信源发出的消息。
2013-7-12
3
信息存储与检索
4.1 信息编码
• 通过信息分类和编码工作,产生了一系列的信息分类 和编码标准。这些标准在信息管理当中有着非常重要 的作用。有了统一的标准,信息才能畅通地交换,有 了信息的存储和压缩技术,多媒体信息才便于利用, 有了信息的加密技术,信息系统的安全性才能得到保 障。 • 信息代码是一组有序的、易于计算机和人识别与处理 的符号。代码具有标志、分类、排序、压缩、加密等 许多功能。
2013-7-12
18
信息存储与检索
BMP平面字符分配情况
• (A000-A4C6)彝族字符区 由1,165个中国南方彝族音节和50个其字根组成。 • (AC00-D7A3)韩字符拼音区 由11,172个预先组合的韩字符拼音音节组成。 • (D800-DFFF)代理区 这个区被平分为1024个“高半代理区”(D800-DBFF)码 位和1024个“低半代理区”(DC00-DFFF)码位,用来形成代 理对,可以得到超过一百万个扩充编码位。 • (E000-F8FF)私人专用区 包含6,400个编码位,用于用户或开发商自行定义的字符编码。 • (F900-FA2D)兼容字符区 一些被许多行业协会和国家标准广泛使用的字符,但在 Unicode编码中有不同的表现形式。包含一些专用字符。
2013-7-12
16
信息存储与检索
2013-7-12
17
信息存储与检索
BMP平面字符分配情况
•(0000-1FFF)基本拼音字符区 包括所有拼读文字的字母拼音和音标。它的字符集一般较小, 如拉丁文、西里尔文、希腊文、希伯来文、阿拉伯文、泰文、天 成文书(梵文)等。 •(2000-28FF)符号区 包括许多种用于标点、数学、化学、科技及其它特殊用途上 的“符号”和“丁贝符”(示意图形符号)。 •(2E80-33FF)中日韩语音及符号区 包括用于中国、日本、韩国语言中的标点、符号、字根(笔 画)及发音等字符。 •(3400-9FA5)中日韩汉字字符区 由27,484个中日韩(越)的统一汉字组成。
4.1.2 信息编码
5、汉字编码
– GB2312 • GB 2312或GB 2312-80是一个简体中文字符集的 中国国家标准,全称为《信息交换用汉字编码字 符集•基本集》,又称为GB0,由中国国家标准总 局发布,1981年5月1日实施。GB2312编码通行 于中国大陆;新加坡等地也采用此编码。中国大 陆几乎所有的中文系统和国际化的软件都支持GB 2312。
2013-7-12
13
信息存储与检索
UCS的结构
– UCS的结构是一个四维的编码空间,每一维由一个字节(八 位二进制位)组成,范围是00-FF。总体上分为128个群组 (Group 00-7F),每个群组由256个平面(Plane 00-FF) 组成,每一平面有256行(Row 00-FF),每一行有256个编 码位(Cell 00-FF)。所以,每一平面包括65,536个字符位 (0000-FFFF)。 – 整个编码字符集的每个字符由4个字节,按“组-面-行-列” 的顺序表示。所以UCS的编码空间为:
2013-7-12
26
信息存储与检索
汉字字模
所谓汉字字模就是用0、1表示汉字的字形,将汉 字放入n行*n列的正方形内,该正方形共有n2个小方格, 每个小方格用一位二进制表示,凡是笔划经过的方格 值为1,未经过的值为0。
汉字点阵字模有16*16点、24*24点、32*32点, 48*48点几种,每个汉字字模分别需要32、72、128、 288个字节存放,点数愈多,输出的汉字愈美观。
2013-7-12
19
信息存储与检索
UCS的表现形式
UCS有两种方式来表示一个字符编码:四字节正规形式 (UCS-4)和双字节基本平面形式(UCS-2)。 • UCS-4 —— 四字节正规形式 UCS-4用4个字节来表示一个字符。第一个字节表示组 (Group),第二表示平面(Plane),第三表示行(Row), 第四表示单元号或列(Cell)。 • UCS-2 —— 双字节基本平面形式 当系统只使用BMP的字符码时,可以省略群组和平面中的 八位,将字符码由32个位缩短为16个位(2个字节)。标记为 UCS-2。 • Unicode和UCS-2同样采用16位编码。所以一般可以把Unicode 和UCS-2看作是同一样东西。 20 2013-7-12 信息存储与检索
4.1.2 信息编码
– BIG-5 • BIG-5码是通行于台湾、香港地区的一个繁体字 编码方案,俗称“大五码”。 • BIG-5码收录汉字13053个,分为常用字和次常用 字两部分,各部分中的汉字按笔划/部首排列。其 中常用字5401个,次常用字7652个。
2013-7-12
23
信息存储与检索
小结
4.1、信息编码
3、Unicode编码
– Unicode(统一码、万国码、单一码)是一种在计算 机上使用的字符编码。它为每种语言中的每个字符 设定了统一并且唯一的二进制编码,以满足跨语言、 跨平台进行文本转换、处理的要求。1990年开始研 发,1994年正式公布。随着计算机工作能力的增强, Unicode也在面世以来的十多年里得到普及。
第四章 信息编码技术
学习内容
4.1 信息编码 4.2 信息压缩技术 4.3 信息分类编码
2013-7-12
2
信息存储与检索
4.1
信息编码
• 信息编码是将事物或概念(编码对象)赋予有 一定规律性的,易于计算机和人识别与处理的 符号。
• 对信息进行编码,是一种映射过程;再由编码 还原成原来的信息,也是一种映射,即译码。
2013-7-12
29
信息存储与检索
(1)信源编码
• 信源编码器:为了有效进行通信,往往对有冗余的消 息先进行无冗余或少冗余编码,称为压缩编码。 信源译码器:对收到的压缩后的信息进行编码的逆运 算,称译码。 – 理论:无失真信源编码
2013-7-12
7
信息存储与检索
4.1.2 字符编码
1、7位ASCII
– ASCII码共 27 =128 个字符(一个字节的最高位作奇 偶校验用),称为标准ASCII码(此外还有扩展ASCII 码)。
2、8位编码
– ISO定义了称为8859系列的一组编码标准。8859系 列编码标准使用8位代替7位。8859系列编码标准中 的前128个字符都与ISO646中的相同。
2013-7-12
4
信wenku.baidu.com存储与检索
4.1 信息编码
• 信息编码一般取两种编码方式,即等长码和不 等长码。
– 等长码假设在它所描述的信息集合中各符号出现的 概率相等的。等长码符合最大熵的条件,其编码效 率最低。但是,为了便于存储、计算机和显示等各 种处理,计算机代码取等长码。 – 有时,为了压缩信息存储空间和节省信息传输时间, 需要提高信息的编码效率。这时,需要采用不等长 码编码方式。
2013-7-12
21
信息存储与检索
GB2312
– 每个汉字及符号以两个字节来表示。第一个字节称为“高位 字节”(也称“区字节)”,第二个字节称为“低位字节” (也称“位字节”)。 – 基本集共收入汉字6763个和非汉字图形字符682个。GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字 /符号。这种表示方式也称为区位码。 • 01-09区为特殊符号。 • 16-55区为一级汉字,按拼音排序。 • 56-87区为二级汉字,按部首/笔画排序。 • 10-15区及88-94区则未有编码。 • 例如啊”字是GB2312之中的第一个汉字,它的区位码就 是1601 。 2013-7-12 22 信息存储与检索
128×256×256×256=231。
2013-7-12
14
信息存储与检索
Unicode编码
• UCS将其第一个平 面(00群组中的00 平面)称作基本多语 种平面(Basic Multilingual Plane, BMP)。
2013-7-12
15
信息存储与检索
• 在UCS中,目前只有00组是重要的,Unicode学术学 会断言,在可以预见的将来,甚至不可能用完00组中 的前17个平面(00平面到10平面)。因此,Unicode 只定义了ISO 10646的第00组的前17个平面。事实上, 目前绝大多数字符,都分配在第00平面BMP中。
• 字符编码是抽象字符在计算机中的数字表示。 • 字符编码集是一批字符编码的集合。世界上存在大量互不兼容 的字符集,给国际交流带来了困难。 • ASCII码是最古老的字符编码,它总共只定义了7位共128个字 母、数字和符号。但它是其它所有字符编码的基础。 • ISO 8859系列字符集,定义了单字节字符编码的标准。其中最 特殊的是ISO-8859-1编码,它的编码和Unicode中最开始的256 个字符编码完全相同。 • Unicode用16位整数编码,将世界上所有主要文字的字符统一起 来了。如果利用代理对最多可以表示从0到1FFFF的字符。然而 绝大多数情况下,只需要用到0到FFFF之间的字符就足够了。 • GB18030编码是中国大陆的国家标准,在字汇上等同于 Unicode,在编码上和GB2312编码以及GBK编码兼容。