西文字符的编码
西文字符编码与汉字编码
⑶汉字的内码:是汉字在计算机内部存储、处理的代码。英文字符的 机内码是最高位为0的8位ASCⅡ码,而汉字字符的机内码是两个字节 的最高位都为1的ASCⅡ码。即将国标码的每字节最高位置1作为汉字 机内码。公式为:
区位码+2020H=国标码
国标码+8080H=机内码
或:区位码+A0A0H=机内码
例如:汉字“中”的区位码是3630H,它的国标码是(5650H),机内 码是( D6D0H )。
(二)、汉字编码:
对汉字进行编码是为了使电脑能够识别并 处理汉字,在汉字处理的各个环节中,由 于要求不同,采用的编码也不同。
汉字输入过程:
输入码
汉 字 输 入
国标码
机内码
地址码
字形码 汉 字 输 出
汉字的输入码
汉字的输入码:是为用户能利用西文键盘 输入汉字而设计的编码。主要有以下四种:
①数字编码:如电报码、区位码。 ②字音编码:如双拼、全拼输入方案。 ③字形编码:如五笔字形码、表形码。
3、比较以下两个ASCII值的大小: “0”___“S” “3”___“8”
“A”___“C”
“A”___“a”
4、每一个点在存储器中用____个二进制位(bit)
存储,所以一个16×16点阵汉字需要____个字节存储
空间。
二、计算题:
1、“啊”汉字的区位码为1601,求这汉字的国标码和
机内码。
2、已知某汉字区号34,位号56,求某汉字的国标码和
机内码。
汉字机内码每个字节的最高位均是1,而西文字符机内码(ASCII)的 最高位是0
汉字字形码
汉字字形码(输出码)(字模) 汉字的输出码:提供输出汉字时的需要的汉字字形,用
以将机内码还原为汉字进行输出。汉字字形码是一种汉 字字模点阵的二进制码,是汉字的输出码。 我国已颁布了16×16、24×24、32×32和48×48点阵的 字模标准。汉字显示一般用16×16的点阵,而24×24以 上的点阵一般用于打印。 点阵越大精度越高所需要的存储单元越多打印出的字也 越清析。 N个汉字点阵为a×b共需要多少存储空间M:(N*A*B)/8
任务07西文ASCII码
任务07 西文ASCII码1.微机中,西文字符所采用的编码是________。
A)EBCDIC码B)ASCII码C)国标码D)BCD码【解析】西文字符采用7位ASCII码编码。
答案:B2.标准ASCII码字符集有128个不同的字符代码,它所使用的二进制位数是________。
A)6 B)7 C)8 D)16【解析】ASCII码采用7位编码表示128个字符。
答案:B3.标准ASCII码用7位二进制位表示一个字符的编码,其不同的编码共有________。
A)127个B)128个C)256个D)254个【解析】7位二进制编码,共有27=128个不同的编码值。
答案:B4.在标准ASCII编码表中,数字码、小写英文字母和大写英文字母的前后次序是________。
A)数字、小写英文字母、大写英文字母B)小写英文字母、大写英文字母、数字C)数字、大写英文字母、小写英文字母D)大写英文字母、小写英文字母、数字【解析】ASCII码编码顺序从小到大为:数字、大写字母、小写字母。
5.下列关于ASCII编码的叙述中,正确的是()。
A)一个字符的标准ASCII码占一个字节,其最高二进制位总为1B)所有大写英文字母的ASCII码值都小于小写英文字母'a'的ASCII码值C)所有大写英文字母的ASCII码值都大于小写英文字母'a'的ASCII码值D)标准ASCII码表有256个不同的字符编码【解析】国际通用的ASCII码为7位,且最高位不总为1;所有大写字母的ASCII码都小于小写字母a的ASCII码;标准ASCII码表有128个不同的字符编码。
6.在下列字符中,其ASCII码值最大的一个是________。
A)空格字符B)9 C)Z D)a【解析】ASCII码(用十六进制表示)为:空格对应20,9对应39,Z对应5A,a对应61。
答案:D7.在下列字符中,其ASCII码值最大的一个是()。
A)9 B)Z C)d D)X【解析】ASCII码(用十六进制表示)为:9对应39,Z对应5A,X对应58,d对应64。
计算机一级等级考试选择题
计算机等级考试一级选择题一、选择题1、微机中,西文字符所采用的编码是______。
A、EBCDIC码B、ASCII码C、原码D、反码西文字符所有的编码是ASCII码。
它是以7位二进制位来表示一个字符的。
2、计算机硬件主要包括:运算器,控制器,存储器,输入设备,输出设备五大部件。
3、域名中主机名是______。
A、MHB、EDUC、CND、BIT域名的格式:主机名.机构名.网络名.最高层域名,顶级域名主要包括:COM表示商业机构;EDU表示教育机构;GOV表示政府机构;NET表示网络支持中心;ORG表示国际组织。
4、在微机的配置中常看到P4 2.4G字样,其中数字2.4G表示______。
A、处理器的时钟频率是2.4GHzB、处理器的运算速度是2.4C、处理器是Pentium4第2.4D、处理器与内存间的数据交换速率5、下列各组软件中,全部属于应用软件的是______。
A、程序语言处理程序、操作系统、数据库管理系统B、文字处理程序、编辑程序、Unix操作系统C、财务处理软件、金融软件、WPS OfficeD、Word 2003、Photoshop、Windows XP为解决各类实际问题而设计的程序系统称为应用软件。
6、世界上公认的第一台电子计算机诞生的年代是______。
A、1943B、1946C、1950D、19511946年2月15日,第一台电子计算机ENIAC在美国宾夕法尼亚大学诞生了。
7、能直接与CPU交换信息的存储器是______。
A、硬盘存储器B、CD-ROMC、内存储器D、软盘存储器中央处理器CPU是由运算器和控制器两部分组成,可以完成指令的解释与执行。
计算机的存储器分为内存储器和外存储器。
内存储器是计算机主机的一个组成部分,它与CPU直接进行信息交换,CPU 直接读取内存中的数据。
8、组成计算机指令的两部分是______。
A、数据和字符B、操作码和地址码C、运算符和运算数D、运算符和运算结果一条指令必须包括操作码和地址码(或称操作数)两部分,操作码指出指令完成操作的类型。
微机原理精彩试题库(修订版)
微机原理与接口技术试题库第一章基础知识一、填空1、计算机中采用 2 进制数,尾符用 B 表示。
2、西文字符的编码是 ASCII 码,用 1 个字节表示。
3、10111B用十六进制数表示为 17 H,八进制数表示为 27 O。
4、带符号的二进制数称为真值;如果把其符号位也数字化,称为原码。
5、已知一组二进制数为-1011B,其反码为 10100B ,其补码为 10101B 。
6、二进制码最小单位是位,基本单位是字节。
7、一个字节由 8 位二进制数构成,一个字节简记为 1B ,一个字节可以表示 256 个信息。
8、用二进制数表示的十进制编码,简称为 BCD 码。
9、8421码是一种有权BCD 码,余3码是一种无权BCD 码。
二、选择1、计算机中采用 A 进制数。
A. 2B. 8C. 16D. 102、以下的 C 编码是一种有权码。
A. 循环码B. BCD码C. 8421码D. 余3码3、八进制数的尾符是 B 。
A. BB. OC. DD. H4、与十进制数254等值的数是 B 。
A. 11111110B. 11101111C. 11111011D. 111011105、下列不同数制表示的数中,数值最大的是 C 。
A. 11011101BB. 334OC. 1219DD. DAH6、与十六进制数BC等值的数是 B 。
A. 10111011B. 10111100C. 11001100D. 110010117、下列字符中,ASCII码值最小的是 A 。
A. KB. YC. aD. i8、最大的10位无符号二进制整数转换成十进制数是 C 。
A. 51B. 512C. 1023D. 10249、A的ASCII码值为65D,ASCII码值为68D的字母是 C 。
A. BB. CC. DD. E10、下列等式中,正确的是 D 。
A. 1KB=1024×1024BB. 1MB=1024BC. 1KB=1024D. 1MB=1024×1024B第二章微型机系统概述一、填空1、计算机的发展经历了 4个时代,微型机属于第 4 代计算机。
4. 二级MSoffice培训讲义(计算机基础知识单选题考点与真题)
第一章计算机基础知识【考点1】计算机发展简史1946 年美国研制的ENIAC 是第一台通用电子计算机,用来帮助美国军方计算弹道轨迹,主要元件是电子管。
美籍匈牙利数学家冯·诺依曼(John von Neumann) 后来提出了两个重要改进:采用二进制、存储程序控制。
计算机发展的四个阶段(四代):电子管、晶体管、中小规模集成电路、大规模超大规模集成电路。
1.按电子计算机传统的分代方法,第一代至第四代计算机依次是____C____。
A)机械计算机,电子管计算机,晶体管计算机,集成电路计算机B)晶体管计算机,集成电路计算机,大规模集成电路计算机,光器件计算机C)电子管计算机,晶体管计算机,小、中规模集成电路计算机,大规模和超大规模集成电路计算机D)手摇机械计算机,电动机械计算机,电子管计算机,晶体管计算机2.关于世界上第一台电子计算机ENIAC的叙述中,错误的是____C____。
A)ENIAC是1946年在美国诞生的B)它主要采用电子管和继电器C)它是首次采用存储程序和程序控制自动工作的电子计算机D)研制它的主要目的是用来计算弹道3. 1946年首台电子数字计算机ENIAC问世后,冯·诺依曼(Von Neumann)在研制EDVAC计算机时,提出两个重要的改进,它们是____C____。
A)引入CPU和内存储器的概念B)采用机器语言和十六进制C)采用二进制和存储程序控制的概念D)采用ASCII编码系统4.计算机之所以能按人们的意图自动进行工作,最直接的原因是因为采用了____D____。
A)二进制B)高速电子元件C)程序设计语言D)存储程序控制【考点】计算机的应用计算机的用途:科学计算(数学方法的应用)、数据处理(如文字处理方面、数据库技术)、实时控制(用于现代工业生产)、计算机辅助、网络与通信、人工智能、数字娱乐和嵌入式系统。
计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助教育(CAI)、计算机辅助技术(CAT)、计算机集成管理系统(CIMS)1.电子计算机的最早的应用领域是____B____。
浙江省计算机高考复习(第6课)常用信息的编码
(3)汉字字形码
在计算机系统中,要显示或打印任何字符、汉字都 是由点阵式的字模组成。
16*16的点阵的汉字
字形码:
为了使计算机能识别和存储字模,就必须对字模进 行数字化,把字模中的每一个点都用二进制数表示,即 用“1”表示黑点,用“0”表示白点。这种数字化的字 模点阵代码就是字形码。
精品课程
常用信息的编码
计算机内部均采用二进制数来表示各种信息。要想使输 入设备输入的数字、字符、标点符号和文字等信息能被计算 机所识别,必须将其转换为相应的二进制编码。
目前常用的编码有:
BCD码、ASCII码、汉字编码和奇偶校验码等。
BCD码(了解)
用四位二进制数码来表示一个十进制数。 规则:选用0000-1001来表示0-9的十个数符。 如: (365)10=(0011 0110 0101)BCD 11001.11B= (25.75)10 =(0010 0101.0111 0101)BCD
练习3:某计算机系统中采用奇校验,若字符‘A’在
传送到目的地时为“11000010”,传输过程是否出错?
计算机能否发现?
奇偶校验码只能发现一位或者奇数位错误,而且不能纠 正错误。
汉字地址码:
指出汉字模信息在汉字库中存放的逻辑地址的编码。
三、奇偶校验码
校验码:具有发现或纠正传送过程中出现的错误的编码。
最常用、最简单的校验方法就是奇偶校验,一般以 一个字节为单位加奇偶校验位。 奇校验: 确保被传输的数据中‘1’的个数是奇数个。
偶校验:
确保被传输的数据中‘1’的个数是是偶数个。
2010年江苏专转本计算机补充知识七
2009年江苏专转本计算机补充知识七第五章数字媒体及应用考核知识要点精解:一、字符编码1、西文字符在计算机中的表示——ASCII码ASCII码全称为美国标准信息交换码,共有两个版本。
(1)标准ASCII用七位二进制数表示一个字符,又称为ISO646标准,此编码中共有128(27)个字符,95个可显示(打印)字符,33控制字符。
26个英文字符同一个字母小写的ASCII码值比大写字母大32(20H)。
在存储时用八位二进制存储。
(2)ISO2022标准ASCII码的128个字符有时不能满足使用的要求,ISO又制定了ISO2022标准,称为《七位字符集的代码扩充技术》,用八位二进制表示一个字符,共有256(28)个字符,前128和标准ASCII一样,后128专用于IBM PC机中。
2、汉字的编码(1)GB2312-80它是在我国大陆使用最早的计算机汉字编码,新加坡等国也使用这种汉字编码。
全称为《信息交换用汉字编码字符集-基本集》它包含6763个简化汉字在内的7445个图形字符。
每个字符用两个字节二进制表示,它的代码表分为94个区,对应第一个字节,每个区又分94个位,对应第二个字节,两个字节的值分别为区号和位号加32(20H),因此也称为区位码。
它把汉字分为一级常用汉字和二级常用汉字两级。
区位码不能用于汉字的通信,因为它和国际标准通信码不兼容,根据ISO2022的规定,必须将区位码中的区号和位号分别加上32。
得到的代码称为汉字的“国际交换码”(简称交换码、国标码),交换码用于汉字的传输和交换。
汉字存储在计算机中的编码称为机内码,一个汉字有唯一的机内码,占用二字节,并且每个字节的最高位都是“1”。
它在交换码的每个字节的最高位加1得到。
这样是为了和ASCII相区别。
用不同的中文输入法输入的汉字编码是输入码,一种输入法对应一种编码,汉字输入编码方法大体分为:数字编码、字音编码、字形编码、形音编码。
如“中”在智能ABC输入法中输入码为“zhong”,在五笔字型输入法中输入码为“k”。
微机原理与接口技术复习资料(概念)
微机原理与接口技术复习资料(概念)填空1、计算机中采用二进制数,尾符用 B 表示。
2、西文字符的编码是 ASCII 码,用 1 个字节表示。
3、10111B用十六进制数表示为 H,八进制数表示为 O。
4、带符号的二进制数称为真值;如果把其符号位也数字化,称为原码。
5、已知一组二进制数为-1011B,其反码为 10100B ,其补码为 10101B 。
6、二进制码最小单位是位,基本单位是字节。
7、一个字节由 8 位二进制数构成,一个字节简记为 1B ,一个字节可以表示 256个信息。
8、用二进制数表示的十进制编码,简称为 BCD 码。
9、8421码是一种有权BCD 码,余3码是一种无权BCD 码。
第二章微型机系统概述1、计算机的发展经历了时代,微型机属于第代计算机。
2、计算机的发展以集成电路的更新为标志,而微型机的发展是以 CPU 的发展为特征。
3、微处理器又称为 CPU ,是微型机的核心部件。
4、把CPU、存储器、I/O接口等集成在一块芯片上,称为单片机。
5、把CPU、存储器、I/O接口等通过总线装配在一块印刷板上,称为单板机。
6、微机的系统总线是连接CPU、存储器及I/O的总线,AB表示地址总线,DB表示数据总线,CB表示控制总线。
7、软件按功能可分为系统软件和应用软件。
8、操作系统属于系统软件,Word属于应用软件。
9、只配有硬件的计算机称为裸机。
10、衡量存储容量的基本单位是 B ,1kB= 1024 B,1MB= 1024 kB,1GB= 1024 MB,1TB= 1024 GB。
11、一个完整的计算机系统包括硬件系统和软件系统两大部分。
12、微型机中具有记忆能力的部件是存储器,其中用户使用的是外存储器,其存储内容在断电以后将保留。
13、微型机的运算速度一般可以用CPU的主频表示,其单位是 MHz 或GHz 。
14、微机硬件系统一般是由五部分组成,包括运算器、控制器、存储器、输入设备和输入设备。
西文字符的编码
缺点:4字节的字符编码使存储空间浪费严重
5.文字与文本
1)文本(text):文字信息在计算机中的表示形式,组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2)文本处理过程
文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。
汉字编码例
国标码=区位码+2020H
机内码=国标码+8080H
机内码=区位码+A0A0H
例如:“啊”
区位码:16 01 => 10 01H 0001 0000 0000 0001
国标码:30 21H <= 10 01H
+20 20H 0011 0000 0010 0001
机内码:B0 A1H <= 30 21H
B.第二部分:一级常用汉字,共3755个,按汉语拼音排列
C.第三部分:二级常用字,共3008个,按偏旁部首排列
区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示{如:“大”字的区号20,位号83,区位码是20 83
D.像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目
3)图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8
数据压缩类型
A.无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同
1.3字符编码和存储单位
第一章计算机基础知识1.3 字符编码和数据存储单位复习目标:1、识记常用西文字符编码ASCII码2、掌握汉字编码及其相互关系3、掌握数据存储的基本单位和换算关系复习重点:了解ASCII码、掌握数据存储的基本单位和换算关系复习难点:掌握汉字编码及其相互关系复习课时:2讲解课时+1练习课时复习内容:一、西文字符编码(★识记)1、ASCII码西文字符编码最常用的是ASCII(American Standard Code for Information Interchanger)字符编码,即美国国家标准信息交换码。
ASCII码采用7位二进制编码,它可以表示27=128个字符。
而实际上,在计算机内,一个ASCII码占1字节,即要用8个二进制位来存放,最高位为0,是校验码,后7位是编码值。
在ASCII码中,字符编码存在一定规则,码值从小到大的排列规律是:控制字符<数字<大写英文字母<小写英文字母,且数字和字母又是按0-9和A-Z的顺序排列的。
控制字符是出现于特定的信息文本中,表示某一控制功能的字符,它并不在屏幕上输出显示,共34个,都是用两个或三个大写英文字母表示的。
如空格(NUL)、回车(CR)、退格(BS)、换行(LF)、删除(DEL)等。
典型考题:(1)给出四种不同的ASCII码,要求找出码值最大或最小的选项。
如:下列四个ASCII码中,码值最大的一项是()A、qB、6C、RD、s(2)给出某种类型的ASCII码的码值大小,要求求出同类型的某ASCII 码的码值。
如:已知大写英文字母A的十进制码值为65,那么大写英文字母J的十六进制码值是()A、74B、4AC、410D、49注:计算不同类字母的码值时,大写英文字母与小写英文字母间间隔了6个其他符号,也就是说,a的码值要在Z的码值基础上加上7。
2、EBCDIC码EBCDIC码是扩充的二十进制交换码,采用8位二进制编码,能表示256个字符。
数制与编码
例如:819.18这个数,第一个8处于百位,代表800。第二个
1处于十位,代表10。第三个9处于个位,代表9。第四个1处 于十分位,代表1/10。第五个8处于百分位,代表8/100。 因此,十进制的819.18可以写成: 819.18=8×102+1 ×101+9 ×100+1 ×10-1+8 ×10-2
正元计算机培训中心
钱新平
三、计算机中字符的编码
3、汉字的编码: 、汉字的编码:
区位码:汉字也有一张国标码表,把7445个国标码放 ④ 区位码 在一个94行×94列的阵列中。阵列的行称为“区”, 列称为“位”,这样,区号范围和列号范围都是1~ 94。这样,一个汉字在表中的位置就可以用它所在 的区号和位号来确定。 如“中”的区位码为5448, 即54区48位。 区位码和国标码之间的关系: ⑤ 区位码和国标码之间的关系:将一个汉字的十进制 区号和十进制位号分别转换成十六进制数,再加上 20H,就成为此汉字的国标码。例如:“中”的区位 码是:5448,分别将区号54 ,位号48转为十六进制 为36H和30H。然后区号,位号分别加上20H,得 “中”的国标码:3630H+2020H=5650H
钱新平
三、计算机中字符的编码
1、字符编码: 、字符编码:
计算机所表示和使用的数据可分为两大 类:数值数据 字符数据 数值数据和字符数据 数值数据 字符数据。 数值数据: ① 数值数据:用以表示量的大小、正负。 如正整数、小数等。 ② 字符数据:用以表示一些符号、标记。 字符数据: 如英文字母、数字、标点符号、汉字、 声音、图形等等。
对于任意一个既有整数部分, 对于任意一个既有整数部分,又有小数部分的十进 制数,在转换为二进制数时: 制数,在转换为二进制数时:只要将它的整数部分 和小数部分分别按除2取余和乘2取整的法则转换, 最后把所得的结果用小数点连接起来即可。 必须注意: 必须注意:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、西文字符的编码1.西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。
2.字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
3.字符代码表:字符集中不同字符的编码互相区别,构成该字符集的代码表。
4.ASCII字符集和ASCII码1)美国标准信息交换码(American Standard Code for Information Interchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。
2)基本的ASCII字符集共有128个字符,96个可打印字符(常用字母、数字、标点符号等)32个控制字符,特殊字符的ASCII码空格(32)、A(65)、a(97)、0(48)●数字,字母的ASCII码是连续的,对应大小写字母ASCII码相差32。
●不同类型的ASCII码的十进制数值由小到大:数字、大写字母、小写字母3)汉字的编码(一)●GB2312-80汉字编码A.第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)B.第二部分:一级常用汉字,共3755个,按汉语拼音排列C.第三部分:二级常用字,共3008个,按偏旁部首排列✓区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。
每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。
每个汉字的区号和位号分别用1个字节来表示{如:“大”字的区号20,位号83,区位码是20 83用2个字节表示为:00010100 01010011}4)国标交换码:●问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。
解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(20H)得到国标交换码。
+20 20H 0011 0000 0010 0001机内码: B0 A1H <= 30 21H+80 80H 1011 0000 1010 00015)GBK汉字内码扩充规范●问题:GB2312-80只有6763个汉字,使用时功能不够。
解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形●GBK字符集中的每个字符都采用双字节表示,总的编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间(剔除xx7F一条线不安排字符),总计23940个码位,共收入21886个汉字和图形符号,未使用的区域作为用户自定义区。
●应用:操作系统——Windows 95以上简体中文版,采用GBK代码,并提供了多种输入法和字体应用软件——Office 95以上简体中文版本提供GBK码的检索和排序互联网应用——许多网站的网页使用GBK代码,但目前还不是所有搜索引擎都支持 GBK汉字文本的搜索6)UCS/Unicode与GB18030汉字编码标准●通用编码字符集UCS/Unicode约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容目标与途径:实现所有字符在同一字符集中统一编码●UCS/Unicode与GB18030汉字编码标准优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重5.文字与文本1)文本(text):文字信息在计算机中的表示形式,组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2)文本处理过程●文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。
●文本信息的输入方法A.人工输入:通过键盘、手写笔或语音输入方式输入字符特点:速度慢、成本高,不适合需处理大批量文字的应用B.自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码特点:速度快,效率高C.文字的自动识别分为:印刷体识别和手写体识别●文本信息的输入方法由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就称为汉字的“键盘输入编码”。
好的汉字键盘输入编码方案的特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等✓汉字的输入编码与汉字的内码是不同范畴的概念。
使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的数字编码:使用一串数字来表示汉字的编码方法,例如电报码、区位码等。
缺点:难以记忆,不易推广字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。
缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码。
缺点:编码规则不易掌握形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少。
缺点:不易掌握联机手写汉字识别(笔输入)使用语音输入文本的系统也叫做“听写机”或“语音打字机”印刷体汉字识别(汉字OCR)。
印刷体汉字识别:将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character Recognition)。
●脱机手写汉字识别:手写汉字识别。
联机与脱机(手写汉字识别)的比较容易。
3)使用计算机制作的数字文本,根据用途分为:简单文本、丰富格式文本和超文本三类。
●简单文本(plain text):是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。
这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt特性:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、表格等,不能建立超链接●丰富格式文本丰富格式文本(rich text、fancy text、formatted text),RTF格式,中间格式。
●超文本A.超文本(hypertext)的阅读方式:传统的顺序式阅读,通过链接、跳转、导航、回溯等操作实现跳跃式阅读B.超文本的结构节点(node)节点包含的内容超链(hyperlink)链源链宿●超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”●超文本的应用:Windows等一些软件中的“帮助”文件,使用浏览器从Web服务器上下载的网页(html或htm文件),文本编辑与文本处理●“所见即所得”(What You See Is What You Get, 简称WYSIWYG):一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。
二、图像与图形1.图像按生成方法分类1)从现实世界中通过数字化设备获取的图像,称为:取样图像(sampled image)、点阵图像(dotmatrix image)、位图图像(bitmap image)——简称图像(image)2)计算机合成的图像(synthetic image),称为:矢量图形(vector graphics),简称图形(graphics)2.图像的数字化1)图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤:●扫描●取样●分色●量化2)图像的表示方法与主要参数,从取样图像的获取过程可以知道,一幅取样图像由M(行)* N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素(pictureelement, 简写为pel)。
彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值●图像的属性信息A.图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率)B.位平面的数目,即矩阵的数目,也就是彩色分量的数目C.颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。
常用颜色模型:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等D.像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目3)图像的压缩编码●一幅图像的数据量可按下面的公式进行计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8●数据压缩类型A.无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同B.有损压缩:使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的正确理解。
如变换编码、矢量编码等●压缩编码方法优劣的评价压缩倍数的大小重建图像的质量(有损压缩时)压缩算法的复杂程度图像的压缩编码✓图像压缩编码方法的国际标准和工业标准:ISO和IEC两个国际机构联合组成了一个专家组(Joint Photographic Experts Group, JPEG),制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准JPEG标准的特点:适用范围广;能处理各种连续色调的彩色或灰度图像;算法复杂度适中;既可用硬件实现,也可用软件实现;图像的压缩比可控制(压缩比越低,图像质量越好;压缩比越高,图像质量越差)JPEG 2000:适用于各种不同类型(黑白、灰度、彩色等)和不同特性(自然、医学、遥感、合成)的图像,可用于不同的应用模式(实时传输、检索、存档等)。
采用了小波分析等先进算法,提供了更好的图像质量,更低的码率,更适合在WWW网上传输等,它兼容JPEG常用图像文件格式常用图像文件格式✓BMP(BitMaP-file)图像:微软公司在Windows操作系统下使用的一种标准图像文件格式,一个文件存放一幅图像,可以使用行程长度编码(RLC)进行无损压缩,也可不压缩。
不压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows应用软件都能支持。
✓TIFF(Tagged Image File Format)图像文件格式:用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形应用软件支持这种文件格式。
由文件头、文件目录、目录条目三个部分组成。
✓GIF(Graphics Interchange Format):互联网上广泛使用的一种图像文件格式,它的颜色数目较少(不超过256色),文件特别小,适合网络传输。