第五章数字媒体及应用考点分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 5 章数字媒体及应用

★考核知识要点、重点、难点精解

★考点: 1 西文与汉字的编码

1 .西文字符的编码

在计算机中用于表示字符的二进制编码称为字符编码。目前,国际上使用最多、最普遍的字符编码是ASCII 字符编码。ASCII 码的全称是“American Standard Code for Information Interchange " ,译为:美国国家信息交换标准字符码。

标准ASCII 码是7 位的编码,可以表示27 = 128 个不同的字符,每个字符都有其不同的ASCII 码值,它们的编码范围是0000000B ~1111111B ( 00H ~ 7FH )。并且,这128 个字符共分为3 类,分别是:( l )数字0 ~ 9 ;

( 2 ) 26 个大写英文字母和26 个小写英文字母;

( 3 )各种运算符号、标点符号和控制符号等。

其中,数字、大写字母、小写字母都是按照它们的自然顺序进行排列,且小写字母的ASCII 码值比其相应的大写字母的ASCII 码值大32 。例如:大写字母D 的ASCII 码值是68 ,小写字母 d 的ASCII 码值=68 + 32 = 100 。

注意虽然标准ASCII 码是7 位的编码,但由于字节是计算机中最基本的存储和处理单位,故一般仍以一个字节来存放一个ASCII 字符.每个字节中多余出来的一位(最高位b7 ),在计算机内部通常保持为“0”,而在数据传输时和用作奇偶校验位。

扩充ASCII码是8 位,每个ASCII 码字符集分别可以扩充128 个字符,这些扩充字符的编码均为高位为 1 的8 位代码(十进制指数128 ~255 ),称为扩展ASCII码。

2 .汉字的编码

( 1 ) GB2312 - 1980 汉字编码

①国标码

为了适应计算机处理汉字信息的需要,1981 年我国颁布了《信息交换用汉字编码字符集·基本集》(GB2312 - 80 )。简称国标码,又称汉字交换码。该标准选出6763 个常用汉字和682 个非汉字字符,为每个字符规定了标准代码,以便在不同计算机系统中间进行汉字文本的交换。

GB2312 国际字符集由三部分组成。

第一部分是字母、数字和各种符号,包括拉丁文字母、俄文、日文平假名、希腊字母、汉语拼音等共682 个(统称为GB2312 图形符号);

第二部分为一级常用汉字,共3755 个,按汉语拼音排列;

第三部分为二级常用字,共3008 个,因不太常用,所以按偏旁部首排列。

②区位码

在国标码中,所有的常用汉字和图形符号组成了一个94 行94 列的矩阵。每一行的行号称为“区号”,每一列的列号称为“位号”。区号和位号都由两个十进制数表示,区号编号是01 ~ 94 ,位号的编号也是01~94 。由区号和位号组成的四位十进制编码被称为该汉字的“区位码”, 其中区号在前,位号在后,并且每一个区位码对应惟一的汉字,例如:汉字“啊”的区位码是" 1601 " ,表示汉字“啊”位于16 区的01 位。

③机内码

区位码中,区号和位号各需要7 个二进位才能表示。每个汉字的区号和位号分别使用 1 个字节来表示,且都从33 开始编号(33 ~126 ),字节的最高位规定均为1 。这种高位均为1 的双字节(16 位)汉字编码就称为GB2312 汉字的“机内码”,又称内码。目前PC 机中GB2312 汉字的表示都是这种方式。

注意(1)GB2312 国际字符集与区位码转换关系为:

将区位码转换成GB2312 国际字符集的方法如下:

①将十进制的区号和位号分别转换成十六进制;

②将转换成十六进制的区号和位号分别加上20H ;

③将分别加上20H 的区号和位号组合,得到GB2312 国际字符集。

( 2 ) 汉字内码是由汉字的国标码加上8080H 形成,即汉字内码=国标码+8080H

【举例】汉字“灯”的区位码是2138 ,求其国标码。

【分析】①汉字“灯”的区号是21 ,位号是38 ,转换成十六进制分别是15H 、26H 。

②将转换成十六进制的区号和位号分别加上20H ,得到15H + 20H = 35H ; 26H + 20H = 46H 。

③因此,汉字“灯”的国标码是:3546H 。

( 2 ) GBK 汉字内码扩充规范

GBK 是我国1995 年发布的又一个汉字编码标准,全称为《汉字内码扩展规范》。它一共有21003 个汉字和883 个图形符号,与GB2312 国标汉字字符集及其内码保持兼容,另外收录了繁体字和很多生僻的汉字。

GBK 字符集中的每一个汉字和图形符号也都采用双字节表示,总的编码范围为8140~FEFE ,首字节在81 ~ FE 之间,尾字节在40 ~ FE 之间(剔除xx7F 一条线不安排字符),总计23940 个码位,共收人21886 个汉字和图形符号,未使用的区域作为用户自定义区。

( 3 ) GB18030 一2000 编码

信息产业部和国家质量技术监督局在2000 年联合发布了GB18030 一2000 汉字编码国家标准,并在2001 年开始执行。

GB18030 一2000 编码标准在GB2312 和GBK 的基础上进行了扩充,它增加了4 字节的编码,使码位总数达到160 多万个。所包含的汉字数目也增加到27000 多个,包括全部中日韩(CJK )统一汉字字符集和CJK 汉字扩充A 和扩充B 中的所有字符。

( 4 )汉字字型码

汉字字型码又称汉字输出码,是用于显示或打印输出汉字的汉字编码。汉字的字型通常用点阵的方式来表示的。

由于不同字体的汉字有不同的要求,因此汉字的点阵也有所不同。汉字点阵可有16x16 点阵、24x24 点阵、32x32 点阵、……、128xl28 点阵、256x256 点阵等。点阵越大,字型质量越高,同时所占用的存储空间也越大。对于NxN 点阵的字型码而言,一个汉字的每一行有N 个点,每一列也有N 个点,由于一个字节占用8 个二进制位,因此每一行所占用的空间是:N ÷8 字节,一个汉字所占用的空间是:Nx ( N ÷8 )字节。

【举例】

16xl6 点阵的字型码,每个汉字所占用的字节数=16xl6 ÷8 = 32 。

24x24 点阵的字型码,每个汉字所占用的字节数=24x24 ÷8 = 72 。

32x32 点阵的字型码,每个汉字所占用的字节数=32x32 ÷8 = 128 。

★考点 2 :数字文本的制作与编辑

1 .文本准备

( l )汉字键盘输入

汉字的键盘输入编码方案有几百种之多,能够被广泛接受的编码方案应具有卜列特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。汉字输入编码大体分为 4 种,分别是:

①数字编码,这是使用一串数字来表示汉字的编码方法,它们难以记忆,很少使用。

②字音编码,这是一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。

③字形编码,不易掌握。

④音形编混合码,它吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来

也不容易。

汉字的输入编码与汉字的内码是不同范畴的概念,不能把它们混淆起来。使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。

( 2 ) 联机手写汉字识别(笔输入)

联机手写汉字识别输入法以平常书写的习惯,把要输入的汉字写在一块叫“书写板”的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间顺序采样后发送到计算机中,由计

相关文档
最新文档