文本的编码

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

软件技术文本的编码
主讲:朱利华
问题引入
不同国家、地区有不同的语言和符号,有西
文字符、中文字符及其他国家字符,在计算
机内部它们如何存储呢?如何能区分识别、
呈现呢?
字符编码
计算机以二进制数形式存储和处理数据,字符必须按特定规则和标准进行二进制编码,才能被计算机识别、处理并存储 ASCII 、Unicode 、IOS-8859-1、GB2312、GBK
对多个字符进行整合封装成一个文件所使用的编码,以便文本在计算机中存储和传递
字符编码
常见字符编码集
为什么要对字符进行编码
字符编码 字符编码
常见字符编码
字符集字符编码对应语言
ASCII ASCII 英语
ISO8859-1 ISO8859-1 拉丁字母
GB2132 GB 简体中文
GBK GBK 简体中文
GB18030 GB18030 简体中文
Big5 Big5 繁体中文
Unicode UTF-8 多国语言
ASCII 码 美国信息交换标准代码 American Standard Code for Information Interchange 英语用 128 个字符来编码足够
非英语的国家远不止,1个字节不够,至少2个字节
两个版本
问题
基本ASCII 码
● 7位二进制字符编码
● 字节的最高位固定为0 ● 可表示128个字符
扩充ASCII 码 ● 8位二进制字符编码 ● 最高位为0或1
● 可表示256个字符
34个控制字符
52个英文字母10个数字
32个字符和运算符
例如:“a”字符编码为01100001,对应的十进制数是97
Unicode码
Unicode码
又称为万国码、国际码、统一码、单一码,对大部分不同国
家或地区的文字进行了系统的整理、编码
特点
不同语言的文字都能被识别、呈现和处理
编码存储方案
Unicode只提供编码方案,没有提供存储方案或实现方式
UTF=Unicode Transform Format(Unicode小组)):分为
UTF-8、UTF-16和UTF-32三种,最常用的是UTF-8
Unicode码-UTF-8
UTF-8
是一种变长的编码方式,是当前Unicode最常用的字符编码(转换)方法,用1-4个字节表示一个符号,根据不同符号变化字节长度
UTF-8编码规则
对于单字节符号,字节第一位设为0,后面7位为该符号的Unicode
码,对于英语字母,UTF-8与ASCII码相同
对于n字节的符号(n>1),第一个字节的前n位都为1,第n+1位设为
0,后面字节的前两位设为10,剩下的全部是该符号的Unicode码
汉字编码
汉字编码 输入码 国标码 字形码 机内码 地址码 汉字输出
汉字输入 汉字存储
汉字处理过程
汉字编码
汉字也是字符,也要转换为二进制
汉字编码较为复杂,需要对汉字信息进行转换处理,主要经历输入、处理和输出过程
●通过汉字输入码输入汉字信息
●计算机内部通过统一的编码将输入码转换为汉字机内码进行存储和处理 ●最后通过字形码将汉字输出显示
汉字编码-输入码
输入码
通过键盘等设备提供的字母、数字等直接把汉字输入到计算
机设计的编码
分类
数字编码、拼音码、字形编码、混合编码
常见的输入码
拼音码:QQ输入法、搜狗拼音、智能全拼、微软拼音、紫光拼音等
字型码:五笔输入、郑码输入
其他:语音输入、手写输入和扫描输入等
汉字输入码负责将汉字输入到机内码进行转换
国际码与区位码
每个国际码或区位码对应唯一的汉字或符号
国标码:四位十六进制数,区位码:四位的十进制数
国际码因为是十六进制数很少用,常用区位码
区位码输入汉字优点:无重码,且输入码与内部编码的转换方便
什么是区位码
优点
GB2312-80规定,所有国标汉字与符号组成一个94×94的矩阵,每一行称为一个“区”(区号为01-94),每一列称为一个“位”(位号为01-94),组成了一个94个区,每个区内有94个位的汉字字符集,每个汉字或符号在码表中都有唯一的位置编码,叫该字符的区位码。

例如:“学” 区号49,位号07,区位码就是4907
国际码GB2312-80
每个汉字占两个字节
一级汉字:3755个;二级汉字:3008个
国际码:在区号和位号之上各加上20H以后所得到的二进制代码(加20H目的:为避免与基本ASCII码中的控制码冲突)
汉字扩展编码(GBK)
GB2312的扩充规范,收录汉字21003个
同一个汉字的GB2312编码与GBK编码相同
机内码 即汉字存储码
用两个字节编码,其中字节的最高位均为1 汉字机内码:在国标码的基础上再加80H (即最高位均置“1”)
汉字 中(3630H ) 华(1B1AH )
区位码 (00110110 00110000)B (00011011 00011010)B
国标码 (01010110 01010000)B (00111011 00111010)B
机内码 (11010110 11010000)B (10111011 10111010)B
地址码
地址码:汉字字库中存储汉字字形信息的逻辑地址码
地址码优点
汉字地址码大多数是连续有序,且与汉字机内码有对应关系汉字内码到汉字地址码的转换也相对比较简单
点阵 汉字字形点阵码 16×16、24×24、32×32、48×48 优点:编码、存储方式简单、无需转换直接输出
缺点:放大后产生的效果差
矢量
存储的是描述汉字字形的轮廓特征
字形码
又称为汉字字模,是存放汉字的字形信息的编码,也与汉字内码一一对应,用于汉字的输出或显示
分类
每个汉字的字形须预先存放在计算机内,国标汉字字符集的所有字符形状描述信息集合在一起,称为字形信息库,简称字库。

不同的字体(如仿宋、楷体、黑体等)对应着不同的字库
谢谢您的观看
敬请批评指点。

相关文档
最新文档