计算机专升本复习资料第5章5.1_文本与文本处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
存在问题:
7位代码空间太小(解决方案:8位的扩充ASCII码) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符集无法编码
8
5.1 文本与文本处理
汉字的特点
数量大;多个国家和地区使用;字形复杂,同音字 多,异体字多
如何编码?
确定收入多少字、哪些字? 汉字在字符集中的排序方式 确定使用的代码结构和代码空间
10
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87
11
5.1 文本与文本处理
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
储和表示, 和表示,第 部分4字节表 1字节、2字
每个字节 1个字节的 示
节、3字节
的最高位 最高位必为
等不等长编 FF
均为“1” “1”
码
00
编码不
00
兼容!
保持向下兼容
FF
15
FF
GB2312 6763 汉字
FF
GBK 20902 汉字
FF
GB18030
27484
汉字
5.1 文本与文本处理
例: IE浏览网页时文字编码的选择
16
5.1 文本与文本处理
5.1.2. 文本准备
——文稿如何输入计算机
17
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
几种汉字编码的对比 00 00
GB2312 GBK GB18030 UCS-2 (Unicode)
6763个汉 21003个汉 27 000多汉 2万多汉字
字(简体字) 字(包括 字(包括GBK
FF
GB2312汉 汉字和CJK
00
字在内) 及其扩充中
00
的汉字)
双字节存 双字节存储 部分双字节、 (UTF-8编码)
B0
汉字代码空间
(6763个汉字)
F7
5.1 文本与文本处理
GB2312汉字编码的不足之处
GB2312汉字字数太少,无法满足一些特殊应 用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字
编码效率不高: (6763+682)/65536 与ASCII码不兼容
14
5.1 文本与文本处理
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
5
5.1 文本与文本处理
5.1.1. 字符在计算机中的表示
6
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
字符集:一组特定字符的集合
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
字符的编码:
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
3
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
12
5.1 文本与文本处理
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示
每个字节的最高位均为“1”
在16位代码空间中的码位分布:
00 00
第 2字节
7E A1
FE
16位的代 码空间共 有216 = 65536个 码位
第 1 பைடு நூலகம்1 字 节 A1
FE
13
GB2312 图形符号
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
1
5.1 文本与文本处理
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现 5.1.3 文本的分类与表示
2
5.1 文本与文本处理
字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
不同的字符其编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表
7
5.1 文本与文本处理
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
b3b2b1b0
0 1 2 3 4 5 6 7 8 9 A BC D E F
b6b5b4
0 1 2 3 4 5 6 7
9
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素
存在问题:
7位代码空间太小(解决方案:8位的扩充ASCII码) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符集无法编码
8
5.1 文本与文本处理
汉字的特点
数量大;多个国家和地区使用;字形复杂,同音字 多,异体字多
如何编码?
确定收入多少字、哪些字? 汉字在字符集中的排序方式 确定使用的代码结构和代码空间
10
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87
11
5.1 文本与文本处理
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
储和表示, 和表示,第 部分4字节表 1字节、2字
每个字节 1个字节的 示
节、3字节
的最高位 最高位必为
等不等长编 FF
均为“1” “1”
码
00
编码不
00
兼容!
保持向下兼容
FF
15
FF
GB2312 6763 汉字
FF
GBK 20902 汉字
FF
GB18030
27484
汉字
5.1 文本与文本处理
例: IE浏览网页时文字编码的选择
16
5.1 文本与文本处理
5.1.2. 文本准备
——文稿如何输入计算机
17
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
几种汉字编码的对比 00 00
GB2312 GBK GB18030 UCS-2 (Unicode)
6763个汉 21003个汉 27 000多汉 2万多汉字
字(简体字) 字(包括 字(包括GBK
FF
GB2312汉 汉字和CJK
00
字在内) 及其扩充中
00
的汉字)
双字节存 双字节存储 部分双字节、 (UTF-8编码)
B0
汉字代码空间
(6763个汉字)
F7
5.1 文本与文本处理
GB2312汉字编码的不足之处
GB2312汉字字数太少,无法满足一些特殊应 用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字
编码效率不高: (6763+682)/65536 与ASCII码不兼容
14
5.1 文本与文本处理
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
5
5.1 文本与文本处理
5.1.1. 字符在计算机中的表示
6
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
字符集:一组特定字符的集合
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
字符的编码:
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
3
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
12
5.1 文本与文本处理
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示
每个字节的最高位均为“1”
在16位代码空间中的码位分布:
00 00
第 2字节
7E A1
FE
16位的代 码空间共 有216 = 65536个 码位
第 1 பைடு நூலகம்1 字 节 A1
FE
13
GB2312 图形符号
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
1
5.1 文本与文本处理
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现 5.1.3 文本的分类与表示
2
5.1 文本与文本处理
字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
不同的字符其编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表
7
5.1 文本与文本处理
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
b3b2b1b0
0 1 2 3 4 5 6 7 8 9 A BC D E F
b6b5b4
0 1 2 3 4 5 6 7
9
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素