5.1 文本与文本处理.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
2020/11/9
22
UCS/Unicode的优缺点
优点:编码空间极大,能容纳足够多的各种字符 集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重 克 服 : 在 UCS/Unicode 编 码 空 间 中 , 把 第 1 和 第 2
2020/11/9
7
文本处理
文本处理
文本准备
文本编辑
文本处理软件
电子 文本
(编辑器)
格式化的 电子文本
文本展现
其他 媒体
(阅读器)
网 络 传 输
2020/11/9
8
组成文本的基本元素是字符 (character) ,字符与数值信息一 样,在计算机中也采用二进位编码 表示。
2020/11/9
9
5.1.1 字符的编码
16
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
2020/11/9
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和 表示,第1个 字节的最高位 必为“1”
部分双字节、 部分4字节表 示,双字节表 示方案与GBK 相同
(1) UTF-8采用单字 节可变长编码
(2) UTF-16采用双 字节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
2020/11/9
电 信 号
数字化
数字自 然媒体
• 合成媒体(使用计算机制作的媒体)
取样声音 ,扫描 图像 , 数字视频
人工交
互方式 Modeling 命令语 (describing)
Model (description)
rendering
人可以感 知的形式
言方式
采用特定符号(语言) 表示的文
本,合成语音, MIDI , 图形, 动画
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 2020/11/9
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
30
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
2020/11/9
•优点: •自然,方便,适合移动计算
GB18030目前已在我国信息处理产品中强制贯彻执行。
2020/11/9
24
小结:几种汉字编码的对比
标准名 称
字符集
GB2312
6763个汉字 (简体字)
GBK
21003个汉字 (包括 GB2312汉字 在内)
GB 18030
UCS-2 (Unicode)
近3万汉字 包含10万多字符, (包括GBK汉 其中的汉字与 字和CJK及其 GB18030相同 扩充中的汉字)
俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87 UCS/Unicode多文种大字符集
2020/11/9
15
(1)GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基 本集》——GB2312-1980
GB2312字符集由三个部分构成:
字节均为“0”的一个子空间,作为UCS/Unicode 的子集来使用,记作UCS-2。
2020/11/9
23
(5)GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆 盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并 不相同
的 表 示
2020/11/9
35
丰富格式文本
有字体字号等属性变化、设置了段落和页面排版 格式的文本称为“丰富格式文本”
2020/11/9
3
为什么要学习数字媒体?
数字媒体是各种计算机应用的处理对象,也是网 络的传输对象。不了解“对象”,就不能透彻地 理解计算机和网络的工作原理。
1 进一步理解计算机的工作原理 2 更好地理解常用工具软件的操作原理 3 扩大知识面,了解更多的计算机应用 4 为各个专业和学科进一步学习、使用计算机打下必要的基础
2020/11/9
10
字符编码的属性
字汇:编码字符集中有哪些字符 编码规则:如何确定每个字符的代码
码长: 字符代码的长度。它决定了代码空间的大小
• 定长码:7位,8位,双字节,4字节 • 可变长码:单-双-4字节码
2020/11/9
11
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、 标点符号以及一些特殊符号所组成
本 在
本 的

社 ( Pu b l i s h i n g
B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67
计 算


Ho u s e
of
Na n j i n
20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E
机 中
g Un iver si t y) 出 版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6
等繁体字和生僻字 • 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为
“1”:
1 X XX X XX X X X XX X XX X
第1字节
第2字节
2020/11/9
19
(3)Big5(大五码)
台湾、香港地区使用。 注意:GB2312(GBK)与Big5并不兼容。
2020/11/9
25
例: IE浏览网页时文字编码的选择
2020/11/9
26
编码 小结
ISO 646 (ASCII码)
兼容
兼容
CJK汉 字字汇
GB2312-80
兼容
GBK-95
兼容
UCS/Unicode
映 射
GB18030-2000/2005
2020/11/9
27
5.1.2. 文本准备
——文稿如何输入计算机
2020/11/9
2020/11/9
13
2、汉字编码字符集
汉字的特点:
• 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的 “现代汉语通用字表”包含7000汉字)
• 多个国家和地区使用:港台地区,日、韩、朝、新、马等 • 字形复杂,同音字多,异体字多。
2020/11/9
14
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK-1995 国家标准GB18030-2000/2005 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
20
(4)UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中 进行统一编码(目前共收集了17x216=1,114,112 个) ,称为 UCS。
UCS:ISO/IEC 10646
Universal Multiple-Octet Coded Character Set,通用多 8位编码字符集
28
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
2020/11/9
29
文字符号输入计算机的方法
2020/11/9
4
5.1 文本与文本处理
2020/11/9
5
什么是文本?
文本(text):文字信息在计算机中的表示形式
是基于特定字符集的、具有上下文相关性的一个(二进制编码)字 符流,是计算机中最常用的一种数字媒体。
2020/11/9
6
文本的处理
文本在计算机中的处理过程:文本的准备 (例如汉字的输入),文本编辑,文本处 理,文本存储与传输、文本展现等,根据 应用的不同,各个处理环节的内容和要求 可能有很大的差别。
为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字 信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标 准。
GB18030实质上是UCS/Unicode字符集的另一种编码方案: • 单字节编码(128个)表示ASCII字符 • 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持 向下兼容,GBK不再使用 • 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
印刷体识别
纸介质 文本
扫描仪
文本的 映象
(image)
2020/11/9
OCR
数字 文本
32
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
2020/11/9
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
33
5.1.3 文本的分类与表示
第5章 数字媒体及应用
2020/11/9
1
什么是数字媒体?
“媒体”指的是信息的各种表示形式(如数值、文 字、图像、声音、视频等)
数字媒体就是数值、文字、声音、图像等的二进 制数字表示
2020/11/9
2
2 种不同类型的数字媒体
自然媒体(使用数字化方法从现实世界获取的媒体)
声波 光波
力 温度
检测与 转换器
美国标准信息交换码(ASCII码):
• ASCII字符集包含96个可打印字符和32个控制字符 • 采用7个二进位进行编码 • 计算机中使用1个字节存储1个ASCII 字符
0 X XX X XX X
2020/11/9
12
特殊字符的ASCII码
• 空格(32)20H • 0(48)30H • A(65)41H • a(97)61H • 回车(13) 0DH
GB2312的不足: • 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整 理、古典文献研究等应用的需要;与ASCII码不兼容
GBK汉字内码扩充规范(1995):
• 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 • 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇
•不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
31
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98% •文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
联机手写输入 语音输入
(称CJK汉字) 允许有若干不同的编码方案, 例如:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,···
位号
拉丁字母、俄
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
区 号 55
56
87 94
…… ……
(3755个) (按汉语拼音排列)
二级汉字 (3008个) (按偏旁部首排列) (扩充使用)
共6763个汉字
2020/11/9
17
练习
• 1MB的内存空间可以存放 机内码。
个GB2312-80的汉字
A. 1024 B. 512 C. 1024×512 D. 1024×1024
•设有一串字符的内码为:B5C8BCB6BF3DF1E3,
则这串字符中包含
个GB2312-80汉字。
2020/11/9
18
(2)GBK汉字内码扩充规范
Unicode:统一码或联合码,微软、IBM等联合制定、与UCS 完全等同的工业标准
UCS/Unicode用4个字节对全世界现代书面文字所使用的所 有字符、符号进行编码(记作 UCS-4)
2020/11/9
21
UCS/Unicode的编码方案
先实现部分字符的编码(共107,361个字符) 尽量与已有编码标准兼容 其中包含有中、日、韩统一整理出来的近3万汉字
2020/11/9
34
简单文本(纯文本 )
• 没有字体、字号的变化,不能插入图片、表格,也不能建立超
链接,这种文本通常称为纯文本或ASCII文本,在PC机中的文
件后缀名是.txt
• 由一串用于表达正文内容的字符编码所组成,几乎不包含任何
其他的格式信息和结构信息

• 举例:

本书由南
京大 学 出
B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6
相关文档
最新文档