第5章5.1 文本与文本处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
11
5.1 文本与文本处理
GB2312汉字的编码
•优点:
•自然,方便,适合移动计算
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
21
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
GBK汉字内码扩充规范(1995):
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、
冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图表 的输入)
文本编辑
(文本处理)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(存档/通信软件)(文本阅读器)
(1)
(2)
(4)
•QR条码可容纳7089个数字,或者4296个字母, 或者1800个汉字,也可以表示签字、指纹等信 息
•检错和纠错功能较强,能360度全方位识读, 可靠性高
•可引入加密技术,保密性、防伪性较好
5.1 文本与文本处理
二维码
读出的二维码内容(未解密):
260023681484413027974380791246646215467164436949 994772279810109943200000000000000000000053897628 805389762880538976288053897628805389762881428000
数量大;字形复杂,同音字多,异体字多
如何编码?
确定收入多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码?
9
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
UTF-8 UTF-16
E5 8D 97 E4 BA AC E5 A4 A7 E5 AD A6 31 32 33 34 41 42 43 44 57 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00
与字符的编码一样,图像、声音、视频等也分别有许多编码标 准, 如:国际标准(ISO)、国家标准(GB)、工业标准、企业标准 等,这也是信息处理复杂性的原因之一。
须为“1”:
1 X XX X XX XX X XX X XX X
第1字节
第2字节
13
5.1 文本与文本处理
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
26
5.1 文本与文本处理
选讲: 常用自动识别输入技术的比较
一维 条形码
二维 条形码
磁卡
接触式IC卡
非接触式IC卡 /RFID
信息量
小
较小
较小
大
大
读/写
只读
只读 可读/可写 可读/可写
可读/可写
标识 成本
很低
低
较低
中等
较低
识读 成本
优点
低
低
较低
中等
中等
成本低,抗 磁力抗静电
成本低, 抗磁力抗
静电
成本较低, 成本适中,可 可读写 读写,安全
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJKV汉字,···
四字节:非常用CJKV汉字
应用:Windows,Mac,Java,···
14
5.1 文本与文本处理
GB18030汉字编码标准
背景:无论是Unicode的UTFLeabharlann Baidu8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同
23
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)
24
5.1 文本与文本处理
选讲:
条形码
(商品条码)
定位标志
数据区
(QR条码) 25
• 一维条形码将宽度不等的黑条和白 条按一定的编码规则排列成平行线 图案,用以对物品进行标识
•只在一个方向表达信息,信息量有 限(几十个字符),只能包含字母、 数字和一些特殊符号
• 二维条形码在平面(二维方向)上以黑白相 间的图形记录文字和符号信息,信息容量大
GB 18030
近3万汉字
(包括GBK汉字 和CJKV及其扩 充中的汉字)
UCS-2 (Unicode)
包含近11万字符,其 中的汉字与GB18030 相同
编码方法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和表 示,第1个字节 的最高位必为 “1”
部分双字节、 (1) UTF-8采用单字节 部分4字节表示, 可变长编码 双字节表示方 案与GBK相同 (2) UTF-16采用双字
每一个GB2312汉字使用16位(2个字节)表示
为了与ASCII字符相区别,每个字节的最高位均 为“1”
1 X XX X XX X1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111
(用十六进制表示为C4CF)
12
5.1 文本与文本处理
GBK汉字内码扩充规范
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
2
5.1 文本与文本处理
文字处理是计算机应用的基础
0 X XX X XX X
存在问题:
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
8
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马······)
汉字的特点
19
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 20
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字处理是涉及面最广的一种计算机应用, 几乎与任何领域任何人都有关。
3
5.1 文本与文本处理
传统的文字处理过程
写作写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
(5)
5
5.1 文本与文本处理
5.1.1. 字符在计算机中的表示
6
5.1 文本与文本处理
字符、字符集及其编码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等
字符集:一组特定字符的集合
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
满足清晰、美观、便 于使用等要求
文档存盘、打印或发送
29
5.1 文本与文本处理
文本编辑(text editing)
目的:确保文本内容正确无误
操作:对字、词、句和段落进行添加、删除、修 改等操作
为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量 汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码 国家标准。
GB18030实质上是UCS/Unicode字符集的另一种编码方案:
单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向
UCS/Unicode的编码方案:
先实现部分字符的编码(近11万个字符)
尽量与已有编码标准兼容
包含有中、日、韩、越统一整理出来的约7万汉字(称CJKV汉字)
允许有若干不同的编码方案, 常用的两种是:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJKV汉字 四字节:其他
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
7
5.1 文本与文本处理
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国信息交换标准码(ASCII码):
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
GB18030目前已在我国信息处理产品中强制贯彻执行。
15
5.1 文本与文本处理
小结:几种汉字编码的对比
标准名称 GB2312
GBK
字符集
6763个汉字(简 21003个汉字
体字)
(包括GB2312
汉字在内)
5,俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
10
5.1 文本与文本处理
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
信息量大,可读 写,安全方便
缺点
信息量小
信息量 较小
安全性 需接触式识读 一般
成本较高
27
5.1 文本与文本处理
5.1.4 文本的编辑与排版
28
5.1 文本与文本处理
复习:使用Word的操作流程
创建新文档或打开老文档
文稿输入
输入中西文字、符号 和图、表
编辑
进行增、删、改操作,保 证文本的正确性
排版
– 智能校对功能
联机手写输入 语音输入 光学字符识别
纸介质 文本
22
扫描仪
文本的 映象
(image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
光学字符识别 条形码、磁卡、
IC卡、RFID识别
– 预先进行标识 – 扫描识别输入
17
5.1 文本与文本处理
5.1.2. 文本准备
——文稿如何输入计算机
18
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
16
5.1 文本与文本处理
小结:不同标准,不同的表示!
由于采用不同的编码标准,相同文字在计算机中可以有不同 的二进制代码表示。
例如: “南京大学1234ABCD”的3种表示:
GB
C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44