第5章5.1文本与文本处理ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
每一个GB2312汉字使用16位(2个字节)表示
每个字节的最高位均为“1”
在16位代码空间中的码位分布:
00 00
第 2字节
7E A1
FE
16位的代 码空间共 有216 = 65536个 码位
第 1 81 字 节 A1
FE
22
GB2312 图形符号
B0
汉字代码空间
(6763个汉字)
F7
5.1 文本与文本处理
6
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
➢易学习、易记忆 ➢效率高(平均击键次数较少) ➢重码少 ➢容量大(可输入的汉字字数多)
7
5.1 文本与文本处理
汉字键盘输入方法的比较
类型
原理
举例
数字 编码
使用一串数字来表示汉 电报码
字
区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
GB2312汉字编码的不足之处
GB2312-80汉字字数太少,无法满足一些特殊应用的需要: ➢ 人名、地名; ➢ 古籍整理、古典文献研究。 ➢ 没有繁体字(1990年制定了繁体字的编码标准GB12345-90 《信息交换用汉字编码字符集第一辅助集》)
编码效率不高: (6763+682)/65536 与ASCII码不兼容
00
编码不
00
兼容!
保持向下兼容
FF
25
FF
GB2312 6763 汉字
FF
GBK 20902 汉字
FF
GB18030
27484
汉字
5.1 文本与文本处理
例: IE浏览网页时文字编码的选择
26
5.1 文本与文本处理
5.1.3 文本的文件类型
根据用途分为:简单文本、丰富格式文本和超文本三类。
27
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
9
5.1 文本与文本处理
文字符号输入计算机的方法
字(简体字) 字(包括 字(包括GBK
FF
GB2312汉 汉字和CJK
00
字在内) 及其扩充中
00
的汉字)
双字节存 双字节存储 部分双字节、 (UTF-8编码)
储和表示, 和表示,第 部分4字节表 1字节、2字
每个字节 1个字节的 示
节、3字节
的最高位 最高位必为
等不等长编 FF
均为“1” “1”
码
版
社 ( Pu b l i s h i n g
B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67
Ho u s e
of
Na n j i n
20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E
g Un iver si t y) 出 版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6
优点
仅使用10个数 字键
简单易学,适 合于非专业人 员
重码少、输入 速度较快,适 合于专业录入 员、打字员使 用
同上
缺点
难记忆
重码多,需增加选择操 作,不会汉语拼音或不 知道读音时无法使用 缺乏统一的规范,编码 规则不易掌握
同时要掌握音、形两种 取码方法或规则,对普 通用户比较困难
8
5.1 文本与文本处理
2
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 3
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
同的具有汉字处理功能的
计算机系统见交换汉字信
息时使用的编码GB2312-
80
国标码因其前后字节的最 高位未0,与ASCII冲突。 如字符“1”,ASCII未31H, 国标码为23H。汉字机内 码采用将国标码每个字节 高位置1作为汉字机内码。
“大”:区位码为: 2083;区号:20, 位号:83;转换 十六进制:1453H
在 计 算 机 中 的 表
示
28
5.1 文本与文本处理
简单文本(纯文本 )
简单文本是由一连串的字符组成的,除了用于表达正文内容的
字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个 打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构 信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是 TXT。
5.1.2 文本的表示与字符的编码
14
5.1 文本与文本处理
文本表示
文本是计算机表示文字及符号信息的最常用也是最 基本的一种数字媒体。由于文字和符号采用了二进 制编码表示,因而可以方便地进行编辑、排版和各 种分析处理(如统计、排序、分类、索引、检索等)。
15
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
字符集:一组特定字符的集合
➢ 不同的字符集包含的字符数目与内容不同,如:
✓中文字符集、西文字符集、日文字符集等
字符的编码:
➢ 字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
➢ 不同的字符其编码各不相同 ➢ 字符集中所有字符的编码的一览表,称为该字符集的码表
➢确定收入多少字、哪些字? ➢汉字在字符集中的排序方式 ➢ 确定使用的代码结构和代码空间
19
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87
1453H+2020H=3 473H; 得国标码:3473H;
3473H+8080H=B 4F3H; 得机内码: B4F3H
24
5.1 文本与文本处理
几种汉字编码的对比 00 00
GB2312 GBK GB18030 UCS-2 (Unicode)
6763个汉 21003个汉 27 000多汉 2万多汉字
有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富 格式文本”
丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字 符的属性和格式的设置。
举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中
简单文本(纯文本 )
没有字体、字号的变化,不能插入图片、表格,也不能建立
超链接,其文件后缀名是 .txt
由一串用于表达正文内容的字符编码所组成,几乎不包含任
何其他的格式信息和结构信息
文
举例:
本
文 本 的 内 容
本书由南
京大 学 出
B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 10
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
•优点:
•自然,方便,适合移动计算
印刷体识别
纸介质 文本
12
扫描仪
文本的 映象
(image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
13
5.1 文本与文本处理
简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺 序写作与阅读是最通用的文本文件格式,文件体积小,阅读不 受限制,几乎所有的文字处理软件都能识别和处理,不能插入 图片、表格等,不能建立超链接。Windows附件中的“记事本” 所创建的文件就是简单文本文件。
29
5.1 文本与文本处理
丰富格式文本
5.1 文本与文本处理
5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索
1
5.1 文本与文本处理
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
0 1 2 3 4 5 6 7 8 9 A BC D E F
b6b5b4
0 1 2 3 4 5 6 7
18
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素
汉字的特点
➢ 数量大;多个国家和地区使用;字形复杂,同音字 多,异体字多
如何编码?
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
11
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
联机手写输入 语音输入
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
4
5.1 文本与文本处理
5.1.1. 文本的输入
5
5.1 文本与文本处理
文本的输入
文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)
23
5.1 文本与文本处理
区位码、国标码、机内码
汉字编码
概念
三者关系
举例
区位码 国标码 机内码
GB2312国标字符集构成 (1) 区位码先转换成十六
一个二维平面,它分成94 进制书表示;
行、94列,行号称为区号, (2)国标码=区位码的十六
列号称为位号。
进制表示+2020H;
(3)机内码=国标码
1980年中国指定的用于不 +8080H=区位码+A0A0H
的操作。 文字输入方法概述
➢ 人工输入。 ✓方法:键盘输入、手写笔联机识别输入、语音识别输入; ✓特点:速度慢、成本高,不适合需处理大批量文字的应用。
➢ 文字自动识别输入。将纸介质上的文本通过识别技术自动 转换为文字的编码。 ✓方法:印刷体文字识别输入,手写体文字脱机识别输入; ✓特点:速度快,效率高,有误差。
20
5.1 文本与文本处理Biblioteka GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
存在问题:
➢ 7位代码空间太小(解决方案:8位的扩充ASCII码) ➢ 不同国家和地区使用不同的字符集及其编码,互不兼容 ➢ 东亚地区使用的大字符集无法编码
17
5.1 文本与文本处理
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
b3b2b1b0
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
21
5.1 文本与文本处理
GB2312汉字的编码
16
5.1 文本与文本处理
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
➢ ASCII字符集包含96个可打印字符和32个控制字符 ➢ 采用7个二进位进行编码 ➢ 计算机中使用1个字节存储1个ASCII 字符