第5章5.1文本与文本处理ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

每一个GB2312汉字使用16位(2个字节)表示
每个字节的最高位均为“1”
在16位代码空间中的码位分布:
00 00
第 2字节
7E A1
FE
16位的代 码空间共 有216 = 65536个 码位
第 1 81 字 节 A1
FE
22
GB2312 图形符号
B0
汉字代码空间
(6763个汉字)
F7
5.1 文本与文本处理
6
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
➢易学习、易记忆 ➢效率高(平均击键次数较少) ➢重码少 ➢容量大(可输入的汉字字数多)
7
5.1 文本与文本处理
汉字键盘输入方法的比较
类型
原理
举例
数字 编码
使用一串数字来表示汉 电报码

区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
GB2312汉字编码的不足之处
GB2312-80汉字字数太少,无法满足一些特殊应用的需要: ➢ 人名、地名; ➢ 古籍整理、古典文献研究。 ➢ 没有繁体字(1990年制定了繁体字的编码标准GB12345-90 《信息交换用汉字编码字符集第一辅助集》)
编码效率不高: (6763+682)/65536 与ASCII码不兼容
00
编码不
00
兼容!
保持向下兼容
FF
25
FF
GB2312 6763 汉字
FF
GBK 20902 汉字
FF
GB18030
27484
汉字
5.1 文本与文本处理
例: IE浏览网页时文字编码的选择
26
5.1 文本与文本处理
5.1.3 文本的文件类型
根据用途分为:简单文本、丰富格式文本和超文本三类。
27
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
9
5.1 文本与文本处理
文字符号输入计算机的方法
字(简体字) 字(包括 字(包括GBK
FF
GB2312汉 汉字和CJK
00
字在内) 及其扩充中
00
的汉字)
双字节存 双字节存储 部分双字节、 (UTF-8编码)
储和表示, 和表示,第 部分4字节表 1字节、2字
每个字节 1个字节的 示
节、3字节
的最高位 最高位必为
等不等长编 FF
均为“1” “1”


社 ( Pu b l i s h i n g
B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67
Ho u s e
of
Na n j i n
20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E
g Un iver si t y) 出 版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6
优点
仅使用10个数 字键
简单易学,适 合于非专业人 员
重码少、输入 速度较快,适 合于专业录入 员、打字员使 用
同上
缺点
难记忆
重码多,需增加选择操 作,不会汉语拼音或不 知道读音时无法使用 缺乏统一的规范,编码 规则不易掌握
同时要掌握音、形两种 取码方法或规则,对普 通用户比较困难
8
5.1 文本与文本处理
2
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 3
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
同的具有汉字处理功能的
计算机系统见交换汉字信
息时使用的编码GB2312-
80
国标码因其前后字节的最 高位未0,与ASCII冲突。 如字符“1”,ASCII未31H, 国标码为23H。汉字机内 码采用将国标码每个字节 高位置1作为汉字机内码。
“大”:区位码为: 2083;区号:20, 位号:83;转换 十六进制:1453H
在 计 算 机 中 的 表

28
5.1 文本与文本处理
简单文本(纯文本 )
简单文本是由一连串的字符组成的,除了用于表达正文内容的
字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个 打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构 信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是 TXT。
5.1.2 文本的表示与字符的编码
14
5.1 文本与文本处理
文本表示
文本是计算机表示文字及符号信息的最常用也是最 基本的一种数字媒体。由于文字和符号采用了二进 制编码表示,因而可以方便地进行编辑、排版和各 种分析处理(如统计、排序、分类、索引、检索等)。
15
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
字符集:一组特定字符的集合
➢ 不同的字符集包含的字符数目与内容不同,如:
✓中文字符集、西文字符集、日文字符集等
字符的编码:
➢ 字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
➢ 不同的字符其编码各不相同 ➢ 字符集中所有字符的编码的一览表,称为该字符集的码表
➢确定收入多少字、哪些字? ➢汉字在字符集中的排序方式 ➢ 确定使用的代码结构和代码空间
19
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87
1453H+2020H=3 473H; 得国标码:3473H;
3473H+8080H=B 4F3H; 得机内码: B4F3H
24
5.1 文本与文本处理
几种汉字编码的对比 00 00
GB2312 GBK GB18030 UCS-2 (Unicode)
6763个汉 21003个汉 27 000多汉 2万多汉字
有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富 格式文本”
丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字 符的属性和格式的设置。
举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中
简单文本(纯文本 )
没有字体、字号的变化,不能插入图片、表格,也不能建立
超链接,其文件后缀名是 .txt
由一串用于表达正文内容的字符编码所组成,几乎不包含任
何其他的格式信息和结构信息

举例:

文 本 的 内 容
本书由南
京大 学 出
B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 10
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
•优点:
•自然,方便,适合移动计算
印刷体识别
纸介质 文本
12
扫描仪
文本的 映象
(image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
13
5.1 文本与文本处理
简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺 序写作与阅读是最通用的文本文件格式,文件体积小,阅读不 受限制,几乎所有的文字处理软件都能识别和处理,不能插入 图片、表格等,不能建立超链接。Windows附件中的“记事本” 所创建的文件就是简单文本文件。
29
5.1 文本与文本处理
丰富格式文本
5.1 文本与文本处理
5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索
1
5.1 文本与文本处理
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
0 1 2 3 4 5 6 7 8 9 A BC D E F
b6b5b4
0 1 2 3 4 5 6 7
18
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素
汉字的特点
➢ 数量大;多个国家和地区使用;字形复杂,同音字 多,异体字多
如何编码?
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
11
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
联机手写输入 语音输入
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
4
5.1 文本与文本处理
5.1.1. 文本的输入
5
5.1 文本与文本处理
文本的输入
文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)
23
5.1 文本与文本处理
区位码、国标码、机内码
汉字编码
概念
三者关系
举例
区位码 国标码 机内码
GB2312国标字符集构成 (1) 区位码先转换成十六
一个二维平面,它分成94 进制书表示;
行、94列,行号称为区号, (2)国标码=区位码的十六
列号称为位号。
进制表示+2020H;
(3)机内码=国标码
1980年中国指定的用于不 +8080H=区位码+A0A0H
的操作。 文字输入方法概述
➢ 人工输入。 ✓方法:键盘输入、手写笔联机识别输入、语音识别输入; ✓特点:速度慢、成本高,不适合需处理大批量文字的应用。
➢ 文字自动识别输入。将纸介质上的文本通过识别技术自动 转换为文字的编码。 ✓方法:印刷体文字识别输入,手写体文字脱机识别输入; ✓特点:速度快,效率高,有误差。
20
5.1 文本与文本处理Biblioteka GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
存在问题:
➢ 7位代码空间太小(解决方案:8位的扩充ASCII码) ➢ 不同国家和地区使用不同的字符集及其编码,互不兼容 ➢ 东亚地区使用的大字符集无法编码
17
5.1 文本与文本处理
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
b3b2b1b0
16
一级汉字
…… ……
(3755个)

(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
21
5.1 文本与文本处理
GB2312汉字的编码
16
5.1 文本与文本处理
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
➢ ASCII字符集包含96个可打印字符和32个控制字符 ➢ 采用7个二进位进行编码 ➢ 计算机中使用1个字节存储1个ASCII 字符
相关文档
最新文档