第5章51文本与文本处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
纸介质 文本
13
扫描仪
文本的 映象 (image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
14
5.1 文本与文本处理
5.1.2 文本的表示与字符的编码
类型
原理
举例
数字 编码
使用一串数字来表示汉 电报码
字
区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
12
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
联机手写输入 语音输入 印刷体识别
存在问题:
➢ 7位代码空间太小(解决方案:8位的扩充ASCII码) ➢ 不同国家和地区使用不同的字符集及其编码,互不兼容 ➢ 东亚地区使用的大字符集无法编码
18
5.1 文本与文本处理
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
3
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
➢ ASCII字符集包含96个可打印字符和32个控制字符 ➢ 采用7个二进位进行编码 ➢ 计算机中使用1个字节存储1个ASCII 字符
5.1.1. 文本的输入
6
5.1 文本与文本处理
文本的输入
文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)
的操作。 文字输入方法概述
➢ 人工输入。 ✓方法:键盘输入、手写笔联机识别输入、语音识别输入; ✓特点:速度慢、成本高,不适合需处理大批量文字的应用。
➢ 文字自动识别输入。将纸介质上的文本通过识别技术自动 转换为文字的编码。 ✓方法:印刷体文字识别输入,手写体文字脱机识别输入; ✓特点:速度快,效率高,有误差。
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
10
5.1 文本与文本处理
文字符号输入计算机的方法
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形及应用 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索
2
5.1 文本与文本处理
文字处理是计算机应用的基础
15
5.1 文本与文本处理
文本表示
文本是计算机表示文字及符号信息的最常用也是最 基本的一种数字媒体。由于文字和符号采用了二进 制编码表示,因而可以方便地进行编辑、排版和各 种分析处理(如统计、排序、分类、索引、检索等)。
16
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
7
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
➢易学习、易记忆 ➢效率高(平均击键次数较少) ➢重码少 ➢容量大(可输入的汉字字数多)
8
5.1 文本与文本处理
汉字键盘输入方法的比较
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
来自百度文库
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
5
5.1 文本与文本处理
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 11
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
•优点:
•自然,方便,适合移动计算
优点
缺点
仅使用10个数字 难记忆 键
简单易学,适合 重码多,需增加选择操作, 于非专业人员 不会汉语拼音或不知道读
音时无法使用
重码少、输入速 缺乏统一的规范,编码规 度较快,适合于 则不易掌握 专业录入员、打 字员使用
同上
同时要掌握音、形两种取 码方法或规则,对普通用 户比较困难
9
5.1 文本与文本处理
字符集:一组特定字符的集合
➢ 不同的字符集包含的字符数目与内容不同,如:
✓中文字符集、西文字符集、日文字符集等
字符的编码:
➢ 字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
➢ 不同的字符其编码各不相同 ➢ 字符集中所有字符的编码的一览表,称为该字符集的码表
17
5.1 文本与文本处理