第5章51文本与文本处理

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

纸介质 文本
13
扫描仪
文本的 映象 (image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
14
5.1 文本与文本处理
5.1.2 文本的表示与字符的编码
类型
原理
举例
数字 编码
使用一串数字来表示汉 电报码

区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
12
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别 – 智能校对功能
联机手写输入 语音输入 印刷体识别
存在问题:
➢ 7位代码空间太小(解决方案:8位的扩充ASCII码) ➢ 不同国家和地区使用不同的字符集及其编码,互不兼容 ➢ 东亚地区使用的大字符集无法编码
18
5.1 文本与文本处理
标准ASCII字符集及其码表
b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字信息的处理是各种计算机应用的基础
3
5.1 文本与文本处理
传统的文字处理过程
写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符 号以及一些特殊符号所组成
美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
➢ ASCII字符集包含96个可打印字符和32个控制字符 ➢ 采用7个二进位进行编码 ➢ 计算机中使用1个字节存储1个ASCII 字符
5.1.1. 文本的输入
6
5.1 文本与文本处理
文本的输入
文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)
的操作。 文字输入方法概述
➢ 人工输入。 ✓方法:键盘输入、手写笔联机识别输入、语音识别输入; ✓特点:速度慢、成本高,不适合需处理大批量文字的应用。
➢ 文字自动识别输入。将纸介质上的文本通过识别技术自动 转换为文字的编码。 ✓方法:印刷体文字识别输入,手写体文字脱机识别输入; ✓特点:速度快,效率高,有误差。
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
10
5.1 文本与文本处理
文字符号输入计算机的方法
第5章 数字媒体及应用
5.1 文本与文本处理 5.2 图像与图形及应用 5.3 数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理
5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索
2
5.1 文本与文本处理
文字处理是计算机应用的基础
15
5.1 文本与文本处理
文本表示
文本是计算机表示文字及符号信息的最常用也是最 基本的一种数字媒体。由于文字和符号采用了二进 制编码表示,因而可以方便地进行编辑、排版和各 种分析处理(如统计、排序、分类、索引、检索等)。
16
5.1 文本与文本处理
字符、字符集及其码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等
7
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
➢易学习、易记忆 ➢效率高(平均击键次数较少) ➢重码少 ➢容量大(可输入的汉字字数多)
8
5.1 文本与文本处理
汉字键盘输入方法的比较
文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
文本在计算机中的处理过程是:
(3)
文本处理
文本准备
(文字与图 表
的输入)
文本编辑
(文本处理软件)
与排版
电子 (文本编辑器)格式化的 文本存储
文本
电子文本 与传输
来自百度文库
文本 展现
(文本阅读器)
(1)
(2)
(4)
(5)
5
5.1 文本与文本处理
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 11
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
•优点:
•自然,方便,适合移动计算
优点
缺点
仅使用10个数字 难记忆 键
简单易学,适合 重码多,需增加选择操作, 于非专业人员 不会汉语拼音或不知道读
音时无法使用
重码少、输入速 缺乏统一的规范,编码规 度较快,适合于 则不易掌握 专业录入员、打 字员使用
同上
同时要掌握音、形两种取 码方法或规则,对普通用 户比较困难
9
5.1 文本与文本处理
字符集:一组特定字符的集合
➢ 不同的字符集包含的字符数目与内容不同,如:
✓中文字符集、西文字符集、日文字符集等
字符的编码:
➢ 字符集中每个字符都使用二进位(code) 表示,称为该字符的 编码
➢ 不同的字符其编码各不相同 ➢ 字符集中所有字符的编码的一览表,称为该字符集的码表
17
5.1 文本与文本处理
相关文档
最新文档