文字处理基础理论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字代码在系统中的分布: 内部码,交换码 地址码,字形码 控制码
内 部 处 理 层
外 部 输 入 层 汉 字 输 入 设 备
外部输出层 汉字显示器 汉字打印机 字形码,控制码 磁盘机 磁带机 交换码,字形码,控制码 通信接口 交换码,控制码 语音合成输出 语音成分
计算机
(包括汉字库)
汉字交换码 键盘输入码 汉字识别码 语音识别码
二 流水码:将被编码的汉字按一定的顺序排列,逐一赋予 一号码作为该汉字编码。
特点:整齐,简单,输入速度快,用户较难记忆和掌握。 实例:国标码,区位码,电报码等。 三 音码:根据被编码汉字的读音形成的代码。
特点:简单易于掌握,输入速度慢,知道读音方可输入。
实例:拼音码 四 形码:根据被编码汉字的字形形成的代码。 特点:输入速度快
文字处理基础理 论
重点!
文字处理及图文混排的方法
文字信息处理
1.1 文字信息处理的概念: 一. 概念 信息:自然存在的人类活动所产生的各种状态和消息的 总称。 信息的载体:文字,声音,数据,图形,图像等。
信息的处理:信息的传输,存储和加工。
本课所指信息:文字信息。 二.中文信息处理的必要性: 研究内容:汉字输入,汉字信息存储和加工处理,汉字 输出。 三.中文信息处理的发展:
输入码 控制码
汉字内部码:汉字信息处理系统内部标识汉字的编码。 汉字输入码:由输入设备直接发生的,与内部码有对应关系的可 区别信息。
汉字地址码:存储汉字字形信息的逻辑地址码。
汉字交换码:用于汉字信息处理系统之间或与通讯系统之间进行 信息交换的汉字代码。
汉字字形码:指确定一汉字字形点阵的代码或称汉字字模点阵码。
实例:五笔字型编码方案,五笔画编码方案
五 音形结合码:根据被编码汉字的读音和字形确定的汉字编 码,分为形音码和音形码。
特点:结合音码与形码之长,快速输入,记忆量较大
实例:首尾码,PV码
2.3 一
汉字内部码: 概述:
信息处理系统通常由信息采集,信息传输,信息存储, 信息加工和信息利用等几部分组成。 西文内部码与其交换码是统一的,即ASCII码。 汉字内部码尚无统一的标准。 二 1 汉字内部码的编码原则: 理想的汉字内部码方案应具备的特征:
五种基本笔划:横,竖,撇,捺,折。
字根:组成汉字形体的基本结构单元。 二.汉字字音
汉字是单音节文字,每字一个音节。 汉语普通话有:主要元音音素6个,辅音音素22个,声母 21个,韵母35个,可构成417个基本音节,1330个左右的声 调音节。 三.汉字字义 汉字字义属性在汉字信息处理技术中应用受到极大限制。 1.3 汉字信息处理标准: 汉字信息处理是以计算机系统作为工具,故汉字信息处 理技术应满足电子计算机系统的有关标准。 国家标准化机构组织了各方面专家制订出我国汉字信息 领域的一系列标准。包括汉字交换码标准,汉字点阵字模集 及数据集标准。
50年代末期:研制成功俄汉机器翻译模型样机
60年代末期:研制出汉字电报译码机 70年代开始:开设系统地研制开发 70年代末期:研制成功一些新型汉字输入与输出设备 80年代以来:汉字信息处理技术蓬勃发展,国家颁布了一系 列中文信息处理标准 四.中文信息处理系统的组成 硬件:计算机硬件,字库,输入设备和输出设备。
汉字控制功能码:汉字信息处理中,用以控制汉字数据的格式, 传送和解释执行的编码。
2.2 汉字输入码:
一 概述:
汉字输入的种类:汉字的键盘输入,字形识别输入,语 音识别输入 小键盘编码输入:用字母,数字或符号将汉字编成代码 的间接输入。
汉字输入码按编码规则分为:流水码,音码,形码和音 形结合码四种。
(1)有足够的汉字字符数量。
(2)与国家标准交换码基本有良好的一一对应关系。 (3)内部码的长度为定长字节—双八位,码长最短,与大多软件相容。 (4)最大限度地与现在的主流内部码体系相兼容。
2.4 汉字的其它代码: 一 汉字交换码
GB2312—80为基本集中6763个汉字确定了交换码。
GB7589,GB7590分别为辅二和辅四集中16000多个汉字 确定了交换码。 二 汉字地址码 汉字地址码与内部码应有简单的对应关系;且应是连续有 续的。
三 汉字字形码 多为数字式,以点阵方式形成汉字。 简易型16*16,普及型24*24,提高型32*32汉字字型点阵 已有国家标准。 汉字字形码设计涉及文字学,书法艺术等。 汉字代码之间的关系: 示意图如下:
设备或系统
交换码
交换码
键盘 输入码 键盘管理模块
通讯管理模块 内部码 内部码
内部码
(1) 信息的冗余度小,以尽量短的码长表示尽可能多的汉字 字符。
(2) 码长固定,便于处理。
(3) 能表示足够的汉字字符以满足用户需要,并可扩充。
(4) 与国家标准交换码有简单的对应关系。
(5) 能唯一地标识汉字,达到一字一码,一码一字。
(6) 尽量回避专用的控制字符。 (7) 有好的国际兼容性。 2. 汉字内部码的编码原则:
ห้องสมุดไป่ตู้
软件:中文操作系统(系统软件)和应用软件。
汉字
键盘 汉字识别装置 汉语语音识别装置 通讯接口 字库 汉字显示器
信息
汉字 交换码
汉字打印机
语音合成设备 应用软件 中文操作系统 输入处理 字库管理 通讯接口 输出
计算机硬件 输出处理
汉字交换码
1.2 汉字的属性 汉字的属性是指汉字所具有的性质和特点。 汉字的三个基本属性:字形,字音,字义。 一.汉字的字形 汉字的六种造字方法:象形,指事,会意,形声,假 借,转注。 汉字的基本结构分析:汉字字形分解的层次各不相同, 一般可拆分为三个层次:即汉字,字根,笔划。
1.4 汉字信息处理的应用 1 .电子出版系统: 2 .中文情报检索系统: 3 .汉字通信系统: 4 .信息管理系统:
5 .机器翻译系统:
6 .办公自动化系统:
第二章
主要内容 汉字代码的六种类型 汉字输入码,内部码的确定 汉字代码之间的关系
汉字代码体系
2.1 代码的国家标准
一 概念
汉字编码:是指按一定的规则,对指定的汉字集中的元素编 制相应代码。 汉字代码:即汉字字符的代码化表示,常用英文字母和(或) 数字的不同组合来表征。 汉字代码的六种类型及其在系统中的分布: