中文信息处理技术原理与应用(5)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
liba2002@sohu.com
17
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
电脑中的一个字符大都是用一个八位数的二进制数字 表示。这样每一字符便可能有256个不同的数值。由于美标 表示。这样每一字符便可能有256个不同的数值。由于美标 只规定了128个编码,剩下的另外128个数码没有规范,各 只规定了128个编码,剩下的另外128个数码没有规范,各 家用法不一。另外美标中的33个控制码,各厂家用法也不尽 家用法不一。另外美标中的33个控制码,各厂家用法也不尽 一致。这样我们在不同电脑间交换文件的时候,就有必要区 分两类不同的文件。 第一类文件中每一个字都是美标形象码或空格码。这类 文件称为“美标文本文件” 文件称为“美标文本文件”(ASCII Text Files),或略为“文 Files),或略为“ 本文件” 本文件”,通常可在不同电脑系统间直接交换。 第二类文件,也就是含有控制码或非美标码的文件,通 常不能在不同电脑系统间直接交换。这类文件有一个通称, 二进制文件” Files)。 叫“二进制文件”(Binary Files)。
liba2002@sohu.com
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中西文兼容处理的概念
目前计算机信息处理主要是数据处理,知识处理能力还 不强。数据表示是利用字符来实现的。比如GB2312不强。数据表示是利用字符来实现的。比如GB231280规定的682个图形字符和6763个汉字等,汉字也是一 80规定的682个图形字符和6763个汉字等,汉字也是一 种字符。 电子计算机诞生于西方,因此无论从体系结构、组织配 置的硬件设计,还是从系统软件和应用软件的设计,都 适合于西文处理。 我们要利用计算机来处理中文(如信息)。可是由于汉 字字数多,字形复杂,不能直接利用现有的西文计算机 来处理汉字。 在实际应用中,经常既需要汉字,也需要西文字符。客 观上要求一个信息处理系统,同时具有处理汉字和处理 西文的能力。
liba2002@sohu.com
18
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
2.国标、区位、“准国标”
“国标”是“中华人民共和国国家标准信息交换用汉字编码” 的简称。国标表(基本表)把七千余汉字、以及标点符号、外文 字母等,排成一个94行、94列的方阵。方阵中每一横行叫一个 字母等,排成一个94行、94列的方阵。方阵中每一横行叫一个 “区”,每个区有九十四个“位”。一个汉字在方阵中的坐标, 称为该字的“区位码”。例如“中”字在方阵中处于第54区第 48位,它的区位码就是5448。 48位,它的区位码就是5448。 其实94这个数字。它是美标中形象码的总数。国标表沿用这个 其实94这个数字。它是美标中形象码的总数。国标表沿用这个 数字,本意大概是要用两个美标形象符代表一个汉字。由于美标 形象符的编码是从33到126,汉字区、位码如果各加上32,就会 形象符的编码是从33到126,汉字区、位码如果各加上32,就会 与美标形象码的范围重合。如上例“ 与美标形象码的范围重合。如上例“中”字区、位码加上32后, 字区、位码加上32后, 得86,80。这两个数字的十六进制放在一起得5650,称为该字的 86,80。这两个数字的十六进制放在一起得5650,称为该字的 “国标码”,而与其相对应的两个美标符号,VP,也就是“中” 国标码”,而与其相对应的两个美标符号,VP,也就是“ 字的“国标符” 字的“国标符”了。
1.简易汉字终端
此类汉字终端不提供执行用户程序的功能,其处理部分由主机完成。 此类终端具有下述功能: l)能输入输出汉字、字符和图形符号。 2)保持西文哑吧型终端的显示属性。 3)具有基本屏幕编辑功能。 4)能接受二种以上汉字输入编码方法。 5)在主机控制下,依靠主机资源,实现某些汉字信息处理动能,并 保持同类西文终端的全部功能。 6)适用于工业控制领域的简易汉字终端,还能实现工业过程显示, 如流程显示、极值显示、误差分析和分数比较等。 7)具有自检功能 此类终端主要用作电报终端和电传机。可选配汉字印字机或其它输 出设备,并配有:国家标准汉字交换码和国家标准15×16或 出设备,并配有:国家标准汉字交换码和国家标准15×16或 24×24字模点阵汉字字形库。 24×24字模点阵汉字字形库。
liba2002@sohu.com
13
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
2.通用汉字终端
这类汉字终端可不提供执行用户程序的能力。由主机控制或自身管理程序 支持,实现初步的汉字和字符信息处理能力。 通用汉字终端应具有下述功能: l)能输入输出汉字,字符、图形符号和图形。 2)具有屏幕编辑功能。 3)保持西文灵巧型终端的显示属性。 4)能接受三种以上汉字输入编码方法。 5)在主机控制下,利用主机资源或在监控程序支持下,具有汉字信息处理 功能,并保持西文终端各种功能。 6)配有可选的汉字打印接口,供硬拷贝输出。 7)对主机具有中西文兼容联机通信能力,选用调制解调器等通信设备,可 适应远程终端等应用场合。 8)具有自检功能。 9)可通过更换功能模块来扩充功能。 通用汉字终端选配汉字印字机或其它输出设备、终端通信部件和国家标准 15×16和24×24字模点阵汉字字形库。 15×16和24×24字模点阵汉字字形库。
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文信息处理系统结构
从系统功能配置角度,可以将中文信息处 理系统结构划分成三级。即终端级、微型 机级和计算机级。
liba2002@sohu.com
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
图5-1 中文信息处理系统三级结构示意图
liba2002@sohu.com
14
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
3.智能汉字终端
这类汉字终端可提供执行用户程序的能力。在主机控制或自身管理程序支持 下,实现较强的汉字和字符信息加工能力。智能汉字终端应具有下述功 能: 1)具有较强的汉字、字符处理能力。 2)保持西文智能型终端的显示属性。 3)具有全屏幕编辑功能。 4)能接受多种汉字输入编码方法。 5)有一定的脱机汉字信息处理能力。 6)配有可选的标准串行和并行接口。 7)对主机有较强的中西文兼容脱机通信能力,选用调制解调器等通信设备, 可适应于远程终端等多种应用场合。对于同一通道上的几条输入输出数 据流进行多路复用与识别。 8)配有二种程序设计语言和丰富应用程序。 9)具有自检功能。 10)通过更换功能模块(固化软件模块或硬件模块)来扩充功能,变为各种 10)通过更换功能模块(固化软件模块或硬件模块)来扩充功能,变为各种 专用汉字终端。 11)提供辅助存储能力。 11)提供辅助存储能力。
liba2002@sohu.com
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
1. 终端级
终端级由中文简易型终端、中西文通用型终端 和中西文智能型终端三种组成。 近年出现了一种Windows简易终端(Windows 近年出现了一种Windows简易终端(Windows Basic Terminal,简称WBT),可以通过网络 Terminal,简称WBT),可以通过网络 与装有Windows 2000/XP/2003操作系统的PC 与装有Windows 2000/XP/2003操作系统的PC 服务器进行连接,而不要求服务器必须装 UNIX、VMS等类型的操作系统。 UNIX、VMS等类型的操作系统。 WBT可以运行服务器上的软件,并访问各种信 WBT可以运行服务器上的软件,并访问各种信 息资源。在客户端用WBT来替代一部分PC机, 息资源。在客户端用WBT来替代一部分PC机, 可有效地降低整个网络的建设成本。目前主要 被应用在局域网中。
liba2002@sohu.com
4
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
设计一种中文计算机系统并在其上增加 西文处理能力具备了必要性,但缺乏可 能性,完备性和现实性。 在现有计算机系统基础上,增加中文信 息处理能力具备了必要性,可能性和现 实性,但缺乏完备性。目前多采用该种 方法。
中文信息处理技术原理与应用
清华大学出版社
中文信息处理技术原理与应用 (五)Biblioteka Baidu
北京信息工程学院计算机系 李宝安
liba2002@sohu.com
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
第五章 中西文兼容处理技术
中西文兼容处理的概念 中文信息处理系统结构 汉字的编码体系 系统级兼容处理方法 应用级兼容处理方法 终端级兼容处理方法 UNIX操作系统的中文化与国际化 UNIX操作系统的中文化与国际化 开放式中西文兼容操作系统设计 中文操作系统的现状与发展
liba2002@sohu.com
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
如何在同一个信息系统中来实现中文和西文处理呢? 是在现有的西文计算机系统上增加中文信息处理功能 呢,还是设计一种中文计算机系统,并在其上增加西 文信息处理呢?或者是重新设计一种计算机系统,无 论是软件系统,还是硬件系统,都能满足世界各种语 言文字处理的要求呢? 设计世界各种语言文字通用计算机信息处理系统具备 了必要性、完备性和可能性,但缺乏现实性。 有关ISO/IEC 10646.1-1993或 有关ISO/IEC 10646.1-1993或GB 13000.1-93《信息 13000.1-93《 技术 通用多八位编码字符集 第一部分:体系结构与基 本多文种平面多文种信息处理》 本多文种平面多文种信息处理》就是面向这个目标的。
liba2002@sohu.com
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
3.计算机级
计算机级分为小型机、中型机、大型机和巨型 机四大类。相应地构成小、中、大、巨四个系 统。 中文信息处理系统的研究与开发,必须充分注 意现有计算机系统软硬件资源的特点。
liba2002@sohu.com
liba2002@sohu.com
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
两个计算机系统兼容程度
表5-1 11级兼容系列
兼容级 别 0 1 2 3 4 5 6 7 8 9 10
liba2002@sohu.com
说
明
两个系统完全不兼容 应用程序级兼容 程序设计语言级兼容 输入/输出接口级兼容 操作系统级兼容 体系结构和代码体系级兼 容 微程序和微指令级兼容 逻辑设计级兼容 对标和电路级兼容 系统装配级兼容 系统体自身
liba2002@sohu.com
15
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字的编码体系
各种编码的辨析与比较 常用编码方式的转换
liba2002@sohu.com
16
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
各种编码的辨析与比较
1.ASCII与Binary ASCII与 我们日常接触到的文件分ASCII和Binary两 我们日常接触到的文件分ASCII和Binary两 种。ASCII是 美国信息交换标准编码” 种。ASCII是“美国信息交换标准编码”的英 文字头缩写,可称之为“美标” 文字头缩写,可称之为“美标”。美标规定了 用从0 127的128个数字来代表信息的规范编 用从0到127的128个数字来代表信息的规范编 码,其中包括33个控制码,一个空格码,和94 码,其中包括33个控制码,一个空格码,和94 个形象码。形象码中包括了英文大小写字母, 阿拉伯数字,标点符号等。美标是国际上大部 分大小电脑的通用编码。
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
关于汉字终端
1.汉字终端是人机接口的界面 2.汉字终端是中文信息处理系统的基础设 备之一 3.汉字终端是一种综合性很强的基本设备
liba2002@sohu.com
12
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
一. 汉字终端系列的构成
liba2002@sohu.com
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
2. 微型机级
中文微型机和西文微型机应向上兼容, 中文微型机和西文微型机应向上兼容 , 不必搞出一种只能处理中文信息而不能 处理西文信息的纯中文微型机。 处理西文信息的纯中文微型机 。 它与终 端的差别在于: 系统结构 软件系统 应用功能