中文信息处理技术原理与应用(全套课件305P)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12

汉字编码的种类与中文信息处理过程中 汉字编码的变换
汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码



13
汉字键盘码


利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少, 每个汉字一般平均须击键3.5—4次以上,所得键盘码的码长度就大, 而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大, 更有必要把它们压缩和译码,变换成二字节的汉字信息交换码,以便 进入计算机系统。
14
汉字交换码

是一种用于系统间或计算机通信用的汉字信息交换码,它是中文信息 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 提及。 另外它也可采用近年来开始流行的Unicode(即通用单一编码或国际 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。
6
英文信息的处理


英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位 二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数 为128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 个别货币符号有了改动外,其余内容完全相同。
中文信息处理技术原理与应用
1
第一章 中文信息处理技术概论

信息处理的实质 汉字编码的种类与中文信息处理过程中汉 字编码的变换 中英文兼容技术 ASCII体系的汉字内码 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况
2
信息处理的实质
11



对汉字特点的更加详细的分析



汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家 广泛使用的拼音文字有显著的区别 西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字 不仅构成的笔画多,而且它是一种二维结构的图形 汉字的字量大 由于汉字字量大,字形复杂的主要特点,使汉字输入技术成为中文信 息处理上的一个主要难题。通过汉字编码方法输入、光学汉字识别 (OCR)、汉语语音识别输入等几个途径 与结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度 来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的 要24×24点阵以上 和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高

信息和信息技术 文字信息处理 中文的ห้องสมุดไป่ตู้字信息处理的特点
3
信息和信息技术
1.信息 2.信息技术
4
完备的控制系统模型或完备的信息过程
5
文字信息处理






在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国 语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大 进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料, 排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的 应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码 代表一个字母或文字。
10

中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小 句法单位(印欧语系中最小的句法单位是语素——morpheme),词 类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便, 组句活,词库多。 中文语块乃是能够自由造句的基本句法单位。 中文句的特点:切分难(句乃能独立交际的最小语法单位),句型 (句法上的句子模式称”句型”)多,简练,重意合。 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200 个)。 中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文 节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词 可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散 型。国内有一个观点,认为中文的特点可用3S表示:简(Simple)、 短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变 化与南腔北调。
7
文字信息处理的全过程
(大致包含如下三个环节)


文字信息的输入 文字信息的处理 文字信息的输出
8
英文字符的点阵化表示
9
中文的文字信息处理的特点


中文是联合国六种工作语言之一,是中国56个民族所使用 的主语言,也是世界上五分之一以上人口的主语言。 中文汉字是中国30种文字中使用最广的文字,方块汉字是 其基本表现形式。 与英文相比较,中文的特点表现在字、词、语块、句子、 句模和篇章等七个方面 。 中文字的特点:字多,形美,音少(不同的发音只有410余 种,加上四声变化,总共1295种),义众,类难,序隐。
15
汉字内部码


由汉字交换码加上标识信息后形成,根据不同的使用环境 和条件,汉字内部码的形式有多种,所以要有汉字内部码 这一代码形式,是由中英文兼容技术要求所引起的。 同样,根据不同的标准,如GB2312-80或GB18030-2000、 ISO10646、GB13000或Unicode工业标准,具体汉字的 内部码可以有不同的代码定义,但目前公认,系统中汉字 内部码一般采用流行的双字节代码形式。
相关文档
最新文档