中文信息处理技术原理与应用(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文信息处理技术原理与应用
(一) (一)
北京信息工程学院计算机系 李宝安
liba2002@
1
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
第一章 中文信息处理技术概论
信息处理的实质 汉字编码的种类与中文信息处理过程中汉 字编码的变换 中英文兼容技术 ASCII体系的汉字内码 ASCII体系的汉字内码 Unicode与Unicode汉字 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况
liba2002@
15
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字内部码
由汉字交换码加上标识信息后形成,根据不同的使用环境 和条件,汉字内部码的形式有多种,所以要有汉字内部码 这一代码形式,是由中英文兼容技术要求所引起的。 同样,根据不同的标准,如GB2312-80或GB18030-2000、 同样,根据不同的标准,如GB2312-80或GB18030-2000、 ISO10646、GB13000或Unicode工业标准,具体汉字的 ISO10646、GB13000或Unicode工业标准,具体汉字的 内部码可以有不同的代码定义,但目前公认,系统中汉字 内部码一般采用流行的双字节代码形式。
英文字符的点阵化表示
liba2002@
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文的文字信息处理的特点
中文是联合国六种工作语言之一,是中国56个民族所使用 中文是联合国六种工作语言之一,是中国56个民族所使用 的主语言,也是世界上五分之一以上人口的主语言。 中文汉字是中国30种文字中使用最广的文字,方块汉字是 中文汉字是中国30种文字中使用最广的文字,方块汉字是 其基本表现形式。 与英文相比较,中文的特点表现在字、词、语块、句子、 句模和篇章等七个方面 。 中文字的特点:字多,形美,音少(不同的发音只有410余 中文字的特点:字多,形美,音少(不同的发音只有410余 种,加上四声变化,总共1295种),义众,类难,序隐。 种,加上四声变化,总共1295种),义众,类难,序隐。
18
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字控制码
在英文字符系统中,常用的控制符有34个, 在英文字符系统中,常用的控制符有34个, 根据需要可以扩充。在中文系统中,为控 制某些汉字设备的动作,若有必要,可以 从扩充的控制符中加以定义,作为专用的 控制符使用。
liba2002@
汉字地址码
中文计算机中汉字字形信息一般存放在称为汉字字模库的 存储器内。这一存储器实际上是一种单元号连续的存储介 质,每个汉字字模存放在字库中某一确定的地址,这一地 址信息就称为地址码。 输出汉字时,先要把汉字内部码变换成相应汉字的地址码, 再由地址码射成该汉字的字形信息。
liba2002@
liba2002@
12
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字编码的种类与中文信息处理过程中 汉字编码的变换
汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码
liba2002@
13
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
14
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字交换码
是一种用于系统间或计算机通信用的汉字信息交换码,它是中文信息 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 提及。 另外它也可采用近年来开始流行的Unicode( 另外它也可采用近年来开始流行的Unicode(即通用单一编码或国际 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。
liba2002@
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
英文信息的处理
英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 ,共10个阿拉伯数字。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位 二进制数表示的代码。七位二进制数共可作出128种编码(2 =128),正好分配给总数 二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数 为128个字符)。 128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 个别货币符号有了改动外,其余内容完全相同。
liba2002@
4
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
完备的控制系统模型或完备的信息过程
liba2002@
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
文字信息处理
在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国 语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大 进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料, 排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的 应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化, 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码 代表一个字母或文字。
liba2002@
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
信息处理的实质
信息和信息技术 文字信息处理 中文的文字信息处理的特点
liba2002@
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
信息和信息技术
Байду номын сангаас
1.信息 2.信息技术
liba2002@
16
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字字形码
中文计算机系统中,存储在系统内的汉字 字形信息提供汉字字形码。由它通过输出 设备把汉字内部码转换成汉字字形输出。
liba2002@
17
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
文字信息处理的全过程
(大致包含如下三个环节) (大致包含如下三个环节)
文字信息的输入 文字信息的处理 文字信息的输出
liba2002@
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
对汉字特点的更加详细的分析
汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家 广泛使用的拼音文字有显著的区别 西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字 不仅构成的笔画多,而且它是一种二维结构的图形 汉字的字量大 由于汉字字量大,字形复杂的主要特点,使汉字输入技术成为中文信 息处理上的一个主要难题。通过汉字编码方法输入、光学汉字识别 (OCR)、汉语语音识别输入等几个途径 OCR)、汉语语音识别输入等几个途径 与结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度 来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的 来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的 要24×24点阵以上 24×24点阵以上 和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高
liba2002@
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小 中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小 句法单位(印欧语系中最小的句法单位是语素——morpheme),词 句法单位(印欧语系中最小的句法单位是语素——morpheme),词 类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便, 组句活,词库多。 中文语块乃是能够自由造句的基本句法单位。 中文句的特点:切分难(句乃能独立交际的最小语法单位),句型 (句法上的句子模式称”句型” (句法上的句子模式称”句型”)多,简练,重意合。 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200 个)。 中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文 节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词 可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散 可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散 型。国内有一个观点,认为中文的特点可用3 表示:简(Simple)、 型。国内有一个观点,认为中文的特点可用3S表示:简(Simple)、 短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变 Short)、 Straight)。 化与南腔北调。
19
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文信息处理过程中汉字代码的变换流程
liba2002@
20
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中英文兼容技术
出发点是完全保留并利用原来英文计算机系统的一切硬、软件功能。 使系统能方便地处理中、英文混合的信息流。 为了达到中、英文信息兼容的目的,汉字的代码(即汉字信息交换码) 要遵守英文、数字系统字符代码体系的数据格式。同时,要利用计算 要遵守英文、数字系统字符代码体系的数据格式。同时,要利用计算 机原有的系统软件兼容中、英文两种代码,又要求系统能明确地区分 机原有的系统软件兼容中、英文两种代码,又要求系统能明确地区分 两种代码,以便在信息输出时,系统能对两类信息在逻辑上区分开作 两种代码,以便在信息输出时,系统能对两类信息在逻辑上区分开作 分别的处理。 用二个ASCII交叉组合成汉字信息交换码 用二个ASCII交叉组合成汉字信息交换码 汉字信息进入系统后,应对汉字代码添加相应的标识信息。。 自Microsoft Windows 95版以后,开始使用Unicode作为统一的英文 95版以后,开始使用Unicode作为统一的英文 数字字符和汉字字符的编码,经过这样的改进,对汉字信息处理来说, 实质上跨上了一个全新的台阶。 不管哪一国的字符码均以两个Byte来表示(如采用UCS不管哪一国的字符码均以两个Byte来表示(如采用UCS-2)
汉字键盘码
利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少, 每个汉字一般平均须击键3.5— 每个汉字一般平均须击键3.5—4次以上,所得键盘码的码长度就大, 而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大, 更有必要把它们压缩和译码,变换成二字节的汉字信息交换码,以便 进入计算机系统。
中文信息处理技术原理与应用
(一) (一)
北京信息工程学院计算机系 李宝安
liba2002@
1
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
第一章 中文信息处理技术概论
信息处理的实质 汉字编码的种类与中文信息处理过程中汉 字编码的变换 中英文兼容技术 ASCII体系的汉字内码 ASCII体系的汉字内码 Unicode与Unicode汉字 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况
liba2002@
15
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字内部码
由汉字交换码加上标识信息后形成,根据不同的使用环境 和条件,汉字内部码的形式有多种,所以要有汉字内部码 这一代码形式,是由中英文兼容技术要求所引起的。 同样,根据不同的标准,如GB2312-80或GB18030-2000、 同样,根据不同的标准,如GB2312-80或GB18030-2000、 ISO10646、GB13000或Unicode工业标准,具体汉字的 ISO10646、GB13000或Unicode工业标准,具体汉字的 内部码可以有不同的代码定义,但目前公认,系统中汉字 内部码一般采用流行的双字节代码形式。
英文字符的点阵化表示
liba2002@
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文的文字信息处理的特点
中文是联合国六种工作语言之一,是中国56个民族所使用 中文是联合国六种工作语言之一,是中国56个民族所使用 的主语言,也是世界上五分之一以上人口的主语言。 中文汉字是中国30种文字中使用最广的文字,方块汉字是 中文汉字是中国30种文字中使用最广的文字,方块汉字是 其基本表现形式。 与英文相比较,中文的特点表现在字、词、语块、句子、 句模和篇章等七个方面 。 中文字的特点:字多,形美,音少(不同的发音只有410余 中文字的特点:字多,形美,音少(不同的发音只有410余 种,加上四声变化,总共1295种),义众,类难,序隐。 种,加上四声变化,总共1295种),义众,类难,序隐。
18
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字控制码
在英文字符系统中,常用的控制符有34个, 在英文字符系统中,常用的控制符有34个, 根据需要可以扩充。在中文系统中,为控 制某些汉字设备的动作,若有必要,可以 从扩充的控制符中加以定义,作为专用的 控制符使用。
liba2002@
汉字地址码
中文计算机中汉字字形信息一般存放在称为汉字字模库的 存储器内。这一存储器实际上是一种单元号连续的存储介 质,每个汉字字模存放在字库中某一确定的地址,这一地 址信息就称为地址码。 输出汉字时,先要把汉字内部码变换成相应汉字的地址码, 再由地址码射成该汉字的字形信息。
liba2002@
liba2002@
12
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字编码的种类与中文信息处理过程中 汉字编码的变换
汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码
liba2002@
13
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
14
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字交换码
是一种用于系统间或计算机通信用的汉字信息交换码,它是中文信息 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面 提及。 另外它也可采用近年来开始流行的Unicode( 另外它也可采用近年来开始流行的Unicode(即通用单一编码或国际 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。 通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。
liba2002@
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
英文信息的处理
英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 ,共10个阿拉伯数字。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 +,﹣,×,=,>,<, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位 二进制数表示的代码。七位二进制数共可作出128种编码(2 =128),正好分配给总数 二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数 为128个字符)。 128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了 个别货币符号有了改动外,其余内容完全相同。
liba2002@
4
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
完备的控制系统模型或完备的信息过程
liba2002@
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
文字信息处理
在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国 语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大 进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料, 排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的 应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化, 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码 代表一个字母或文字。
liba2002@
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
信息处理的实质
信息和信息技术 文字信息处理 中文的文字信息处理的特点
liba2002@
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
信息和信息技术
Байду номын сангаас
1.信息 2.信息技术
liba2002@
16
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字字形码
中文计算机系统中,存储在系统内的汉字 字形信息提供汉字字形码。由它通过输出 设备把汉字内部码转换成汉字字形输出。
liba2002@
17
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
文字信息处理的全过程
(大致包含如下三个环节) (大致包含如下三个环节)
文字信息的输入 文字信息的处理 文字信息的输出
liba2002@
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
liba2002@
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
对汉字特点的更加详细的分析
汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家 广泛使用的拼音文字有显著的区别 西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字 不仅构成的笔画多,而且它是一种二维结构的图形 汉字的字量大 由于汉字字量大,字形复杂的主要特点,使汉字输入技术成为中文信 息处理上的一个主要难题。通过汉字编码方法输入、光学汉字识别 (OCR)、汉语语音识别输入等几个途径 OCR)、汉语语音识别输入等几个途径 与结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度 来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的 来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的 要24×24点阵以上 24×24点阵以上 和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高
liba2002@
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小 中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小 句法单位(印欧语系中最小的句法单位是语素——morpheme),词 句法单位(印欧语系中最小的句法单位是语素——morpheme),词 类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便, 组句活,词库多。 中文语块乃是能够自由造句的基本句法单位。 中文句的特点:切分难(句乃能独立交际的最小语法单位),句型 (句法上的句子模式称”句型” (句法上的句子模式称”句型”)多,简练,重意合。 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200 个)。 中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文 节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词 可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散 可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散 型。国内有一个观点,认为中文的特点可用3 表示:简(Simple)、 型。国内有一个观点,认为中文的特点可用3S表示:简(Simple)、 短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变 Short)、 Straight)。 化与南腔北调。
19
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文信息处理过程中汉字代码的变换流程
liba2002@
20
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中英文兼容技术
出发点是完全保留并利用原来英文计算机系统的一切硬、软件功能。 使系统能方便地处理中、英文混合的信息流。 为了达到中、英文信息兼容的目的,汉字的代码(即汉字信息交换码) 要遵守英文、数字系统字符代码体系的数据格式。同时,要利用计算 要遵守英文、数字系统字符代码体系的数据格式。同时,要利用计算 机原有的系统软件兼容中、英文两种代码,又要求系统能明确地区分 机原有的系统软件兼容中、英文两种代码,又要求系统能明确地区分 两种代码,以便在信息输出时,系统能对两类信息在逻辑上区分开作 两种代码,以便在信息输出时,系统能对两类信息在逻辑上区分开作 分别的处理。 用二个ASCII交叉组合成汉字信息交换码 用二个ASCII交叉组合成汉字信息交换码 汉字信息进入系统后,应对汉字代码添加相应的标识信息。。 自Microsoft Windows 95版以后,开始使用Unicode作为统一的英文 95版以后,开始使用Unicode作为统一的英文 数字字符和汉字字符的编码,经过这样的改进,对汉字信息处理来说, 实质上跨上了一个全新的台阶。 不管哪一国的字符码均以两个Byte来表示(如采用UCS不管哪一国的字符码均以两个Byte来表示(如采用UCS-2)
汉字键盘码
利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少, 每个汉字一般平均须击键3.5— 每个汉字一般平均须击键3.5—4次以上,所得键盘码的码长度就大, 而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大, 更有必要把它们压缩和译码,变换成二字节的汉字信息交换码,以便 进入计算机系统。