《多媒体技术及应用》第3章 文本处理技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于是,汉字的机内码采用变形国标码。其变换方 法为:将国标码的每个字节都加上128,即将两个 字节的最高位由0改1,其余7位不变。也就是说, 如果国标码是16进制的,直接加上8080H即可。
第8页
输入码
汉字输入码是使用英文键盘输入汉字时的编码。目 前,我国已推出的输入码有数百种,但用户使用较 多的只有十几种。按输入码编码的主要依据大体可 分为顺序码、音码、形码、音形码四类。
文本信息处理的复杂情况根据文本结构的不同而 不同。
对于格式文本来说,内容输入完成后,还需要进 行相关的处理,比如版面设计、风格设计、文字 属性编辑、特殊效果处理、打印输出等。
第21页
3.4.1 文本信息处理
文本信息是格式文本的内容,是主体部分;文本 属性信息、版面信息用来表现和反映文本的形式。 内容与形式的适当搭配,是格式文本处理的基本 要求。
当超文本中的内容不仅包含文本块,而且还包含图片、声 音、视频、动画等多种媒体信息,且通过超级链接实现各 种媒体信息的组合使用时,则这种超文本又被称为超媒体。 目前流行于Internet上的网页大多是超媒体。
第14页
常用文本的存储类型
第15页
3.3 获取文本信息
文本信息的获取主要是指利用不同的设备和输入途径,快速 准确地输入文本信息的方法。
格式文本处理的主要目的是为了出版发行(包括打 印、电子发行等)。除了创意和设计风格外,格式 文本处理在技术方面包括以下几方面的内容:
► 1.版面格式设置 ► 2.文字属性编辑 ► 3.非文本内容排版
第22页
1.版面格式设置
在进行格式文本处理时,主要内容就是 根据应用目的和场合,选择合适的版面格式, 并通过文字处理软件进行设置。主要包括页 边距、页眉及页脚的设置,版心区域文字的 排列方向(横向、纵向)和纸张类型(空白纸、 横格纸、竖格纸)等内容。
格式文本要用功能较强的字处理软件来编辑,如 Microsoft Word和金山WPS等。通过这些软件用户可以 定义和编辑文本的格式和版面信息。
格式文本是计算机文字处理的重要内容之一。
第13页
超文本
超文本是以非线性方式组织的,它将文本内容按其内容含 义分割成不同的文本块,再按其固有的逻辑关系通过超链 接组织成非线性的网状结构,从而提供了一种符合人们思 维习惯的联想式阅读方式。纯粹的超文本文件是由超文本 标记语言(HTML)和被分割的不同文本块按照HTML规定 的格式要求组成的。
第27页
颜色
格式文本中的文字属性还包含了显示颜色。 多媒体计算机的显示系统均提供真彩显示,所以
对文字来说也有丰富的颜色供选择。 在文字处理过程中,可通过颜色选择与修改操作
对文字指定任何显示颜色,使整个文本更加丰富 多彩。
第28页
位置
文字的位置主要有:左对齐、右对齐、居中、两 端对齐以及分散对齐等设置,使用时可根据需要 进行选择。
由于是纯文本文件,所以这些简单格式不能随文 字内容一起保存。
第12页
格式文本
格式文本不仅包含文字的基本信息,还包括文字的字号、 颜色、字体以及其他用于规定输出格式的排版(如表格、 分栏等)信息。编辑这类文件,可设置文本的字体、字号、 颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、 字间距、行间距和段间距等。
在文本处理过程中,可通过文字处理软件的相应 操作,方便地设置和修改文本内容的这些属性。
对于正式的印刷出版物来说,不同类型的出版物 都有各自的格式和字体字号等的使用规定。
第23页
2.文字属性编辑
文本中的文字属性包括:
►字体(Font) ►字号(Size) ►风格(Style) ►颜色(Color) ►对齐方式(Align)
属性编辑就是通过相应的操作实现对这些属 性值的设置和修改。
第24页
字体(Font)
Windows系统提供 了许多中文字体, 主要包括宋体、仿 宋、黑体、楷体、 隶书、行楷等近20 种,如图所示。
现在最普及的是拼音输入法(如紫光拼音、搜狗拼 音等)和五笔输入法。如“刘”字,用全拼,输入 码为码为“liu”,用五笔字型则为“yjh”。
需要指出的是,不管采用什么样的编码输入法(例 如拼音、五笔字型等)来输入一个汉字,其机内码 都是相同的。
第9页
3.1.3 Unicode编码
Unicode(统一字符编码标准,又叫万国码、单一码)是一 种在计算机上使用的字符编码。从1990年开始,来自许多 知名计算机公司的语言学家、信息专家和工程师携手合作, 采用16位对多种文字文本和字符进行编码,最后形成了一 个统一的编码方案,为每种语言中的每个字符设定了统一 并且唯一的二进制编码,以满足跨语言、跨平台进行文本 转换、处理的要求。
汉字字号与“磅”以及毫米之间的对应关系
第26页
风格
字体的风格主要指在选定的字体、字号基础上, 再使文字在造型方面有所变化,从而表现出不同 的风格。
具体风格选项有:普通、加粗、斜体、ቤተ መጻሕፍቲ ባይዱ划线、 字符边框、字符底纹和阴影等。
在具体应用中,可以通过字处理软件的风格选项 设置文字的不同风格,使整个文本显得活泼、多 样。
扩展ASCII码
第4页
3.1.2 汉字编码
●国标码 ●区位码 ●机内码 ●输入码
第5页
国标码
我国国家标准局于1981年5月颁布了《信息交换用 汉字编码字符集——基本集》,代号为GB 23121980,是国家规定的用于汉字信息处理使用的代 码依据,这种编码称为国标码。
由连续两个字节组成。在国标码字符集中共收录 6763个常用汉字和682个数字和图形字符,其中一 级汉字3755个,按拼音顺序排列,二级汉字3008 个,按部首排列。
第3页
3.1.1 西文编码
ASCII码
►西文采用ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)表 示,包括数字、字母、特殊符号等。
►ASCII码用7位二进制数表示一个字符,共能表示 27=128个不同的字符,包括了计算机处理信息常用的 26个英文大写字母A-Z,26个英文小写字母a-z,数字 符号0-9,算术与逻辑运算符号、标点符号等。
国标码是由区位码稍作转换得到,其转换方法为: 先将十进制区位码转换为十六进制的区位码,这 样就得了一个与国标码有一个相对位置差的代码, 再将这个代码的第一个字节和第二个字节分别加 上20H,就得到国标码。
第7页
机内码
国标码是汉字信息交换的标准编码,但因其两字 节的最高位为0,与ASCII码发生冲突,如“刘” 字,国标码为41H和75H,而西文字符“A”和“u” 的ASCII也为41H和75H,现假如内存中有两个字 节为41H和75H,这到底是一个汉字,还是两个西 文字符“A”和“u”?于是就出现了二义性。显然, 国标码是不可能在计算机内部直接采用的。
第3章 文本处理技术 概述
文本(Text)是多媒体信息最基本的表示形式之一,可以清 楚、准确地表达思想,描述概念,叙述事实等。它是人们 最熟悉的信息表示方式,例如,文章,书等都以文本形式 出现。
文本的最显著的特点是在组织上是线性的和顺序的。在计 算机系统中,文字和数值都是用二进制编码表示的,文字 信息和数值信息统称为文本信息。
第11页
无格式文本
无格式的文本只存储文字信息本身,文字以固定 的大小和风格输出,因而也称为纯文本,通常保 存为.txt类型的文件。
一般使用简单的文本编辑软件即可进行编辑,如 Windows操作系统中的“记事本”。使用“记事 本”软件,用户无法定义文本格式和版面格式, 只能进行最基本的文本和临时的简单格式处理。
与键盘输入相比,手写输入的最大特点就是操作 简单,只要会写字即可输入文字。
第18页
3.3.3 语音输入
语音输入是通过计算机系统中的音频处理系统(主 要包括声卡和麦克风),采集处理人的语音信息, 再经过语音识别处理,将说话内容转换成对应的 文字来完成输入的。
利用语音识别技术将声音通过计算机转换为文本, 是最方便、最自然、最快捷的文本输入方式。
第6页
区位码
国标GB 2312-1980规定,所有的汉字与符号组成 一个94×94的矩阵,在此方阵中,每一行称为一 个“区”(区号为01~94),每一列称为一个 “位”(位号为01~94),该方阵实际组成了一个 94个区,每个区内有94位的汉字字符集,每一个 汉字或符号在码表中都有一个唯一的位置编码, 称为该字符的区位码。
第17页
3.3.2 手写输入
手写输入法是近年来一种比较成熟的人性化中英 文输入法,适合于不习惯键盘操作的人群和没有 标准英文键盘的场合,常用的掌上电脑、台式机 以及部分手机产品都配备了手写输入系统。
常规的手写输入系统由一个手写笔、一块手写板 和手写识别软件三部分组成,使用时只要把手写 板与电脑主机正确连接,并安装识别软件,即可 像真正在纸上写字一样向电脑输入信息。
一般情况下计算机系统是通过英文键盘来输入英文信息的, 中文信息的输入方法也一样,但这并不等于所有的文本信息 只能通过键盘来输入。
在多媒体应用项目的开发过程中,首先要解决的就是文本信 息的输入问题,有的应用需要在短时间输入大量的文本信息, 仅靠键盘输入内容很难满足需要。
随着多媒体技术的发展,人们己经开发出了手写输入、语音 输入、OCR识别输入等多种文本信息输入方法。
Unicode于1994年正式公布,Unicode标准中包含了超过 18000个汉字(日本、中国和韩国使用的象形文字),以后 的版本中还将包括一些生僻字,例如楔形文字、象形文字 和古代汉字。此外,还保留了一些字符编码空间,用于用 户的专门用途。
第10页
3.2 文本的类型
无格式文本 格式文本 超文本
与其他媒体相比,文本是最容易处理、占用存储空间最少、 最方便利用计算机输入和存储的媒体。
本章主要介绍了文本的基本知识,文本的获取及处理。
第1页
主要内容
3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结
第2页
3.1 文字信息在计算机中的表示
第16页
3.3.1 键盘输入
键盘输入是传统的文本输入方法,是随时可用的主 要的输入方法。
通过键盘,可直接输入英文信息;而中文信息则需 通过不同的中文输入法来完成。
常用的中文输入方法有“搜狗拼音”输入法、“五 笔字型”输入法和“微软拼音”输入法等。
一般来说,使用键盘输入信息特别是中文信息时, 需要经过不断的练习,才能熟练掌握一种汉字输入 方法。
文本是以文字和各种专用符号表达的信息形式, 它是现实世界中使用的最多的一种信息存储和传 递方式,主要用于对信息的描述性表示。
计算机系统通过指定的二进制编码来存储数字、 字母和其它字符。因此,要想在计算机中表示文 字信息,需要将文字用二进制编码的形式表示出 来。
在计算机系统中,西文字符和汉字的编码方式是 不同的。
在处理文本时,应 根据文本的使用需 要选择合适的字体。
第25页
字号
文本中字的大小用两种方式来描述。 汉字的大小通常用规定大小的字号来描述,分为初号、小
初号、一号、二号一直到八号,初号字最大,八号字最小。 西文字符通常则是直接给出字符的大小,以“磅”(Point)
为单位,最小字为5磅,最大字为72磅。“磅”值越大, 字就越大。 汉字也可以在字号设置框内直接输入“磅”值。
使用扫描输入之前,首先要安装扫描仪,并安装相应 的OCR识别软件。使用扫描输入一般要经过以下3个步骤:
1.扫描 2.纠偏和翻转 3.识别
第20页
3.4 处理文本信息
文本信息处理是指根据不同的要求和使用目的, 选择相适应的文本格式,进行内容、形式(版面)、 风格等的编辑与设计工作,并通过设计特殊图符 和效果来美化文本。
语音输入的最大特点是只要会说话,就能把信息 输入到电脑中,但在具体使用之前需经过短时间 的语音“适应”训练。
第19页
3.3.4 扫描输入
扫描输入的核心是光学字符识别技术(Optical Character Recognition,OCR),OCR输入就是指用扫 描仪将印刷文字以图像的方式扫描到计算机系统中,再用 OCR文字识别软件将图像中的文字识别出来,并转换为文 本格式的文件,完成文本信息的输入。
相关文档
最新文档