文本素材处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本素材处理

学习指南:本章介绍文本素材采集、编辑、加工处理的有关知识。主要内容有:文本素材的基础知识,文本素材的采集与处理方法,文本素材创作实例。学习本章,要求掌握以下知识:

掌握文本在计算机中的表示方法,了解文本素材的主要特点;

熟悉常见的文本文件的格式,并能正确地选择文本文件的存储格式;

了解常用的文本素材采集方式,熟悉扫描仪+OCR文字识别输入方法;

了解常用的文字处理软件,掌握Word文字处理的方法;

会用相关的文字处理软件制作多媒体作品中需要的文本素材。

在多媒体作品中,文本是最基本也是最常用的素材。一些说明、介绍、作品中的文字资料都会用到文本,作为多媒体系统的组成元素,它和其它素材同样重要。文本素材处理包含文本的采集、录入、编辑等加工处理,本章将介绍文本素材处理的相关知识。

2.1 文本素材概述

文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可用文本描述。它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。人们在阅读时,通常是一字一句、一行一页顺序地浏览。

文本是文字、字母、数字和各种功能符号的集合。在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。

2.1.2 文本素材基础知识

在多媒体应用系统中,文本作为重要的基本素材而被广泛应用,它具有信息表达清楚、计算机处理方便、存储容易、传输快捷等优势。具体来说:

(1)编码形式简单

在计算机中,西文字符最常用的编码是ASCII码,即American Standard Code For Information Interchange(美国信息交换标准代码)。它用7位二进制数进行编码,可以表示27即128个字符,其中包括数字字符0~9、大小写英文字符、运算符号、标点符号、标识符号和一些控制符号。这些字符种类大致能够满足各种计算机语言、西方文字、常见命令的需要。一个ASCII码字符在内存中占一个字节。

汉字字符在计算机中也是以编码形式处理的,汉字输入用输入编码,汉字存储用机内码,汉字输出用字型码。在计算机中存储时,一个汉字占2个字节。

(2)易于获取,存储、处理和传输容易

多媒体计算机系统中,文本资料可以用多种方式获取,可采用多种输入编码录入,还

可以用光电技术或语音识别技术输入。如果用键盘输入文字,对于一个熟练的文字录入员来说,每分钟可以输入上百个汉字,用光电扫描和语音识别录入,其录入和处理速度更加快捷。

西文字符和汉字在计算机中都是以一个或两个字节的二进制编码表示,占用的空间很小,处理和存储都非常方便,所生成的文本格式文件也很小,一篇十万字的纯中文文本仅占200k左右的空间,移动和传输都很容易。

(3)在多媒体作品中的表现形式丰富

为了使文字在多媒体作品中更加美观生动,常将作品中的文字处理成多姿多彩的艺术形式。各种文字处理软件都具有较强的处理功能,能将文本设置成多种多样的形式,通过对文本字体、字号、颜色、字形(如:加粗、斜体、底纹、下划线、方框、上标、下标等)、字间距、对齐等设置,使文本在多媒体作品中变得丰富多彩。

(4)可以配合其它媒体的应用而提高作品表现力

文本具有其它媒体不可替代的重要作用,它除了自身所能完成的表述功能外,还可以配合其它媒体,共同完成对事件的描述,提高多媒体作品的表现能力。它可以为图片添加说明、为视频添加字幕、为声音解说配上文字注释。

(5)建立超文本链接功能

在多媒体应用系统中,可用文本设置超链接。通过超文本建立的链接关系,实现程序的交互跳转,从而突破传统文本信息表示的线性和顺序结构、建立真正的多种媒体逻辑连接。例如:在多媒体作品中,文章的标题、导航菜单、按钮中的文本都可以建立对应的超链接,用户可通过点击超链接选择自己需要的信息,这样可满足一些教学软件联想式学习的需要及一些多媒体软件交互式操作的需要。

2.1.2常见文本文件的格式

目前流行的文字处理软件种类繁多,不同的软件生成的文件格式各不相同。当使用不同的文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。如字处理软件MicroSoft Word XP/2003的默认文档格式为DOC ,当然该软件还支持另外一些流行的文本文件格式。如TXT 、RTF等等。下面是比较流行的文本文件格式:(1)TXT格式:是纯ASCII码文本文件,纯文本文件除了换行和回车外,不包括任何格式化的信息,即文件里没有任何有关文字字体、大小、颜色、位置等格式化信息。Windows系统的“记事本”就是支持TXT文本编辑和存储的文字工具程序。所有的文字编辑软件和多媒体集成工具软件均可直接使用TXT文本格式文件。

利用纯文本不含任何格式化信息的特点,我们可以比较方便地实现一些图形表格文字的转换,例如,从网页上下载的文字资料一般都包含有格式控制,如果直接下载到Word等字处理环境中,会带有一些不需要的格式符号,常含有表格形式,通过“记事本”等工具,将下载的文本资料转换为纯文本后再导入Word中,会使排版变得轻松快捷。

(2)WRI格式:是W indows系统下的写字板应用程序所支持的文件格式。

(3)DOC格式:是Microsoft Word字处理软件所使用的默认文件格式,其中可以包含不同的字符格式和段落格式。

(4)RTF格式:是Rich Text Format文件格式,是一种可以包含文字、图片和热字(超文本)等多种媒体的文档。在Macromedia公司的多媒体开发软件Authorware6.0/7.0中就可以直接对RTF格式文档进行编辑,并且通过RTF知识对象对其使用。另外,在Microsoft Word 字处理软件中也能将文档保存为RTF文件格式。

(5)WPS格式:是金山中文字处理软件的格式,其中包含特有的换行和排版信息,

相关文档
最新文档