多媒体和flash

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多媒体和flash
声音信号的两个基本参数是频率与幅度。

频率是指信号每秒钟变化的次数,用Hz表示。

人们把频率小于20 Hz的信号称之亚音信号,或者称之次音信号(subsonic);频率范围为20Hz~20kHz的信号称之音频(audio)信号;尽管人的发音器官发出的声音频率大约是80Hz~3400Hz,但人说话的信号频率通常为300Hz~3000Hz,人们把在这种频率范围的信号称之话音(speech)信号;高于20kHz的信号称之超音频信号,或者称超声波(ultrasonic)信号。

在多媒体技术中,处理的信号要紧是音频信号,它包含音乐、话音、风声、雨声、鸟叫声、机器声等。

1.声音的数字化
声音进入计算机的第一步就是数字化。

人耳听到的声音是一种具有振幅、周期的声波,计算机要处理这种声波,能够通过话筒把机械振动转变成相应的电信号,这也是一种连续的模拟信号,而计算机只能处理数字量,因此只有把这种模拟量转换成数字量计算机才能处理。

这个转换过程称之模/数转换(A/D转换)即声音的数字化。

模/数转换过程要紧分采样、量化及编码3步。

(1) 采样。

在某个特定的时刻对模拟信号进行测量叫做采样(sampling)。

其做法是每隔一定时间对模拟信号的幅值进行测量,得到离散的幅值,用它代表两次采样之间的模拟值。

假设输入电压的范围是-4V~4V,并假设它的取值只限定在0、1、2、…,7共8个值。

第一次采样得到的幅度值是-0.82V,它的取值就应算作-1V,第二次采样得到的幅度值是0.89V,它的取值就算作1V,以此类推下去即可得到一系列的采样值,用这些离散数值代表相应时间段内声音的连续值(如图10-1所示)。

图10-1声音的采样与量化
采样频率是指单位时间(1s)内采样的次数。

采样频率越高,声音回放出来的效果越好,文件所占的存储空间也就越大。

采样频率不应低于声音信号最高频率的两倍,常用的采样频率有44.1kHz、22.05kHz、10.25kHz。

(2) 量化。

量化是将通过采样得到的离散数据转换成二进制数的过程,量化位数即分辨率是指将通过采样得到的离散数据转换成几位二进制数。

上例中,假如取量化位数为8位,马上采样的到的值用8位二进制数表示,则第一次采样得到的值-1即可表示为-00000001,第二次采样得到的值可表示为00000001。

在多媒体计算机中音频的量化位数通常为32、16、8、4位。

显然,量化位数(二进制位数)越多,量化后的波形越接近原始波形,声音的音质越好,存储该声音所用的文件也就越大。

(3) 编码。

将采样量化后的二进制数据按照一定的规则进行组织,以利于计算机的处理称之编码。

最简单的编码是用二进制的补码表示。

如上例中第一次采样值-1通过编码后被表示为11111111,第二次表示为00000001。

上述声音的数字化过程是由声卡完成的。

一秒钟声卡对声音采样上千次,通过模/数转换器将模拟声波转换成数字信息存储在扩展名为.wav的波形文件中。

当声音播放时,声卡中的数/模转换器将声音还原成模拟信号、放大输出到喇叭或者耳机,变成人耳能够听到的声
音。

2.声音的压缩
(1) 声音文件的大小。

通常来说,采样频率、量化位数越高,声音质量也就越高,储存这段声音所用的空间也就越大。

立体声(用两个波形记录声音)是单声道(用一个波形记录声音)文件的2倍。

即文件大小(B)=采样频率(Hz)×录音时间(s)×(分辨率/8)×通道数(单声道为1,立体声为2)
如:使用采样频率为44.1kHz,分辨率为16位,立体声的标准录音,录制10s的文件大小为:
44.1×103×10×(16/8)×2=1764000B即1.68MB
由此可见,音频的数字化要占用很大的空间,因此对音频数字化信号进行压缩是十分必要的。

(2) 声音的压缩。

声音信号的压缩编码方式有两种:一种是波形编码技术,针对声音波形进行编码;另一种是声码技术,是对声音数字信号进行分析,提取其特征参数。

经编码后可由重构来合成声音信号。

波形编码是对声音波形进行抽样、量化、编码。

在信号采样与量化过程中,考虑到人的听觉特性,使编码后的音频信号与原始信号的波形尽可能匹配,采样频率假如在9.6Kbps~64Kbps的到的声音信号的质量较高。

但波形编码法易受量化噪声影响,进一步降低编码率也较困难。

常用的压缩编码是DPCM(差分脉冲编码调制)与ADPCM(自习惯差分量化)。

参数分析与合成的编码方法是以声音信号产生的模型为基础,将声音信号转换成参数后再进一步编码。

声音的基本参数是基音周期、共振峰、语音谱、声强等。

利用这些参数,就能够不对声音的波形进行编码,只要记录与传输这些参数就能实现声音数据的压缩。

声音的基本参数能够由声音生成机构模型通过实验得到。

典型的分析合成技术有通道声码器、同态声码器与线性预测声码器。

其压缩率大,但计算量大、保真度不高,适合于语音信号的编码。

典型的有LPC线性预测编码。

3.声音文件的格式
声音数据有多种存储格式,目前比较流行的有以.wav (waveform)、.au(audio)、.aiff(audio interchangeable file format)与.snd(sound)等为扩展名的文件格式。

.wav格式要紧用在PC 上,.au要紧用在Unix工作站上,.aiff与snd要紧用在苹果机与美国视算科技有限公司(Silicon Graphics Inc.,SGI)的工作站上。

这里要紧介绍.wav与.midi。

(1) WAV 文件。

WA V文件是微软公司的音频文件格式,又称之波形文件格式,它来源于对声音模拟波形的采样,用不一致的采样频率对声音的模拟波形进行采样能够得到一系列离散的采样点,以不一致的量化位数把这些采样点的值转换成二进制数,然后存盘,就产生了声音的W A V 文件。

此种格式的声音是由采样数据构成的,因此它需要的存储容量很大。

用前面介绍的公式能够简单地推算出W A V文件的文件大小。

(2) MIDI文件。

MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”,是用于在音乐合成器(music synthesizers)、乐器(musical instruments)与计算机之间交换音乐信息的一种标准协议。

MIDI是乐器与计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么、怎么做,如演奏音符、加大音量、生成音响效果等。

MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或者其他装置让它产生声音或者执行某个动作的指令。

当信息通过音乐或者声音合成器进行播放时,该合成器对系列的MIDI信息进行解释,然后产生出相应的音乐或者声音。

记录MIDI信息的标准格式文件称之MIDI文件,其中包含音符、定时与多达16个通道的乐器定义及键号、通道号、持续时间、音量与击键力度等各个音符的有关信息。

由于MIDI 文件是一系列指令而不是波形数据的集合,因此其要求的存储空间较小。

(3) WA V文件与MIDI文件的区别。

WA V文件记录的是声音的波形,要求较大的存储空间;MIDI文件记录的是一系列的指
令,文件紧凑占用空间小,预先装载比W A V容易,设计播放所需音频的灵活性较大。

W A V 文件的可编辑性好于MIDI文件,音质也比MIDI文件饱满。

由此可见,W A V文件适合于:
①计算机资源足够处理数字文件。

②有语言会话的需要。

③对回放设备没有特定要求。

MIDI文件适合于:
①没有足够的内存、硬盘空间或者CPU处理能力不强。

②具备符合要求的回放设备。

③具有高质量的声源。

④没有语言对话的需要。

(4) VOC文件。

VOC文件是Creative公司波形音频文件格式,也是声霸卡使用的音频格式文件。

每个VOC文件由文件头块与数据块构成。

声霸卡提供的软件能够实现VOC与W A V文件的转换。

10.2.2多媒体图像技术
在计算机屏幕上显示的文本与画面通常用位图图像、矢量图形来描述。

1.位图图像
(1) 概念。

位图图像是通过显示器像素点的颜色与亮度来反映原始图像的效果。

能够把一幅位图图像懂得为一个矩阵,矩阵中的每个元素就是图像中的一点,称之为像素。

每个像素都有颜色与亮度。

矩阵中的所有不一致颜色、不一致亮度的点就构成了一幅图像。

位图图像适合于表现比较细致,层次、颜色比较丰富,含有大量细节的图像。

(2) 位图图像的有关概念。

①分辨率
分辨率包含屏幕分辨率、图像分辨率与像素分辨率3种。

屏幕分辨率指计算机屏幕上最大显示区域水平与垂直方向上的像素个数,如VGA显示器的屏幕分辨率为640×480,是指水平方向有640个像素,垂直方向上有480个像素。

图像分辨率是指图像数字化时,在水平、垂直方向上的像素个数。

当图像分辨率大于屏幕分辨率时屏幕上只能显示一部分图像。

像素分辨率是指一个像素点的长与宽的比例。

像素点尽可能长宽相等,使之成为正方形,否则图像就会变形。

②色彩空间
色彩空间是指彩色图像所使用的颜色描述方法(也叫彩色模式),如RGB空间就是通过调节R(红)、G(绿)、B(蓝)3种颜色的构成成分使人眼与大脑感受各类各样的颜色。

常用的颜色空间有RGB、CMYK(青、品红、黄、黑)、HSB(色相、饱与度、亮度)等。

③图像深度
图像深度是指图像中可能出现的不一致颜色的最大数目。

它取决于数字化时每个像素所占的位数,也就是用几位二进制数表示一个像素,即通常说的几位位图,如颜色深度为1(一位位图)则位图中每个像素用1位二进制数表示,那么它就能够有两种取值即黑白两种颜色;同样颜色深度为24,则每个像素可用24位二进制数表示,有224种不一致取值即16772216种颜色,就是平常说的真彩色。

④图像文件的大小
图像文件的大小是指在磁盘上存储整幅图所占的字节数,可用下面的公式计算:
文件字节数=图像分辨率(高×宽)×图像深度/8
如一幅800×600大小的真彩色图片所需存储空间大小为800×600×24/8=1440000B。

由此能够看出,位图图像文件所需存储空间很大,存储时务必使用压缩技术。

2.矢量图形
(1) 矢量图形的概念。

矢量图形是用一组指令集合来描述的,这些指令用来描述构成一幅图的所有直线、圆、矩形、曲线等的位置、形状、维数与颜色等各类属性与参数。

显示时,需要相应的软件读取、解释这些指令,并将其转换为屏幕上所显示的形状与颜色。

如要在屏幕上画个矩形,从屏幕左上角开始,水平方向走300个像素,再往下走300个像素,同时记录边框的颜色、方框中填充的颜色。

这样就完成了一个矩形的绘制。

(2) 矢量图形与位图图像的区别。

矢量图形与位图图像都是静止的,与时序无关。

①图形是用一组指令来描述画面的直线、圆、曲线等,而图像则是用画面中每个像素的颜色与亮度来描述的。

因此图形很容易分解成不一致单元,分解后的成分有明显的界限;而图像分解较难,各成分之间的分界往往有模糊之处,有些区间很难区分属于哪部分,彼此平滑的连接在一起。

图形能够随意缩小放大不可能失真,而图像不能则不能。

②位图占用的存储器空间比较大。

影响位图大小的因素要紧有两个:图像分辨率与像素深度。

分辨率越高,就是构成一幅图像的像素越多,则图像文件越大;像素深度越深,就是表达单个像素的颜色与亮度的位数越多,图像文件就越大。

而矢量图文件的大小则要紧取决图形的复杂程度。

③矢量图与位图相比,显示位图文件比显示矢量图文件要快。

特别关于复杂图形,使用矢量图形计算机要花费很长的时间去计算每个对象的大小、位置、颜色等特性。

矢量图侧重于绘制、制造,而位图偏重于获取、复制;矢量图与位图之间能够用软件进行转换,由矢量图转换成位图使用光栅化(rasterizing)技术,这种转换也相对容易;由位图转换成矢量图用跟踪(tracing)技术,这种技术在理论上说是容易的,但在实际中很难实现,对复杂的彩色图像特别如此。

3.图像文件的格式
常见图像文件的格式有下列几种。

(1)GIF格式是美国Compu Serve公司于1987年制定的格式,目的是能够在不一致的平台上交流使用,是Internet上WWW的重要文件格式之一,支持64000像素的图像。

(2)BMP格式是Windows使用的图像文件存储格式,在Windows环境下运行的所有图像处理软件都支持这种格式。

Windows 3.0往常的BMP位图文件格式与显示设备有关,因此把它称之设备有关位图文件格式。

Windows 3.0以后的BMP位图文件格式与显示设备无关,因此把这种BMP位图文件格式称之设备无关位图格式,目的是为了让Windows能够在任何类型的显示设备上显示BMP位图文件。

(3)JPEG格式是使用JPEG方法压缩而成的,其压缩比高,并可在压缩比与图像质量之间平衡,用最经济的存储空间得到较好的图像质量。

(4)TIFF格式,缩写为TIF,由原Aldus与微软公司合作开发的用于扫描仪与桌面出版系统的文件格式。

其有压缩与不压缩两种格式,多数应用程序都支持这种格式。

4.图形、图像的获取
图形、图像通常能够通过下面的方法获取。

(1) 用图形工具软件生成。

利用Photoshop、CorelDRAW等图形软件创作所需要的图形,它们都能够利用鼠标绘制各类图形,填充颜色,将图形变形、剪切、粘贴,也能够输入文字,生成各类文字效果。

用这些工具生成小型、简单的画面,设计修改方便,成本较低。

(2) 用扫描仪从照片、艺术作品中扫描。

扫描仪要紧应用在图纸之类平面图像的采集上。

现在的大部分扫描仪均支持OCR功能,把页面中的文字以位图的形式输入到计算机,通过OCR软件检查位图区的质地与密度,并查明边界,然后使用概率与人工智能算法,把图像中的正文区转换为ASCII码或者中文编码。

(3) 数字摄像输入。

利用电视摄像机或者数字式照相机可把照片、艺术作品甚至实际场景,输入计算机产生一幅数字图像。

摄像机与扫描仪的区别是:扫描仪只能输入平面的图像,而摄像机能够捕获三维空间的景物,即使是输入平面的图像,速度也比扫描仪快。

(4) 利用录像机与电视机捕获图像。

能够对录像机与电视机中的视频输出信息进行采集,通过视频采集卡与有关软件生成数字图像。

(5) 视频抓帧。

从VCD视频节目中抓取某一帧图像素材,能够利用软解压VCD播放软件“超级解霸”按如下方法静抓帧处理。

打开“超级解霸”播放器,播放VCD影碟;假如播放到某一精彩画面,立即按下暂停键,让画面停止;然后单击照相机外形的按钮,弹出对话框,提示将如今的图像存盘;能够在对话框中指明存储文件的文件名及存盘路径,单击OK按钮即可。

(6) 购买现成的图像库。

厂商把各类各样的图像数字化后存储在光盘中,其中包含自然风光、花鸟鱼虫、风土人情等。

专业化的开发与规模生产使其具有较高的性能价格比。

5.静止图像压缩方法
图像不仅数据量大而且含有大量的冗余信息。

如一幅画面是由若干个像素构成的,每幅内的相邻像素之间有关性很大,有大量的冗余信息,为图像的压缩提供了必要性;另外在多媒体应用中,信息的要紧接收者是人,而人的视觉有视觉掩盖效应,对图像边缘急剧变化放映不灵敏,此外人眼对图像的亮度感受灵敏,对色彩的分辨率能力弱,这为图像压缩提供了可能性。

典型的图像压缩方法是JPEG静止图像压缩法。

JPEG是Joint Photographic Experts Group(联合专家小组)的英文缩写。

JPEG通过5年的研究后,于1991年3月提出了一个适合于连续色调、多级灰度、彩色或者单色静止图像的数据压缩的国际标准,即ISO CD10918号标准草案:“多灰度静止图像的数字压缩编码”。

其要紧内容是:①基本系统提供顺序扫描重建图像,实现信息有损的图像压缩,而重建图像的质量要高达难以察觉损伤的要求。

它使用8×8像素自习惯DCT算法、量化、与Huffman型的熵编码器。

②扩展系统选用累进工作方式,编码过程使用具有自习惯能力的算术编码。

③无失确实预测编码及Huffman编码(或者算素编码),可保证重建图像数据与原始图像数据完全相同。

6.视频
视频影像是指通过摄像机、录像机等设备捕捉的动态画面。

视频具有信息量大、感染力强的特点,适宜表现事物细节、呈现一些比较陌生的事物。

视频素材可通过视频压缩卡采集将模拟信号转换成数字化信号,能够从VCD中直接截取,或者用屏幕抓图软件录制。

视频素材常用的格式有Windows视频文件(.avi)、MPEG视频文件(.mpg)、Quick Time视频文件(.mov)、VCD中的视频文件(.dat)与网上常用的Real Video文件(.rm)等。

数据流是因特网上一种数据信息的传播方式,用于实时地表现文字、图像、声音、视频与动画等媒体。

流媒体的常用文件格式有下列几种:RealAudio声音流文件(.ra)、Real Media声音流或者视频流文件(.rm)、metafile流媒体元文件(.ram)、RealTxet Clip实时文件(.rt)、RealPix Clip实时图像(.rp)、HTML文件插件(.rpm)、Advanced Stream Format网上影音文件(.asf)、Authorware 流式文件(.aam)与Real Flash与Shockwave Flash动画文件(.swf)等。

10.3多媒体压缩技术
多媒体计算机的要紧特性是能处理数字化的声音、图像与视频信号。

而数字化的声音、图像与视频信号的数据量非常大,比如,在VGA分辨率为640×480的256色彩色图像显示模式中,一帧画面所占的数据量约为308KB,假如使用NTSC制式标准视频30帧/s,则传输率约为73.7Mbps,远远高于计算机的数据传送速率。

而关于音频信号,按CD的标准采样,频率为44.1kHz,量化位数为16位,双声道,则100M的硬盘只能存储约10min 的声音数据量。

这样大的数据量不仅超出了计算机的存储与处理能力,更是当前通信信道的传输速率所不及的。

因此,数据压缩是多媒体的关键技术,它直接影响到多媒体计算机的进展与应用。

多媒体数据压缩技术因信号类型与应用目的的不一致而有许多方法,这里只介绍目前数据压缩技术的要紧分类与一些基本概念。

10.3.1多媒体数据压缩方法的分类
数据压缩方法种类繁多,能够分为无损压缩与有损压缩两大类。

1.无损压缩
无损压缩方法利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到数据统计冗余度的理论限制,通常为2:1~5:1。

这类方法广泛用于文本数据、程序与特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。

由于压缩比的限制,仅使用无损压缩方法不可能解决图像与数字视频的存储与传输问题。

无损压缩中经常使用的方法有游程编码(Run-length Encode)、Huffman编码、算术编码与LZW编码等。

2.有损压缩
有损压缩方法利用了人类视觉对图像中的某些频率成分不敏感的特性,同意压缩过程中缺失一定的信息;尽管不能完全恢复原始数据,但是所缺失的部分对懂得原始图像的影响较小,却换来了大得多的压缩比。

有损压缩广泛应用于语音、图像与视频数据的压缩。

常用的有损压缩方法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换、小波变换等)、插值与外推(空域亚采样、时域亚采样、自习惯)等。

在新一代的数据压缩方法中,许多都是有损压缩,如矢量量化、子带编码、基于模型的压缩,分形压缩与小波压缩等已接近成熟,并用于实际的多媒体开发。

活动图像的最新压缩标准MPEG-4就是使用了基本分形的压缩方法。

相关文档
最新文档