数字音频水印研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数字音频水印研究

摘要:本文介绍了信息隐藏的理论知识。并且对数字水印中的音频水印进行了探讨。讨论了基于神经网络的数字音频水印的嵌入与提取。具有很好的鲁棒性效果。

关键词:数字音频水印;神经网络;数字水印;信息隐藏

背景

随着计算机和通信网技术的发展与普及,数字音像制品以及其他电子出版物的传播和交易变得雨来越便捷,但随之而来的侵权盗版活动也呈日益猖獗之势。为了打击盗版犯罪,一方面要通过立法来加强对知识产权的保护,另一方面必须要有先进的技术手段来保障法律的实施。

一信息隐藏

20世纪90年代早期,信息隐藏的各种应用引起不同的关注和重视。1996年5月第一次国际信息隐藏学术研讨会在英国剑桥召开,使这些独立的研究团体走到了一起,从而在信息隐藏的一些基本概念和术语上达成共识。信息隐藏(information hiding)有时也称数据隐藏(data hiding)。从广义上看,信息隐藏有多重含义:一是信息不可见,二是信息的存在性隐蔽,三是信息的接收方和发送方隐蔽,四是传输的信道隐蔽。信息隐藏就是将保密信息隐藏于另一非保密载体中,以不引起检查者的注意。这里的载体可以是图像、视频、音频,也可以使信道,甚至是某套编码体制或整个系统。广义上的信息隐藏包括隐写术、数字水印、数字指纹、隐蔽信道、阈下信道、低截获概率通信和匿名通信等等。从狭义上看,信息隐藏就是将某一机密信息秘密隐藏于另一公开的信息中,然后通过公开信息的传输来传递机密信息。狭义上的信息隐藏技术通常指隐写术与数字水印(以及数字指纹)。

信息隐藏学是一门新兴的交叉学科,在计算机、通信、保密学等领域有着广阔的应用前景。其研究涉及密码学、图像处理、模式识别、数学和计算机科学等领域。

信息之所以能够隐藏在多媒体数据中是因为:(1)多媒体信息本身存在很大的冗余性。(2)人眼或人耳对某些信息都有一定的掩蔽效应。

信息隐藏的系统模型如图一所示,主要包括四部分:(1)信息嵌入。(2)信息提取。(3)密钥生成。(4)隐藏分析。[1]

图一信息隐藏系统的一般模型

二数字水印

随着计算机和网络的飞速发展,人们的许多创作和成果都以数字形式进行存储和发布。然而,数字作品极易被非法拷贝、伪造或篡改,使得很多版权所有者不愿意利用网络公开其作品,从而阻碍其自身发展。目前,数字作品的版权保护不仅仅是立法问题,也是一个很重要的技术难题。

数字水印技术是信息隐藏技术的一个分支,通常数字水印系统也是由嵌入器和检测器组成。数字水印实用信号处理的方法在数字音频、图像或视频等数字化的多媒体数据中嵌入隐蔽的信息[2]。

数字水印处理系统的基本模型如图二所示。

图二数字水印处理系统基本模型

水印技术同其他技术的差别主要体现在三个重要方面:(1)水印是不可感知的。(2)水印同其所嵌入的作品不可分离。(3)水印能够同作品经历同样的变换。由于这些性质,水印在一些应用场合下十分有用。一个水印处理系统的性能评价可以基于某些特性指标。例如,鲁棒性(robustness)描述了水印经历常见的信号处理操作而继续存留的能力,保真度(fidelity)描述了水印的不可感知性等等。这些特性之间的相对重要性取决于系统设计所适应的具体场合。水印技术的应用极为广泛。主要有以下7种应用领域:广播监控、所有者识别、所有权验证、交易跟踪、内容真伪鉴别、拷贝控制、以及设备控制。

数字水印是加在数字图像、音频或视频等媒体中的信号,这个信号使人们能够建立产品所有权,辨识购买者或提供数字产品的一些额外信息。从含水印图像中的水印是否可见分为可见水印和不可见水印两大类。从水印是否依赖于原始载体来分,可分为非自适应水印(独立于原始载体的水印)和自适应水印。根据原始载体的不同可分为数字音频和语音水印、数字图像水印、文档水印、数字视频水印、软件水印和三维模型水印等。本文主要介绍数字音频水印的技术。并且基于神经网络对心里声学模型进行了近似。将该理论方法应用于数字水印的嵌入过程。

三 数字音频水印

音频水印系统的基本模型如图三所示。

密钥

信号

提取的隐密信息

图三 音频水印系统的基本模型

水印模型是水印算法基础,音频水印中常用的算法模型与图像水印等类似。图三所示模型由Voloshynovskiy 针对图像水印提出的,但是同样适用于音频水印。其中,水印编码环节负责隐密信息加密,纠错编码。心里声学模型提供掩蔽阈值信息来确定水印的最大可能嵌入强度。水印提取环节与水印嵌入环节相对应。水印检测环节负责判断水印的存在性,但是不提供水印的内容。水印解码环节负责提取隐密信息。这个模型是一个基本模型,具体水印算法可能只包含其中的几个环节,例如回声隐藏模型没有明显包含心理声学吗模型环节,虽然它间接利用了听觉系统的感知特性。另外,如果水印信息本身是一个伪随机序列,则不包含水印解码环节。

与图像水印技术相比,在数字音频信号中嵌入水印的技术难度较大,主要是因为人类听觉系统与视觉系统相比,具有更高的灵敏度。例如,人类听觉系统的动态范围大于150dB ,即所能感知的音频信号的最大声压与最小声压之比大于710。人类听觉系统对加性噪声特别敏感,实验表明,如果采用加性法则在时域嵌入水印而不采用一定的心里声学模型,很难再水印的鲁棒性和不可感知性之间达到合理的折中。另外,听觉系统能够感知到音频信号中低于周围环境80dB 的扰动。虽然听觉系统的动态范围很大,但是利用听觉系统的其他特性,仍有可能在音频信号中嵌入水印。例如,可利用听觉系统的掩蔽效应、听觉系统对绝对相位不敏感等特性来嵌入水印。听觉系统的掩蔽特性表明了在音频信号中添加水印

信息的可行性。

音频水印技术可应用与版权保护、内容认证、音频检索、隐秘通信等领域。本文介绍在音频信号中嵌入水印的相关问题。主要包括音频信号的特性、音频水

印系统的基本要求和基本模型。

3.1数字音频信号的特性

声是由振动产生的,周期振动在空气等媒质中传播形成声波。声波被人类听

觉系统所感知,人就听到了声音。采用数字技术,可以将声波表示为电信号的形式,进而将电信号表示成为数字信号形成数字音频信号,这样就可以采用数字信

号处理设备对音频信号进行处理。人类听觉系统所能感知的声压范围大约为150dB。

音频信号的数字化过程主要包括采样和量化两个部分。采样过程是将时间轴

离散化,得到离散时间信号,量化过程是将采样值离散化,得到数字信号。根据

香农采样定理,信号的时域采样率应该至少大于信号各频率成分中最高频率的两倍。所以采样率的选择与音频信号的类型以及应用环境紧密相关。在音频和语音

水印中常常处理的音频信号类型大约有三种:电话

语音信号、宽带语音信号以及宽带音频信号。前两者的采样率分别为8k和16k,而宽带音频信号的采样率有两种:用在CD音频的44.1k和用在录音处理的48k。

3.2感知音频编码方法

感知有损压缩算法模型如图四所示。

量化后

比特流

图四感知有损压缩算法模型

根据图三的模型,感知有损压缩算法的基本原理如下:

相关文档
最新文档