【精品】信息隐藏技术与应用ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个数字格式的声音文件可在多种环境中传送。在图13.3中描述 了几种可能的形式。第一种为无损传输,如图13.3(a)所示,即信 号是在未作修改的环境中传送的,因此相位和幅值都没改变。在 第二种情况中(图13.3(b)),信号以更高或更低的采样率重新采样, 未改变相位和幅值,但改变了时域特性。第三种情况是将信号转 换成模拟的形式来传送(图13.3(c))。在这种情况下,即使认为模 拟线路是无干扰的,相位、幅值和采样率都改变了。最后一种情 况如图13.3(d)所示,当环境有干扰存在时,信号将被非线性地传 送,从而导致相位和幅值改变,以及引起回声等。
时域掩蔽比较直观,它是指强音和弱音同时或几乎同时出现时, 强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前 掩蔽是指在强掩蔽声音出现前,被掩蔽声音不可听见。滞后掩蔽 是指在强掩蔽声音消失后,被掩蔽声音不可听见。产生时域掩蔽 的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽大约只有5~20ms,而滞后掩蔽可以持续50~200ms。
(6) 人类听觉系统对声音文件中附加的随机噪 声敏感,并能觉察出微小扰动。
(7) 人类听觉系统有很大的动态范围及较小的 分辨范围,HAS能察觉到大于100,000,000:1的 能量,也能感觉大于1000:1的频率范围,对加 性随机干扰也同样敏感。可以测出音频文件中 低于1/10,000,000(低于外界水平80dB)的扰动。 因此,较大的声音可屏蔽较小的声音。
13.1.3声音传送环境
音频信息隐藏是指通过对声音文件作一些修改来嵌入信息,如作 者信息、产品序号、提示旁白等,这种修改的作用效果类似于向 声音文件中添加噪声数据。一般而言,此类修改必须做到不可觉 察和难以在不损坏原始信号的情况下去除。其实由环境因素引起 的声音变形也很常见,如周围的噪声、电路中的信号干扰等,且 易被听者所忽略。尤其是在将模拟声音信号转换到数字音频时需 要进行A/D转换,这就不可避免地要引入量化噪声。
(3) 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音,这种现象 称为听觉掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。 听觉掩蔽取决于屏蔽声音与被掩蔽声音的幅值与时域特性,可分 为频域掩蔽和时域掩蔽。
频域掩蔽是指听觉信号中,若两个信号的频率相近,那么较强的 信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频 信号,但高频信号对低频信号的掩蔽作用不明显。在当代高质量 声音编码技术中就使用了频率掩蔽模型。
数字音频水印技术将具有特定意义的信息嵌入到原始 音频中而不显著地影响其质量。根据不同的应用,嵌 入的水印数据可以是版权信息、序列号、文本(如音乐 或艺术家的名字)、一个小的图像甚至是一小段音频。 水印隐藏在宿主音频数据中通常不为人所感知,此外 还必须能够抵抗常规音频信号处理以及某些恶意的攻 击。
图13.2 “音高-频率”曲线
1Βιβλιοθήκη Baidu.1.2音频文件格式
对高质量数字音频的描述样本最流行的格式是16比特线性量化, 如:Windows中的WAV格式音频文件和AIFF音频交换文件格式。 另一种对较低质量声音的流行版本是采用8比特律的对数分度。 这些量化方法使信号产生了一些畸变,在8比特律中显得更为明 显。
一般声音的流行采样频率包括8KHz,9.6KHz,10KHz,12KHz, 16KHz,22.05KHz和44.1KHz。采样频率影响数据隐藏,因为它 给出了可用频谱的上限(如果信号的采样频率为8KHz,则由采样 定理,引入的修改分量的频率不会超过4KHz)。对于大多数已有 的数据隐藏技术而言,可用的数据空间与采样频率的增长至少呈 线性关系。需要考虑的是由有损压缩算法(如ISO MPEG-AUDIO) 引起的变化。这些变化彻底改变了信号的数据结构,它们仅仅保 留了听者能感觉到的特性部分,也就是说,它听起来与原来的相 似,即使信号在最小平方意义上完全不同。
ITU-R推荐的BS.1387音频质量听觉评测标准通 常用于音频编码器的质量评价,但也可作为一 个很好的客观听觉质量评价标准用于音频水印 技术。BS.1387有基本版本和高级版本两种, 基本版本使用基于FFT的人耳模型,高级版本 使用基于滤波器组的人耳模型。在两种情况下, 模型输出变量与神经网络结合给出一个量值作 为听觉质量客观区分度 ODG(Objective Difference Grade),其含义如表13.2所示。
(4) 对于频域信号中的相位分量和幅值分量, 人耳对幅值和相对相位更为敏感,而对绝对相 位不敏感。
(5) 人耳对不同频段声音的敏感程度不同,通 常人耳可以听见20Hz~18KHz的信号,对 2KHz~4KHz范围内的信号最为敏感,在此范围 内幅度很低的信号也能被听见,而在低频区和 高频区,同样低幅度的信号就可能无法被听见。 即使对同样声压级的声音,人耳实际感觉到的 音量也是随频率而变化的。
信息隐藏技术与应用
互联网技术的迅速发展和音频压缩技术的日益成熟使 得以MP3为代表的网络音乐在互联网上广泛传播。但 是,肆无忌惮的复制和传播盗版音乐制品使得艺术作 品的作者和发行者的利益受到极大损害。在这种背景 下,能够有效地实行版权保护的音频数字水印(Digital Audio Watermarking)技术变得越来越重要,已成为一 个十分热门的研究领域。
分数 5
4
3 2 1
表13.1 MOS 主观评分标准
音频质量 优异
良
中 差 不能分辨
描述
相当于在专业录音棚的录音质量,语音非常清 晰。
相当于长距离PSTN网上的语音质量,语音自 然流畅。
达到通信质量,听起来仍有一定困难。
语音质量很差,很难理解。
语音不清楚,基本被破坏。
(2) 客观感知质量评测标准
信源
(a) 数字化媒体
信宿
信源 信源
重新 采样 (b) 信号重采样
(c) 模拟化媒体
信宿 信宿
信源
信宿
(d) 嘈杂环境
图13.3 传送媒体
13.2音频水印算法评价标准
13.2.1 感知质量评测标准
(1) 主观感知质量评测标准
在音频水印中,一个常用的主观评价指标称为 平均观点分(Mean OpinionScore,MOS),即测 试者根据音频的好坏,给音质打分。一般按五 分制评分。显然,得分为5或接近于5意味着两 个音频数据之间几乎没有差别。MOS分值的含 义如表13.1所示。此外,在ITU-R BS.1116中 也定义了一个主观评分标准——主观听觉质量 区分度(SDG)。
时域掩蔽比较直观,它是指强音和弱音同时或几乎同时出现时, 强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前 掩蔽是指在强掩蔽声音出现前,被掩蔽声音不可听见。滞后掩蔽 是指在强掩蔽声音消失后,被掩蔽声音不可听见。产生时域掩蔽 的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽大约只有5~20ms,而滞后掩蔽可以持续50~200ms。
(6) 人类听觉系统对声音文件中附加的随机噪 声敏感,并能觉察出微小扰动。
(7) 人类听觉系统有很大的动态范围及较小的 分辨范围,HAS能察觉到大于100,000,000:1的 能量,也能感觉大于1000:1的频率范围,对加 性随机干扰也同样敏感。可以测出音频文件中 低于1/10,000,000(低于外界水平80dB)的扰动。 因此,较大的声音可屏蔽较小的声音。
13.1.3声音传送环境
音频信息隐藏是指通过对声音文件作一些修改来嵌入信息,如作 者信息、产品序号、提示旁白等,这种修改的作用效果类似于向 声音文件中添加噪声数据。一般而言,此类修改必须做到不可觉 察和难以在不损坏原始信号的情况下去除。其实由环境因素引起 的声音变形也很常见,如周围的噪声、电路中的信号干扰等,且 易被听者所忽略。尤其是在将模拟声音信号转换到数字音频时需 要进行A/D转换,这就不可避免地要引入量化噪声。
(3) 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音,这种现象 称为听觉掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。 听觉掩蔽取决于屏蔽声音与被掩蔽声音的幅值与时域特性,可分 为频域掩蔽和时域掩蔽。
频域掩蔽是指听觉信号中,若两个信号的频率相近,那么较强的 信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频 信号,但高频信号对低频信号的掩蔽作用不明显。在当代高质量 声音编码技术中就使用了频率掩蔽模型。
数字音频水印技术将具有特定意义的信息嵌入到原始 音频中而不显著地影响其质量。根据不同的应用,嵌 入的水印数据可以是版权信息、序列号、文本(如音乐 或艺术家的名字)、一个小的图像甚至是一小段音频。 水印隐藏在宿主音频数据中通常不为人所感知,此外 还必须能够抵抗常规音频信号处理以及某些恶意的攻 击。
图13.2 “音高-频率”曲线
1Βιβλιοθήκη Baidu.1.2音频文件格式
对高质量数字音频的描述样本最流行的格式是16比特线性量化, 如:Windows中的WAV格式音频文件和AIFF音频交换文件格式。 另一种对较低质量声音的流行版本是采用8比特律的对数分度。 这些量化方法使信号产生了一些畸变,在8比特律中显得更为明 显。
一般声音的流行采样频率包括8KHz,9.6KHz,10KHz,12KHz, 16KHz,22.05KHz和44.1KHz。采样频率影响数据隐藏,因为它 给出了可用频谱的上限(如果信号的采样频率为8KHz,则由采样 定理,引入的修改分量的频率不会超过4KHz)。对于大多数已有 的数据隐藏技术而言,可用的数据空间与采样频率的增长至少呈 线性关系。需要考虑的是由有损压缩算法(如ISO MPEG-AUDIO) 引起的变化。这些变化彻底改变了信号的数据结构,它们仅仅保 留了听者能感觉到的特性部分,也就是说,它听起来与原来的相 似,即使信号在最小平方意义上完全不同。
ITU-R推荐的BS.1387音频质量听觉评测标准通 常用于音频编码器的质量评价,但也可作为一 个很好的客观听觉质量评价标准用于音频水印 技术。BS.1387有基本版本和高级版本两种, 基本版本使用基于FFT的人耳模型,高级版本 使用基于滤波器组的人耳模型。在两种情况下, 模型输出变量与神经网络结合给出一个量值作 为听觉质量客观区分度 ODG(Objective Difference Grade),其含义如表13.2所示。
(4) 对于频域信号中的相位分量和幅值分量, 人耳对幅值和相对相位更为敏感,而对绝对相 位不敏感。
(5) 人耳对不同频段声音的敏感程度不同,通 常人耳可以听见20Hz~18KHz的信号,对 2KHz~4KHz范围内的信号最为敏感,在此范围 内幅度很低的信号也能被听见,而在低频区和 高频区,同样低幅度的信号就可能无法被听见。 即使对同样声压级的声音,人耳实际感觉到的 音量也是随频率而变化的。
信息隐藏技术与应用
互联网技术的迅速发展和音频压缩技术的日益成熟使 得以MP3为代表的网络音乐在互联网上广泛传播。但 是,肆无忌惮的复制和传播盗版音乐制品使得艺术作 品的作者和发行者的利益受到极大损害。在这种背景 下,能够有效地实行版权保护的音频数字水印(Digital Audio Watermarking)技术变得越来越重要,已成为一 个十分热门的研究领域。
分数 5
4
3 2 1
表13.1 MOS 主观评分标准
音频质量 优异
良
中 差 不能分辨
描述
相当于在专业录音棚的录音质量,语音非常清 晰。
相当于长距离PSTN网上的语音质量,语音自 然流畅。
达到通信质量,听起来仍有一定困难。
语音质量很差,很难理解。
语音不清楚,基本被破坏。
(2) 客观感知质量评测标准
信源
(a) 数字化媒体
信宿
信源 信源
重新 采样 (b) 信号重采样
(c) 模拟化媒体
信宿 信宿
信源
信宿
(d) 嘈杂环境
图13.3 传送媒体
13.2音频水印算法评价标准
13.2.1 感知质量评测标准
(1) 主观感知质量评测标准
在音频水印中,一个常用的主观评价指标称为 平均观点分(Mean OpinionScore,MOS),即测 试者根据音频的好坏,给音质打分。一般按五 分制评分。显然,得分为5或接近于5意味着两 个音频数据之间几乎没有差别。MOS分值的含 义如表13.1所示。此外,在ITU-R BS.1116中 也定义了一个主观评分标准——主观听觉质量 区分度(SDG)。