稀疏表示的字典_文献翻译.docx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
I. 引言
自然信号的数字化采样过程将它表示为一系列空间或时间中的脉冲函数的 和。这种表示虽然在显示或重放时提供了方便,却不利于我们进行分析。信号处 理技术通常需要更有意义的表示方法, 以抓住需识别信号的有用特征—用于识别 时,表示方法应该突出被处理信号的特征;用于降噪时,表示方法应该有效地分 离信号和噪声; 用于压缩时, 表示方法应该只用很少的系数来捕捉大部分的信号。 有趣的是, 在很多案例中这些看似不同的目标达到了一致,都以简化作为核心要 求。 信号的表示牵涉到字典的选取。 字典是一组用于分解信号的基本信号或原子。 每个信号都可以被独一无二地表示为字典原子的线性组合。在最简单的实例中, 字典是正交的,且表示系数可以用信号和原子的内积来计算;在不正交的时,系 数是信号和字典的逆的内积,这种字典也被表述为双正交基字典。 许多年来, 正交基与双正交基字典由于它们在数学上的简易性而占有主导地 位。然而,这些字典的弱点,也即它们有限的表达能力,最终覆盖了其简易性的 优势。这促进了更新的过完备字典的发展。过完备字典的原子多于信号的维度, 因此能表示更宽范围的信号现象。 为了减小失去正交基变换提供的优良性能带来的损失, 过完备字典的发展是 谨慎的。 很多字典形成了紧框架,确保了将信号表示为原子的线性组合的表示过 程仍能被确定为信号和字典的内积。另一种方法称为最优基算法。它使用一个特 定的字典结构, 使字典可以成为这样的原子集合--从中可以高效地选取正交子字 典。 有关通用过完备字典的研究主要开始于过去的十年中, 且仍在紧张地进行中。 这样的字典在信号的表示定义中引进了一种有趣的不确定性。我们设字典 D = [d1 d2 … dl ] ∈ RN×L ,其中的列构成了字典的原子,且L ≥ N。用字典表示一 个x ∈ RN 的信号有两种途径,一种是分析途径,信号用它自身与原子的乘积来表 示,
从统计学的观点来看, 这个过程把数据当作服从低维高斯分布来建模,因此对于 高斯数据最有效。 与傅里叶变换相比,KLT 在表示效率上更优。然而,这个优势是用非结构性 和明显更复杂的转换换来的。 我们将会看到,这种在效率与自适应性之间的折衷 在现代字典设计方法学中仍扮演着重要的角色。 B. 非线性变革与现代字典设计元素 19 世纪 80 年代,统计学的研究领域出现的新的有力方法,即稳健统计。稳 健统计提倡将稀疏作为大范围的复原与分析任务的关键。 这种理念来源于经典物 理学,发展于近年的信息论,在指导现象描述上提升了简易性与简明性。在这种 理念的影响下,80 年代与 90 年代以搜寻更稀疏的表示和更高效的变换为特征。 增强稀疏性需要偏离线性模式,朝更灵活的非线性规划发展。在非线性的实 例中,每个信号都可以使用同一字典中一组不同的原子,以此实现最佳近似。因 此,近似过程变为
������ ������∈������������ (������ ������ ������)������������
,
(4)
1 其中{Ψ������ }������− 。这个过程是一个 ������ =0 通常是双正交基(Ψ������ = Φ������ 在标准正交的情况下) 未完成的������的线性变换。且在正确选择了基的情况下,可以实现压缩,即仅用很 少系数捕捉信号的有效部分的能力。事实上,压缩的概念将被稀疏代替,虽然这 两者是密切相关的[3]。 压缩优化是更有效的表示方法持续发展的主要推动力。 在 19 世纪 70 年代和 80 年代,一个新的极具吸引力的压缩资源被发现:数据本身。关注集中于在前 半个世纪被发展出来的一组统计工具。它们被称为 Karhunen-Loève 变换(KLT), 或主分量分析(PCA)。KLT 是一种线性变换,它可以适用于表示服从已知的确定 分布的信号。 适用过程适合低维的子空间中, 最小化������ 2 逼近误差的数据。 具体地, 给定数据协方差矩阵Σ (已知的或经验上的) ,KLT 原子是Σ 的本征值分解的前 K 个特征向量,
其中w(∙)是一个定位在 0 处的低通窗口函数, 且α 和β 控制变换的时间和频率分 解。这种变换的很多数学基础都由 Daubechies,Grossman 和 Meyer 在 19 世纪 80 年代提出。他们从框架理论的角度研究该变换。Feichtinger 和 Grochenig 也是 Gabor 变换数学基础的建立者,他们提出了广义的群理论观点。离散形式变 换的研究及其数值实现紧接着在 19 世纪 90 年代早期开始进行。Wexler,Raz, Qian 和 Chen 对该研究做出了重要贡献。 在更高的维度下, 更复杂的 Gabor 结构被研究出来。这些结构通过改变正弦 波的朝向增加了方向性。 这种结构在 Daugman 的工作中得到了大力支持。他在视 觉皮质的简单细胞接受域中发现了方向性的类 Gabor 模式。 这些结果在 Daugman, Porat 和 Zeevi 的工作的引导下促进了图像处理任务中变换的调度。 现在, Gabor 变换的实际应用主要在于分析和探测方面,表现为一些方向滤波器的集合。
稀疏表示模型的字典
摘要|数据的稀疏和冗余表示建模可以将信号描述为预先规定的字典中的少数原 子的线性组合。其中,字典的选取对于信号的建模是至关重要的。通常可采用两 种方法选取一个合适的字典:i)基于数据的数学模型建立稀疏字典,ii)选择在 训练集上有最佳表现的学习字典。在此论文中,我们将描述这两种范例的演变。 作为第一种方法的例证,我们将涉及小波、小波包、轮廓波以及曲线波等分析方 法。 所有方法都致力于为信号与图像设计能建立有效字典 1-D 和 2-D 的数学模型。 字典学习采用了另一种路线,将字典与一系列需表示的示例相关联。从 Field 和 Olshausen 影响深远的工作开始,到 MOD,KSVD,再到广义 PCA 及其它,本论 文调查了这类训练可提供的选择直到最新的贡献与结构。 关键词|字典学习;谐波分析;信号近似;信号表示;稀疏编码;稀疏表示
������∈������
.
信号通过投影到 K 最低频率的原子上的方法来近似到这个基上。 这种ຫໍສະໝຸດ Baidu法具有很
强的平滑和降噪效果。因此傅里叶基能高效地描述一致平滑信号。然而,定位能 力的不足使它表示断点时较困难,在所有频率上产生大数值的系数。因此傅里叶 变换通常产生在实际应用中过于平滑的结果。对于有限信号,傅里叶变换隐式地 信号的周期延拓,这在信号的边界处导致了不连续性。离散余弦变换(DCT)是假 定信号反对称延拓的结果,这会导致连续的边界,因此产生一个更有效的近似。 DCT 由于有产生非复杂系数这个额外的优点,在实际应用中通常是首选。 在傅里叶基上的信号近似很快被认为是线性近似的特定实例:假设在 ������ ������ 上 1 ������ 有一个基{Φ������ }������− ������ =0 ,信号 ������ ∈ ������ 通过投影到一个确定的子集,即 K < ������ 的基元素 上进行线性近似。 ������ ≈
其中������������ (������)是分别适用于每个信号的索引集。 非线性观点为设计更新,更有效的变换铺平了道路。在这个过程中,许多指
导现代字典设计的基本概念形成了。我们将沿着历史的时间线,回溯许多最重要 的现代字典设计概念的出现。大部分概念是在 20 世纪的最后 20 年间形成的。
定位:为了实现稀疏性,变换需要更好的定位。受到集中支撑的原子能基于
本地信号的特征提供更灵活的表示,并限制不规则的效应。观察发现这种效应是 大系数的主要来源。本着这种精神,一种首先被采用的结构是短时傅里叶变换 (STFT) , 它作为傅里叶变换的自然延伸出现。 在 STFT 中, 傅里叶变换被局部 (可 能重叠) 地应用于信号的某些部分, 从而展示出信号的时间-频率 (或空间-频率) 描述。JPEG 图像压缩算法就是 STFT 的一个例子。 在 19 世纪 80 年代与 90 年代, STFT 被广泛地研究与推广, 被更多地称作 Gabor 变换,为表示对在 1946 年最先建议时间-频率分解 Dennis Gabor 的敬意。Gabor 的工作在 19 世纪 80 年代被 Bastiaans 和 Janssen 各自独立地重新发现, 他们当 时在研究扩展的基本性质。 一种 1 维的 Gabor 字典由一组被加窗的波形构成。
������a = ������T ������ ,
(1)
另一种是综合途径,信号被表示为原子的线性组合, ������ = ������������s . (2) 这两种定义在完备情况(L = N)时是完全一致的,这时分析字典和综合字典是双 正交的。然而在通常情况下,这两种字典是显著不同的。 分析字典方法提出了另一个有趣的问题:当 D 过完备时,满足(2)的������s 表示的族 实际上是无限大的, 它的自由度与 D 的零空间的维数相同。这允许我们参考价值 函数C(γ),来寻找信息量最大的信号表示方法: ������s = Arg������������������������ ������ (������) 满足 ������ = ������������ . (3)
多分辨率:19 世纪 80 年代最重大的概念上的进展是多尺度分析的出现。人
们注意到自然信号, 尤其是图像信号, 在各种不同规模下均呈现出有意义的结构, 并且可以通过多分辨率重建被极有效地分析和描述。 一种最简单与最著名的多尺 度结构是在 1984 年由 Burt 和 Adelson 提出的拉普拉斯金字塔。 拉普拉斯金字塔 将一幅图像由一系列不同的图像表示, 其中每一幅都有不同的大小和大致不同的 频带。 然而, 在 19 世纪 80 年代的后半期,信号处理领域因为一种新的有力工具而 格外兴奋。这种工具叫做小波分析。 1984 年,在一份具有开创性的工作中, Grossman 和 Morlet 提出了在一个单一基本函数的基础上进行一系列翻译和扩张, 并在这样形成的序列的基础上进行信号扩张,具有如下形式:
II.
变换设计的历史
A. 信号变换:线性时代 信号变换随着信号处理的实施而出现。在 19 世纪 60 年代,早期信号处理的 研究者们重点关注了线性时不变运算符, 它们是操作模拟与数字信号的简易且直 观的工具。 在这种环境下, 傅里叶变换自然地作为对角线化这些运算符的基础而 出现了,并立即成为了分析和设计这些运算符的主要工具。随着 1965 年 Cooley 和 Tukey 将快速傅里叶变换引入,这种变换获得极大的推广。 傅里叶基在全局频率组成方面描述一个信号。 它将信号描述为正交波形的结 合。 F = ������n ������ = ������ ������������������
实用的C(γ)的选取提高了表示的稀疏性, 意味着我们希望选取的系数能快速 衰减。 问题 (3) 常被称为稀疏编码。我们可以通过在鲁棒补偿函数中选择C(γ), 我们将这种函数宽松地定义为对大系数宽容而对小的非零系数极其不利的函数。 相关的例子有 Huber 函数以及各种������ ������ 成本函数,其中 0≤ p ≤ 1。 这三种问题,尤其是(3)问题,在过去的几年中都被广泛地研究。这也反过 来促进了新的使用通用过完备变换的信号处理算法的发展。然而,在从理论到实 践的过程中, 要面对为给定任务选择合适字典的挑战。早前的工作利用了传统的 字典,如傅里叶字典和小波字典。它们用于处理 1 维信号简单实用。然而,这些 字典不足以表示更复杂的自然高维信号数据。所以人们开始寻找新的改进字典。 在不断上升的需求下,各种字典被研究出来。这些字典从两种来源中产生。 一种是数据的数学模型, 另一种是一组数据的实现。第一种字典以分析公式和快 速的隐式实现为其特征。 第二种字典实现了增强的灵活性以及适应特定信号数据 的能力。最近,对于居于两种字典之间的字典的研究逐渐兴起。这种新的字典集 合了前两种字典的优点。这种结构刚刚开始出现,相关的研究还在进行中。 在这篇论文中,我们将介绍指导现代字典设计的基本概念。在第二部分中, 我们将以历史的观点, 追溯字典设计方法学从 19 世纪 60 年代到 19 世纪 90 年代 的演变, 主要介绍概念上的进展。在第三部分和第四部分我们会综述分析字典与 训练字典的先进技术。我们会在第五部分作总结并得出结论。