基于Gabor感知多成份字典的图像稀疏表示算法研究

合集下载

基于Gabor小波能量子带分块的稀疏表示人脸识别

基于Gabor小波能量子带分块的稀疏表示人脸识别
第3 7卷 第 1 期 2 0 1 3年 1 月
燕 山大 学 学报
J o u r n a l o f Ya n s h a n Un i v e r s i t y
Vo 】 .3 7 No .1
J a n. 2 01 3
文章编号 :1 0 0 7 — 7 9 1 X( 2 0 1 3 )0 1 - 0 0 6 8 — 0 7
摘 要 :基于稀疏表示分类 的人脸识别通常提取特征脸 、随机脸和费歇尔脸这些整体特 征,忽略了局部特征在 克服光照和表情变化方面 的优越性 。针对 以上 问题 ,本文提 出了基于 Ga b o r 小波能量子带分块的稀疏表示 人脸
识 别 算 法 。首 先 将 人 脸 图像 进 行 不 同尺 度 和 方 向 下的 Ga b o r 小 波 变 换 ,对 得 到 的 每 个 能 量 子 带进 行 分 块 ,然 后 将 各 子块 能量 信 息 融 合 组 成 子 带 的特 征 向量 ,再 将 各 能 量 子 带 特 征 向量 融 合 组 成 增 强 的 Ga b o r 特 征 向 量 , 最后 将 该特 征 应用 于稀 疏 表 示 人 脸 识 别 。实 验 结 果 表 明 ,该 算 法 对 于 光 照 和 表 情 变 化 具 较 好 的 的 鲁棒 性 。
关键 词 : 人脸 识 别 ; 图像 分 块 ;Ga b o r 小 波 ;稀 疏 表 示
中图分类号:T P 3 9 1 . 4
文献标识码 :A
DOl :1 0 . 3 9 6 9  ̄ . i s s n . 1 0 0 7 - 7 9 1 X . 2 0 1 3 . 0 1 . 0 1 2
一Leabharlann 脸识 别 和纹理 分类 领域 取得 了可喜 的成 果 。

稀疏表示

稀疏表示
2 2 2 x k y x g K ( ) exp( ) cos(2 ) 2 2
( x x0 ) cos ( y y0 ) sin x
( x x0 ) sin ( y y0 ) cos y
Gabor函数
1、对X基于字典D稀疏表示结果α进行一些处理: 空间金字塔的引入&最大池输出方法
2、加入监督学习的字典训练
这里的字典学习的目的是为了分类,已知一组训练样本, 其label也人工给定,首先我们需要训练字典。在基于学习 的方法中我们给定了一个目标函数:
min || D - X || || ||1
3、1996年,B.A.Olshausen和D.J.Field在Nature上发表了一篇 题为“Emergence of simple-cell receptive field properties by learning a sparse code for nature images”的重要论文,他们的 实验结果表示人类视觉系统只997年,这两位又提出了超完备基的 稀疏编码算法。
基于参数化的方法,介绍怎么样利用Gabor函数来生成 原子构成字典: 人类的视觉系统能够自适应于自然环境中输入刺激的统 计特性,视觉皮层中的大部分神经元只对特定的刺激才具有 最优响应,通过视觉皮层中不同感受野的神经元的层次处理 实现了对于自然图像的稀疏编码。人类神经元对于外部刺激 的响应特性如下图:
在上面的Gabor函数中有七个参数,根据参数化的方法来 构造字典。
尺度不变,方向改变
方 向 不 变, 尺 度 改 变
上面的那张图,只是涉及到尺度和方向的变化,在 Gabor函数中是有7个参数的,对这7个参数在一定参数范 围内进行冗余采样,这样就会生成一地数量的原子构成冗 余的Gabor字典。 字典构造完成,接下来进行稀疏分解。贪婪算法中的 MP是一种迭代的递归算法,每一步从字典D中选择一个 与残差信号 r (初始为原始图像)最匹配的原子,每一步 都使得信号的逼近更为优化。

Gabor特征分解与图像滤波

Gabor特征分解与图像滤波

Gabor特征分解与图像滤波Gabor特征分解与图像滤波Gabor特征分解是一种用于图像处理的技术,它通过将图像分解为多个不同方向和尺度的Gabor滤波器响应来提取图像中的特征。

下面是一步一步的思路来解释Gabor特征分解与图像滤波的过程。

第一步是理解Gabor滤波器的原理。

Gabor滤波器是一种基于Gabor函数的滤波器,它在空间域和频率域中都具有良好的局部化性质。

Gabor函数是一个复数函数,它在空间域中表示为一个二维高斯函数与一个余弦函数的乘积,频率域中则表示为一个带通滤波器。

Gabor滤波器可以用于提取图像中的边缘、纹理和角点等特征。

第二步是选择Gabor滤波器的参数。

Gabor滤波器有两个重要的参数,即方向和尺度。

方向参数决定了滤波器的方向性,可以选择不同的角度来检测图像中的不同方向的特征。

尺度参数决定了滤波器的尺度大小,可以选择不同的尺度来检测图像中的不同尺度的特征。

根据具体的应用需求,可以选择合适的参数。

第三步是对图像进行Gabor滤波器响应计算。

对于每个选择的方向和尺度,需要在图像上应用对应的Gabor滤波器来计算滤波器的响应。

这可以通过卷积操作来实现,即将Gabor滤波器与图像进行卷积运算。

卷积运算会产生一个新的图像,其中每个像素表示原始图像在对应方向和尺度上的响应强度。

第四步是对Gabor滤波器响应进行特征提取。

由于计算得到的图像中包含了大量的信息,需要对其进行特征提取来减少数据的维度并保留关键的信息。

常用的特征提取方法包括统计特征、能量特征和频谱特征等。

这些特征可以用于后续的分类、目标检测或图像识别等任务。

第五步是应用Gabor特征分解与图像滤波的结果。

通过Gabor特征分解与图像滤波,我们可以得到图像中不同方向和尺度的特征响应。

这些特征可以用于各种图像处理任务,例如人脸识别、纹理分析和图像检索等。

通过将不同方向和尺度的特征组合起来,可以更全面地描述图像中的特征信息,提高图像处理的性能。

Matlab中的稀疏表示和字典学习技巧

Matlab中的稀疏表示和字典学习技巧

Matlab中的稀疏表示和字典学习技巧引言稀疏表示和字典学习技巧是图像处理和机器学习领域中经常使用的重要技术。

在Matlab中,有着丰富的工具箱和函数可以实现稀疏表示和字典学习,为我们提供了强大的能力来处理高维数据。

本文将介绍Matlab中的稀疏表示和字典学习技巧,并通过一些实例来说明它们的应用。

一、稀疏表示技术稀疏表示是指通过一组基向量的线性组合来表示数据的一种方法。

在Matlab中,我们可以使用字典工具箱(Dictionary Toolbox)来实现稀疏表示。

稀疏表示可以应用于各种领域,如图像处理、信号处理和数据压缩等。

在图像处理中,稀疏表示可以用于图像压缩和图像恢复等任务。

通过选择合适的字典和优化算法,我们可以将一张高分辨率图像表示为一组稀疏的线性组合。

在Matlab中,我们可以使用稀疏编码函数(sparse coding function)来实现这个过程。

具体步骤包括:选择字典、计算稀疏系数和重构图像。

通过调整字典的大小和优化算法的参数,我们可以得到不同精度的稀疏表示结果。

在信号处理中,稀疏表示可以用于信号降噪和信号恢复等任务。

通过将信号表示为一组稀疏的基向量的线性组合,我们可以有效地提取信号的特征和重建信号。

在Matlab中,我们可以使用稀疏表示工具箱(Sparse Representation Toolbox)来实现这个过程。

具体步骤包括:选择字典、计算稀疏系数和重构信号。

通过调整字典的大小和优化算法的参数,我们可以得到更准确和稳定的信号表示结果。

二、字典学习技巧字典学习是指通过训练数据来学习最优的字典的一种方法。

在Matlab中,我们可以使用字典学习工具箱(Dictionary Learning Toolbox)来实现字典学习。

字典学习可以应用于各种领域,如图像处理、文本处理和语音处理等。

在图像处理中,字典学习可以用于图像分类和图像重构等任务。

通过学习最优的字典,我们可以得到更好的特征提取和重构结果。

稀疏编码算法在图像处理中的应用探究

稀疏编码算法在图像处理中的应用探究

稀疏编码算法在图像处理中的应用探究近年来,随着计算机视觉技术的不断发展,数字图像处理成为了最热门的领域之一。

而稀疏编码算法在数字图像处理中的应用更是备受关注。

本文将详细探讨稀疏编码算法在图像处理中的应用。

一、稀疏编码算法介绍稀疏编码是一种在一组基中,将一个向量表示为部分基向量之和的技术。

在数字图像处理中,基向量被称为字典,而相应向量则被称为稀疏表示。

稀疏编码算法的基本思想是,使用最少的基向量来表示一个向量。

稀疏编码算法在信号处理、图像处理等领域都有广泛应用。

稀疏编码算法的步骤一般分为两部分,分别是字典学习和稀疏编码。

字典学习的目的是通过大量的训练样本寻找一组合适的基向量,使得用这些基向量的线性组合能够最好地表示训练样本。

稀疏编码的过程则是给定一个测试样本后,寻找最少的基向量来表示样本。

二、稀疏编码算法在图像处理中的应用在数字图像处理中,稀疏编码算法的应用非常广泛。

下面分别从图像去噪、图像压缩和图像分类三个方面来介绍它的应用。

1. 图像去噪图像去噪是数字图像处理中的一项重要任务,其目的是消除图像中的噪声以提高图像质量。

传统的图像去噪方法一般是基于空域滤波或者频域滤波的。

但是这些方法一般都会对图像的细节进行破坏,因此在处理高质量图像时,容易使图像信息的损失过大。

相比之下,稀疏编码算法能够更好地保留图像信息。

稀疏编码去噪的基本思想是将给定的图像分解为许多基向量的线性组合,然后去除掉线性组合中噪声所在的向量。

这里的基向量就是训练中得到的字典。

实验证明,稀疏编码算法在去除噪声方面比传统方法有更好的效果,能够去除噪声并且保留图像细节。

2. 图像压缩图像压缩是数字图像处理中的另一项重要任务,其目的是减小图像文件的大小,以便更方便地存储和传输。

稀疏编码算法在图像压缩中的应用也是比较常见的。

常用的图像压缩方法一般是基于离散余弦变换(DCT)或小波变换。

但这些方法一般需要将图像进行分块处理,这样就无法应对非局部的内容,导致压缩效果下降。

信号处理中的稀疏表示技术研究

信号处理中的稀疏表示技术研究

信号处理中的稀疏表示技术研究信号处理是一个非常广阔而重要的研究领域,其中涵盖了大量的技术和理论。

而稀疏表示技术则是其中最为重要的技术之一。

今天,我们将深入探讨什么是稀疏表示技术,以及它在信号处理中的应用。

什么是稀疏表示技术稀疏表示技术是指利用少量非零系数来近似表示一个向量或矩阵的技术。

它被广泛应用于信号处理、图像处理、计算机视觉和机器学习等领域,并且已经成为了这些领域中的基础性技术之一。

在稀疏表示技术中,我们假设我们的信号可以表示为向量x的线性组合,而这个向量只有很少的非零系数。

这种假设在实际中非常常见,因为大多数信号都是由少量的基函数或原子组合而成的。

比如说,可以将图像表示为少量的基函数(如小波基)的线性组合。

利用这种假设,我们可以通过优化问题来求解最优的系数向量,从而实现对信号的稀疏表示。

具体来说,稀疏表示问题可以表示为以下形式:minimize ||x-Da||_2subject to ||a||_0 <= k其中,x是我们想要表示的信号,D是表示信号的原子库,a是系数向量,k是我们想要的非零系数的数量。

在这个问题中,我们通过最小化表示误差来求解最优的系数向量a,同时限制a中非零元素的数量不超过k个,从而实现稀疏表示。

稀疏表示技术在信号处理中的应用稀疏表示技术在信号处理中有着非常广泛的应用,下面我们将详细介绍其中的几个方面。

1. 压缩感知压缩感知是一种利用稀疏表示来实现信号压缩的方法。

它通过使用较少的测量样本(比如说,对信号进行采样)来重构完整的信号。

具体来说,压缩感知算法可以表示为以下形式:minimize ||a||_1subject to y = Ax其中,a是系数向量,y是我们的测量向量,A是测量矩阵,x是原始信号。

这个问题可以通过基于稀疏表示的算法来求解,比如说OMP(正交匹配追踪)和MP(匹配追踪)算法等。

2. 图像处理稀疏表示技术在图像处理中有着广泛的应用。

通过将图像表示为稀疏系数向量的形式,我们可以实现对图像的降噪、去模糊、超分辨等操作。

人脸识别系统中的稀疏表示算法分析比较

人脸识别系统中的稀疏表示算法分析比较

人脸识别系统中的稀疏表示算法分析比较人脸识别技术作为生物特征识别的一种重要应用,被广泛应用在安全系统、身份验证、人脸检索等领域。

稀疏表示算法作为一种常用的特征提取方法,在人脸识别系统中发挥着重要的作用。

本文将对人脸识别系统中的稀疏表示算法进行综述,并分析比较各种算法的优缺点。

稀疏表示算法是一种通过训练样本的线性组合来表示待识别样本的方法。

这种算法的基本思想是,每个人脸图像都可以通过有限个训练样本来表示,而且表示的系数应该是稀疏的。

在人脸识别系统中,稀疏表示算法将每个人脸图像表示为一组系数,然后利用这些系数进行分类或者比对。

常用的稀疏表示算法包括L1范数最小化算法、L2范数最小化算法、稀疏主成分分析算法等。

L1范数最小化算法是一种常用的稀疏表示算法。

它的基本思想是,通过将待识别样本表示为训练样本的线性组合,使得系数具有较高的稀疏性。

L1范数最小化算法通过在优化问题中引入L1范数的约束,将待识别样本的系数向量尽可能地稀疏化。

这种算法具有良好的鲁棒性和适应性,但是计算复杂度较高,且需要进行大量的样本训练。

L2范数最小化算法是另一种常用的稀疏表示算法。

与L1范数最小化算法不同的是,L2范数最小化算法将稀疏性约束改为了平滑性约束,即通过最小化待识别样本与训练样本之间的残差来获得系数。

这种算法计算简单且效果良好,但是对噪声敏感,并且无法处理样本集中存在线性相关性的情况。

稀疏主成分分析算法是一种基于主成分分析的稀疏表示方法。

它通过将待识别样本投影到稀疏子空间中,从而减小样本之间的差异。

稀疏主成分分析算法适用于维数较高的数据,并且具有较好的鲁棒性和鉴别性。

然而,该算法对于数据的线性相关性不敏感,且计算复杂度较高。

在实际应用中,选择合适的稀疏表示算法需要根据具体的任务需求和数据特点来进行。

在性能方面,L1范数最小化算法相对较强,在处理噪声和数据集中存在的线性相关性方面表现出色。

而L2范数最小化算法计算简单且效果良好。

稀疏表示在图像恢复中的应用研究

稀疏表示在图像恢复中的应用研究

稀疏表示在图像恢复中的应用研究稀疏表示是一种流行的数学理论,在信号处理和计算机视觉等领域得到广泛的应用。

它的基本思想是利用信号或图像的稀疏性来减少数据的冗余性,从而简化数据处理的过程。

在图像恢复领域,稀疏表示已成为一种强有力的工具,许多算法都采用了它来恢复损坏的图像。

本文将介绍稀疏表示在图像恢复中的应用研究。

一、稀疏表示理论稀疏表示理论起源于压缩感知领域,它利用信号具有较少的非零系数来设计现代的数据压缩算法。

具体来说,在信号处理中,如果信号的维度很高,每个采样都是不必要的,因为信号的潜在稀疏性意味着它可以用较少的非零系数来重构。

稀疏表示的方法是,将原始信号表示为一组基向量的线性组合,这些基向量构成一个称为字典的集合。

然后,通过选择一些与信号具有稀疏性的基向量,可以得到一个表示信号的稀疏系数矩阵。

在恢复信号时,可以通过稀疏系数矩阵和字典来计算原始信号。

二、稀疏表示在图像恢复中的应用在图像恢复领域,稀疏表示已成为一种强有力的工具,它能够处理图像降噪、压缩、超分辨率和图像恢复等任务。

一些常见的算法使用的包括:1. Compressive Sensing (压缩传感)Compressive Sensing是利用稀疏性在重构信号时减少采样的实践。

在图像降噪任务中,可以使用压缩感知算法来从加性高斯噪声中恢复图像,这通常被称为稀疏编码。

2. K-SVD (基于稀疏字典的图像处理)K-SVD是一种基于稀疏编码的图像处理算法,它能够从噪声干扰和可能的损坏中恢复图像。

K-SVD通过构建一个原子组成的字典,利用稀疏性来寻找重构图像的基向量,从而计算其稀疏系数。

3. Dictionary Learning Algorithm (字典学习算法)字典学习算法旨在学习合适的字典,以将信号表示为具有最小重构误差的稀疏字典。

这类算法包括稀疏表示算法、K-SVD算法等,对于从大量观察中学习低维表示的任务非常有效。

三、总结稀疏表示已被广泛应用于图像恢复领域。

基于Gabor滤波和稀疏表示的金相图识别

基于Gabor滤波和稀疏表示的金相图识别
用稀疏表示来进行金相识别的思想 ( S R C),并且相对 于
二 、稀 疏表 示识 别金相 图的基本 思想
对象 识别 中的一个基本 问题是利用在k 个 不同的对 象类 中的标记训 练样本来 正确 的判决 出新 的测试样 本
属于 哪个 类 。对 于从第i 个类 中给定 的n 个 训练样本 进
而G a b o r  ̄ , 波可以提取 出图像 中的纹理信息,从而弱化 图 像间的位置变化,特别适合对金相图进行处理 。
a ) G a b o l  ̄ 征提取。本文中使用的G a b o f  ̄ , 波器如下式
I I l l 2 I l l k , , I I I : l l 0微观组织 ,其 中微 观 组织对金属性 能的影 响最为直接 ,因此我们可以通过对 金属微观组织 的观察 和分析 ( 即金相分析技术 ) 来 预测 和判断金属的性 能 ,并分析其失效破坏 的原 因。金相分
力的不同 ,采用不同的权值 ,将各类表示结果进行加权
融合 ,最终根据 S R C 得出分类结果。
析技术是根据有关的标准和规定来评定金属材料 内在质 量的一种常规检验方法 ,并可用来判断零件生产工艺
是否完善,有助于寻求零件产生缺陷的原因,因此它是涉 及金属材料生产 、使用和科研中一种必不可少的手段 ,而
这篇论文 的结构如下 :第二部分中,我们阐述 了利 用稀疏表示识别的基本思想 ;在第 三部分 中,我们介绍
前人的方法,取得了更好的识别率。 但S R C 也有其局 限性 ,其 中很 明显的一个 缺点就是 由于S R C 是基于对应像素点之问距离来判定测试图像所属
分类的 ,因此它对 于位置 的变化非常敏感 。在用 S R C 算
行排列作为矩阵的列4 v i , 1 , v i 2 , . . . . v i ] ∈ 尺 。对于

基于字典学习的稀疏编码算法研究

基于字典学习的稀疏编码算法研究

基于字典学习的稀疏编码算法研究第一章算法背景介绍稀疏编码是一种有效的特征提取算法,可以用于图像识别、语音识别、自然语言处理等领域。

字典学习作为稀疏编码的重要组成部分,也被广泛应用于各种领域。

本文将介绍基于字典学习的稀疏编码算法的研究。

第二章稀疏编码算法稀疏编码算法是一种基于字典学习的特征提取算法。

其基本思想是在一个基字典的基础上,通过线性组合来重构输入信号,使得系数具有稀疏性。

稀疏性意味着大多数系数都为0,只有少数系数非零。

稀疏性使得信号的表示更加紧凑、易于处理,也可以减少特征的维度。

通常,稀疏编码算法的求解可以通过L1范数最小化方法,如LASSO;或者通过L0范数最小化方法,如OMP。

在稀疏编码算法中,字典的选择对结果具有重要影响。

字典的选择可以采用启发式方法或者优化方法,如K均值聚类、分层聚类、奇异值分解等。

第三章字典学习算法字典学习是稀疏编码算法中的关键部分。

一般来说,字典学习算法需要考虑到稀疏性、字典的性质以及计算效率等因素。

常用的字典学习算法包括K-SVD、在线字典学习、鲁棒字典学习等。

其中,K-SVD算法是最受欢迎的字典学习算法之一。

它通过迭代更新字典与系数矩阵来求解稀疏编码问题。

在线字典学习算法则是通过在线的方式来学习演化的数据分布,对其进行字典更新。

鲁棒字典学习则是通过考虑外来噪声的情形,求解鲁棒的字典。

第四章基于字典学习的稀疏编码算法基于字典学习的稀疏编码算法通常是将稀疏编码和字典学习结合起来。

该算法首先对样本数据进行字典学习,得到一个字典。

然后,对每个样本数据进行稀疏编码,得到该样本的系数矩阵。

最后,将系数矩阵作为特征,进行分类或回归等任务。

基于字典学习的稀疏编码算法可以采用与字典学习算法类似的方法,如K-SVD、在线字典学习等。

此外,也可以采用神经网络来计算系数矩阵,如自编码器、卷积神经网络等。

第五章基于字典学习的稀疏编码算法应用基于字典学习的稀疏编码算法已被广泛应用于图像识别、语音识别、自然语言处理等领域。

基于稀疏表示的图像重建算法研究文献综述

基于稀疏表示的图像重建算法研究文献综述

---------------------------------------------------------------范文最新推荐------------------------------------------------------ 基于稀疏表示的图像重建算法研究+文献综述摘要图像在获取、存储、传输等过程中都会受到特定噪声的污染,造成图像质量的下降,因此图像的重建是图像处理中的一个重要问题。

其目的是通过一系列的运算,尽可能恢复原始图像。

近年来,稀疏表示理论受到人们的广泛关注。

其理论依据是,具有一定光滑性的干净图像在适当的过完备字典下存在稀疏表示,通过选择或设计适当的字典,求出图像在该字典下的稀疏表示,就可以达到重建的目的。

图像的重建是图像处理的重要课题之一,即是试图利用退化现象的某种先验知识来重建或恢复被退化的图像,最终达到改善给定图像的目的。

图像复原技术经过几十年的发展,逐步形成了一套统一的理论框架。

1 / 9本研究了在两种不同字典下的稀疏表示,同时实现基于稀疏正则化的图像信号复原。

实验结果表明,曲波字典比小波字典具有更好的适应性。

关键词数字图像处理稀疏表示正则化图像重建7090毕业设计说明书(论文)外文摘要TitleImage reconstructionalgorithmbased on the sparse representationAbstractImages in the process of acquisition, storage, and transmission are subject to specific noise pollution, which can cause the decline in image quality. So, the image denoising reconstruction is an important issue in image processing. Its goal is to restore the original image as far as possible by a series of operations .In recent years, the sparse representation theory has been widespread concerned. Its theoretical basis is that a clean image with a certain smoothness exists sparse in an appropriate---------------------------------------------------------------范文最新推荐------------------------------------------------------complete sub Highness or designing appropriate dictionary.We can get the purpose of denoising by finding the image in the dictionary under the sparseselecting .Reconstruction of the image is one of the important topics of image processing, that is trying to use some a priori knowledge to rebuild or restore the degraded image , and ultimately reach the purpose to improve the given image. After decades of development, image restoration techniques are gradually formed a unified theoretical framework .This paper based on the sparse representation of two different dictionaries, and at the same time to achieve recovery based on the sparse regularization of the image signal. Experimental dismissal the curvelet dictionary has better adaptability than the waveletdictionary.结论26致谢273 / 9参考文献281引言1.1课题的背景图像是客观世界的某种状态或能量以一定的方式在二维平面上的投影所转化成的一种可视形式,是人类社会活动中常用的信息载体之一。

图像处理中的稀疏表示技术研究

图像处理中的稀疏表示技术研究

图像处理中的稀疏表示技术研究近年来,随着计算机技术的不断发展,图像处理技术也日新月异。

而稀疏表示技术(sparse representation)作为一种基础的图像处理技术已经引起了越来越多的关注。

稀疏表示技术是指通过寻找图像中特定区域内具有显著性的特征点并将其表示为稀疏信号的方式来进行图像处理。

这种处理方法可以有效地消除图像噪声,提高图像的清晰度和对比度,增强图像的边缘、轮廓等特征,所以在计算机视觉、遥感图像、医学图像等领域都得到了广泛的应用。

本文将从稀疏表示技术的概念、原理、方法和应用等方面进行论述和探究。

一、稀疏表示技术的概念和原理稀疏表示技术是指将一个向量或矩阵表示为尽可能少的基向量的线性组合的过程。

在图像处理中,可以将图像看成是由许多小区域构成的,而每个小区域中可含有若干个像素。

稀疏表示技术的原理是,在图像中找到一些局部基组,通过这些基组的线性组合,来构建整幅图像的表达式。

将图像表示为少量的基向量的线性组合,可以有效地减少噪声的影响,提高图像的清晰度和对比度。

二、稀疏表示技术的方法1.基于字典学习的稀疏表示方法字典学习是稀疏表示方法中常用的一种方法。

它通过学习一个基向量集合(字典),从而快速计算出稀疏表示的系数。

在该方法中,需要构造一个符合实际情况的稀疏基向量集合。

通常的方法是利用训练数据集,通过正交匹配追踪(OMP)、坐标下降(CD)或梯度下降(GD)等算法来学习一个合适的基向量集合。

2.基于降噪的稀疏表示方法基于降噪的稀疏表示方法是一种常见的图像降噪技术,它通过在空间域或频域内对图像进行降噪处理,从而实现对图像的修复和增强。

常用的稀疏表示方法包括小波变换(wavelet transform)、图像块表示(image patch representation)等。

三、稀疏表示技术的应用稀疏表示技术已经得到广泛的应用,其中最为重要的应用领域之一是图像降噪和增强。

通过对图像进行稀疏表示,可以将图像中的噪声去除,从而提高图像的质量。

图像编码中的稀疏表示方法研究(四)

图像编码中的稀疏表示方法研究(四)

图像编码是一项重要的图像处理技术,广泛应用于图像传输、存储和压缩等领域。

稀疏表示作为图像编码的一种重要方法,得到了越来越多的关注和研究。

本文将探讨图像编码中的稀疏表示方法,介绍其基本原理和主要应用。

一、稀疏表示的基本原理稀疏表示是指利用尽可能少的基向量来表示一个信号或图像。

在图像编码中,通常使用离散余弦变换(DCT)或小波变换等方法将图像转换到频域或者时-频域。

然后,利用稀疏表示方法将这些系数进一步压缩,达到图像信息的精确表示和高效存储的目的。

稀疏表示方法常用的模型有稀疏编码、字典学习等。

稀疏编码通过限制系数向量的L0范数或L1范数,使其尽量稀疏。

字典学习则侧重于从训练集中学习得到一个最佳的字典,使得稀疏表示能够更好地还原原始信号。

二、基于稀疏表示的图像编码算法1. JPEG2000JPEG2000是一种基于小波变换和稀疏表示的图像编码算法。

它采用2D离散小波变换将图像转换到时-频域,然后利用稀疏表示方法对小波系数进行编码。

JPEG2000相比于传统JPEG具有更好的压缩效果和图像质量,并且支持无损压缩。

2. 稀疏表示去噪稀疏表示还可以应用于图像去噪领域。

图像去噪是指从带有噪声的图像中恢复出原始信号。

传统的去噪方法如中值滤波、高斯滤波等对一些边缘信息会造成模糊。

而稀疏表示方法通过将带噪图像进行稀疏表示,然后使用基于稀疏表示的恢复算法去除噪声,能够更好地保留图像的细节和纹理。

三、稀疏表示方法的优势和挑战稀疏表示方法在图像编码中具有许多优势。

首先,稀疏表示能够有效地降低图像数据的维度,从而减少存储空间和传输带宽。

其次,稀疏表示对图像的局部和全局特征能够提供更加准确的表示,使得图像还原的质量更高。

此外,稀疏表示方法还具有较好的鲁棒性和泛化能力,适用于不同类型的图像编码任务。

但是,稀疏表示方法也面临一些挑战。

首先,稀疏表示方法需要进行字典学习或优化问题的求解,计算复杂度较高。

其次,稀疏表示的效果受到字典质量和稀疏度选择的影响,如何选择合适的字典和稀疏度是一个关键问题。

基于 GaborSIFT+NNScSPM 图像特征抽取算法研究

基于 GaborSIFT+NNScSPM 图像特征抽取算法研究

第37卷第10期自动化学报Vol.37,No.10 2011年10月ACTA AUTOMATICA SINICA October,2011基于GaborSIFT+NNScSPM图像特征抽取算法研究江爱文1王春恒2肖柏华2摘要视觉信息的特征表示是计算机视觉场景图像理解研究中的核心内容.基于GaborSIFT+NNScSPM的图像特征抽取算法,借鉴生物视觉机制中的相关研究成果,有机结合了HMAX层次计算模型的思想和非负稀疏编码的策略,较为合理地模拟了生物视觉皮层中视觉处理的过程.在15类场景图像和Caltech101两个公开数据集上进行了实验验证,实验结果表明我们所提出的算法较同期算法有着良好的分类性能.关键词特征抽取,生物视觉机制,HMAX,非负稀疏编码,语义分类DOI10.3724/SP.J.1004.2011.01183An Image Feature Extraction Method Based on GaborSIFT+NNScSPMJIANG Ai-Wen1WANG Chun-Heng2XIAO Bai-Hua2Abstract Feature representation of visual information is one of core research topics in computer vision and image understanding.In this paper,we propose a feature extraction method based on GaborSIFT+NNScSPM,trying to combine HMAX model with non-negative sparse coding to mimic the information process in V1area in visual cortex.We have test our proposed method on two public data sets(15scenes and Caltech101),and the experiment results show that our method outperforms the existing ones.Key words Feature extraction,biological inspired feature,HMAX,non-negative sparse coding,semantic classification场景图像理解是在对场景图像的各种处理和分析的基础上,解释场景图像的内容及相关高层语义知识,这个过程是视觉信息和知识信息的处理分析过程,通常也称为图像解释和场景分析.近年来,基于视觉计算的场景信息语义理解已经成为国际上研究和应用的热点之一.视觉信息的特征表示、图像目标识别和场景语义分类是研究的核心内容.当前研究者提出了大量的特征表示形式,用来表示图像描述的内容.其中主流的特征表示策略可以归纳为以下四大类形式:1)基于低层次描述的特征表示.这类方法直接对场景图像的颜色、纹理等属性进行描述,然后用这些表示来对图像进行分类.主要的方式可细分为全局式和子块划分式.a)全局式:直接抽取整幅图像的低层特征,用于图像分类.Vailaya等[1]在颜色信息方面,利用图像在LUV、HSV颜色空间上的空间矩、直方图、一致性向量等;在边缘信息方面,利收稿日期2010-09-15录用日期2011-05-17Manuscript received September15,2010;accepted May17, 2011国家自然科学基金(60835001,60933010)资助Supported by National Natural Science Foundation of China (60835001,60933010)1.江西师范大学计算机与信息工程学院南昌3300222.中国科学院自动化研究所复杂系统智能控制与管理国家重点实验室(筹)北京1001901.College of Computer and Information Engineering,Jiangxi Normal University,Nanchang3300222.State Key Laboratory of Intelligent Control and Management of Complex Systems,In-stitute of Automation,Chinese Academy of Sciences,Beijing 100190用图像的边缘方向直方图、边缘方向一致性向量等. Chang等[2]采用颜色和纹理这两种主要特征作为图像的描述.将像素的RGB值转换成颜色波长,量化形成颜色直方图.同时采用正交镜像滤波的小波变换抽取图像的纹理分布信息.b)子块划分式:首先对图像进行简单的区域块划分,然后针对每个小区域块进行底层特征抽取、分类,最后根据每个小区域块的分类情况综合考虑得到图像的分类结果.该类方法最早在1997年由Szummer等提出[3],他们对图像子块进行独立分类,使用多数投票分类器获得最终结果.Serrano等[4]沿用了类似的思想.不同在于采用支持向量机(Support vector machine, SVM)对每个小块进行分类,经过回归计算可以得到每个小块的分类置信度,降低分类不准确带来的误差.2)基于中间层次语义的特征表示.所谓中间层语义的概念目前也尚未存在明确的定义.因此,大量的研究者提出了不同形式的中间语义表示策略,主要可以大致分为以下几种:a)基于语义目标物(Semantic object)的中间层表示[5−7].这是最为经典的一类方法.研究者事先定义一组“语义目标物”集合(如天空、草地和山脉),然后场景图像的语义信息定义为由该场景图像中出现的目标物集合构成.这种方法的瓶颈在于需要有一个初始“语义目标物”检测过程.b)基于局部语义概念的中间层表示[8−10].试图避免语义目标物的分割和检测过程,采用更为广义的中间形式的语义表示.其主体1184自动化学报37卷思想是,首先定义一组“视觉词典”,学习某类场景图像中“视觉单词”的分布情况,作为图像的特征表示.这类方法大部分均基于“词袋”(Bag-of-words, BOW)的表示形式.c)基于图像整体语义属性的中间层表示,认为场景图像的语义和场景图像的整体结构布局有关,不需要做图像分割或局部区域处理,突破了传统的观念.这类方法最典型的代表就是Oliva和Torralba提出的图像空间包络属性(Spatial envelope)[11].3)基于生物视觉机制的特征表示.近年来随着神经生理学、认知科学、计算神经科学等学科的蓬勃发展,大量生理解剖学和心理学的事实为人们对生物视觉系统的深入理解提供了丰富的实验基础[12].在研究人眼视觉系统的图像理解机制时,发现人们能快速地理解场景的主旨信息(Gist)[13−14].这些主旨信息表现为视觉系统对图像空间布局的敏感性.Poggio等[15]结合神经生物学模型和若干假设,提出了一种简单有效的层次化前馈结构模型(Hierarchical Model and X,即HMAX模型).Serre等[16]扩展了HMAX模型,提出较为明确的四层前馈计算框架.他们的工作进一步细化了HMAX模型的各个层次的功能,具体实现了简单细胞层的调节操作和复杂细胞层的最大化(Max)操作,并引入对特征字典学习的思想,使得整个计算模型能够提供各种鲁棒性的特征.Mutch等[17]继而又在Serre等的研究工作基础上,采用简单稀疏化策略确定Serre模型中S2层各原型区域的主方向,并通过侧抑制(Lateral inhi-bition)参数来约束S1和C1层非主方向的输出.生物视觉中的层次计算模型[15]在一定程度上反映了视觉皮层的结构和功能特点,模拟不同的视觉神经机制和心理学现象,形成有效的视觉场景的表示.目前对于视觉层次计算模型的研究仍处于发展阶段,还存在着许多值得去深入研究和探讨的问题[18−19],同时可以为解决图像理解的关键问题提供新思路和新方法.4)基于稀疏编码的特征表示.稀疏编码理论和模型是神经生物学、计算机科学和心理学的交叉研究领域.随着对生物视觉系统研究的进一步深入,以及计算机技术的飞速发展,近年来稀疏编码理论及应用逐渐成为了人们研究的热点.Olshausen等[20]提出稀疏编码模型,通过定义稀疏性约束来优化学习重构误差最小,得到类似于简单细胞响应特性的基函数.Lee等[21]利用非负矩阵分解(Non-negative matrix factorization,NMF)学习图像的基于部分(Parts-based)的表示.Hoyer[22]提出一种非负的稀疏编码(Non-negative sparse coding)模型,根据局部区域重构误差最小,可以有效地模拟视觉皮层神经元感受野的属性.Yang等[23]对密集采样的局部区域SIFT特征进行稀疏编码,结合线性空间匹配金字塔策略,实现对场景图像的特征抽取,具备良好的分类性能.我们在文献[24]的工作基础上,深入研究了生物视觉中的HMAX模型以及非负稀疏编码,进行有效结合,提出了一种新的图像特征抽取策略.因此我们的算法总体可以归为基于生物认知机制的特征抽取这一类研究思路.1算法描述本文提出的图像抽取算法既考虑模拟大脑视觉皮层机制中简单细胞响应到复杂细胞响应的视觉处理过程,同时也考虑了场景主旨的空间分布信息.整个特征抽取流程框架图如图1所示.初级视觉皮层中的简单细胞响应有空间位置、方向选择性,以及带通属性,因此多尺度多方向Ga-bor滤波器用来模拟简单细胞的“感受野”响应.稀疏、过完备的编码表示被用来考虑从简单细胞到复杂细胞处理过程中的空间非线性特性.研究发现[18],生物视觉系统不是采用严格采样编码方式(Critically sampled code).例如,猫的神经V1区,输入神经元与输出神经元数量比大约是25:1,猕猴的比例大约在50:1的数量级.在某响应表示时,只有大量神经元中的一小部分的神经元被激活,这种方式就是典型的过完备、稀疏表示方式.各输出部分虽然不是保证完全的线性独立,但是它们的过完备性表示策略能够保证其在统计上拥有较高程度上的统计独立性,从而降低它们之间的线性依赖性.1.1简单细胞响应:多尺度多方向Gabor滤波器多尺度多方向Gabor滤波器的数学表达式为Gabor(x,y|γ,λ,σ)=exp(−X2+γY22σ2)cos(2πλX)其中,X=x cosθ−y sinθ和Y=x sinθ+y cosθ, x和y介于滤波器窗口大小,θ表示滤波器方向,θ∈[0,π],γ表示纵横比(Aspect ratio),σ是有效带宽,即尺度信息,λ是波长.Gabor特征具有优良的空间局部性和方向选择性,能够抓住图像局部区域内多个方向的空间频率(尺度)和局部性结构特征,并且对光照等具有一定的鲁棒性.通过调整不同的尺度参数和方向参数,例如采用三种不同尺度和四种不同方向(θ=0,π4,π2,3π4)的Gabor滤波器,可以抽取并10期江爱文等:基于GaborSIFT+NNScSPM图像特征抽取算法研究1185图1基于GaborSIFT+NNScSPM的特征抽取框架Fig.1The framework of the feature extraction algorithm based on GaborSIFT+NNScSPM用来表示简单细胞感受野的响应特性.在每一尺度的滤波图像上每一个位置,记录该位置滤波响应最强的那个方向的响应能量值以及它们相应的方向,从而得到每个尺度上的最大Gabor响应映射图(Max gabor response map),如图2所示.这个映射图是稀疏型的,在每个位置上的响应只对最重要的那个方向敏感,而不是对所有方向都敏感,因此更能体现简单细胞的空间位置和方向的选择性.最大Gabor响应映射图的物理意义在于本质上是对滤波结果进行特征选择的过程,保留图像局部区域最主要的信息,避免细节干扰信息,在一定程度上使得特征响应能够克服局部杂乱(Local clutter)的干扰,增强了特征的泛化能力.图2最大Gabor响应映射图Fig.2Max Gabor response map最大Gabor响应映射图在每个位置上均具有两个属性(响应能量值和方向值),因此我们对该映射图密集抽取大量的局部小块(Local patch),计算每个局部小块的Gabor能量方向直方图特征,如图3所示.假设将每个小块分成4×4等分,每一等分内Gabor映射存在4个方向,那么该特征的特征维数是16×4=64维.因为这里特征的抽取方式SIFT (Scale-invariant feature transform)[25]特征中梯度方向直方图特征(Histogram of gadient,HoG)的抽取方式颇为类似,并且在不同尺度的最大Gabor 响应映射图上可以抽取相应局部特征,因此为了叙述的方便,我们称该局部特征为GaborSIFT特征.图3Gabor能量方向直方图特征抽取示意图Fig.3Histogram of Gabor energy orientation1.2复杂细胞响应:GaborSIFT的非负稀疏编码(Non-negative sparse coding,NNSC)Olshausen等[20]阐述了如何在稀疏编码的理论框架下来理解V1中简单细胞的感受野的经典特性.其基本思想是观测数据x j由一组基本模式(基)a i 稀疏、线性累加来近似x j=ni=1a i s i,其中s i是隐含变量,具有一定的独立性和稀疏性.学习得到的基与Gabor滤波器的响应有着相似之处.尽管如此,他们没有考虑V1中的复杂细胞的行为.复杂细胞响应对应于高一层次的特征抽取.我们考虑采用稀疏、过完备的编码方式来模拟从简单细胞到复杂细胞处理过程中的空间非线性特性.另外,V1中的神经元对背景一般也会有较小刺激响应,但是刺激不可能为负值.每个神经元的激励响应均是有正面效用.在传统的标准稀疏编码中,隐含变量(即系数)s i可正可负,当需要进行聚合操作时,会存在一定的相互抵消的消极作用.因此在本文所提出的算法中,我们采用非负的稀疏编码方式来1186自动化学报37卷模拟V1中神经元激励行为.我们注意到简单细胞响应阶段抽取的Gabor-SIFT特征向量中元素值均为正值,因此可以采用非负稀疏编码,其目标函数为C(A,S)=12||X−AS||2+λijS ij约束条件:∀ij:A ij≥0,S ij≥0,∀i: a i =1,a i 表示矩阵A的第i列,λ≥0.本文的非负稀疏编码算法基于Hoyer的工作1,具体实现过程如算法1所述.算法1非负稀疏编码算法(NNSC).Input:Initial A0and S0by random strictly positive matrices,scale each column of A0to unit norm.Iterate until convergence:1)A t=A t−µ(A t S t−X)(S t)T;2)A t=max{A t,0};3)A t+1i =A t i/A ti;4)S t+1=S t·((A t+1)T X)/((A t+1)T(A t+1)S t+λ).针对每个尺度上最大Gabor响应映射图,我们对抽取的GaborSIFT特征进行非负稀疏编码.从而,在所有尺度上,每个GaborSIFT对应的位置上均有一个非负稀疏编码表示.在同一位置上,对所有尺度上的相应位置上的GaborSIFT非负稀疏编码表示进行最大化操作,参见图4所示,max NNSC =max{nnsc scale1,nnsc scale2,nnsc scale3},得到一幅最大化稀疏编码映射图(Max NNSC map).这种映射蕴含了一定的尺度信息,同时最大操作模拟实现了简单细胞响应到复杂细胞响应过程中的非线性特性.图4对稀疏编码表示进行最大化操作示意图Fig.4Maximize operator for sparse representation采用GaborSIFT形式,而非直接采用Gabor 滤波后响应作为稀疏编码的输入特征,是因为考虑到计算的效率.直接将Patch小块作为输入,将导致特征维数等于Patch的大小,维数较高,限制了后续稀疏编码算法的效率,也相应限制了Patch大小的选择自由度.采用GaborSIFT可以对Patch信息进行有效压缩,更为有效灵活,而且在实验过程中,实验效果略有提高.1.3空间分布信息(Spatial layout):空间层次性聚合策略图像内容的空间分布信息是图像分析过程中所需的一种重要信息,如图像的全局结构性主旨信息(Gist).我们延续了文献[9]和文献[23]中的策略,将maxNNSC映射图空间粗略划分成2l×2l (l=0,1,2)块(Block).在每个小块区域中,对其中的特征点集进行聚合.本文考虑三种不同的聚合策略.sum:z j=1Ni=1s ienergy:z j=1NNi=1s2imax:z j=max{s j1,s j2,···,s jN}其中,N表示第j个Block中特征的数目,s i表示每个特征非负稀疏编码后的向量.每个Block中的局部特征经过聚合之后,形成一个向量,然后将所有的Block的向量归一化,连接起来形成图像的空间金字塔特征表示形式,作为图像的最终特征表示形式.1.4创新之处:与HMAX和ScSPM的区别本文提出的新的图像特征抽取框架是基于HMAX模型和非负稀疏编码的工作基础.但是又与HMAX以及同期工作ScSPM[23]存在着重要的区别.区别于HMAX之处:1)在模拟简单细胞响应时,我们选择性地确定主响应方向,传统的HMAX 考虑所有可能的方向,因此相比之下我们的做法更能体现出方向的选择性;与HMAX的一些后续改进方法(如Mutch[17]也选择了主方向)相比,我们计算主方向的另外一个目的是为了方便每一位置上的GaborSIFT特征的计算,而Mutch是为了简化S2特征的输入和计算,因此目的还是有所区别的.2)我们是通过学习的方式,学习出局部区域的过完备词典,进而达到局部区域的稀疏编码表示,而HMAX(包括后续的改进算法)的词典获得采用的是随机采样选取方式,存在着较大的随意性.3) HMAX没有利用空间分布信息.区别于ScSPM之处:1)我们的算法有着一定生物视觉背景理论支撑,如GaborSIFT的计算过程1http://www.cs.helsinki.fi/u/phoyer/software.html10期江爱文等:基于GaborSIFT+NNScSPM图像特征抽取算法研究1187以及计算maxNNSCmap;2)更重要的不同是,我们采用的是非负稀疏编码方式,而ScSPM采用的是传统的标准稀疏编码.一方面,非负的稀疏编码在模拟神经元激励响应上更为合适[22];另一方面,在局部区域聚合时,考虑到每个局部区域的每个响应分量都是有用的假设前提,非负性能保证做到这一点,而传统的标准稀疏编码因为系数的可正可负性,可能会产生相互抵消的消极作用.这在后面的实验中会继续分析.2实验分析在目前最流行的两个公共数据集(15类场景、Caltech101数据集)上对我们的算法进行了验证.为了能够实现比较详细的对比,我们对采用非负稀疏表示和采用传统稀疏表示这两种不同思路所带来的影响也进行了比较.1)Gabor-SIFT+NNScSPM表示在计算GaborSIFT特征基础上,进行非负稀疏表示(NNSC),具体描述如前述;2)GaborSIFT+ScSPM表示在计算GaborSIFT特征基础上,进行传统的稀疏表示(SC).由于每一个GaborSIFT特征在进行传统稀疏表示之后,系数可正可负,因此在计算不同尺度间的最大稀疏响应时(类似1)中的maxNNSCmap),我们采取的策略是最大最小原则(MaxMin),即保留系数的绝对值最大项对应的原始值.采取MaxMin策略原则,主要考虑到稀疏编码表示思想出发点之一是最优线性重构;保留不同尺度之间对应的正、负绝对响应系数最强部分,是为了力求不同尺度融合后仍能保留对应部分的主要信息,不破坏重构的质量;假使系数简单进行直接最大化,有可能会使重要的强负响应信息丢失,造成部分必要信息不完整.非负稀疏系数(NNSC)由于非负性,不同尺度间可以直接求最大(效果等同于MaxMin原则).为了使得对比更为全面、客观,我们对传统稀疏系数,除了采用MaxMin 原则,还对比了直接进行系数最大化处理的结果,记为GaborSIFT+ScSPM(max).这两种思路最后的空间层次聚合策略均同样采用前述的三种策略.2.115类场景图像数据集该数据集包含15类自然场景图像2,总计4485幅图片,每类图片数目在200到400之间.部分样本如图5所示.为了具有可比较性,我们采用与文献[9]和文献[23]相同的实验策略,每类随机选取100幅图片,共计15×100=1500幅图片作为训练集,剩下的作为测试集.我们将图像归一化为256×256大小的图片.Gabor滤波器尺度大小σ={3,3.828,5},方向θ={0,π/4,π/2,3π/4}.抽取GaborSIFT时,采样的局部区域大小为16×16,稀疏编码的词典大小设为1024.分类器同样采用线性分类器.多类分类器采用“一对多”的方式.整个过程重复实验10次,计算性能的平均值及方差作为最终的性能结果.图515类自然场景图像示意图Fig.5Image samples in15scenes与同期的其他结果进行性能比较,具体的比较结果如表1所示.表115类场景数据集上分类性能比较(%)Table1Classification performances on15scenes(%)数据集分类性能sum83.37±0.75 GaborSIFT+NNScSPM energy82.70±0.64max80.64±0.91sum75.40±0.35 GaborSIFT+ScSPM energy78.26±0.69max79.31±0.54GaborSIFT+ScSPM(max)76.50±0.36ScSPM[23]80.40±0.45KSPM[9]81.40±0.50 2.2Caltech101数据集Caltech101数据集3总共包含了101类不同类型的目标物(如动物、花、笔记本等).每类样本个数在31到800之间.该数据集的特点是类内差异较大.部分样本如图6所示.我们随机选择每类的30个样本作为训练样本,余下的样本作为测试样本.将图像均归一化到256×256大小,其他基本参数设置同15类场景数据集实验.稀疏词典大小设为1024.分类器同样采用线性分类器.多类分类器采用“一对多”的方式.2/ponce grp/data/3/Image Datasets/Caltech101/1188自动化学报37卷整个过程重复实验5次,计算性能的平均值及方差作为最终的性能结果.我们与同期的其他结果进行了性能比较,具体的比较结果如表2所示.图6Caltech101部分样本Fig.6Image samples in Caltech101表2Caltech101数据集上分类性能比较(%)Table2Classification performances on Caltech101(%)数据集分类性能sum74.10±0.60 GaborSIFT+NNScSPM energy73.05±0.35max71.20±1.0sum66.25±0.75 GaborSIFT+ScSPM energy68.32±0.48max70.60±0.35 GaborSIFT+ScSPM(max)67.90±0.55ScSPM[23]73.2±0.54KSPM[9]64.40±0.80Jim Mutch[17]56从在两个不同数据集上的实验结果来看,我们发现在GaborSIFT+NNScSPM的结果中sum的聚合策略分类性能是最好的.与此形成鲜明对比的是,在ScSPM中,类似于sum的abs聚合方式结果却不是最优的.同时我们也发现,从Gabor-SIFT+ScSPM的结果中可以得出与ScSPM类似的结论.这个现象不难解释,因为ScSPM的初始稀疏编码系数不是非负的,它们在空间聚合策略阶段的对象是经过人为强制取绝对值转化为非负形式之后的系数.至于在GaborSIFT+ScSPM中,由于我们max的策略采取的是最大最小原则,效果和绝对值后取最大有类似效果,只不过聚合之后的特征系数依然有正有负.sum策略是直接对系数进行相加,由于系数存在正负值,在相加的过程会产生一定的抵消.因此这种情况下,根据实验结果得出与ScSPM基本一致的趋势结论(即max的效果是最好的),也是合理的.但是在ScSPM中对稀疏表示系数进行人为强制转化显然有不合理之处.在GaborSIFT+ScSPM对可正可负的系数进行直接相加的sum聚合策略也不能得到合理的解释.在GaborSIFT+NNScSPM中,我们直接采用非负稀疏编码算法得到非负的系数,这样在此基础上进行后续的一系列聚合操作就显得比较合理而自然,同时实验的效果也证明了这一点.相比之下,基于GaborSIFT+NNScSPM的算法思路无论从解释上还是效果上均更具有一定的优势.但是,基于GaborSIFT+NNScSPM的算法也还存在着一定的不足,有待改进.与ScSPM算法相比,在算法效率上,由于基于GaborSIFT+NNScSPM的算法直接采用的是原始非负稀疏编码算法,没有进行优化,在效率上制约了算法的速度.因此,在将来的工作中,我们将针对算法效率方面,对非负稀疏编码算法运算效率做进一步的改进.3结束语本文提出一种基于GaborSIFT+NNScSPM的图像特征抽取算法.多尺度多方向Gabor滤波器模拟简单细胞感受野的响应特性,抽取GaborSIFT特征,非负稀疏编码的最大化操作(Max)考虑简单细胞到复杂细胞之间的非线性.整个算法系统框架试图有机结合HMAX思想和非负稀疏编码思想,较为合理地模拟生物视觉皮层视觉处理的过程.我们在15类场景及Caltech101两个公开数据集上进行了实验验证.实验结果显示,我们提出的算法较之同期算法在分类性能上有着良好的优越性.合理借鉴生物机制进行视觉特征抽取算法研究,是一个非常有吸引力的研究方向.我们的工作可以为此提供有意义的参考.References1Vailaya A,Figueiredo M A T,Jain A K,Zhang H J.Image classification for content-based indexing.IEEE Transactions on Image Processing,2001,10(1):117−1302Chang E,Goh K,Sychay G,Wu G.CBSA:content-based soft annotation for multimodal image retrieval using Bayes point machines.IEEE Transactions on Circuits and Systems for Video Technology,2003,13(1):26−383Szummer M,Picard R W.Indoor-outdoor image classifica-tion.In:Proceedings of International Workshop on Content-Based Access of Image and Video Database.Bombay,India: IEEE.1998.42−514Serrano N,Savakis A E,Luo J B.Improved scene classifi-cation using efficient low-level features and semantic cues.Pattern Recognition,2004,37(9):1773−17845Fan J P,Gao Y L,Luo H Z,Xu G Y.Statistical modeling and conceptualization of natural images.Pattern Recogni-tion,2005,38(6):865−8856Luo J B,Savakis A E,Singhal A.A Bayesian network-based framework for semantic image understanding.Pattern Recognition,2005,38(6):919−93410期江爱文等:基于GaborSIFT+NNScSPM图像特征抽取算法研究11897Vogel J,Schiele B.Semantic modeling of natural scenes for content-based image retrieval.International Journal of Computer Vision,2007,72(2):133−1578Li F F,Perona P.A Bayesian hierarchical model for learning natural scene categories.In:Proceedings of the IEEE Com-puter Society Conference on Computer Vision and Pattern Recognition,San Diego,USA:IEEE.2005.524−5319Lazebnik S,Schmid C,Ponce J.Beyond bags of features: spatial pyramid matching for recognizing natural scene cat-egories.In:Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, NewYork,USA:IEEE,2006.2169−217810Quelhas P,Monay F,Odobez J M,Gatica-Perez D,Tuyte-laars T.A thousand words in a scene.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(9): 1575−158911Oliva A,Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope.International Journal of Computer Vision,2001,42(3):145−17512Hubel D H,Wiesel T N.Receptivefields of single neurones in the cat s striate cortex.The Journal of Physiology,1959, 148(3):574−59113Oliva A,Torralba A.Building the gist of a scene:the role of global image features in recognition.Progress in Brain Research,2006,155(1):23−3614Li F F,Van Rullen R,Koch C,Perona P.Rapid natural scene categorization in the near absence of attention.Pro-ceedings of the National Academy of Sciences,2002,99(14): 9596−960115Poggio T,Riesenhuber M.Hierarchical models of object recognition in cortex.Nature Neuroscience,1999,2(11): 1019−102516Serre T,Wolf T,Bileschi S,Riesenhuber X,Poggio T.Ro-bust object recognition with cortex-like mechanisms.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):411−42617Mutch J,Lowe D G.Object class recognition and localiza-tion using sparse features with limited receptivefields.Inter-national Journal of Computer Vision,2008,80(1):45−5718Olshausen B A,Field D J.How close are we to understand-ing V1?Neural Computation,2005,17(8):1665−169919Carandini M,Demb J B,Mante V,Toullhurst D J,Dan Y, Olshausen B A,Gallant J L,Rust N C.Do we know what the early visual system does?Journal of Neuroscience,2005, 25(46):10577−1059720Olshausen B A,Field D J.Emergence of simple-cell recep-tivefield properties by learning a sparse code for natural images.Nature,1996,381(6583):607−60921Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization.Nature,1999,401(6755): 788−79122Hoyer P O.Modeling receptivefields with non-negative sparse coding.Neurocomputing,2003,52-54(1):547−552 23Yang J C,Yu K,Gong Y H,Huang T.Linear spatial pyra-mid matching using sparse coding for image classification.In:Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Miami,USA: IEEE.2009.1794−180124Jiang A W,Wang C H,Xiao B H.A new biologically in-spired feature for scene image classification.In:Proceedings of the20th International Conference on Pattern Recogni-tion,Istanbul,Turkey:IEEE,2010.758−76125Lowe D G.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004, 60(2):91−110江爱文江西师范大学计算机与信息工程学院讲师.2010年获中国科学院自动化研究所博士学位.主要研究方向为图像处理与模式识别.本文通信作者.E-mail:aiwen.jiang@(JIANG Ai-Wen Lecturer atJiangxi Normal University.He receivedhis Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in2010. His research interest covers image processing and pattern recognition.Corresponding author of this paper.)王春恒中国科学院自动化研究所研究员.主要研究方向为图像处理与模式识别.E-mail:chunheng.wang@(W ANG Chun-Heng Professor atthe Institute of Automation,ChineseAcademy of Sciences.His research in-terest covers image processing and pat-tern recognition.)肖柏华中国科学院自动化研究所研究员.主要研究方向为图像处理与模式识别.E-mail:baihua.xiao@(XIAO Bai-Hua Professor atthe Institute of Automation,ChineseAcademy of Sciences.His researchinterest covers image processing andpattern recognition.)。

稀疏表示建模的字典设计

稀疏表示建模的字典设计

稀疏表示建模的字典设计摘要:数据的稀疏和冗余表示建模可以将信号描述为预先规定的字典中的少数原子的线性组合。

其中,字典的选取对于信号的建模是至关重要的。

通常可采用两种方法选取一个合适的字典:i)基于数据的数学模型建立稀疏字典,ii)选择在训练集上有最佳表现的学习字典。

在此论文中,我们将描述这两种范例的演变。

作为第一种方法的例证,我们将涉及小波、小波包、轮廓波以及曲线波等分析方法。

所有方法都致力于为信号与图像设计能建立有效字典1-D和2-D的数学模型。

字典学习采用了另一种路线,将字典与一系列需表示的示例相关联。

1.引言自然信号的数字化采样过程将它表示为一系列空间或时间中的脉冲函数的和。

这种表示虽然在显示或重放时提供了方便,却不利于我们进行分析。

信号处理技术通常需要更有意义的表示方法,以抓住需识别信号的有用特征—用于识别时,表示方法应该突出被处理信号的特征;用于降噪时,表示方法应该有效地分离信号和噪声;用于压缩时,表示方法应该只用很少的系数来捕捉大部分的信号。

有趣的是,在很多案例中这些看似不同的目标达到了一致,都以简化作为核心要求。

信号的表示牵涉到字典的选取。

字典是一组用于分解信号的基本信号或原子。

每个信号都可以被独一无二地表示为字典原子的线性组合。

在最简单的实例中,字典是正交的,且表示系数可以用信号和原子的内积来计算;在不正交的时,系数是信号和字典的逆的内积,这种字典也被表述为双正交基字典。

许多年来,正交基与双正交基字典由于它们在数学上的简易性而占有主导地位。

然而,这些字典的弱点,也即它们有限的表达能力,最终覆盖了其简易性的优势。

这促进了更新的过完备字典的发展。

过完备字典的原子多于信号的维度,因此能表示更宽范围的信号现象。

为了减小失去正交基变换提供的优良性能带来的损失,过完备字典的发展是谨慎的。

很多字典形成了紧框架,确保了将信号表示为原子的线性组合的表示过程仍能被确定为信号和字典的内积。

另一种方法称为最优基算法。

基于稀疏表示的序列图像配准算法研究的开题报告

基于稀疏表示的序列图像配准算法研究的开题报告

基于稀疏表示的序列图像配准算法研究的开题报告一、研究背景及研究意义图像配准是计算机图像处理中非常重要的一项任务,它主要是将输入的多幅图像进行变换和对齐,使它们在相同的坐标系下进行比较和分析。

在医学图像处理、遥感图像处理、机器人视觉等领域中,图像配准都是必不可少的操作。

目前,基于特征的配准算法是非常常用的一种方法,例如SIFT、SURF、ORB、FAST等特征点检测算法。

然而,这些方法在图像存在遮挡、姿态变化、光照变化等情况时,会导致特征点的检测和匹配失败。

另外,这些方法也存在一些缺点,例如运行速度较慢、鲁棒性差等问题。

随着稀疏表示技术的发展,它在图像处理中也越来越受到关注。

稀疏表示的基本思想是将图像表示为一组稀疏系数和一组基向量的线性组合,同时对于大部分图像,只需要用少量的基向量就可以得到较好的表示效果。

因此,稀疏表示可以用于降维、压缩图像、去噪以及图像配准等任务。

本研究将基于稀疏表示的方法进行序列图像配准,将多幅图像进行变换和对齐,提高配准是算法的鲁棒性和抗噪声性能,为实际应用提供更加准确可靠的算法。

二、研究内容及方案1. 稀疏表示算法的原理及相关技术的学习稀疏表示算法作为本研究的核心,需要全面深入学习和理解其原理和相关技术,例如稀疏字典学习、OMP、lasso等算法。

2. 序列图像的特征提取和特征匹配算法的研究将序列图像作为输入,需要先进行特征提取和特征匹配,以便后续进行基于稀疏表示的图像配准。

3. 基于稀疏表示的序列图像配准算法设计和实现根据序列图像的特点以及稀疏表示算法的特点,设计及实现基于稀疏表示的序列图像配准算法。

4. 实验与结果分析通过实验对比基于稀疏表示的算法与传统基于特征的图像配准算法的效果,并对实验结果进行分析,验证算法的效果和优势。

三、预期成果本研究的预期成果包括:1. 理论分析:对稀疏表示算法在序列图像配准中的应用进行深入研究,发掘其潜力,对算法进行改进和完善。

2. 算法实现:基于理论分析和实验结果,设计和实现基于稀疏表示的序列图像配准算法,提高算法的鲁棒性和抗噪声性能。

Gabor字典及l0范数快速稀疏表示的人脸识别算法

Gabor字典及l0范数快速稀疏表示的人脸识别算法
v a r i o u s c o n d i t i o n s s u c h a s i l l u mi n a t i o n,c a mo u l f a g e .A f a s t s p a r s e r e p r e s e n t a t i o n f a c e r e c o ni g t i o n a l g o i r h m t b a s e d o n Ga b o r d i c t i o n a r y a n d s mo o t h e d l 0 n o r m i s p r e s e n t e d i n t h i s p a p e r . Ga b o r f i l t e r s ,w h i c h c o u l d e f f e c t i v e l y e x t r a c t l o c l a d i r e c t i o n a l
f e a t u r e s o f t h e i ma g e a t mu l t i p l e s c le a s ,a le l e s s s e n s i t i v e t o t h e v a r i a t i o n s o f i l l u mi n a t i o n a n d c a mo u l f ge a .S mo o t h e d l 0 lg a o — i r t h m r e q u i r e s f e w e r me su a r e me n t v a l u e s b y c o n t i n u o u s l y d i f e r e n t i a b l e f u n c t i o n a p p r o x i ma t i o n l o n o r m. T h e a l g o it r h m o b ・

gabor特征 解释

gabor特征 解释

gabor特征解释
Gabor特征是一种在图像处理和计算机视觉中常用的特征提取方法,其设计灵感来自于生物学上对于视觉感知的理解。

Gabor滤波器主要用于在图像中检测纹理和边缘等细节信息,常被应用于人脸识别、物体识别以及纹理分析等领域。

Gabor滤波器是由匈牙利数学家Dennis Gabor在1946年提出的,它基于Gabor函数,
该函数是一个复数正弦波(正弦和余弦的乘积)在空间和频率两个方面的变化。

Gabor函数的形式如下:
g(x,y;λ,θ,ψ,σ,γ)=exp(−2x′2
+γ2y′2

)cos(2π x′
λ
+ψ)
其中,x′=xcos(θ)+ysin(θ) 和y′=−xsin(θ)+ycos(θ) 表示图像坐标经过旋转变换后的坐标。

参数含义如下:
λ:波长,控制正弦波在空间上的周期性。

θ:方向,控制滤波器的方向。

ψ:相位偏移,控制滤波器的相位。

σ:标准差,控制滤波器的带宽。

γ:椭圆比率,控制滤波器在空间中的形状。

在图像处理中,Gabor滤波器通常通过在图像上滑动并在每个位置上应用不同方向和尺度的Gabor函数,从而得到一组特征响应图。

这些特征响应图可以用来表示图像的纹理和边缘信息,进而用于图像分类、物体识别等任务。

Gabor特征在处理纹理变化、光照变化等复杂情况下表现较为出色,因此在计算机视觉领域得到广泛应用。

基于深度学习的图像稀疏编码技术研究

基于深度学习的图像稀疏编码技术研究

基于深度学习的图像稀疏编码技术研究深度学习是近年来非常热门的技术领域,它已经被应用到了许多领域中,其中包括计算机视觉。

在视觉处理领域中,深度学习的应用已经不可或缺。

由于深度神经网络(DNN)的应用,可被识别的物体类型已经从几十种增加到几百种,处理速度也得到了显著的提高。

然而,随着数据量的增大,深度学习模型的计算复杂度也在不断提高。

这时,图像稀疏编码技术的应用就变得非常重要了。

图像稀疏编码技术是一种基于数据压缩思想的技术,用于将高维度的数据压缩成相对较低维度的数据。

该技术通过将输入数据表示为若干个基底向量的线性组合,从而使得输入数据可以被较少数量的基底向量所表示。

在图像处理领域中,因为大多数图像都只由少量的像素点构成,而这些像素点之间的关系是具有局部性的,所以图像稀疏编码技术可以很好地表示这些像素点之间的关系。

图像稀疏编码技术的应用可以提高计算效率和准确性。

由于现有的深度学习模型通常是通过多个全连接层来实现的,所以会消耗非常大的计算资源。

而对于相同的数据集,使用稀疏编码技术可以将需要的基底向量个数大大减少,从而减少了计算复杂度,提高了计算效率。

同时,由于该技术可以更好地表示图像像素之间的关系,所以对图像进行分类等操作的准确性也会得到提高。

到目前为止,图像稀疏编码技术已经被广泛应用于计算机视觉领域。

在图像重建、图像压缩、图像去噪等任务中,它已经得到了良好的效果。

而且,在图像重建任务中,使用稀疏编码技术还可以实现基于内容的图像平滑。

与传统的基于模板的平滑方法相比,基于内容的平滑方法可以更好地保留图像的细节和纹理。

虽然图像稀疏编码技术已经被广泛应用,但它仍然有许多挑战和局限性。

其中一个挑战是如何选取合适的基底向量。

在许多情况下,不同的数据集需要不同的基底向量表示。

如果选择了不合适的基底向量,可能会导致结果不理想。

这就需要使用车牌检测样本和告警样本两种数据集进行测试,以得到更准确的结果。

另外,对于一些复杂的图像,稀疏编码技术并不一定能够很好地表示图像之间的关系,所以需要一些更复杂的模型来解决这些问题。

稀疏表示

稀疏表示

( D) 2 || ||0
上面的符号表示:最小的线性相关的列向量所含的向量个 数。那么对于0范数优化问题就会有一个唯一的解。可即便是 证明了唯一性,求解这个问题仍然是NP-Hard。
时间继续来到2006年,华裔的数学家Terrence Tao出现, Tao和Donoho的弟子Candes合作证明了在RIP条件下,0范 数优化问题与以下1范数优化问题具有相同的解:
谢谢!
α=(0,0,0.75)
α=(0,0.24,0.75)
α=(0,0.24,0.75)
α=(0,0.24,0.65)
对于上面求内积找最匹配原子的一步,当时鉴于原 子个数太多,就想了可否在这里做个优化,就用了PSO (粒子群优化算法)查找最优原子,这个比遗传算法要 简单,我觉得这个算法也还挺有意思的。 基于学习的方法:
输入的刺激即照片不一样,则响应神经元也不一样
模拟人类视觉系统的感知机制来形成对于图像的稀疏表 示,将字典中的每个原子看作一个神经元,整个字典则对应 人类视觉皮层中神经元整体,并且字典中原子具有类似视觉 皮层中神bor函数作为简单细胞的感受野 函数,刻画其响应特性。
2 2 2 x k y x g K ( ) exp( ) cos(2 ) 2 2
( x x0 ) cos ( y y0 ) sin x
( x x0 ) sin ( y y0 ) cos y
Gabor函数
稀疏表示的应用 图像恢复,又左侧图像恢复出右侧结果
图像修补,左侧图像修补得到右侧结果
图像去模糊左上为输入模糊图像,右下为输出清晰图像, 中间均为迭代过程
物体检测
自行车,左侧输入图像,中间为位置概率图,右侧为检测结果
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图像线性展开中大部分基函数的系数为零, 只有少 数基函数具有较大的非零系数. 这里称基函数为原 子, 所有原子信号的集合为字典. 稀疏表示使信号能 量只集中于较少的原子, 具有非零系数的原子揭示 了信号的主要特征与内在结构. 它在图像处理与计 算机视觉中应用广泛, 许多问题的有效解决都依赖 于信号的稀疏表示, 如图像恢复、图像压缩、模式分 类等. 图像是一种具有多种结构成份的二维复杂信号, 当前的正交变换系统很难对其形成有效表示. 增加 字典中原子个数形成非正交的冗余系统可提高匹配 的灵活性, 有利于形成对图像这类复杂信号的稀疏 表示. 当字典中原子个数 L 大于信号维数 N 且字 典中包含 N 个线形无关的向量能够张成整个信号 空间时, 字典为过完备的 (Overcomplete) 或冗余的 (Redundant). 信号在此冗余字典下的分解并不唯 一, 这为信号的自适应表示提供了可能. 由于稀疏表 示的广泛应用, 可依据稀疏性度量标准寻求信号在 此字典下的最稀疏表示. 这里采用 L0 范数度量信号 的稀疏性, 基于冗余字典的信号稀疏表示模型为
收稿日期 2007-09-20 收修改稿日期 2007-12-25 Received September 20, 2007; in revised form December 25, 2007 国家高技术研究发展计划 (863 计划) (2007AA12E100), 国家自然科 学基金 (60672074), 江苏省自然科学基金 (BK2006569), 中国博士后 科学基金 (20060390285), 江苏省博士后科学基金 (200601005B), 教 育部高校博士点专项科研基金 (M200606018) 资助 Supported by National High Technology Research and Development Program of China (863 Program) (2007AA12E100), National Natural Science Foundation of China (60672074), Natural Science Foundation of Jiangsu Province of China (BK2006569), China Postdoctoral Science Foundation (20060390285), Postdoctoral Science Foundation of Jiangsu Province of China (200601005B), and Research Fund for the Doctoral Program of Higher Education of China (M200606018) 1. 南京理工大学计算机科学与技术学院模式识别与智能系统实验室 南京 210094 2. 南京理工大学理学院应用数学系 南京 210094 1. Laboratory of Pattern Recognition and Artificial Intelligence, Institute of Computer Science and Technology, Nanjing University of Science and Technology, Nanjing 210094 2. Department of Applied Mathematics, Institute of Science, Nanjing University of Science and Technology, Nanjing 210094 DOI: 10.3724/SP.J.1004.2008.01379
min α
0
s.t. f = Φα
(1)
1380





34 卷
其中, f ∈ RN 为待分解信号, 维数为 N ; α ∈ RL 为系数向量, 维数为 L; L0 范数定义为系数向量 α 中非零系数的个数 α 0 = {i, α [i] = 0}. 将冗余 字典中的 L 个原子作为列向量形成稀疏表示矩阵 Φ ∈ RN ×L . 由于 L0 范数是非凸的, 求解信号在 冗余字典下的稀疏表示是一个需要组合搜索的 NPhard 问题, 不存在求解此最优化问题的已知的多项 式时间算法, 需要采用次优的逼近方法. 最近提出了 许多获取信号稀疏表示的有效方法, 主要为松弛方 法与贪婪方法. 典型的贪婪算法有匹配追踪[4] 与正 交匹配追踪[5] . 典型的松弛方法有基追踪算法[6] 与 FOCUSS[7] 算法. 最近研究者们又提出了一类基于 投影的稀疏分解算法, 如梯度投影算法[8] 与交叉投 影算法[9] . 其中, 匹配追踪是一个迭代的贪婪算法, 它在每一次迭代过程中, 从字典中选择最能匹配信 号结构的一个原子而构建一种逼近过程, 巧妙地减 少了计算复杂性, 是现有稀疏分解算法中复杂度较 低的算法, 每一次迭代的运算复杂度为 O(L), 其中 L 为字典中原子个数. 由此可见, 图像匹配追踪稀疏 分解的效率由字典中原子个数 L 决定. 图像稀疏表示理论中的一个关键问题就是如 何设计有效的稀疏表示过完备字典. 当前研究者 们提出了许多冗余字典, 如小波包字典、小波和正 弦函数的级联、局部余弦字典、各向同性 Gabor 字 典[10] 、 Anisotropic refinement-Gaussian (ARGauss) 混合字典[11] 等. 前两个字典中都包含小 波原子, 由于其可分离性与各向同性, 并不能有效表 示图像中的边缘结构. 局部余弦字典虽然能够有效 匹配纹理结构, 却不能稀疏表示边缘轮廓结构. 文 献 [10] 最早使用 Gabor 字典对二维图像进行稀疏 分解, 不过字典中使用的是各向同性的单一空间频 率带宽的 Gabor 原子, 不利于捕获图像中边缘轮廓 结构的几何正则性. 文献 [11] 中采用 Gauss 函数与 Gauss 函数的二阶导数作为原子的生成函数, 它能 够有效匹配图像中边缘轮廓结构. 但该字典中原子 数量巨大, 增加了稀疏分解的复杂度, 同时字典中原 子不能有效匹配振荡的纹理样式. 如何设计合适的 能够匹配各层面几何结构的图像稀疏表示过完备字 典, 进而形成对图像的稀疏分解是当前研究者关注 的热点问题. 为了设计出有效的能够匹配各层面图像结构的 稀疏表示过完备字典, 本文依据 Meyer 的卡通纹理 图像模型[12] , 建立了相应的多成份字典, 每一子成 份字典能够最优匹配图像中特定的结构成份, 从而 能够捕获图像中的多个重要结构, 形成对图像的有 效表示. 可通过对生成函数进行平移、 旋转、 伸缩等 几何变换生成一系列原子来构造字典, 其关键是如 何选择能够匹配图像局部几何结构的生成函数. 人
Sparse Representations of Images by a Multi-component Gabor Perception Dictionary
SUN Yu-Bao1 XIAO Liang1 WEI Zhi-Hui2 SHAO Wen-Ze1 Abstract It is currently a hot research topic that how to design an effective over-complete dictionary matching various geometric structures of images to provide sparse representation of images. A multi-component Gabor perception dictionary matching various image structures is constructed in terms of geometric properties of the local structures and the perception character of HVS. Furthermore, an effective algorithm based on the matching pursuit method is proposed to obtain sparse decomposition of images with our dictionary. The experimental results indicate that the Gabor multi-component perception dictionary can adaptively provide a precise and complete characterization of local geometry structures, such as plain, edge and texture in images. In comparison with the anisotropic refinement-Gaussian (AR-Gauss) mixed dictionary, our dictionary has a much sparser representation of images. Key words Sparse representation, visual perception, geometrical structure, multi-component Gabor perception dictionary, matching pursuit
调和分析认为, 图像可以表示为一组基函数的 线性组合, 如 Fourier 基函数、小波函数等. 受人类 视觉皮层神经元响应的稀疏性启发[1] , Olshausen 提 出了一种对自然图像更为有效的表示方法: 稀疏表 示 (Sparse representation)[2−3] . 稀疏表示年 11 月
自 动 化 学 报
ACTA AUTOMATICA SINICA
Vol. 34, No. 11 Novermber, 2008
基于 Gabor 感知多成份字典的图像稀疏表示算法研究
孙玉宝 1 肖 亮1 韦志辉 2 邵文泽 1
相关文档
最新文档