基于稀疏近邻表示的分类方法

合集下载

稀疏表示文档

稀疏表示文档

稀疏表示一、引言稀疏表示是一种在信号处理领域中常用的计算模型,它利用线性组合的方式将一个信号表示为其他一组基向量的线性组合,其中使用的基向量是原始信号的稀疏表示。

稀疏表示被广泛应用于图像处理、语音识别、模式识别等领域,具有很好的特征提取和信号重构能力。

本文将介绍稀疏表示的基本概念、常用算法以及在实际应用中的一些案例。

二、基本概念1. 稀疏性稀疏性指的是一个信号在某个基向量集合中可以被少数几个基向量线性表示的性质。

如果一个信号的绝大部分分量在某个基向量集合下都接近于0,那么我们可以用较少的基向量来表示该信号,这样就实现了信号的稀疏表示。

2. 线性组合线性组合是指将一组向量乘以对应的权重,并将它们相加得到一个新的向量。

稀疏表示利用线性组合的方式将一个信号表示为一组基向量的线性组合,并通过选择适当的权重使得表示的结果尽可能接近原始信号。

基向量是构成一个向量空间的基本构建单位,它们可以通过线性组合来表示其他向量。

在稀疏表示中,我们需要选择一组合适的基向量集合,使得它们能够尽可能地表示原始信号。

4. 稀疏表示问题稀疏表示问题是指给定一个信号和一组基向量,找到一组合适的权重,使得信号能够以尽可能少的基向量线性表示。

通常采用优化算法来求解稀疏表示问题,如最小二乘法、L1正则化等。

三、常用算法1. 最小二乘法最小二乘法是一种常用的稀疏表示算法,它通过最小化信号与基向量线性组合的残差平方和来获得最佳的权重。

最小二乘法可以通过求解一个带约束条件的优化问题来实现,常用的求解方法包括正规方程法、梯度下降法等。

2. L1正则化L1正则化是一种常见的稀疏表示算法,它通过最小化信号与基向量线性组合的残差平方和,并在目标函数中引入L1范数,使得权重向量中的部分分量变为0。

L1正则化可以通过优化算法如坐标下降算法、逐步回归法等来求解。

近似算法是一种在求解稀疏表示问题时常用的快速算法,它通过迭代的方式逐步优化权重向量。

常见的近似算法包括迭代阈值算法、正交匹配追踪算法等。

k-近邻分类算法

k-近邻分类算法

k-近邻分类算法K近邻分类算法是一种基于实例的分类算法,它的主要思想是通过计算每个样本点与其周围的k个最近邻点的距离来确定该点的类别。

该算法主要应用于分类问题中,并且在实际应用过程中具有很好的可用性、易实现性和理解性。

算法原理算法首先通过确定k值来确定分类的邻域大小,以及根据k值的选择来确定分类的准确性和鲁棒性。

之后通过计算每个样本点与其邻域内k个最近邻点之间的距离来确定该样本点所属的分类。

具体流程如下:1.确定数据集中的k值和距离度量标准;2.对于每个待分类的样本点,计算与其邻域中k个最近邻点之间的距离;3.根据邻域中k个最近邻点的类别来确定该样本点所属的类别;4.重复步骤2和3,直到所有待分类的样本点均被分类完毕;5.给出分类结果。

距离度量标准在k-近邻分类算法中,距离度量标准是非常重要的,因为它决定了样本点之间距离的计算方式。

目前常见的距离度量标准有欧式距离、曼哈顿距离和切比雪夫距离。

欧式距离:$d=\sqrt{{\sum_{i=1}^{n}{(x_i-y_i)^2}}}$优缺点1.基于实例,不需要对数据进行任何假设和理论分析;2.算法的可预测性高,具有很好的分类性能;3.没有过拟合的现象,可以对复杂的数据集进行分类;4.整体而言,k-近邻分类算法非常容易理解和实现。

1.计算量比较大,对于大型数据集而言,算法的效率较低;2.对于高维数据集而言,容易出现维数灾难问题,即算法的效果会逐渐降低;3.容易受到异常值的影响,且在分类决策区域方面可能存在不连续的问题。

应用场景k-近邻分类算法广泛应用于模式识别、数据挖掘和生物信息学等领域,特别适合处理较小的数据集。

目前该算法已被应用于医疗诊断、电子商务、物联网等领域,既可以用于分类问题,也可以用于回归问题。

同时,对于分类问题而言,该算法并不适用于类别数比较多或类别间存在相互交叉的情况。

因此,在实际应用过程中,应根据具体情况来选择算法,以达到最佳的分类效果。

k-最近邻算法

k-最近邻算法

k-最近邻算法
1.k-最近邻算法是一种基于实例(Instance-based)的学习方法,也称为惰性学习(Lazy learning)方法或者近似实例学习方法。

它是一种分类方法,它不学习实例及其
之间的关系,而是直接存储数据,当需要进行分类预测时,寻找距离最近的K个点,然后
根据这些点的类别进行预测。

2.k-最近邻算法原理:通过比较未知实例与训练数据库中的实例,测量它们之间的距离,来预测该未知实例的类别。

与距离它最近的K个实例的类别最多的作为该未知实例的
类别。

3.k-近邻算法的优缺点:
优点:
1.简单易行:最近邻算法是计算机最简单的分类算法,直观有效,操作简单易行。

2.可预测性良好:最近邻分类算法可以获得较好的解决方法,并达到较高的预测性能。

3.大规模数据集可以很快地进行分类:kNN算法仅依赖训练数据中出现的模型,而不
用于存储数据,因此它可以在庞大的数据集上进行分类并实现极快的计算性能。

1.计算复杂度高:KNN算法比较复杂,需要调参数,计算复杂度较高且及时性较差。

2.存在样本不平衡问题:由于KNN算法没有考虑数据的内在分布特征,对于样本不平
衡的问题容易出现误分的情况。

3.维数灾难:KNN算法容易陷入维数灾难,即随着维数增加,距离也会不断增加,准
确率越来越低。

nearest-neighbor method

nearest-neighbor method

最近邻方法是一种常见的机器学习算法,它被广泛应用于模式识别、数据挖掘和推荐系统等领域。

在这篇文章中,我们将深入探讨最近邻方法的原理、应用和局限性,以便更好地理解这一方法。

1. 最近邻方法的原理最近邻方法是一种基于实例的学习算法,它的核心思想是通过计算样本之间的距离来进行分类或回归预测。

在分类问题中,最近邻方法会找到离目标样本最近的K个训练样本,然后根据它们的类别进行投票决定目标样本的类别。

而在回归问题中,最近邻方法会找到离目标样本最近的K个训练样本,然后根据它们的值进行加权平均来预测目标样本的值。

最近邻方法的优点在于简单易懂,适用于多种类型的数据,但它也有一些局限性,比如对噪声和维度灾难敏感。

2. 最近邻方法的应用最近邻方法在各种领域都有广泛的应用。

在模式识别领域,最近邻方法常被用于人脸识别、手写字体识别等任务。

在数据挖掘领域,最近邻方法常被用于聚类分析、异常检测等任务。

在推荐系统领域,最近邻方法常被用于基于用户的协同过滤推荐算法。

这些应用充分展示了最近邻方法的灵活性和强大性。

3. 最近邻方法的局限性尽管最近邻方法有诸多优点,但它也存在一些局限性。

最近邻方法对数据中的噪声和异常值非常敏感,这会导致它在一些情况下表现不稳定。

最近邻方法在处理高维数据时会遇到维度灾难的问题,因为随着维度的增加,样本之间的距离会变得越来越稀疏,导致算法性能下降。

另外,最近邻方法在处理大规模数据时效率较低,因为需要计算目标样本与所有训练样本之间的距离。

4. 个人观点和理解从个人角度来看,我认为最近邻方法是一种简单而有效的机器学习算法,它能够基于实例进行快速学习并进行准确的预测。

然而,我们也需要认识到它的局限性,比如对噪声和维度灾难的敏感性,以及在大规模数据下的效率低下。

在实际应用中,我们可能需要结合其他方法来克服这些问题,或者对最近邻方法进行改进和优化。

总结最近邻方法是一种强大的机器学习算法,它在模式识别、数据挖掘和推荐系统等领域都有着广泛的应用。

信号处理中的稀疏表示技术研究

信号处理中的稀疏表示技术研究

信号处理中的稀疏表示技术研究信号处理是一个非常广阔而重要的研究领域,其中涵盖了大量的技术和理论。

而稀疏表示技术则是其中最为重要的技术之一。

今天,我们将深入探讨什么是稀疏表示技术,以及它在信号处理中的应用。

什么是稀疏表示技术稀疏表示技术是指利用少量非零系数来近似表示一个向量或矩阵的技术。

它被广泛应用于信号处理、图像处理、计算机视觉和机器学习等领域,并且已经成为了这些领域中的基础性技术之一。

在稀疏表示技术中,我们假设我们的信号可以表示为向量x的线性组合,而这个向量只有很少的非零系数。

这种假设在实际中非常常见,因为大多数信号都是由少量的基函数或原子组合而成的。

比如说,可以将图像表示为少量的基函数(如小波基)的线性组合。

利用这种假设,我们可以通过优化问题来求解最优的系数向量,从而实现对信号的稀疏表示。

具体来说,稀疏表示问题可以表示为以下形式:minimize ||x-Da||_2subject to ||a||_0 <= k其中,x是我们想要表示的信号,D是表示信号的原子库,a是系数向量,k是我们想要的非零系数的数量。

在这个问题中,我们通过最小化表示误差来求解最优的系数向量a,同时限制a中非零元素的数量不超过k个,从而实现稀疏表示。

稀疏表示技术在信号处理中的应用稀疏表示技术在信号处理中有着非常广泛的应用,下面我们将详细介绍其中的几个方面。

1. 压缩感知压缩感知是一种利用稀疏表示来实现信号压缩的方法。

它通过使用较少的测量样本(比如说,对信号进行采样)来重构完整的信号。

具体来说,压缩感知算法可以表示为以下形式:minimize ||a||_1subject to y = Ax其中,a是系数向量,y是我们的测量向量,A是测量矩阵,x是原始信号。

这个问题可以通过基于稀疏表示的算法来求解,比如说OMP(正交匹配追踪)和MP(匹配追踪)算法等。

2. 图像处理稀疏表示技术在图像处理中有着广泛的应用。

通过将图像表示为稀疏系数向量的形式,我们可以实现对图像的降噪、去模糊、超分辨等操作。

频域下稀疏表示的大数据库人脸分类算法

频域下稀疏表示的大数据库人脸分类算法

频域下稀疏表示的大数据库人脸分类算法胡业刚;任新悦;李培培;王汇源【摘要】人脸识别的识别率受众多因素影响,目前已有很多成形的高识别率算法,然而,随着数据库中人脸图像的增加,识别率下降很快。

鉴于该特点,采用频域下的稀疏表示分类算法能有效解决上述问题,先使用快速傅里叶变换(FFT)将人脸数据从时域变换到频域,再通过 l 1范数最优化稀疏表示算法,把所有训练样本作为基向量,稀疏表示出测试样本,最后使用最近邻子空间算法分类。

在扩展的 YaleB 人脸库中实验结果表明,该算法具有有效性。

%The recognition rate of face recognition is influenced by many factors, in which there are lots of effective algo-rithms, however, with the increase of face in the database, and the recognition rate will be decreased rapidly. In this situation, the sparse representation classification under the frequency domain can solve the above problems effectively. Firstly, the face image will be transformed from time domain to frequency domain using FFT algorithm, and then sparse representation about the test sample will be obtained by l1 norm optimization approach, in which all the training samples as the base vectors, in addition using the nearest neighbor subspace classification. Finally the experimental results show that the algorithm is effective in the extensional Yale B face database.【期刊名称】《阜阳师范学院学报(自然科学版)》【年(卷),期】2015(000)002【总页数】4页(P83-86)【关键词】稀疏表示;快速傅里叶变换;人脸识别【作者】胡业刚;任新悦;李培培;王汇源【作者单位】阜阳师范学院数学与统计学院,安徽阜阳 236037;阜阳师范学院数学与统计学院,安徽阜阳 236037;阜阳师范学院数学与统计学院,安徽阜阳236037;阜阳师范学院数学与统计学院,安徽阜阳 236037【正文语种】中文【中图分类】TP391.41 引言近年来,人脸识别已成为经典的模式识别研究问题之一。

深度学习中的模型解决稀疏数据问题的方法

深度学习中的模型解决稀疏数据问题的方法

深度学习中的模型解决稀疏数据问题的方法深度学习(Deep Learning)是一种通过多层神经网络模拟人脑结构来进行模式识别和决策的机器学习方法。

在深度学习中,数据质量对于模型的性能至关重要。

然而,许多实际应用中的数据都存在稀疏性的问题,即大部分特征值都为零。

稀疏数据的问题在深度学习中经常遇到,因为例如在自然语言处理和推荐系统等领域,大多数特征都不会同时出现。

这导致输入的维度非常高,而具有真实意义的特征很少。

为了解决稀疏数据问题,研究人员提出了一些方法。

一、稀疏数据表示方法稀疏数据表示方法是处理稀疏数据最基本的一种方法。

其主要思想是通过适当的数据编码方式将稀疏数据转化为稠密数据。

常见的稀疏数据表示方法包括One-Hot编码、TF-IDF等。

以One-Hot编码为例,该方法将每个特征都编码成一个二进制的向量,向量的长度等于特征空间的维度数。

一个特征只在对应的位置上为1,其他位置为0,从而将稀疏数据编码为稠密数据。

使用稠密数据可以加速训练过程,提高模型的性能。

二、特征选择(Feature Selection)特征选择是另一种用于解决稀疏数据问题的方法。

该方法的主要思想是从原始数据中选择出对目标任务最有用的特征子集。

通过减少特征的维度,可以提高模型的效率和性能。

常用的特征选择方法包括相关系数法、卡方检验法、互信息法等。

这些方法都可以评估特征与目标之间的相关性,从而筛选出与目标任务最相关的特征。

三、嵌入式选择(Embedded Method)嵌入式选择是一种将特征选择与模型训练结合起来的方法。

在模型的训练过程中,嵌入式选择方法会自动选择与目标任务相关的特征,并将其纳入到模型当中。

常见的嵌入式选择方法有L1正则化、决策树等。

以L1正则化为例,该方法会通过对模型的目标函数添加L1惩罚项的方式,鼓励模型选择较少的特征,从而达到特征选择的目的。

四、特征补全(Feature Imputation)特征补全是一种通过预测或估计的方式填补稀疏数据中缺失的特征值。

近邻聚类算法

近邻聚类算法

近邻聚类算法近邻聚类算法(Nearest Neighbor Clustering)是一种常用的数据聚类方法,它基于数据点之间的相似度度量,将相似的数据点分为同一类别。

该算法的基本思想是通过计算数据点之间的距离或相似度,将距离较近的数据点划分为同一类别。

近邻聚类算法的步骤如下:1. 数据预处理:首先,需要对原始数据进行预处理,包括数据清洗、特征选择和特征缩放等。

数据预处理的目的是提高数据的质量和减少噪音的影响。

2. 计算相似度:接下来,我们需要计算数据点之间的相似度。

相似度可以通过计算数据点之间的距离或使用相似度度量方法(如余弦相似度)来获得。

常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。

3. 构建邻居图:根据相似度计算结果,我们可以构建一个邻居图。

邻居图是一个无向图,其中每个数据点作为一个节点,相似度高于一定阈值的数据点之间会存在边。

邻居图的构建可以通过设置邻居数量或相似度阈值来控制。

4. 寻找聚类中心:在邻居图中,我们可以通过寻找聚类中心来划分数据点的聚类。

聚类中心可以通过计算数据点到其他数据点的平均距离或相似度来获得。

一种常用的方法是选取邻居图中度最大的节点作为聚类中心。

5. 分配数据点:接下来,我们将每个数据点分配给距离最近的聚类中心。

这一步可以通过计算数据点与每个聚类中心的距离或相似度来完成。

数据点将被分配到与其最近的聚类中心所属的类别。

6. 聚类结果评估:最后,我们需要对聚类结果进行评估。

常用的评估指标包括紧密度(Compactness)和分离度(Separation)。

紧密度衡量了聚类内部的紧密程度,分离度衡量了不同聚类之间的分离程度。

评估指标越高,表示聚类结果越好。

近邻聚类算法的优点是简单易实现,不需要事先确定聚类数量,适用于数据集较大且聚类结构不明显的情况。

然而,该算法的效果受到数据点之间相似度计算的影响,对噪音和异常值敏感。

近邻聚类算法在实际应用中具有广泛的应用价值。

自然语言处理中常见的文本分类算法

自然语言处理中常见的文本分类算法

文本分类算法在自然语言处理领域发挥着重要作用,它可以帮助我们对大量文本数据进行自动化的分类和整理。

本文将介绍几种常见的文本分类算法,并对它们的原理和应用进行分析。

一、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立假设的分类算法。

它在文本分类中广泛应用,特别是在垃圾邮件过滤、情感分析等领域。

朴素贝叶斯算法通过计算文本中每个词语在不同类别下的概率,然后根据这些概率进行分类决策。

它的简单高效,适用于处理大规模的文本数据,但是由于其对特征条件独立性的假设,在处理关联性较强的文本数据时表现不佳。

二、支持向量机算法支持向量机算法是一种基于统计学习理论的分类算法,它通过寻找最优超平面来对文本进行分类。

支持向量机算法在文本分类中的应用较为灵活,可以处理高维稀疏的文本特征,并且在处理非线性分类问题时表现优异。

然而,支持向量机算法在处理大规模文本数据时需要较长的训练时间,且对参数的选择较为敏感。

三、 k近邻算法k近邻算法是一种基于实例的分类算法,它通过计算待分类文本与已知类别文本的距离来进行分类。

k近邻算法在文本分类中的优势在于其简单直观、易于理解和实现,同时它对特征空间的拓扑结构没有假设,适用于处理非线性分类问题。

然而,k近邻算法在处理大规模的高维文本数据时的计算开销较大,且对K值的选择较为敏感。

四、深度学习算法深度学习算法在文本分类中的应用日益广泛,它通过构建深层神经网络来学习文本的高阶特征表示。

深度学习算法在文本分类中的优势在于其能够自动学习文本中的复杂模式和特征,同时能够处理大规模文本数据,并且在许多文本分类任务上取得了state-of-the-art的性能。

然而,深度学习算法需要大量的数据和计算资源来训练模型,且模型的解释性较差。

五、集成学习算法集成学习算法通过将多个基分类器的分类结果进行组合,来提高整体的分类性能。

在文本分类中,集成学习算法通常通过投票、平均等方式进行组合,以得到更加鲁棒和准确的分类结果。

图像处理中的稀疏表示技术研究

图像处理中的稀疏表示技术研究

图像处理中的稀疏表示技术研究近年来,随着计算机技术的不断发展,图像处理技术也日新月异。

而稀疏表示技术(sparse representation)作为一种基础的图像处理技术已经引起了越来越多的关注。

稀疏表示技术是指通过寻找图像中特定区域内具有显著性的特征点并将其表示为稀疏信号的方式来进行图像处理。

这种处理方法可以有效地消除图像噪声,提高图像的清晰度和对比度,增强图像的边缘、轮廓等特征,所以在计算机视觉、遥感图像、医学图像等领域都得到了广泛的应用。

本文将从稀疏表示技术的概念、原理、方法和应用等方面进行论述和探究。

一、稀疏表示技术的概念和原理稀疏表示技术是指将一个向量或矩阵表示为尽可能少的基向量的线性组合的过程。

在图像处理中,可以将图像看成是由许多小区域构成的,而每个小区域中可含有若干个像素。

稀疏表示技术的原理是,在图像中找到一些局部基组,通过这些基组的线性组合,来构建整幅图像的表达式。

将图像表示为少量的基向量的线性组合,可以有效地减少噪声的影响,提高图像的清晰度和对比度。

二、稀疏表示技术的方法1.基于字典学习的稀疏表示方法字典学习是稀疏表示方法中常用的一种方法。

它通过学习一个基向量集合(字典),从而快速计算出稀疏表示的系数。

在该方法中,需要构造一个符合实际情况的稀疏基向量集合。

通常的方法是利用训练数据集,通过正交匹配追踪(OMP)、坐标下降(CD)或梯度下降(GD)等算法来学习一个合适的基向量集合。

2.基于降噪的稀疏表示方法基于降噪的稀疏表示方法是一种常见的图像降噪技术,它通过在空间域或频域内对图像进行降噪处理,从而实现对图像的修复和增强。

常用的稀疏表示方法包括小波变换(wavelet transform)、图像块表示(image patch representation)等。

三、稀疏表示技术的应用稀疏表示技术已经得到广泛的应用,其中最为重要的应用领域之一是图像降噪和增强。

通过对图像进行稀疏表示,可以将图像中的噪声去除,从而提高图像的质量。

图像编码中的稀疏表示方法研究(四)

图像编码中的稀疏表示方法研究(四)

图像编码是一项重要的图像处理技术,广泛应用于图像传输、存储和压缩等领域。

稀疏表示作为图像编码的一种重要方法,得到了越来越多的关注和研究。

本文将探讨图像编码中的稀疏表示方法,介绍其基本原理和主要应用。

一、稀疏表示的基本原理稀疏表示是指利用尽可能少的基向量来表示一个信号或图像。

在图像编码中,通常使用离散余弦变换(DCT)或小波变换等方法将图像转换到频域或者时-频域。

然后,利用稀疏表示方法将这些系数进一步压缩,达到图像信息的精确表示和高效存储的目的。

稀疏表示方法常用的模型有稀疏编码、字典学习等。

稀疏编码通过限制系数向量的L0范数或L1范数,使其尽量稀疏。

字典学习则侧重于从训练集中学习得到一个最佳的字典,使得稀疏表示能够更好地还原原始信号。

二、基于稀疏表示的图像编码算法1. JPEG2000JPEG2000是一种基于小波变换和稀疏表示的图像编码算法。

它采用2D离散小波变换将图像转换到时-频域,然后利用稀疏表示方法对小波系数进行编码。

JPEG2000相比于传统JPEG具有更好的压缩效果和图像质量,并且支持无损压缩。

2. 稀疏表示去噪稀疏表示还可以应用于图像去噪领域。

图像去噪是指从带有噪声的图像中恢复出原始信号。

传统的去噪方法如中值滤波、高斯滤波等对一些边缘信息会造成模糊。

而稀疏表示方法通过将带噪图像进行稀疏表示,然后使用基于稀疏表示的恢复算法去除噪声,能够更好地保留图像的细节和纹理。

三、稀疏表示方法的优势和挑战稀疏表示方法在图像编码中具有许多优势。

首先,稀疏表示能够有效地降低图像数据的维度,从而减少存储空间和传输带宽。

其次,稀疏表示对图像的局部和全局特征能够提供更加准确的表示,使得图像还原的质量更高。

此外,稀疏表示方法还具有较好的鲁棒性和泛化能力,适用于不同类型的图像编码任务。

但是,稀疏表示方法也面临一些挑战。

首先,稀疏表示方法需要进行字典学习或优化问题的求解,计算复杂度较高。

其次,稀疏表示的效果受到字典质量和稀疏度选择的影响,如何选择合适的字典和稀疏度是一个关键问题。

机器学习中的稀疏表示方法

机器学习中的稀疏表示方法

机器学习中的稀疏表示方法随着数据量和特征维度的不断增加,在机器学习中,如何实现高效的特征选择和数据降维成为了重要的研究问题之一。

稀疏表示方法就是在这个背景下应运而生的一种重要技术。

由于其具有高效、可解释性等优秀特性,因此在数据分析、图像处理、信号处理等领域都得到了广泛的应用。

本文将从什么是稀疏表示、稀疏表示的求解算法等方面对机器学习中的稀疏表示方法进行详细介绍。

一、稀疏表示的概念稀疏表示是指用尽可能少的基函数来表示信号,从而实现数据的压缩或降维。

在机器学习中,常用的基函数有Discrete Cosine Transform(DCT)、Karhunen-Loève Transform(KLT)、Wavelet Transform(WT)等。

这些基函数都能实现一种表示方法,即只有很少的系数会被激活,而其他的系数则保持为零。

一个简单的例子,假设我们有一个数据集D,其中每个数据样本为$x \in R^d$,则通常我们可以用以下线性模型去表示这个数据集:$$\min_{w_i} \sum_{i=1}^{d}{\left \| Xw_i - x_i \right \|_2^2} + \lambda\left \| w_i \right \|_1$$其中,$X$是基向量矩阵,$w_i$是用于表示$x_i$的系数向量,$\left \| \cdot \right \|$是$l_1$范数,$\lambda$是控制稀疏度的超参数。

通常,$l_1$范数最小化问题的解具有很强的稀疏性,即只有少数的元素被激活,而其他的元素均为零。

二、稀疏表示的求解算法上述线性模型的求解问题属于优化问题,通常我们可以采用一些求解稀疏表示问题的算法来实现。

1. LARS算法Least Angle Regression(LARS)算法是一种线性模型求解算法,它能够计算出一系列用于表示目标函数的基向量,从而解释数据集的大部分方差。

它可以看做是一种逐步回归算法的改进。

基于稀疏重构的超图谱聚类方法

基于稀疏重构的超图谱聚类方法

本, 用稀 疏表示 来找到 与其最有关联的近邻样 本 , 以此 形成基 于稀 疏重 构的超 图模 型 , 使得每 个超边 内的样本都 具有 很强的 关联性 。最后 通过对超 图拉普拉 斯矩 阵进行谱 分解得到 聚类结 果。在人脸数 据库 、 手 写体数据 库上 的 实验 结
果验证 了算 法的有效性 。 关键词 超 图, 稀疏表 示 , 谱聚 类 T P 3 9 1 . 4 文献标识码 A 中 图法分类 号
( Na Ni n g Un i v e r s i t y o f I n f o r ma t i o n S c i e n c e a n d Te c h n o l o g y , Na n j i n g 2 1 0 0 4 4 , C h i n a ) ( J i a n g s u Ke y L a b o r a t o r y o f S p e c t r a l I ma g i n g& I n t e l l i g e n t S e n s e , Na n j i n g Un i v e r s i t y o f ci S e n c e a n d Te c h n o l o g y , Na n j i n g 2 1 0 0 9 4 , Ch i n a ) e
Ab s t r a c t Hy p e r g r a p h s p e c t r a 1 c l u s t e r i n g me t h o d a t t r a c t s mu c h a t t e n t i o n, b e c a u s e i t c a n e fe c t i v e l y d e s c r i b e h i g h - o r d e r i n f o r ma t i o n a mo n g t h e d a t a . Di f f e r e n t f r o m t r a d i t i o n a l g r a p h mo d e l , h y p e r e d g e i n h y p e r g r a p h i s n o t a p a i r - wi s e l i n k b e — t we e n t wo d a t a p o i n t s , wh i l e i t i s a s u b s e t o f d a t a p o i n t s s h a r i n g wi t h s o me a t t r i b u t e . I n p r a c t i c e s , h y p e r e d g e i s u s u a l l y b u i l t b y s i mp l e K_ NN c l u s t e r i n g , S O i t d o e s n o t c o n s i d e r i n h e r e n t r e l a t i o n s h i p a mo n g t h e d a t a We p r o p o s e d a n e w h y - p e r g r a p h s p e c t r a l c l u s t e r i n g a l g o r i t h m it w h s p a r s e r e p r e s e n t a t i o n . Fo r e a c h d a t a p o i n t , s p a r s e r e p r e s e n t a t i o n wa s u s e d t o s e e k i t s r e l a t e d n e i g h b o r s t O f o r m a h y p e r e d g e , S O t he d a t a p o i n t s i n a h y p e r e d g e h a v e s t r o n g d e p e n d e n c y . F i n a l l y, t h e s p e c t r a l d e c o mp o s i t i o n wa s p e r f o m e r d o n t h e La p l a c e ma t r i x o f t h e h y p e r g r a p h t o o b t a i n t h e c l u s t e r i g n r e s u l t . Ex t e n s i v e

基于稀疏表示的分类

基于稀疏表示的分类

基于稀疏表示的分类
基于稀疏表示的分类是一种机器学习技术,其目的是将输入数据分为不同的类别。

该方法涉及稀疏表示理论,即将样本数据表示为若干个基向量的线性组合,这些基向量被称为稀疏基。

具体来说,该算法首先将输入数据分解为基向量的线性组合,然后使用这些系数来表示每个输入。

接着,它利用稀疏表示的概念来寻找最优解,即线性组合系数的最小数量,以便对输入进行分类。

基于稀疏表示的分类方法通常可以分为以下步骤:
1. 样本表示:将输入数据转化为基向量的线性组合,并计算它们的系数。

2. 稀疏编码:针对给定类别,选择合适的基向量且使用最少的系数,使得该类别的样本能够被线性表示。

3. 分类器训练:使用训练数据集,在每个类别上进行稀疏编码,并计算其表示的程度,然后使用这些程度来训练分类器。

4. 分类:将输入数据进行稀疏编码,并使用分类器来确定其类别。

基于稀疏表示的分类方法优点是可以有效地处理高维数据集,并具有很好的泛化性能。

它还可以用于数据压缩、物体识别、语音识别等领域。

缺点是需要一定的计算量和存储空间,而且它对基向量的选择比较敏感。

knn分类方法的原理

knn分类方法的原理

knn分类方法的原理
KNN(K-Nearest Neighbors)分类方法的原理是基于近邻实例的特征相似性原则。

它可以被描述为以下步骤:
1. 计算待分类样本与训练集中每个样本之间的距离。

常见的距离度量方式包括欧氏距离、曼哈顿距离、余弦距离等。

2. 选择与待分类样本距离最近的K个训练集样本,这些样本被称为K个最近邻。

3. 根据这K个最近邻的标签,进行投票或加权投票来确定待分类样本的类别。

投票策略可以是简单多数表决,也可以是加权投票,即根据距离远近对投票结果进行加权。

KNN分类方法的主要原理是基于实例间的相似性,即认为与一个实例相似的实例往往具有相似的类别标签。

KNN方法的可解释性较强,并且它不需要在训练阶段建立模型,因此它是一种懒惰学习(lazy learning)算法。

但是,KNN方法的计算复杂度较高,特别是在处理大规模数据集时。

另外,KNN方法对于维度灾难问题比较敏感,即在高维空间中往往会出现样本稀疏和距离失效的问题,因此需要进行特征选择和降维预处理。

面向目标检测的稀疏表示方法研究进展_高仕博

面向目标检测的稀疏表示方法研究进展_高仕博

1
引言
随着成像传感器技术的发展, 人类扩展了获取图像 信息的广度和深度, 加深了人类对客观世界的认识, 能 观察到人眼能感知到和感知不到的物体, 根据所用传感 器的不同, 常见的图像有彩色图像 、 红外图像 、 高光谱图 像、 合成孔径雷达图像及核磁共振图像等 . 对于获取的 大量图像信息, 人们期望借助计算机实现智能化处理, 达到对场景的自动分析和理解 . 目标检测的任务是从获 取的图像中分割出感兴趣的区域, 作为图像理解的一个
第2 期 2015 年 2 月
电 子 学 报 ACTA ELECTRONICA SINICA
Vol. 43 No. 2 Feb. 2015
面向目标检测的稀疏表示方法研究进展
1 2 1, 3 1, 3 高仕博 , 程咏梅 , 肖利平 , 韦海萍
( 1. 北京航天自动控制研究所, 北京 100854 ; 2. 西北工业大学自动化学院, 陕西西安 710072 ; 3. 宇航智能控制技术国家级重点实验室, 北京 100854 )
K
上式是一个标准的稀疏编码问题, 根据应用目的的不 其有多种变体, 如: 同, arg min x - Da 2 s. t. a 1 ≤ε F,
{
a
arg min
a
1 x - Da 2
2 F
+λ a
( 5)
1
其中 λ 表示非负稀疏性约束参数, 式( 5 ) 的第二个式子 就是著名的 Lasso 模型( Least Absolute Shrinkage and Selection Operator) . 除了求解 a 的稀疏编码问题外, 人们 更感兴趣的是如何选择 D 使得信号 x 在 D 上的表示是 Olshausen 稀疏的和有效的, 称为字典设计或学习问题, [12 ] 和 Field 最早将稀疏性约束 l1 范数作为最小二乘算 法的规则项, 从训练样本中学习到具有方向特性的原 子, 总体而言, 稀疏编码和字典学习的基本定义可以表 示如下: arg min∑ x i - Da i 2 s. t. d k 2 F + λ ai 1 , F = 1 ( 6)

高维多目标优化中基于稀疏特征选择的目标降维方法

高维多目标优化中基于稀疏特征选择的目标降维方法

高维多目标优化中基于稀疏特征选择的目标降维方法陈小红;李霞;王娜【摘要】目标降维算法通过去除冗余的目标达到简化问题规模的目的,为求解高维多目标优化问题提供了一种新的思路和方法.近似解集的几何结构特征和Pareto占优关系从不同侧面反映了多目标优化问题的内在结构特性,而现有算法仅利用其中一种特征分析目标之间的关系,具有较大局限性.本文提出基于稀疏特征选择的目标降维方法,该方法利用近似解集的几何结构特征构建稀疏回归模型,求解高维目标空间映射为低维目标子空间的稀疏投影矩阵,依据此矩阵度量目标的重要性,并利用Pareto占优关系改变程度选择满足误差阈值的目标子集,实现目标降维.通过与其他已有目标降维算法比较,实验结果表明本文提出的降维算法具有较高的准确性,并且受近似解集质量的影响较小.【期刊名称】《电子学报》【年(卷),期】2015(043)007【总页数】8页(P1300-1307)【关键词】高维多目标优化;目标降维;稀疏特征选择【作者】陈小红;李霞;王娜【作者单位】深圳大学信息工程学院,广东深圳518060;深圳市现代通信与信息处理重点实验室,广东深圳518060【正文语种】中文【中图分类】TP181近几年,目标个数多于4个的高维多目标优化问题(Many-Objective Optimization Problems)[1]引起了学者广泛关注[2~4].研究发现[5,6],经典的多目标进化算法(Multi-Objective Evolutionary Algorithms,MOEAs),特别是基于Pareto占优机制的算法,虽然能有效地求解2或3个目标的问题,但当目标个数增加时,其收敛能力随之下降.而且,目标个数的增多也会带来可视化、决策选择以及计算复杂度增加等困难[7].“维数灾难”是造成高维多目标优化问题求解困难的主要因素.事实上,现实世界中存在这样一类多目标优化问题,其Pareto最优前沿仅由较少的几个目标组成,称为冗余的多目标优化问题.对于这类问题,一种可行的解决方法是采用目标降维[8]技术寻找最能表示原目标集合的子集,简化问题规模.目标降维为求解冗余的高维多目标优化问题提供了一种新的思路和方法[9,10].目标降维算法依据的样本集来自MOEAs求得的近似解集,它在一定程度上反映了问题的内在结构特性.现有目标降维算法正是利用近似解集的特征分析目标的冲突性和冗余性,包括:(1)几何结构特征.文献[8]提出根据目标的相关系数度量目标之间的冲突程度,进而删除与其他目标最相关的目标.文献[11]对近似解集的谱进行主成分分析,寻找对主成分贡献最大的目标.(2) 解集上的Pareto占优关系.文献[12]以Pareto占优关系改变误差衡量目标子集之间的冲突程度.现有目标降维算法只利用近似解集的一种特性分析目标之间的关系,具有一定的局限性.因为MOEAs求得的近似解集通常与Pareto最优前沿有一定的差别,不能准确表征原问题内在结构特征,那么使占优关系不变的目标子集不一定是组成Pareto 最优前沿的目标子集,组成低维近似解集的目标子集也不一定使其占优关系不变.显然,同时利用这两个特性将有利于提高目标降维的准确性.因此,本文提出一种新的目标降维算法.该算法基于稀疏特征选择的思想,首先利用近似解集的几何结构特性,构建描述原问题内在结构特征的Laplacian谱,提出稀疏回归模型求解高维目标空间映射为低维目标子空间的稀疏投影矩阵,依据此矩阵度量目标的重要性.针对不同降维需求,提出利用Pareto占优关系改变误差求使原问题结构改变不超过阈值的最小目标子集,或者选择重要性较大的目标组成使原问题结构改变最小的目标子集.实验结果表明相对于其他目标降维算法,本文的算法具有较高的准确性,并且受近似解集质量的影响较小.不失一般性,最小化多目标优化问题可以描述为:其中,a=[a1,a2,…,an]T∈Zn称为决策向量.F={f1,…,fM}为目标集合,F(a)是a在目标空间的映射.当目标个数M>3时,称为高维多目标优化问题[1].决策向量a,b∈Z,如果∀fi∈F:fi(a)≤fi(b),并且∃fj∈F:fj(a)<fj(b),则称a支配b,记作a≻b.假设a*∈A⊆Z不被集合A中任何个体支配,则称a*是集合A中的非支配解,如果A中所有解都是非支配的,则称集合A为近似解集,其在目标空间的映射为F(A)=[f1(A),…,fM(A)]T,本文中称fi(A)为目标向量.如果z*∈Z不被任何解支配,则称其为Pareto最优解,由所有Pareto最优解组成的集合称为Pareto最优解集,该解集在目标空间的映射称为Pareto最优前沿.对于目标个数为M的优化问题,如果其Pareto最优前沿的维数小于M,称此类问题为冗余的多目标优化问题.组成Pareto最优前沿的目标称为关键目标,其他目标称为冗余目标.以近似解集为样本数据,寻找关键目标的过程,称为目标降维[8].根据不同的降维需求,目标降维问题可以描述为如下两个问题:其中,ε(F*)表示目标集合由Fo缩减为F*后原问题结构改变的误差.问题P1是寻找一个最小的目标子集F*,使得误差不大于阈值ε0.问题P2是寻找目标数为q的子集,并使其误差最小.这两个问题都已被证明是NP难问题(证明过程详见文献[12]).目标降维依据的样本数据集来自多目标优化算法求得的近似解集,它从两个方面反映了原问题的内在结构特性.一方面,近似解集是对Pareto最优前沿的近似,因此它在一定程度上反映了Pareto最优前沿的几何结构特征.另一方面,近似解集中个体之间的Pareto占优关系也能反映目标的冲突性和冗余性[15].为了实现目标降维,需要考虑的一个重要问题是利用近似解集的哪种特征定义冗余的目标.Saxena等人[11]从保持Pareto最优前沿几何结构不变的角度定义关键目标子集,提出主成分分析法(MVU-PCA)寻找对主成分贡献最大的目标.定义1 原目标集合为Fo={f1,…,fM},如果由目标子集Fe={fr1,…,frd}⊂Fo(d<M)产生的Pareto最优前沿与由Fo产生的最优前沿完全相同,则称Fe为原问题的关键目标子集.称d=|Fe|为原问题的内在维数,Fr=Fo\Fe为冗余目标子集. Brockhoff等人[12]认为即使被去掉也不会对Pareto占优关系带来任何改变的目标为冗余的目标,提出δ-MOSS和KEMOSS算法分别求解P1和P2问题.并定义Pareto占优关系改变误差如下:定义2 假设决策向量a,b∈Z在原目标集合Fo下是非支配关系,如果在目标子集F′⊂F0下二者的关系变为a≻b,那么由F′引起的Pareto占优关系的改变误差为: Jaimes等人[8]则用目标之间的相关系数度量冲突度,提出基于特征选择的方法(KOSSA),选择与其他目标最相关的若干个目标予以删除.通常,MOEAs求得的近似解集与Pareto最优前沿有一定的差别,往往不能准确表征原问题本身内在的结构特征,那么使占优关系不变的目标子集不一定是组成Pareto 最优前沿的目标子集,组成低维近似解集的目标集合也不一定使其占优关系不变.而以上算法只利用近似解集的一种特性具有一定的局限性.如果同时利用近似解集的两种特性,将有利于提高目标降维的准确性.近几年,稀疏特征选择方法得到了广泛关注和研究[13~15].这种方法以谱回归(Spectral Regression)降维[16]为基础,把对高维数据映射为低维数据的线性稀疏投影矩阵的学习,引入到稀疏回归模型中,有效地避免了传统流形学习中出现的稠密矩阵的特征值分解问题.在获得最优投影矩阵后,依据此矩阵评估每个特征的重要性,从而选择最重要的较少个特征表征原特征集合.本文基于稀疏特征选择的思想,提出新的目标降维算法分别求解P1和P2两个目标降维问题,算法框架如图1所示.该算法首先利用近似解集的几何结构特性构建描述原问题结构特征的邻接图,提出稀疏回归模型求解稀疏投影矩阵,依据此矩阵度量每个目标的重要性并排序.对于P1问题,利用近似解集上的Pareto占优关系改变程度选择误差不大于阈值的最小目标子集;对于P2问题,直接根据目标排序选择前q个最重要的目标组成误差最小的目标子集,实现目标降维.3.1 构建邻接图根据稀疏特征选择的基本思想,首先在原目标集合下构建描述近似解集几何结构特征的邻接图.假设X=[x1,…,xN]∈RM×N是一组近似解集,M是目标个数,N是解个数,xi∈RM代表第i个解.根据定义1,如果Fe={fr1,…,frd}⊂Fo(d<M)是原目标集合Fo={f1,…,fM}的关键目标子集,那么无论在高维空间还是低维空间,X应保持几何结构特征不变,而且还应保证数据点之间的Pareto占优关系不变.因此,本文采用近邻保持嵌入(NPE)算法[17]中邻接图的构造方法刻画高维数据集.这种方法发现的低维数据能够最大程度的保持原数据的局部几何特征,同时保持数据点之间的序关系.具体构造方法如下:构建邻接图G(V,E,S),其中V={xi},1≤i≤N,E是连接每一对顶点的边集合,S是边的权重矩阵.令N(xi)为顶点xi的k个近邻点集合,对于每个数据点xi,如果xj∈N(xi),则xi与xj之间存在一条边,否则不存在边.如果xi与xj之间不存在边,则权重矩阵S中对应的Sij=0,否则Sij>0,对于不为零的权重通过求解如式(5)所示的最小化问题得到最优值,则图G的拉普拉斯矩阵为L=(IN×N-S)T(IN×N-S),其中I为单位矩阵.3.2 稀疏投影矩阵目标降维的目的并非获取近似解集在低维目标子空间的表示,而是找出最能表示原问题结构特征的目标子集.假设Y=[y1,…,yN]∈Rd×N是X的低维嵌入,d是Y的维数.为了保持原问题内在结构特征不变,X在由d个目标组成的低维空间中应仍保持原数据集的局部几何特征,也就是在低维空间中,每个样本点yi∈Y仍可由其近邻点通过同一个权重矩阵S进行重构.因此低维嵌入Y应满足:最优低维嵌入Y可通过求解trace(YLYT)直接获得.假设存在投影矩阵W=[w1,…,wM]∈Rd×M,使得Y=WX,其中wi=[wi1,…,wid].用代表X的第i个目标向量,则X可以改写成的形式,那么Y=WX可以写成如下的形式:可见,Y的形成是X的所有目标向量在W的作用下线性累加而成,wi中各元素的绝对值越大,对应的第i个目标对于Y的形成影响越大,如果wi为零向量,则表明第i个目标对于Y的形成无用.为了实现目标选择,希望W是稀疏的,即存在若干个零向量,那么wi=0对应的目标即为冗余的目标.因此,在求得稀疏投影矩阵后,目标的重要性用wi的L2范数,即‖wi‖2来度量,以便选择相对重要的目标实现目标降维.3.3 稀疏回归模型通过以上分析,原目标降维问题转化成了求解原高维目标空间映射为低维目标子空间的稀疏投影矩阵.虽然Y可由trace(YLYT)求得,但Y=WX是超定方程(d<M),因此无法求得准确的W.一种可行的方法是采用最小二乘法获得近似解,即:然而式(8)求得的W不是稀疏的,无法实现目标降维.因此希望W同时满足:为了获得稀疏的投影矩阵,本文采用文献[17]的方法将式(6)、(8)、(9)所示的最优化问题整合为如下所示的稀疏回归模型,即:其中α和β是稀疏回归系数.文献[17]给出了一种迭代的方法求解式(10),并证明了代价函数L(W,Y)在迭代过程中是单调递减的,因此保证了算法的收敛性.如前所述,求得稀疏投影矩阵后,即可对目标的重要性进行评分,从而选择最重要的目标组成关键目标子集.3.4 目标降维算法(SORA-1和SORA-2)针对P1问题本文提出SORA-1算法,用于寻找原问题改变误差不大于给定阈值的最小目标子集.由于原问题的内在维数不可知,本文采用二分查找判定树的方法(decision tree)来确定内在维数,判定条件是定义2中给出的Pareto占优关系改变误差δ.SORA-1算法流程如图2(a)所示.P2问题是寻找原问题改变误差最小的q个目标组成的目标子集.因为给定了要寻找的目标个数,所以省略了SORA-1算法中寻找内在维数的过程.在求得稀疏投影矩阵后,对所有目标进行排序,前q个目标组成的集合即为关键目标子集.由于求解问题(10)的过程已被证明是收敛的[17],保证了求得的稀疏投影矩阵能够最大程度地描述高维数据与低维数据的映射关系,因此由其确定的关键目标子集也能够最大程度地表示原问题,使得原问题的改变误差最小.SORA-2算法流程如图2(b)所示.本节的实验目的有两个:一是针对SORA算法本身考察参数对算法性能的影响;二是通过与其他算法相比较,考察SORA算法的有效性.实验中采用的测试问题是DTLZ5修改版[18],即DTLZ5(I,M),其中I为原问题的内在维数,M为原问题的目标个数.该测试问题不仅目标个数M可任意扩展,而且可通过设置I为2到M之间任意一个整数来控制问题的冗余度,其关键目标子集是{fM-I+1,fM-I+2,…,fM}.实验中,我们采用基于指标的多目标进化算法(IBEA)[19],通过进化不同的代数,获得不同质量的近似解集,评估近似解集质量对降维准确性的影响.按照文献[24]的建议,IBEA的遗传算子采用参数为5的模拟二进制交叉算子(概率为0.9)和参数为50的多项式变异算子(概率为0.1).用DTLZ5(I,M)-G表示一个测试实例,其中M为目标个数,I为内在维数,G为IBEA进化代数.目标个数为10时,种群规模设为200,目标个数为20时,种群规模设为500.每种测试实例下IBEA独立运行20次.4.1 SORA参数SORA算法中有三组参数:近邻个数k,稀疏回归系数α和β,以及收敛准则.由于SORA-1和SORA-2都是依赖目标重要性指标选择目标,其区别仅在于选择的准则不同,上述参数只对目标重要性指标有影响,因此实验中仅利用SORA-2对参数进行测试.4.1.1 近邻个数k本组实验考察k分别取{1,2,…,10}时找到错误关键目标子集的次数.从图3的实验结果可以看出,当进化代数不大于100时,找到错误关键目标子集的次数随着k的增加呈减少的趋势.表明近似解集质量较差时,较大的近邻个数能够更准确地描述原高维数据的局部几何结构,提高降维准确性.当进化代数大于100时,近邻个数对降维准确性没有影响.因此对于高质量的近似解集,近邻个数可设置为较小值,这样既可以保证较高的降维准确率,也能在一定程度上降低计算复杂度.4.1.2 稀疏回归系数α和β实验中设置α的取值范围为[1.5,2.4],变化步长为0.1,β的取值范围为[0.01,0.1],变化步长为0.01.计算每一种α-β组合形式下找到错误关键目标子集的次数,考察α-β的取值对降维准确性的影响,实验结果如图4所示.除DTLZ5(8,10)-100外,对于同一个测试实例,所有α-β组合下的错误次数都相等.DTLZ5(8,10)-100的结果显示仅有6种α-β组合形式会引起降维准确性的变化.当近似解集质量较高时(进化150代和200代),无论哪种α-β组合形式,降维错误率均为零.可见,SORA算法的降维准确性对于α和β的取值并不十分敏感.4.1.3 收敛准则SORA算法采用迭代的方式求解满足式(10)的最优稀疏投影矩阵,这个过程是SORA计算量最大的部分,其收敛速度直接影响算法的计算效率.首先评估算法的收敛速度.设置最大迭代次数为50,记录每次迭代后式(10)的代价函数值,结果如图5所示.横坐标为迭代次数,纵坐标为20次实验的平均代价函数值,不同的曲线代表IBEA进化的不同代数.可以看出,在所有测试实例下,SORA-2都能在10代之内收敛,表明这种求解方法的计算效率较高,不会占用太多的计算资源和计算时间.但在实际中,设置最大迭代次数作为停止条件通常会浪费计算资源,因此我们考察另一种收敛准则,即当相邻两代的代价函数值的差小于某个阈值σ时则停止.为了获得合理的σ,我们考察σ分别为0.005、0.001和0.0001时找到错误关键目标子集的次数,并记录对应的迭代次数,实验结果如表1所示.可见,虽然σ越小迭代次数越多,但迭代次数的增加并没有使降维的错误次数有明显的下降,特别地,对于DTLZ5(4,10)和DTLZ5(6,10)测试实例,当IBEA进化代数大于50时,迭代4次即可使得降维错误率为零.可见,SORA-2算法虽然是一种迭代的计算方法,但其收敛速度较快,计算效率较高.4.2 SORA算法的性能测试本组实验的目的是通过与其他目标降维算法比较,考察SORA算法的有效性.实验中,根据4.1节参数的测试结果,SORA-1和SORA-2均采用相同的参数设置,近邻大小k=M-1,稀疏回归系数α=2.4,β=0.01,收敛条件为迭代相邻代目标函数差值σ小于0.001时算法停止.每个测试实例下IBEA独立运行20次.4.2.1 SORA-1性能测试本组实验将SORA-1算法与δ-MOSS算法[12]比较,以Pareto占优关系改变程度δ为误差函数,求解P1问题.设置δ分别为近似解集中最大差值的{0,10%,20%,30%,40%,50%}.实验中统计找到的目标均为关键目标的次数.由图6给出的实验结果可见,在相同允许误差下,SORA-1算法的准确次数总是大于δ-MOSS算法.而且近似解集质量的提高,SORA-1算法的准确次数增加,甚至达到100%的成功率,而δ-MOSS算法的成功率基本不超过50%.4.2.2 SORA-2性能测试本组实验将SORA-2与KOSSA算法[8]、KEMOSS算法[12]和MVU-PCA算法[11]比较,用于求解P2问题,寻找目标个数为I的目标子集.首先,以Pareto占优关系改变误差δ来评估算法保持原问题结构特性不变的能力,δ越小,表明降维算法的有效性越佳.由图7的比较结果可以看出,KEMOSS算法虽然以Pareto占优关系改变误差最小为寻找目标子集的目标,但该算法得到的误差并不总是最小的,表明仅利用近似解集的Pareto占优关系分析目标的冗余性并非十分有效.另外MVU-PAC算法在所有测试实例下求得的目标子集引起的误差最大,表明仅利用近似解集的几何结构特征也不能保证降维的合理性.本文提出的SORA-2算法,除DTLZ5(8,10)和DTLZ5(10,20)测试问题外,无论IBEA算法进化代数多少,总是能获得最小误差的目标子集.可见,SORA-2算法保持原问题结构特征不变的能力好于其他三种算法.接下来考察每个算法的降维准确性.表2给出了每个测试实例下,算法找到错误目标子集的次数,其中粗体数字表示对应测试实例下的最好结果.可以看出,对于24个不同规模、不同冗余度的测试实例,SORA-2找到正确目标子集的次数仅在6个测试实例下稍逊于其他算法,而在其他测试实例下都是最好的,并且错误率基本为零,表明本文算法具有较强的适应性和稳定性.另外,对于IBEA进化较少代数(如50代)时获得的近似解集,本文的算法仍可以获得较低的错误率.表明,本文算法降维的准确性受近似解集质量的影响较小.本文提出一种新的目标降维算法,该算法基于稀疏特征选择的思想,求解两种目标降维问题.利用近似解集的几何结构特性描述原问题的内在结构特征,提出稀疏回归模型求解稀疏投影矩阵,以此矩阵度量每个目标的重要性,再利用Pareto占优关系改变程度选择误差不大于阈值的最小目标子集,或直接选择前q个目标组成误差最小的目标子集.实验结果表明,本文算法的性能受参数影响较小.另一方面,通过与其他目标降维算法比较,本文算法对于两种目标降维问题都表现出较高的准确性和鲁棒性,而且其性能受近似解集的质量影响较小.陈小红女,1979年生于辽宁省锦州市.现在深圳大学信息工程学院攻读博士学位.主要研究方向智能优化算法.E-mail:*************.com李霞女,1968年出生于四川省乐山市,毕业于香港中文大学获博士学位,深圳大学信息工程学院教授,博士生导师.主要研究方向为智能计算及应用,多目标优化.E-mail:*************.cn【相关文献】[1]Farina M,Amato P.On the optimal solution definition for many-criteria optimization problems[A].Proceedings of Fuzzy Information Processing Society[C].IEEE,2002.233-238.[2]巩敦卫,季新芳,孙晓燕.基于集合的高维多目标优化问题的进化算法[J].电子学报,2014,42(1):77-83. GONG Dun-wei,JI Xin-fang,SUN Xiao-yan.Solving many-objective optimization problems using set-based evolutionary algorithms[J].Acta ElectronicaSinica,2014,42(1):77-83.(in Chinese)[3]Lopez-Jaimes A,Coello Coello C A.Including preferences into a multiobjective evolutionary algorithm to deal with many-objective engineering optimizationproblems[J].Information Sciences,2014,277:1-20.[4]孔维健,丁进良,柴天佑.高维多目标进化算法研究综述[J].控制与决策,2010,25(3):321-326. KONG Wei-jian,DING Jin-liang,CHAI Tian-you.Survey on large-dimensional multi-objective evolutionary algorithms[J].Control and Decision,2010,25(3):321-326.(in Chinese)[5]Wagner T,Beume N,Naujoks B.Pareto-,aggregation-,and indicator-based methods in many-objective optimization[A].Evolutionary Multi-CriterionOptimization[C].EMO,Springer,2007.742-756.[6]Ishibuchi H,Tsukamoto N,Nojima Y.Evolutionary many-objective optimization:a short review[A].IEEE World Congress on Computational Intelligence[C].IEEE,2008.2419-2426. [7]Bringmann K,Friedrich T.Approximating the least hyper-volume contributor:NP-hard in general,but fast in practice[J].Theoretical Computer Science,2012,425:104-116.[8]López Jaimes A,Coello Coello C A,Chakraborty D.Objective reduction using a feature selection technique[A].Proceedings of the 10th Annual Conference on Genetic and Evolutionary Computation[C].ACM,2008.673-680.[9]Schutze O,Lara A,Coello C A C.On the influence of the number of objectives on the hardness of a multiobjective optimization problem[J].IEEE Transactions on Evolutionary Computation,2011,15(4):444-455.[10]Sinha A,Saxena D K,Deb K,et ing objective reduction and interactive procedure to handle many-objective optimization problems[J].Applied Soft Computing,2013,13(1):415-427.[11]Saxena D K,Duro J A,Tiwari A,et al.Objective reduction in many-objective optimization:linear and nonlinear algorithms[J].IEEE Transactions on Evolutionary Computation,2013,17(1):77-99.[12]Brockhoff D,Zitzler E.Objective reduction in evolutionary multiobjective optimization:theory and applications[J].Evolutionary Computation,2009,17(2):135-166. [13]Qian M,Zhai C.Robust unsupervised feature selection[A].Proceedings of 23rd International Joint Conference on Artificial Intelligence[C].AAAI Press,2013.1621-1627. [14]Hou C,Nie F,Yi D,et al.Feature selection via joint embedding learning and sparse regression[A].Proceedings of 22nd International Joint Conference on Artificial Intelligence[C].AAAI Press,2011.1324-1329.[15]向馗,李炳南.主元分析中的稀疏性[J].电子学报,2012,40(12):2525-2532. XIANG Nan,LI Bing-nan.Sparsity in principal component analysis:a survey[J].Acta ElectronicaSinica,2012,40(12):2525-2532.(in Chinese)[16]Cai D,He X,Han J.Spectral regression for dimensionality reduction[R].Department of Computer Science Technical Report No.2856,University of Illinois at Urbana-Champaign,2007.[17]He X,Cai D,Yan S,et al.Neighborhood preserving embedding[A].IEEE International Conference on Computer Vision[C].IEEE,2005.1208-1213.[18]Saxena D K,Duro J A,Tiwari A,et al.Objective reduction in many-objective optimization:linear and non-linear algorithms[J].IEEE Transactions on Evolutionary Computation,2013,1(17):77-99.[19]Zitzler E,Künzli S.Indicator-based selection in multi-objective search[A].Proceedings on Parallel Problem Solving from Nature[C].Springer,2004,3242:832-842.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 .C o l l e g e o f o mp C u t e r S c i e n c e a n d Te c h n o l o g y ,C i v i l Av i a t i o n Un i v e r s i t y o f C h i n a , Ti a n j i n 3 0 0 3 0 0 , C h i n a )
关键词 :稀疏表 示;局部 线性嵌入 ;稀 疏近邻表示 ;K近邻分类 ;降维
中图 法 分 类 号 :T P 3 9 1 . 4 文 献 标 识 号 :A 文 章 编 号 :1 0 0 0 — 7 0 2 4( 2 0 1 3 )0 4 - 1 4 2 5 - 0 7
S p a r s e n e i g h b o r r e p r e s e n t a t i 0 n f o r c l a s s i f i c a t i o n
Ab s t r a c t :S p a r s e r e p r e s e n t a t i o n b a s e d c l a s s i f i c a t i o n( S RC) o b t a i n s s t a t e - o f - t h e - a r t c l a s s i i f c a t i o n r e s u l t s i n f a c e r e c o g n i t i o n . A
n e w me t h o d i s p r o p o s e d i n t h a t d i r e c t i o n .W i t h t h e a s s u mp t i o n o f l o c a l l y l i n e a r e mb e d d i n g ,t h e c l a s s i f i c a t i o n g o a l i s a c h i e v e d v i a s p a r s e n e i g h b o r r e p r e s e n t a t i o n,c o mb i n i n g t h e r e c o n s t r u c t i o n p r o p e r t y,s p a r s i t y a n d d i s c r i mi n a t i o n p o we r . Th e e x p e r i me n t s o n s e v e r a l d a t a s e t s a r e p e r f o r me d a n d r e s u l t s s h o w t h a t t h e p r o os p e d me t h o d i s a c c e p t a b l e f o r n o n l i n e a r d a t a s e t s .F u r t h e r ,i t i s a r — g u e d t h a t t h e p r o p o s e d me t h o d i s we l l s u i t e d or f t h e c l a s s i f i c a t i o n o f l o w d i me n s i o n a l d a t a d i me n s i o n a l l y r e d u c e d b y d i me n s i o n a l i t y r e d u c t i o n me t h o d s ,e s p e c i a l l y t h e me t h o d s o b t a i n i n g t h e l o w d i me n s i o n a l a n d n e i g h b o r h o o d p r e s e r v i n g e mb e d d i n g s ,a n d i t c o s t s
W ANG Qi ,HUI Ka n g - h u a
( 1 .De p a r t me n t o f C o mp u t e r S c i e n c e a n d Te c h n o l o g y ,Yu n c h e n g Un i v e r s i t y ,Yu n c h e n g 0 4 4 0 0 0,Ch i n a ;
2 .中国民航 大学 计算机科 学与技术学院,天津 3 0 0 3 0 0 )
摘 要 :稀疏表 示分类方法 ( S Rc )在人脸 识别方 面取得 了当前 最好 的分类结果 ,针对 S RC存在 的问题 ,提 出稀疏 近邻表
示方 法 ( S NR C ) 。在局部 线性嵌入 方法前提 假设成立 的条件 下,S NR C通过稀疏近邻 表示 实现 目标 分类 。在 几个不 同数 据
集上 的实验 结果显示 ,S NR C适 用于呈非线性分布的数据 集,并取得 了较好 的效 果。进一 步的分析表 明,S NR C能 够较好 的适用 于那些通过 降维方法得 到的低 维数据的分类 问题 ,尤其适 用于基 于近邻保持 的一类 降维方法得到 的低维数据 ,并且
具有较低 的时间复杂度。
2 0 1 3 年 4 月
计 算机 3 - - 程 与设计
C OM PUTER ENGI NEERI NG AND DE SI GN
Ap r . 2 0 1 3
第3 4 卷
第4 期
Vo 1 . 3 4 No . 4
基于稀疏近邻表示 的分类方法
王 琦 ,惠康华
( 1 .运 城 学 院 计 算机 科 学与技 术 系,山西 运城 0 4 4 0 0 0 ;
相关文档
最新文档