小样本概述 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目标识别中小样本问题

无论是在遥感图像还是红外图像的目标识别中，由于机载雷达，遥感卫星图像采集的高成本和高难度使得不容易采集到大量的图像用于训练模板；并且，在实际应用中，目标识别过程千变万化，无论建立的模板与实际情况有多么接近，考虑的情况多么完整，也有考虑不周全的情况，这就要求所建立的识别系统有较强的学习能力、泛化能力和鲁棒性。在目标识别中，对小样本的探讨，主要是通过分析样本数目和识别率关系来分析目标识别的泛化能力。在模式识别领域中，通常情况会避免一种情况，即与特征数目相比，训练当样本不充足的情况。特征维数 k 与训练样本数目 n 的关系是 n=αk ，α 一般选择 2、5 或 10 等。当 α<1，即 n

/)(1∑==，其中X i 是第 i 个样本。

这样，S 是小于等于 n 的独立向量，协方差矩阵也是小于等于n 的独立向量。设m 是样本均值，由于)(i m X -不是线性独立的，则

∑-=-n 10)(i i m X ，假设有 n 类问题，类内散布

矩阵w S 定定义为： T i n

i i w M X m X S )()(1--=∑=

这样w S 是奇异值。对于线性分类器，这类样本是不可分的。这就是小样本问题。然而，具体多少数目的样本称为小样本，并没有统一的定数，需要根据具体的识别情况而定。在目标识别中，小样本问题是经常发生的，特别是对于 k 非常大的高维数据，例如人脸、高光谱和医学等领域的识别。但是，在激光雷达目标识别中，还未见到对小样本问题讨论的报道。在小样本时，如果利用现有的特征设计出的分类器效果不令人满意，那么考虑增加新的特征就是一个很自然的解决方法，特别有助于分开那些常常被混淆的类别。虽然新增加的特征导致负面影响增加了特征提取与分类器的计算复杂度，但通常分类器的性能在一定程度上能够得到改善。但是，在实际应用中，特征维数增加到某一个临界点后，继续增加反而会导致分类器的性能变差。这种现象称为“休斯（Hughes ）”现象或者“休斯”效应。“休斯”现象的出现通常与训练样本数目的多少和特征的维数有关。如果不限定训练样本数目，适当的增加新的特征，这种现象可能不会发生。同样，如果训练样本的数目是一个固定数，但是这个数值很大时，以致于利用许多特征表示目标，“休斯”现象也可能不会发生。可是，当训

练样本数目是一个固定数，而且这个数不满足特征维数任意的增加时，就会发生“休斯”现象。

为了缓解“休斯”现象，人们提出了许多方法，其中一个方法是增加一些无标签的训练样本。可是，在实际应用中，再增加训练样本的条件不是总能满足的。还有人提出更换分类器，其中支持向量机（Support Vector Machine，SVM）是人们首选的分类器。这是由于SVM 通过少量的支持向量确定最优超平面，从而认为SVM 不受到样本数目的影响，即与“休斯”现象是无关的目标识别中小样本问题在激光雷达目标识别中，尤其是机载雷达，图像采集的高成本和高难度使得不容易采集到大量的图像用于训练模板；并且，在实际应用中，目标识别过程千变万化，无论建立的模板与实际情况有多么接近，考虑的情况多么完整，也有考虑不周全的情况，这就要求所建立的识别系统有较强的学习能力、泛化能力和鲁棒性。在激光雷达目标识别中，对小样本的探讨，主要是通过分析样本数目和识别率关系来分析目标识别的泛化能力。在模式识别领域中，通常情况会避免一种情况，即与特征数目相比，训练，常用于高维数据和小样本的分类和识别。可是，Bengio 等人认为利用SVM 识别，也可能发生“休斯”现象。他认为SVM 发生“休斯”现象与使用局部核有关。Francois 等人也认为SVM 敏感于“休斯”现象，但是他们认为局部核比全局核有更好的泛化能力，可以避免发生“休斯”现象。对于SVM 是否与“休斯”现象有关，本论文将在第二章和第三章中用数据验证。

除了这两个方法外，特征选择和分类器集成是两种最为常用的方法。特征选择是解决这个问题最直接有效的方法。通过特征选择方法不但能提高分类的速度，还可以减少对数据存储的需求；分类器集成通过结合多个分类器的输出来增强分类器的准确率。另外，随机子空间集成（Random subspace ensemble, RSE）算法也是一种很好的选择，该算法属于特征选择和分类器集成相结合的方法。