支持向量机在分类和回归中的应用研究_冼广铭

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用２００８，４４（２７）

１引言

模式分类和回归分析是知识发现中的重要内容，也是处理其它问题的核心。虽然分类和回归具有许多不同的研究内容，但它们之间却具有许多相同之处，简单地说，它们都是研究输入输出变量之间的关系问题，分类的输出是离散的类别值，而回归的输出是连续的数值。用于分类和回归的方法很多，如传统的统计学和神经网络方法和最近刚刚兴起的支持向量机等［１］。

现有机器学习方法的重要理论基础之一是统计学。当人们面对数据而又缺乏理论模型时，统计分析方法是最先采用的方法。然而传统的统计方法只有在样本数量趋于无穷大时才能有理论上的保证，现有学习方法也多是基于此假设。而在实际应用中样本数目通常都是有限的，甚至是小样本，对此基于大数定律的传统统计方法难以取得理想的效果［２］。

ＡＮＮ（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，人工神经网络）［３］等经验非线性方法利用已知样本建立非线性模型，克服了传统参数估计方法的困难。同时设计者在设计过程中利用了自己的经验和先验知识，取得了许多成功的应用。但是在实际工程应用中，有很多数据建模问题属于数学中的小样本、不适定问题，而人工神经网络等方法忽略了这一特点，将其作为无穷样本、适定问题来求解。所以神经网络具有局部极小点、过学习以及结构和类型的选择过分依赖于经验等固有的缺陷，降低了其应用和发展的效果。

作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间却可以通过一个线性超平面实现线性划分（或回归），而与特征空间的线性划分（或回归）相对应的却是样本空间的非线性分类（或回归）。但是采用升维的方法，即向高维空间做映射，一般只会增加计算的复杂性，甚至会引起“维数灾难”。

ＳＶＭ通过核函数实现到高维空间的非线性映射，所以适合于解决本质上非线性的分类、回归等问题。同时，ＳＶＭ方法巧妙地解决了如何求得非线性映射和解决算法的复杂性这两个难题：由于应用了核函数的展开定理，所以根本不需要知道非线性映射的显式表达式；由于是在高维特征空间中应用线性学习机的方法，所以与线性模型相比几乎不增加计算的复杂性，这在某种程度上避免了“维数灾难”［２］。

近年来ＳＶＭ在许多领域的分类和回归方面起了越来越重要的作用，显示了它的优势，成为继模式识别和神经网络研究之后机器学习领域的一个新颖而有发展前途的研究方向。随着研究的进一步深入，ＳＶＭ的应用将更加广泛。

国际上对ＳＶＭ算法及其应用的研究日益广泛和深入，而我国在此领域的研究才刚起步不久［４］。因此，加强这一方面的研究工作，使我国在这一领域的研究和应用能够尽快赶上国际先

◎数据库、信号与信息处理◎

支持向量机在分类和回归中的应用研究

冼广铭１，曾碧卿１，冼广淋２

ＸＩＡＮＧｕａｎｇ－ｍｉｎｇ１，ＺＥＮＧＢｉ－ｑｉｎｇ１，ＸＩＡＮＧｕａｎｇ－ｌｉｎ２

１．华南师范大学南海校区计算机工程系，广东佛山５２８２２５

２．广东轻工职业技术学院计算机系，广州５１０３００

１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＮａｎｈａＣａｍｐｕｓ，ＳｏｕｔｈＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｆｏｓｈａｎ，Ｇｕａｎｇｄｏｎｇ５２８２２５，Ｃｈｉｎａ

２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＧｕａｎｇｄｏｎｇＩｎｄｕｓｔｒｙＴｅｃｈｎｉｃａｌＣｏｌｌｅｇｅ，Ｇｕａｎｇｚｈｏｕ５１０３００，Ｃｈｉｎａ

Ｅ－ｍａｉｌ：Ｘｇｍ２００１１＠１６３．ｃｏｍ

ＸＩＡＮＧｕａｎｇ－ｍｉｎｇ，ＺＥＮＧＢｉ－ｑｉｎｇ，ＸＩＡＮＧｕａｎｇ－ｌｉｎ．ＡｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈｏｆＳＶＭｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎ．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２００８，４４（２７）：１３４－１３６．

Ａｂｓｔｒａｃｔ：ＳＶＭｐｌａｙａｍｏｒｅａｎｄｍｏｒｅｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎ．Ｂｅｃａｕｓｅｏｆｅｘｃｅｌｌｅｎｔｐｅｒｆｏｒｍａｎｃｅｉｎａｐｐｌｉ－ｃａｔｉｏｎ，ａｌｏｔｏｆＳＶＭｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄｉｎｒｅｃｅｎｔｙｅａｒｓ．ＩｎｔｈｉｓｐａｐｅｒａｓｅｒｉｅｓｏｆｉｓｓｕｅａｂｏｕｔＳＶＭｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓ－ｓｉｏｎｉｓｐｒｏｐｏｓｅｄ．Ｉｔｉｓｍａｇｎｉｆｉｃａｎｔｆｏｒｕｓｔｏｃａｔｃｈｕｐｗｉｔｈｉｎｔｅｒｎａｔｉｏｎａｌａｄｖａｎｃｅｌｅｖｅｌ．

Ｋｅｙｗｏｒｄｓ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）；ｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｒｅｇｒｅｓｓｉｏｎ

摘要：ＳＶＭ在许多领域的分类和回归方面起了越来越重要的作用，显示了它的优势。由于ＳＶＭ方法较好的理论基础和它在一些领域的应用中表现出来的与众不同的优秀的泛化性能，近年来，许多关于ＳＶＭ方法的应用研究陆续提了出来。围绕支持向量机在分类和回归中的问题进行了阐述，使我国在这一领域的研究和应用能够尽快赶上国际先进水平具有十分重要的意义。

关键词：支持向量机；分类；回归

ＤＯＩ：１０．３７７８／ｊ．ｉｓｓｎ．１００２－８３３１．２００８．２７．０４３文章编号：１００２－８３３１（２００８）２７－０１３４－０３文献标识码：Ａ中图分类号：ＴＰ３１１

作者简介：冼广铭，男，博士，讲师，研究方向为数据挖掘和软件工程等。

收稿日期：２００８－０１－０８修回日期：２００８－０７－１４

１３４

２００８，４４（２７）

进水平具有十分重要的意义［５］。

２ＳＶＭ应用的研究现状

目前ＳＶＭ学习方法已经获得了广泛的应用，涉及到经济分析、生物识别技术，信号识别和预测、图像识别等多个领域。从最初ＳＶＭ方法的简单应用研究，到多种方法的联合应用，互相取长补短，不断改进，获得了大量有价值的研究成果。下面将介绍ＳＶＭ在分类和回归方面的一些典型应用。

（１）分类方面的研究现状

在分类（模式识别）方面ＳＶＭ取得的应用成果是较多的，如在网络入侵检测、人脸别识、图像分类和故障诊断等方面。

李昆仑等［６］针对支持向量机理论中现存的问题：多类分类问题和对于噪音数据的敏感性，把一种新的模糊多类支持向量机算法应用于计算机网络入侵检测问题，取得了较好的实验结果。文献［７］介绍了入侵检测研究的发展概况和支持向量机的分类算法，接着提出了基于支持向量机的入侵检测模型，然后以系统调用执行这类常用的入侵检测数据为例，详细讨论了该模型的工作过程。通过实验和比较发现，基于支持向量机的入侵检测系统不但所需要的先验知识远远小于其他方法，而且当检测性能相同时，该系统的训练时间将会缩短。文献［８］对ＳＶＭ、ＡＮＮ和ＭＡＲＳ（ＭｕｌｔｉｖａｒｉａｔｅＡｄａｐｔｉｖｅＲｅｇｒｅｓｓｉｏｎＳｐｌｉｎｅｓ）等三种入侵检测技术进行了比较，得出如下结论，ＳＶＭ在准确率、训练时间和测试时间方面都比其它两种方法要好。而把这几种方法结合起来运用，效果更好［９］。ＣｈａｎＡｋｉＰＦ和ＮｇＷｉｎｇＷＹ等［１０］把基于规则的技术和ＳＶＭ方法结合起来，提出了一种混合入侵检测系统。

在人脸识别的实际应用中，处理的人脸图像，每类往往只有很少的样本，以至于不能充分表达样本的实际分布，需要对训练样本的数据进行有效的扩充。为此崔国勤等提出了基于生成视图和支持向量机的人脸识别方法，在ＩＣＴ－ＹＣＮＣ和Ｕ－ＭＩＳＴ人脸库中应用多分类支持向量机对得到的数据进行实验，结果表明，在样本不足的条件下利用支持向量识别人脸，生成虚拟视图是一种有效的方法。由ＳｈｉｈＰｅｉｃｈｕｎｇ和ＬｉｕＣｈｅｎｇｊｕｎ［１１］提出的ＤＦＡ－ＳＶＭ［１２］人脸识别模型，识别率更是高达９８．２％。ＰａｒｋＳｕｎｇ－Ｗｏｏｋ等［１３］在人脸识别过程中，运用最邻近原则改善了多分类ＳＶＭ的性能。

在传统的基于内容图像检索的方法中，由于图像的领域较宽，图像的低级视觉特征和高级概念之间存在着较大的语义间隔，导致检索效果不佳。文献［１４］缩窄图像的领域以减小低级特征和高级概念间的语义间隔，并利用机器学习方法自动建立图像类的模型，从而提供用户概念化的图像查询方式。该文以自然图像领域为例，使用支持向量机学习自然图像的类别，学习到的模型用于自然图像分类和检索。ＳＶＭ在图像分类中有着相当大的应用潜力，ＦｏｏｄｙＧｉｌｅｓＭ和ＭａｔｈｕｒＡｊａｙ［１５］的研究结果表明，ＳＶＭ的分类准确率要高于判别分析和决策树。Ｆｕｋｕ－ｄａＳ和ＫａｔａｇｉｒｉＲ等［１６］提出了一种基于ＳＶＭ的无监督的ＳＡＲ图像分类方法。

文献［１７］根据ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，隐马尔可夫模型）适合于处理连续动态信号与支持向量机适合于模式分类的长处，提出了基于ＨＭＭ－ＳＶＭ串联结构的故障诊断模型，利用ＨＭＭ形成特征向量提供给ＳＶＭ最后判别。该方法优于单纯的诊断方法，能够利用少量训练样本有效地完成故障诊断。ＴｈｕｋａｒａｍＤ和ＫｈｉｎｃｈａＨＰ等［１８］提出了一种基于ＡＮＮ和ＳＶＭ的故障诊断系统，可以对电力系统的故障进行定位。ＲｉｂｅｉｒｏＢｅｒｎａｒｄｅｔｅ［１９］把ＳＶＭ应用于质量监控过程，能够及时地诊断出生产过程中出现的故障。

（２）回归方面的研究现状

在回归方面，主要实验尚属于原理性研究，包括函数逼近、时间序列预测及电力负荷预测、信号或图像滤波等方面。

支持向量机在高维空间中表示复杂函数是一种有效的通用方法，也是一种新的、很有发展前景的机器学习算法。曲线重建问题其实质就是函数拟合逼近问题。文献［２０］简要介绍了基于支持向量机的理论，并在此基础上提出了一种基于ＳＶＭ的曲线重建算法，实验结果证明了该方法的有效性。为消除分形插值曲线的断裂和周期现象，文献［２１］把ＳＶＭ用于函数逼近，克服了外推法的缺点，充分发挥了ＳＶＭ的优点。文献［２２］使用了一种具有鲁棒性的支持向量回归机进行函数逼近，大大改善了系统的学习性能，即使训练持续很长一段时间，也不会造成错误率的上升，很好地克服了过学习现象。ＤｅＫｒｕｉｆＢａｓＪ和ＤｅＶｒｉｅｓＴｈｅｏＪＡ等［２３］对四种基于支持向量的函数逼近方法进行了系统的研究。ＬａｚａｒｏＭａｒｃｅｌｉｎｏ和ＳａｎｔａｍａｒｉａＩｇｎａｃｉｏ等［２４］提出了一种基于支持向量回归机的逼近方法，能够同时逼近函数本身及其导数。

文献［２５］针对运用标准支持向量机预测海量金融时间序列数据会出现训练速度慢、内存开销大的问题，提出一种分解合作加权的支持向量回归机，将大样本集分解成若干工作子集，分段提炼出支持向量机，同时根据支持向量的重要性给出不同的错误惩罚度，并将其应用于证券指数预测。与标准算法相比较，该方法在保证泛化精度一致的前提下，极大地加快了训练速度。ＫｉｍＫｙｏｕｎｇ－Ｊａｅ［２６］的研究结果表明ＳＶＭ在金融时间序预测中大有作为。ＬｅｎｄａｓｓｅＡｍａｕｒｙ和ＷｅｒｔｚＶｉｎｃｅｎｔ等［２７］把ＬＳ－ＳＶＭ运用于长期的时间序列预测，效果甚佳。ＫａｒｒａｓＤＡ和ＭｅｒｔｚｉｏｓＢＧ［２８］的研究也显示了在长期的、动态的时序预测中，ＳＶＭ比ＭＬＰ（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ，多层感知机）要好。

文献［２９］将ＳＶＭ方法应用于电力系统峰负荷预测，它具有精度高、全局最优等显著特点。为了确定ＳＶＭ中直接影响其推广能力的超参数，提出了利用交叉有效性验证方法确定这些参数。实际算例表明，该方法的预测精度比神经网络方法提高了０１４％￣０１８％。文献［３０］把ＳＯＭ网络和ＳＶＭ方法结合起来，ＳＯＭ网络首先对ＳＶＭ的输入数据进行预处理，从而更有效地对电力负荷进行系统预测。文献［３１］提出了一种使用ＬＳ－ＳＶＭ的多尺度短时预测模型，比传统的神经网络方法更有效。

陈春雨［３２］等通过对基于ＳＶＭ的函数回归形式的变换，得出了一种能描述滤波原理的表达式。基于ＳＶＭ的滤波方法有效地抑制了随机加性噪声，为信号滤波提供了一种以结构风险最小化为理论框架的新手段。ＨｉｌｌＳｉｍｏｎＩ和ＷｏｌｆｅＰａｔｒｉｃｋＪ等［３３］采用ＳＶＭ对非线性音频信号进行滤波，该方法证明了ＳＶＭ对声音滤波的有效性。文献［３４］采用ＬＳ－ＳＶＭ对图像进行滤波，提高了信噪比，并且保护了图像的边缘信息。

３结论

模式分类和回归分析是知识发现中的重要内容，本文介绍了ＳＶＭ在分类和回归方面的一些典型应用。在分类方面ＳＶＭ取得的应用成果是较多的，如在网络入侵检测、人脸别识、图像分类和故障诊断等方面。在回归方面，主要实验尚属于原理性

冼广铭，曾碧卿，冼广淋：支持向量机在分类和回归中的应用研究１３５