支持向量机与人工神经网络_艾娜

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第19卷第5期 山东理工大学学报(自然科学版) Vo l.19N o.52005年9月 Jour nal of Shandong U niversity of T echnology (Sci &T ech ) Sep.2005文章编号:1672-6197(2005)05-0045-05
支持向量机与人工神经网络
艾 娜,吴作伟,任江华
(北京交通大学机电学院,北京100044)
摘 要:支持向量机(Support Vecto r M achine ,SVM )是由V apnik 等人提出的一种基于统计学习理论的新型机器学习算法;而人工神经网络(Ar tificial Neural Netwo rk ,A NN )已经成功用于解决模式识别和任意非线性函数回归估计问题中.介绍了支持向量机与人工神经网络的基本原理,并对二者进行了逼近方面的比较,结果表明,支持向量机作为一种新兴技术而具有的独特的优越性.
关键词:支持向量机;人工神经网络;统计学习理论
中图分类号:TP183文献标识码:A
Support vector machine and artificial neural network
AI Na ,WU Zuo -w ei ,REN Jiang -hua
(School of M echanical &Electrical Eng ineering ,Beijing Jiaoto ng U niver sity ,Beijing 100044)
A bstract :The support vector machine (SVM ),put forw ard by some researchers and Vapnik ,is a new machine learning algorithm ,based theoretically on statistic learning theory.At the same time ,the artificial neural netw ork (ANN )has been successfully applied to solve problems such as mode recognition and reg ression of non -liner function.The paper introduc es the basic theory of SVM and ANN in brief.In addition ,the paper compares the approach ability of SVM and ANN ,and the re -sults indicate that SVM ,as a new technique ,has more superiorities.
Key words :SVM ;A NN ;statistic learning theo ry
自1943年心理学家McCulloch 和数学家Pitts 合作提出了第一个神经计算模型(MP 模型),经历了兴起、萧条、兴盛几个阶段的发展.从20世纪80年代初神经网络的研究再次复苏并形成热点以来,发展非常迅速,从理论上对它的计算能力、对任意连续映射的逼近能力、学习理论以及动态网络的稳定性分析上都取得了丰硕的成果.特别是应用上已迅速扩展到许多重要领域.20世纪的最后10年中,产生大量关于神经网络的论文,新的理论和实践工作层出不穷.20世纪90年代初期,Vapnik 等人在基于统计学习理论的
基础上提出了一种新的机器学习方法即支持向量机(Support Vector Machine ,简称SVM )[1].
收稿日期:20050120作者简介:艾 
娜 DOI 牶牨牥牣牨牫牫牰牱牤j 牣cn ki 牣sd gc 牣牪牥牥牭牣牥牭牣牥牨牨
1 支持向量机
1.1 最优超平面
考虑训练样本{(x i d i )}N i =1,用于分离的超平面形式的决策曲面方程是
W T X +b =0
(1)其中x ∈R n ,d i ∈{-1,+1};W 是可调的权值向量;b 是偏值.
对于(1)式也可写成以下形式W T X i +b ≥0 当d i =+1时
(2)W T X i +b ≤0当d i =-1时(3)
对于一个给定的权值W 和偏值b ,由式(1)定义的超平面和最近的数据点之间的间隔被称为分离边缘,用ρ表示.支持向量机的目标就是找到一个特殊的超平面,对于这个超平面分离边缘ρ最大.在这个条件下,决策曲面称为最优超平面(optim al hyperplane )[1].距离这个最优超平面最近的异类向量就是所谓的支持向量(suppo rt vecto r ),支持向量于、与超平面的之间的距离最大(即边缘最大化),一组支持向量可唯一的确定一个超平面.如图1所示.由于从支持向量到最优超平面的代数距离是
图1 最优超平面 r =1||W 0| 若d (s )=+1(4)r =-1||W 0||
若d (s )=-1(5)式中,W 0表示权值的最优值;加号表示支持向量在最优超平面的正面;
相反的减号表示支持向量在最优超平面的负面.因此由(4)(5)式可
知,支持向量间距为2||W 0||
,寻找超平面的问题可转化为求解以下二次规划问题
Χ(w )=12W T W
(6)约束条件 d i (W t X i +b )≥1 对I =1,2…,N
(7)1.2 支持向量机简介
支持向量机(support vecto r machine ,简称SVM )是一种基于统计
学习理论的新型机器学习算法[2].统计理论是一种专门研究小样本情况下机器学习规律得基本理论和数学框架,也是目前针对小样本统计和预测学习的最佳理论.它从理论上系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则.Vapnik 等人从20世纪六七十年代开始致力于此方面的研究,到20世纪90年代中期,随着该理论的不断发展和成熟,产生了基于统计学习理论体系的新的通用的机器学习方法,即支持向量机[3].
支持向量机即是通过就是通过某种事先选择的非线性映射,将输入向量映射到一个高维特征空间,在这个空间构造最优分类超平面的实现过程.其基本思想如图2所示。

正如图所示,它形式上类似神经网络,输出是中间结点的线性组合,每个中间节点对应一个支持向量.
1.3 核函数
支持向量机中通过引入核函数(kernel function )将输入空间映射成高维的特征空间(H ilber t 空间),然后在特征空间中寻找最优超平面.核函数K 满足:
K (x i ,x j )=ψ(x i ) ψ(x j ).该过程可表述为:将输入向量x 通过映射R n
→H 映射到高维Hilbert 空间中.核函数的引入绕过特征空间,直接在输入空间上求取,从而避免了计算非线性映射Χ[4].46山东理工大学学报(自然科学版)2005年 
图2 支持向量机示意图目前常用的核函数有:
1)多项式核函数
k (x ,x ′)=(<x ,x ′>+c )p ,p ∈N
c ≥02)径向基核函数(RB F )
k (x ,x ′)=e xp (-‖x -x ′‖2/2σ2)
3)样条函数
k (x ,x ′)=1+<x ,x ′>+
12
<x ,x ′>min (x ,x ′)-
16
min (x ,x ′)34)B 样条函数
k (x ,x ′)=B 2N +1(‖x -x ′‖)
核函数的选择需要一定的先验知识,目前还没有一般性的结论.[1]2 人工神经网络
人工神经网络(artificial neural netw ork ,ANN ),亦称为神经网络(neural netw ork ,NN ),是由大量处理单元(神经元)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性.其中,神经元的数学模型、神经网络的连接方式以及神经网络的学习方式是决定神经网络信息处理性能的三大要素,对神经网络起至关重要的作用[5]
.
大量神经元组成庞大的神经网络,才能实现对复杂信息的处理与存储,并表现出各种优越的特性.神经网络的强大功能与其大规模并行互连、非线性处理以及互连结构的可塑性密切相关.因此必须按一定规则将神经元连接成神经网络,并使网络中各种神经元的连接权按一定规则变化.生物神经网络由数以亿记的生物神经元连接而成,而人工神经网络限于物理实现的困难和为了计算简便,是由相对少量的神经元按一定规律构成的网络.人工神经网络中神经元常称为节点或处理单元,每个节点均具有相同的结构,其动作在时间上同步
.
图3 神经元模型示意图神经元是生物神经系统的最基本单元,虽然其形状大
小是多样的,但从功能结构角度而言,各个神经元是相似
的.人工神经元模型是生物神经元的数学抽象与模拟,它
从功能特性角度对生物神经元进行模拟,并形成人工神经
网络的基本组成单位.人工神经元通常为多输入、单输出
的非线性单元,其数学模型如图3所示.
神经元模型有三个基本要素:1)一组连接(对应于生物神经元的突触),连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制.
2)一个求和单元,用于求取各输入信号的加权和(线性组合).
3)一个非线性激活函数,起非线性映射作用并将神经元输出幅值限制在一定范围内(一般限制在(0,1)或(-1,1)之间)[6]
.
人工神经网络的模型很多,目前应用较多的有:Elm an 网络、RBF 网络和BP 网络.它们都可以很好地实现对多维非线性系统的映射功能,并且在实际工程中已得到广泛的应用[7].47
第5期 艾 娜,等:支持向量机与人工神经网络
3 支持向量机与人工神经网络
人工神经网络是目前研究较多的交叉学科,由于通过选择适当的隐单元数和网络层次,前馈网络能以任意精度逼近非线性函数(Funahashi ,1989),因此神经网络技术被广泛应用到工业过程的建模与控制中,并取得了巨大成功.尽管如此,神经网络仍存在一些缺陷:
1)网络结构需要事先指定或应用启发算法在训练过程中修正,这些启发算法难以保证网络结构的最优化;
2)网络权系数的调整方法存在局限性;
3)神经网络易陷入局部最优,有些甚至无法得到最优解;
4)过分依赖学习样本,即模型性能的优劣过分依赖于模型训练过程中样本数据,而大多数情况下,样本数据是有限的.除次,许多实际问题中的输入空间是高维的,样本数据仅是输入空间中的稀疏分布,即使能得到高质量的训练数据,数据量必然很大.但是样本数要是很多的话,必然使训练时间大大增加;
5)目前尚无一种理论能定量的分析神经网络的训练过程的收敛速度,及收敛速度的决定条件,并对其加以控制;
6)神经网络的优化目标是基于经验的风险最小化,这就不能保证网络的泛化能力.
尽管存在以上问题,神经网络仍然取得了很多成功应用,其原因在于,神经网络的设计与设计者有很大的关系.设计者若在网络设计过程中有效的利用了自己的经验知识和先验知识,可能会得到较理想的网络结构.因此,神经网络系统的优劣是因人而异的[7].
支持向量机是以统计学理论为基础的[4],因而具有严格的理论和数学基础,可以不象神经网络的结构设计需要依赖于设计者的经验知识和先验知识.支持向量机与神经网络的学习方法相比,支持向量机具有以下特点:
1)支持向量机是基于结构风险最小化(SRM ,structural risk minimization )原则,保证学习机器具有良好的泛化能力;
2)解决了算法复杂度与输入向量密切相关的问题;
3)通过引用核函数,将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函数判别;
4)支持向量机是以统计学理论为基础的,与传统统计学习理论不同.它主要是针对小样本情况,且最优解是基于有限的样本信息,而不是样本数趋于无穷大时的最优解;
5)算法可最终转化为凸优化问题,因而可保证算法的全局最优性,避免了神经网络无法解决的局部最小问题;
6)支持向量机有严格的理论和数学基础,避免了神经网络实现中的经验成分.
4 计算实例
BP 网络是目前应用较广泛的人工神经网络之一,它可以以任意精度逼近任意的非线性函数[6].本文就非线性函数逼近能力方面,对BP 网络和支持向量机网络的仿真结果进行比较,结果表明,支持向量机具有较强的逼近能力和较好的泛化能力.
设非线性函数y =cos (|x |)|x |
,x ∈[-3π,3π].函数的样本值根据式(8)选择.y i =y (x i )+e i (8)
48山东理工大学学报(自然科学版)2005年 
其中e i ~N (0,σ2)
利用M AT LAB 工具箱中的new ff 函数和sim 函数对采集到的样本进行训练和仿真,第一层使用4个神经元,第二层用1个神经元,训练1000步,误差0.1299,结果如图4所示.
利用支持向量机网络的相应软件包进行仿真,核函数采用样条函数,支持向量38个,误差1e -9,仿真结果如图5所示.
图4 BP 网络仿真结果
实线表示实际模型;×表示的线是逼近模型图5 支持向量机仿真结果 表示支持向量 38个支持向量
5 结 论
神经网络是基于传统统计学的基础上的.传统统计学研究的内容是样本无穷大时的渐进理论,即当样本数据趋于无穷多时的统计性质,而实际问题中样本数据往往是有限的.因此,假设样本数据无穷多,并以此推导出的各种算法很难在样本数据有限时取得理想的应用效果.而支持向量机则是基于统计学理论的基础上的,可以克服神经网络难以避免的问题.通过支持向量机在逼近能力方面与BP 网络仿真结果的比较表明,支持向量机具有较强的逼近能力和泛化能力.支持向量机因其特有的优越性在将越来越受到各领域的重视,具有很好的应用前景.
参考文献:
[1]Sim on H ay kin.神经网络原理[M ].叶世伟史忠植(译).北京:机械工业出版社,2004.
[2]张学工.基于统计学习理论的支持向量机算法研究[J ].自动化学报,2000,78(1):32-42.
[3]Vapnik V.The Nature of S tatistical Learning T heory 〔M 〕.New York ;S pringer Verlag ,1995.
[4]Vapnik V.S tatistical learning theory 〔J 〕.Chichester ,UK :W ile ,1998.
[5]韩力群.人工神经网络理论、设计及应用———人工神经细胞、人工神经网络和人工神经系统[M ].北京:化学工业出版社,2002.
[6]高 隽.人工神经网络原理及仿真实例[M ].北京:机械工业出版社2003.
[7]阎平凡,张长水.人工神经网络与模拟进化计算[M ].北京:清华大学出版社2000.49第5期 艾 娜,等:支持向量机与人工神经网络。

相关文档
最新文档