实验2分类预测模型_支持向量机
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验2分类预测模型——支持向量机SVM
一、 实验目的
1. 了解和掌握支持向量机的基本原理。
2. 熟悉一些基本的建模仿真软件(比如SPSS 、Matlab 等)的操作和使用。
3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是
在分类和预测中的应用。
二、 实验环境
PC 机一台,SPSS 、Matlab 等软件平台。
三、 理论分析
1. SVM 的基本思想
支持向量机(Support Vector Machine, SVM ),是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。SVM 能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数,其对独立的测试集仍能够得到较小的误差。此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。
SVM 是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情况说明。
图1最优分类面示意图
图1中,空心点和实心点代表两类数据样本,H 为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin )。所谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分类间隔最大。前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范围最小,从而时真实风险最小。推广到高维空间,最优分类线就成为了最优分类面。
2. 核函数
ω
支持向量机的成功源于两项关键技术:利用SVM 原则设计具有最大间隔的最优分类面;在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习算法。其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间,在高维特征空间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ 的具体形式,只要用满足Mercer 条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等,选用不同的核函数可构造不同的支持向量机。在实践中,核的选择并未导致结果准确率的很大差别。
3. SVM 的两个重要应用:分类与回归
分类和回归是实际应用中比较重要的两类方法。SVM 分类的思想来源于统计学习理论,其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。SVM 训练和分类过程如图2所示。
图2 SVM 训练和分类过程
SVM 回归问题与分类问题有些相似,给定的数据样本集合为 x i ,y i ,…, x n ,y n 。其中,
x i
x i ∈R,i =1,2,3…n 。与分类问题不同,这里的 y i 可取任意实数。回归问题就是给定一个新的输入样本x ,根据给定的数据样本推断他所对应的输出y 是多少。如图3-1所示,“×”表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。同分类器算法的思路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,这种类型的函数也就是 ε 不敏感损失函数。变量ξ度量了训练点上误差的代价,在 ε 不敏感区内误差为0。损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,以确保全局最小解的存在和可靠泛化界的优化。图3-2显示了具有ε 不敏感带的回归函数。
o
x
y
图3-1 回归问题几何示意图
o x
y
图3-2
回归函数的不敏感地
四、实验案例与分析
支持向量机作为一种基于数据的机器学习方法,成功应用于分类和预测两个方面。本实例将采用支持向量机的分类算法对备件进行分类,以利于对备件进行分类管理,然后运用支持向量机的回归算法对设备备件的需求进行预测,以确定备件配置的数量。
1.基于SVM的设备备件多元分类
设备备件通常可分为三种类型,即设备的初始备件、后续备件和有寿备件。
a)初始备件:是指设备在保证期内,用于保持和恢复设备主机、机载设备与地面保障
设备设计性能所必需的不可修复件和部分可修复件。该类设备是随设备一起交付用
户的,其费用计入设备成本。
b)有寿设备:由于规定了寿命期限,因此这基本上是一个确定性的问题。
c)后续设备:由于备件供应保障的目标是使设备使用和维修中所需要的备件能够得到
及时和充分的供应,同时使备件的库存费用降至最低。因此,对于某种备件是否应
该配置后续备件以及配置多少都需要慎重考虑。
对于某种备件是否应该配置后续备件,需要综合考虑多方面的因素。首先,我们必须考虑部件的可靠性水平。配置备件的根本原因也在于此。如果可靠性水平不高,则工作部件容易出现故障,那么跟换时就需要用到备件,因此工作部件的可靠性水平是影响备件配置的一个重要因素。其次,是故障件的可维修性水平。故障件的可维修性水平越高,维修处理故障的时间越短,故障设备就能快速恢复工作状态;相反,如果故障件的可维修性差,则需要长时间来排除故障,为了保证设备的正常运行,只有进行换件处理,即依靠备件来接替工作。最后,是经济方面的因素。统计表明,高价设备的配件虽少,但是其费用却占总备件费用的很大一部分。此外,还有一些其他方面的因素,如关键性等。
后续备件的配置涉及一个分类的问题,根据不同的类别,因采取不同的配置方式。因此,这里使用SVM构建多元分类模型对齐进行分析。对于备件的属性选择,主要考虑可靠性、维修性和经济性三种因素,分别选择平均故障间隔时间(MTBF)、平均维修时间(MTTR)和单价作为备件的三种属性。因此,SVM的输入学习样本为三维,选取RBF径向基核函数作为样本向高维特征空间映射的核函数。表1所示为8种备件样本的属性及其经验分类。