现代机器学习理论大作业

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

现代机器学习理论大作业

题目：葡萄酒的种类识别

----基于支持向量机（SVM ）的数据分类预测

学院：_________________

姓名：_________________

学号：_________________

现代机器学习理论》葡萄酒的种类识别

-- 基于支持向量机（SVM ）的数据分类预测

一、理论知识

1、支持向量机（SVM ）简介

支持向量机（SVM ）是Vapnik 等人根据统计学习理论提出的一种学习方法，近年来在模式识别、回归分析、图像处理和数据挖掘等方面得到了广泛应用。支持向量机方法根据Vapnik 的结构风险最小化原

则，尽量提高学习机的泛化能力，即由有限训练样本得到的决策规则，对独立的测试集仍能够得到小的误差。此外，支持向量机算法是一个凸二次优化问题，能够保证找到的极值解就是全局最优解。这些特点使支持向量机成为一种优秀的学习算法。

目前在国外，SVM 是一个研究的热门，并目已经取得了一些成果。这一点可以从近几年国外发表的学术论文看出，IEEE Transactions on Neural Networks 也已经出版了关于VC 理论和SVM 方面的专集。自从90 年代初经典SVM 的提出，由于其完整的理论框架和在实际应用中取得的很多好的效果，

在机器学习领域受到了广泛的重视。其理论和应用在横向和纵向上都有了发展。

目前对SVM 的理论研究与进展主要包括：模糊支持向量机；最小二乘支持向量机；加权支持向量机；主动学习的支持向量机等。而对算法的改进主要内容有：降低计算量；自适应算法的研究；噪声数据处理；核函数的构造和参数的选择理论研究；主动学习策略的应用；增量学习等。

虽然SVM 方法在理论上具有很突出的优势，但与其理论研究相比，应用研究相对比较落后。最近几年，应用研究才逐渐地多起来。在模式识别领域，包括手写体数字识别、人脸检测、语音识别、目标识别、文本分类等方面，取得了一定的成果。此外，支持向量机具有调节参数少，运算速度快，时间代价小的优点，随着支持向量机理论研究的逐步深入，支持向量机在模式识别、回归估计、概率密度函数估计等问题上的研究也逐步深入，必将成为各国研究者的研究热点。

2、支持向量机（SVM ）原理

支持向量机(Support Vector Machine ,简称SVM)是建立在统计学习理论的VC维理论和

结构风险最小原理的基础上发展起来的一种机器学习方法。支持向量机集成了最大间隔超平

面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。支持向量机的学习目标就是

构造一个决策函数，能够将数据点尽可能多的正确分开。

2.1线性可分问题

在很多现实情况下，训练样本数据具有噪声，特征空间一般不能线性分开，不可能建立一个不具有分类误差的分类超平面。如下图所示，希望找到一个最优超平面，对整个训练集合平均的分类误差的概率达到最小。

图1.2.1线性不可分示意图

我们在原有基础上引入了松弛变量i 0, i可以用来度量样本x i违反约束条件的程度，在允许一定的程度上违反间隔约束。约束条件就变为

y i W T X i b 1 i, i 1,2,L ,n

对于0i 1，样本A落入分离区域的内部，挡在分类面的正确一侧，对于i 1，则i可以用来度量样本X i违反约束条件的程度，在允许一定的程度上违反间隔约束。约束条件就变为

y W T X i b 1 i, i 1,2,L ,n

则问题的目标函数和约束条件就为

1 2 min 2 W||

n

C

i 1

i

其中i 0,i 1,2丄,n

s.t y i W T X b 1 i

n

其中i提现了经验风险，

i 1

IWII2体现了表达能力，C为惩罚参数，它的作用是控制

对错分样本的惩罚程度，实现在错分样本的比例与最大分类间隔之间的折中，C数值越大，则对错误的惩罚越重，这个值得选取依赖于经验或通过实验确定。相应地，也可以通过拉格朗日函数来求参数。

线性不可分的约束最优化问题中W和b的最优值的计算和线性可分情况中的过程是相

同的，因此线性可分可以看作是线性不可分的特例。线性可分和线性不可分也仅仅区分在它

们的约束条件不同，线性可分的约束条件是i 0，而线性不可分的约束条件是0 i C。

2.2非线性支持向量机

在上述讨论的支持向量机必须所有的训练样本能够被线性分开，构造出最优分类面，很多实际情况中训练样本是不能够被线性分开的，就引出了非线性支持向量机。非线性支持向量机的实现就是通过某种事先选择的非线性映射（核函数）将输入向量映射到一个高维特征空间中，在这个空间中构造最优分类超平面。

：R H ,将输入向量从原始的低维空间R n映射到新的高维空间假设有非线性映射

H中去，然后在高维特征空间中利用二次规划的方法寻找最优超平面。这就意味着建立非

线性学习器分为两步：首先使用一个非线性映射将训练样本数据变换到一个特征空间中，然

后在这个特征空间使用线性学习分类器分类。图 1.2.2展示了样本从二维输入空间映射到二

维特征空间，在输入空间数据不能通过线性函数分开，但是在特征空间是可以的。

图1.2.2特征的映射

K x,y

2 1 2 cos x y

在上面的线性支持向量机对偶问题中，不论是目标函数还是分类函数都只涉及到训练样

本之间的内积运算；X i ，X j ：，如果有一种方式可以在高维特征空间中直接计算内积，就避免了复杂的高维运算。就像在原始输入点的函数中一样，

就有可能将两个步骤融合到一起建立

一个非线性的学习器。因此，我们只要能够找到一个核函数K 使得 K X i ,X j :

X i , X j ］。根据泛函的有

关理论，只要核函数满足 Mercer 条件，就对应

某一变换空间的内积。

因此，在最优分类面中采用满足 Mercer 条件的内积函数 K X i ,X j 就

可以实现某一非线性变换后的线性分类，而计算复杂度却没有增加。

将核函数K X i ,X j 带入原问题中，即可得到用于分类的非线性的支持向量机

s.t y i W T g

X i

b

求解最优决策方法与线性的类似。

训练样本数据映射到高维特征空间中，

在求解最优化

问题和计算决策函数时并不需要显式计算该非线性函数，

而只需计算核函数，从而避免了特征空

间的维数灾难。

核函数是输入空间和特征空间之间的映射，

核函数的选择对非线性支持向量机的构建起

着至关重要的作用，核函数的选择是一个难题，下面列出了几种常用的核函数

：

(1) 线性可分

K x,y x y

⑵

多项式核函数

K x, y

' x, y r

径向基（RBF ）核函数

K x, y exp

Sigmoid 核函数（多层感知器核函数）

正则傅里叶核函数

min

1

||W |

2 n

C

i

2

i 1

K x,y

tanh x,y r