Matlab教程课件-SVM支持向量机简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一部分 支持向量分类机
1.线性可分问题
代表+1 代表 -1
wT x + b>0
怎样将数据分类?
w Tx + b<0
代表 +1 代表 -1
哪一个“最好”呢?
最大间隔
代表 +1 代表 -1
支持 向量
x
间隔宽度M
x
M (x x )T w 2
w
w
目标1:将所有的点正确分类
wT xi b 1iff yi 1 wT xi b 1iff yi 1
i ,i* 0,i 1,, l
参数由用户给定
第三部分 Libsvm简介
MATLAB自带的svm实现函数是svmtrain和
svmclassify函数,实现C-SVC模型,且仅支持二 分类问题。
LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开 发设计的软件。 https://.tw/~cjlin/libsvm/
利用SVM建立分类模型,达到自动分类葡萄酒品 种的目的。
分类问题的数学表示
已知:训练集包含 l 个样本点:
T {( x1, y1 ), , ( xl , yl )}
说明:
xi Rn 是输入向量,其分量称为特征或属性
yi y {1, 2, N} 是输出指标.
问题:对一个新的数据 x ,推断它所对应的输出
b*
yj
l
yii*
(

j
)
jS{ j| j 0}
i1
f (x) (w* )T ( x) b*
l
yii*( xi )T ( x)
yj
l
yii*
(
xi
)
T
(
x
j
)
i 1
jS { j| j 0}
i1
常用核函数 K(xi, xj ) (xi )T(xj )
线性核: K(xi , xj ) xi T xj
yi (wT xi b) 1, i
目标2:最大化间隔宽度
max 2 w
最优分类面问题可以表示成约束优化问题
min 1 w 2 w,b 2 s.t. yi ((w xi ) b) 1,i 1,...,l
只要求得该问题的最优解 w*,b* ,从而可以构造出划分 超平面(w*)T x b* 0 ,得出决策函数 f (x) sgn((w*)T x) b*)。
i ,i* 0,i 1,, l
y=wT.x+b+ y=wT.x+b
y=wT.x+b-
参数由用户给定
-SVR
min
w,b, ,i ,i*
1 2
w 2 C
1 l
l i 1
(i
i* )
s.t. (wT xi ) b yi i ,i 1,, l
yi ((wT xi ) b) i*,i 1,, l
支持向量机(SVM)
第〇部分 引例 第一部分 支持向量分类机 第二部分 支持向量回归机 第三部分 Libsvm软件简介
第〇部分 引例
案例1:意大利葡萄酒种类识别
wine数据(chapter12_wine.mat)记录的是意大利 同一地区3中不同品种的葡萄酒13中化学成分含 量。共有178个样本。
多项式核: K(xi , xj ) ( xi T xj r)d
高斯核(RBF): K(xi , x j ) exp(
2
xi x j )
Sigmoid核: K(xi , xj ) tanh( xi T xj r)
tanh( x)
ex ex
ex ex
-SVC
min
w,b, ,
1 2
2.近似线性可分问题
不要求所有训练点都被正确分 类 ,对每个训练点引入松弛变 量 i 0 并满足约束。
yi wT xi b i 1
l
可用i 度量错划分程度。 i 1
两个目标:1. 间隔尽可能大 2. 错划程度尽可能小
min
w,b,
1 2
l
w 2 C i
i 1
参数C由用户给定
s.t yi (wT xi b) 1 i , i 1, l
y ? {1, 2, , N}
分类问题目标属性是离散的
案例2:上证指数开盘指数预测
Chapter14_sh.mat数据记录的是从1990年12月 19日到2009年8月19日期间4579个交易日每日 上证综合指数的各项指标。分别记录当天上证指 数的开盘指数:指数最高值,指数最低值,收盘 指数,当日交易量,当日交易额。
i 0,i 1, l
3.非线性可分问题
Φ: x → ϕ(x)
min
w,b,
1
2
l
w 2 C i
i 1
参数C由用户给定
s.t yi (wT( xi ) b) 1 i , i 1, l
i 0, i 1, l
l
w* yii*(xi ) i 1
为以上优化问题对应的对偶优化问题的最优解
b.一对一法(OvO):在任意两类样本之间设计一 个SVM,因此N个类别的样本就需要设计 N(N-1)/2个SVM。当对一个未知样本进行分类时, 得票最多的类别即为该未知样本的类别。
OvO与OvR示意图
第二部分 支持向量回归机
y=wTx+b+
y=wTx+b
y=wTx+b-
min 1 w 2 w,b 2 s.t. wTxi b yi , i 1, , l
yi (wTxi b) , i 1, , l
有少量的样本落在-带外,对落在-带外的样 本进行惩罚。
-SVR
min
w,b, ,*
1 2
w 2 C1 n
n
(i i*)
i 1
s.t. (wT xi ) b yi i ,i 1,, l
yi ((wT xi ) b) i*,i 1,, l
利用SVM建立的回归模型对开盘指数进行预测。
回归问题的数学表示
已知:训练集包含 l 个样本点:
说明:
T {( x1, y1 ), , ( xl , yl )}
xi Rn 是输入向量,其分量称为特征或属性
yi R 是输出数值.
问题:对一个新的数据 x ,推断它所对应的输出 y ?
回归问题目标属性是连续的
w
2
1 l
l i 1
i
s.t yi (wT(xi ) b) i , i 1, l
i 0,i 1, l, 0
参数由用户给定
多分类问题
a.一对其余法(OvR):训练时依次把某个类别的样本 归为一类,其他剩余的样本归为另一类,这样就训练 出了N个SVM。当对一个未知样本进行分类时,得 票最多的类别即为该未知样本的类别。
相关文档
最新文档