机器学习算法系列(12):SVM(2)—线性支持向量机

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ξi | |w| |

软间隔的支支持向量量x i要么在间隔边界上,要么在间隔边界与分离超平面面之间,要么在分离超平面面 误分类一一侧。 若a ∗ < C,则ξ i = 0,支支持向量量恰好落在间隔边界上;
i
若a ∗ = C, 0 < ξ i < 1,则分类正确,x i在间隔边界与分离超平面面之间; i 若a ∗ = C , ξ i = 1则x i在分隔超平面面上;
N
1
这时的上界损失函数又又称为代理理损失函数(surrogate function)。
图中虚线显示的是感知机的损失函数[ − y i(w · x i + b)] + 。这时当样本点(x i, y i)被正确分类时,损 失是0,否则损失是− y i(w · x i + b),相比比之下,合⻚页损失函数不不仅要分类正确,而而且确信度足足够 高高时损失才是0,也就是说,合⻚页损失函数对学习有更更高高的要求
1 总和也要最小小:目目标函数由原来的 | | w | | 2变成 2
(
)
1 | | w | | 2 + C ∑ ξi 2 i=1
N
这里里里,C > 0称为惩罚参数,一一般事先由应用用问题决定,控制目目标函数中两项(“寻找 margin 最大大 的超平面面”和“保证数据点偏差量量最小小”)之间的权重,C越大大时对误分类的惩罚增大大,C值小小时对
[z ] + =
{
z, z > 0 0, z ≤ 0
这就是说,当样本点(x i, y i)被正确分类且函数间隔(确信度)y i(w · x i + b)大大于1时,损失是0,否 则损失是1 − y i(w · x i + b)。目目标函数的第二二项是系数为λ的w的L 2范数,是正则化项。 接下来证明线性支支持向量量机原始最优化问题: 1 min w , b , ξ | | w | | 2 + C ∑ ξ i 2 i=1 s. t. y i w · x i + b ⩾ 1 − ξ i , i = 1, 2, · · · , N ξ i ⩾ 0, i = 1, 2, · · · , N 等价于最优化问题
2.2 支支持向量量
再现性不不可分的情况下,将对偶问题的解中对应于a ∗ > 0的样本点(x i, y i)的实例例x i称为支支持向量量
i
(软间隔的支支持向量量)。如图所示,这时的支支持向量量要比比线性可分时的情况复杂一一些。
图中,分离超平面面由实线表示,间隔边界由虚线表示。正例例点由 。 表示,负例例点由 × 表示。图 中还标出了了实例例x i到间隔边界的距离
机器器学习算法系列列(12):SVM(2)— 线性支支持向量量机
当训练数据近似线性可分时,通过软间隔最大大化学习一一个线性的分类器器,即线性支支持向量量机,又又 称为软间隔支支持向量量机。
二二、线性支支持向量量机与软间隔最大大化
2.1 线性支支持向量量机
通常情况是,训练数据中有一一些特异点 outlier ,将这些特异点除去后,剩下大大部分的样本点组 成的集合是线性可分的。 线性不不可分意味着某些样本点不不能满足足函数间隔大大于等于1的约束条件。为了了解决这个问题,可 以对每个样本点引进一一个松弛变量量ξ ⩾ 0,使函数间隔加上松弛变量量大大于等于1.这样,约束条件变 成 yi w · xi + b ⩾ 1 − ξi 同时,对每个松弛变量量ξ ⩾ 0,支支付一一个代价ξ ⩾ 0。当然,如果我们允许ξ ⩾ 0任意大大的话,那任 意的超平面面都是符合条件的了了。所以,我们在原来的目目标函数后面面加上一一项,使得这些 ξ ⩾ 0的
N N
将源自文库们代入入拉格朗日日函数,得到和原来一一样的目目标函数。 1
N N
max a −
∑ ∑ a a y y x · x + ∑ ai 2 i = 1j = 1 i j i j i j i=1
N
(
)
N
s . t.
i=1
∑ a iy i = 0
C − ai − ui = 0 ai ⩾ 0 ui ⩾ 0 不不过,由于我们得到C − a i − u i = 0,而而又又有u i > 0(作为拉格朗日日乘子子的条件),因此有a i ≤ C,所 以整个 dual 问题现在写作:
(
)
可证明w的解是唯一一的,但b的解不不唯一一,b的解存在于一一个区间。 用用之前的方方法将限制加入入到目目标函数中,得到如下原始最优化问题的拉格朗日日函数: 1 L(w, b, ξ, a, u) = | | w | | 2 + C ∑ ξ i − ∑ a i y i w · x i + b − 1 + ξ i − ∑ u iξ i 2 i=1 i=1 i=1
N N
( (
)
)
N
首首先求拉格朗日日函数针对w, b, ξ的极小小。 ∂L = 0 ⇒ w = ∑ a iy ix i ∂w i=1 ∂L = 0 ⇒ ∑ a iy i = 0 ∂b i=1 ∂L ∂ξ i = 0 ⇒ C − a i − u i = 0 , i = 1, 2, 3 · · · , N
1 误分类的惩罚减小小。最小小化目目标函数包含两层含义:使 | | w | | 2尽量量小小即间隔尽量量大大,同时使误 2
分类点的个数尽量量小小,C是调和二二者的系数。 则有以下优化问题: 1 min w , b , ξ | | w | | 2 + C ∑ ξ i 2 i=1
N
s. t. y i w · x i + b ⩾ 1 − ξ i , i = 1, 2, · · · , N ξ i ⩾ 0, i = 1, 2, · · · , N
1 max a − ∑ ∑ a ia jy iy j⟨x i · x j⟩ + ∑ a i 2 i = 1j = 1 i=1
N
N N
N
s . t.
i=1
∑ a iy i = 0
0 ≤ a i ≤ C , i = 1, 2, · · · , N
和之前的结果对比比一一下,可以看到唯一一的区别就是现在拉格朗日日乘子子a多了了一一个上限C。而而 Kernel 化的非非线性形式也是一一样的,只要把⟨x i, x j⟩ 换成 κ(x i, x j) 即可。 构造并求解上述二二次规划问题后求得最优解 a ∗ = a ∗, a ∗, · · · , a ∗
N N
(
)
minw , b ∑ [1 − y i(w · x i + b)] + + λ | | w | | 2
i
先令[1 − y i(w · x i + b)] + = ξ i,则ξ i ≥ 0,第二二个约束条件成立立;由[1 − y i(w · x i + b)] + = ξ i,当 1 − y i(w · x i + b) > 0时,有y i(w · x i + b) = 1 − ξ i;当1 − y i(w · x i + b) ≤ 0时,ξ i = 0,有 y i(w · x i + b) ≥ 1 − ξ i,所以第一一个约束条件成立立。所以两个约束条件都满足足,最优化问题可以写 作
1 2 N
(
)
T
然后计算
N
w∗ =
i=1
∑ a i∗ y ix i
选择a ∗ 的一一个分量量a i∗ 适合约束条件0 < a i < C,计算
N
b ∗ = yj −
i=1
∑ a i∗ y i⟨x i · x j⟩
对任一一适合条件都可求得一一个b ∗ ,但是由于原始问题对b的求解并不不唯一一,所以实际计算时可以 取在所有符合条件的样本点上的平均值。
i
若a ∗ = C, ξ i > 1,则x i位于分离超平面面误分一一侧。 i
2.3 Hinge损失函数
线性支支持向量量机学习除了了原始最优化问题,还有另外一一种解释,就是最优化以下目目标函数:
N
∑ [1 − y i(w · x i + b)] + + λ | | w | | 2
i
目目标函数的第一一项是经验损失或经验⻛风险,函数 L(y · (w · x + b)) = [1 − y(w · x + b)] + 称为合⻚页损失函数(hinge loss function)。下标"+"表示以下取正值的函数:
N
minw , b ∑ ξ i + λ | | w | | 2
i=1
若取λ = 2C 则 1 1 minw , b ( | | w | | 2 + C ∑ ξ i) C 2 i=1 与原始最优化问题等价。 合⻚页损失函数图像如图所示,横轴是函数间隔y(w · x + b),纵轴是损失。由于函数形状像一一个合 ⻚页,故名合⻚页损失函数。 图中还画出了了0-1损失函数,可以认为它是一一个二二类分类问题的真正的损失函数,而而合⻚页损失函 数是0-1损失函数的上界。由于0-1损失函数不不是连续可导的,直接优化其构成的目目标函数比比较困 难,可以认为线性支支持向量量机是优化由0-1损失函数的上界(合⻚页损失函数)构成的目目标函数。
相关文档
最新文档