利用支持向量机进行模式分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9章 神经网络模式识别
实验五
利用支持向量机进行模式分类
第9章 神经网络模式识别
引言: 引言:关于统计学习理论 统计学习理论是一种建立在小样本统计学 上的理论。 上的理论。 小样本统计学理论指的是依据有限样本进 行统计推断。 行统计推断。
第9章 神经网络模式识别
支持向量机 支持向量机(Support Vector Machine, SVM)是一种基于统 支持向量机 是一种基于统 计学习理论的机器学习算法, 建立在统计学习理论的结构风险 计学习理论的机器学习算法 建立在统计学习理论的结构风险 最小化原则之上。 最小化原则之上。 之上 针对两类分类问题, SVM在高维空间中寻找一个超平面 作 在高维空间中寻找一个超平面 针对两类分类问题 在高维空间中寻找一个 超平面作 为两类的分割, 以保证最小的分类错误率。 为两类的分割 以保证最小的分类错误率。 少数与超平面最接近的那些训练样本称为支持向量 少数与超平面最接近的那些训练样本称为支持向量, 它们决 支持向量 定了推广性能。 定了推广性能。 SVM有三个关键的概念 分类间隔 有三个关键的概念: 分类间隔(margin)、 对偶 有三个关键的概念 、 对偶(duality) 以及核。 以及核。
x → Φ (x) = (Φ1 ( x), Φ 2 ( x),⋯ , Φ i (x),⋯)T
其中, 是实函数。 其中 Φi(x)是实函数。 则可以建立在新空间中的优化超平面 是实函数 则可以建立在新空间中的优化超平面:
< w , Φ (x) > +b = 0
第9章 神经网络模式识别
定义核函数 定义核函数 K(x, y)=〈Φ(x), Φ(y)〉, 那么最大间隔非线性支 〈 〉 持向量机的目标函数就变为 持向量机的目标函数就变为 目标函数就变为
1 N N W (a) = ∑ ai − ∑∑ yi y j ai a j K (xi , x j ) 2 i =1 j =1 i =1
N
∑ya
i =1
N
i i
= 0, 0 ≤ ai ≤ C , i = 1, 2,⋯ , N
第9章 神经网络模式识别
采用不同的内积核函数将形成不同的算法, 采用不同的内积核函数将形成不同的算法 常用的核函 数有以下几种: 数有以下几种 (1) 多项式函数 表达式为 多项式函数, 表达式为
g ( x) = aT y + c0 = ∑ ai yi + c0
i =1
2
第9章 神经网络模式识别
更一般的二次判决函数可以表示为
g (x) = w0 + ∑ wi xi + ∑∑ wij xi x j
i =1 i =1 j =1
d
d
d
yi=fi(x)为二次式或一次式 可使 为二次式或一次式, 变为线性函数, 为二次式或一次式 可使g(x)变为线性函数 即 变为线性函数
1 最大化:W (a) = ∑ ai − ∑ ai a j yi y j < xi , x j > 2 i, j i =1 N 使满足: 使满足:∑ ai yi = 0 ai ≥ 0, i = 1, 2,⋯ , N
i =1
N
其中, 为每个样本对应的Lagrange乘子。 这是一个在等式 乘子。 其中 ai为每个样本对应的 乘子 约束下的凸二次优化问题, 存在唯一解, 且解中只有一部分a 约束下的凸二次优化问题 存在唯一解 且解中只有一部分 i 不为零, 对应的样本就是支持向量 支持向量。 不为零 对应的样本就是支持向量。
第9章 神经网络模式识别
方点和圆点各代表一类样本, H为分类线 H1和H2分别 方点和圆点各代表一类样本 为分类线, 为分类线 为过两类中距离分类线最近的样本且平行于分类线的 直线, 它们之间的距离称为分类间隔 分类间隔。 直线 它们之间的距离称为分类间隔。 最优分类线就是 最优分类线 就是 要求分类线不但 能将两类样本正 确分开, 而且使 分类间隔最大。 分类间隔最大。
一维特征空间中非线性可 分图示
若选择下列非线性变换: 若选择下列非线性变换 y = [ y1 , y2 ]T = [ x, x 2 ]T a = [a1 , a2 ]T = [c1 , c2 ]T 于是二次判决函数就可以化为向量y的线性函数 于是二次判决函数就可以化为向量 的线性函数: 的线性函数
第9章 神经网络模式识别
< w , x i > +b ≥ 0 判别函数满足条件: 判别函数满足条件 < w , x i > +b < 0
(yi=+1) (yi=-1) -
归一化, 将判别函数进行归一化 将判别函数进行归一化 使两类所有样本都满足 |f(x)|≥1, 则判别函数变为 判别函数变为
1 N N W (a) = ∑ ai − ∑∑ yi y j ai a j K (xi , x j ) 2 i =1 j =1 i =1
相应的分类函数为 相应的分类函数为 分类函数
N
f (x) = sgn[< w , Φ (x) > +b] = sgn[∑ yi ai K (xi , x) + b]
线性可分情况下的最优分类
第9章 神经网络模式识别
• 假设存在训练样本 i, yi), i=1, 2, …, N, 假设存在训练样本(x xi∈Rn, yi∈{-1, +1} • 在线性可分情况下会有一个超平面使得这两类样本 完全分开。 完全分开。 • n维空间中线性判别函数的一般形式为 维空间中线性判别函数 维空间中线性判别函数的一般形式为 f(x)=〈w, x〉+b, 〈 〉 , 超平面描述为 描述为 则超平面描述为< w , x > +b = 0 其中, 维向量空间中的两个向量的内积, 其中 〈w, x〉是n维向量空间中的两个向量的内积 〉 维向量空间中的两个向量的内积 w是超平面的法向量。 是超平面的法向量。 是超平面的法向量
第9章 神经网络模式识别
使‖w‖2最小就变成了求下面的函数 ‖ 1 解: 最小化: 最小化: V (w, b) = < w, w >
2 使满足: 使满足: yi (< w, xi > +b) − 1 ≥ 0
(i=1, 2, …, N)
利用Lagrange优化方法可以把上面问题转化为其对偶问题 优化方法可以把上面问题转化为其对偶问题: 利用 优化方法可以把上面问题转化为其对偶问题
yi (< w, xi > +b) − 1 ≥ 0
中的等号
第9章 神经网络模式识别
2
线性不可分情况 线性不可分情况
非线性SVM问题的基本思想是: 通过非线性变换将非线性 问题的基本思想是 非线性 问题的基本思想
问题转换为某个高维空间中的线性问题, 问题转换为某个高维空间中的线性问题 在变换空间求最优分 类面。 一般地, 新空间维数要高于原空间维数。 类面。 一般地 新空间维数要高于原空间维数。 这种非线性 映射可表示为: 将x作变换 作变换Φ: Rn→H (H为某个高维特征空间 为某个高维特征空间) 映射可表示为 作变换 为某个高维特征空间
i =1
N
第9章 神经网络模式识别
举例 ω1的决策区域为 -∞, a)和(b, +∞), 的决策区域为(- 和 ω2的决策区域为 b), 由此可以建 的决策区域为(a, 立一个二次函数 g(x)=(x-a)(x-b)=c0+c1x+c2x2, - 对应的决策规则为 对应的决策规则为
g ( x) > 0 x ∈ ω1 g ( x) < 0 x ∈ ω 2
g (x) = aT y + w0 = ∑ ai yi + w0
i =1
ˆ d
这样, 原来的问题就通过从x到 的映射简化为寻找一个齐次线 这样 原来的问题就通过从 到y的映射简化为寻找一个齐次线 性分类器问题。 性分类器问题。
第9章 神经网络模式识别
非线性支持向量机的最优化问题为
最大化: 最大化: 使满足: 使满足:
K ( x , x i ) = ( < x, x i > + c ) q
(c≥0)
此时, 支持向量机是一个q阶多项式学习机器 阶多项式学习机器。 此时 支持向量机是一个 阶多项式学习机器。 当c>0时, 称 时 它为非齐次多项式核; 它为非齐次多项式核 当c=0时, 称为齐次多项式核。 时 称为齐次多项式核。
第9章 神经网络模式识别
线性可分情况 线性可分情况 SVM从线性可分情况下的最优分类发展而来。 从线性可分情况下的最优分类发展而来。 从线性可分情况下的最优分类发展而来 利用支持向量机进行样本分类也包括训练和执 行两个阶段。 行两个阶段。 (1) 样本训练:给定训练样本集训练线性分类器 样本训练:给定训练样本集训练线性分类器, 即确定线性分类器参数。 即确定线性分类器参数。 (2) 样本识别:利用训练好的分类器对输入样本 样本识别: 进行识别。 进行识别。
其中, 其中 µ>0, c<0。 。
第9章 神经网络模式识别
(2) 高斯径向基函数 高斯径向基函数(RBF), 表达式为 表达式为
2 1 K (x, xi ) = exp − 2 x − xi 2σ
(3) Sigmoid函数 表达式为 函数, 表达式为 函数
K (x, xi ) = tanh[ µ < x, xi > +c]
yi (< w, xi > +b) − 1 ≥ 0 (i=1, 2, …, N)
此时样本点到超平面的最小距离为 此时样本点到超平面的最小距离为 1/ w , 分类间隔 样本点到超平面的最小距离 最大等价于使‖ ‖ 最小。 等于 2 / w 。使 2 / w 最大等价于使‖w‖2 最小。 满足归一化判别函数并且使‖ ‖ 满足归一化判别函数并且使‖w‖2最小的分界面称为 最优分界面, 上的训练样本点称为支持向量。 最优分界面 H1和H2上的训练样本点称为支持向量。
第9章 神经网络模式识别
此时最优分类函数为 此时最优分类函数为 最优分类函数
Fra Baidu bibliotek
f (x) = sgn{< w , x > +b} = sgn{∑ ai yi < xi , x > +b}
i =1
N
上式求和计算取a 中不为零的值, 可以利用任一支 上式求和计算取 i中不为零的值 b可以利用任一支 持向量满足 求得。 求得。
实验五
利用支持向量机进行模式分类
第9章 神经网络模式识别
引言: 引言:关于统计学习理论 统计学习理论是一种建立在小样本统计学 上的理论。 上的理论。 小样本统计学理论指的是依据有限样本进 行统计推断。 行统计推断。
第9章 神经网络模式识别
支持向量机 支持向量机(Support Vector Machine, SVM)是一种基于统 支持向量机 是一种基于统 计学习理论的机器学习算法, 建立在统计学习理论的结构风险 计学习理论的机器学习算法 建立在统计学习理论的结构风险 最小化原则之上。 最小化原则之上。 之上 针对两类分类问题, SVM在高维空间中寻找一个超平面 作 在高维空间中寻找一个超平面 针对两类分类问题 在高维空间中寻找一个 超平面作 为两类的分割, 以保证最小的分类错误率。 为两类的分割 以保证最小的分类错误率。 少数与超平面最接近的那些训练样本称为支持向量 少数与超平面最接近的那些训练样本称为支持向量, 它们决 支持向量 定了推广性能。 定了推广性能。 SVM有三个关键的概念 分类间隔 有三个关键的概念: 分类间隔(margin)、 对偶 有三个关键的概念 、 对偶(duality) 以及核。 以及核。
x → Φ (x) = (Φ1 ( x), Φ 2 ( x),⋯ , Φ i (x),⋯)T
其中, 是实函数。 其中 Φi(x)是实函数。 则可以建立在新空间中的优化超平面 是实函数 则可以建立在新空间中的优化超平面:
< w , Φ (x) > +b = 0
第9章 神经网络模式识别
定义核函数 定义核函数 K(x, y)=〈Φ(x), Φ(y)〉, 那么最大间隔非线性支 〈 〉 持向量机的目标函数就变为 持向量机的目标函数就变为 目标函数就变为
1 N N W (a) = ∑ ai − ∑∑ yi y j ai a j K (xi , x j ) 2 i =1 j =1 i =1
N
∑ya
i =1
N
i i
= 0, 0 ≤ ai ≤ C , i = 1, 2,⋯ , N
第9章 神经网络模式识别
采用不同的内积核函数将形成不同的算法, 采用不同的内积核函数将形成不同的算法 常用的核函 数有以下几种: 数有以下几种 (1) 多项式函数 表达式为 多项式函数, 表达式为
g ( x) = aT y + c0 = ∑ ai yi + c0
i =1
2
第9章 神经网络模式识别
更一般的二次判决函数可以表示为
g (x) = w0 + ∑ wi xi + ∑∑ wij xi x j
i =1 i =1 j =1
d
d
d
yi=fi(x)为二次式或一次式 可使 为二次式或一次式, 变为线性函数, 为二次式或一次式 可使g(x)变为线性函数 即 变为线性函数
1 最大化:W (a) = ∑ ai − ∑ ai a j yi y j < xi , x j > 2 i, j i =1 N 使满足: 使满足:∑ ai yi = 0 ai ≥ 0, i = 1, 2,⋯ , N
i =1
N
其中, 为每个样本对应的Lagrange乘子。 这是一个在等式 乘子。 其中 ai为每个样本对应的 乘子 约束下的凸二次优化问题, 存在唯一解, 且解中只有一部分a 约束下的凸二次优化问题 存在唯一解 且解中只有一部分 i 不为零, 对应的样本就是支持向量 支持向量。 不为零 对应的样本就是支持向量。
第9章 神经网络模式识别
方点和圆点各代表一类样本, H为分类线 H1和H2分别 方点和圆点各代表一类样本 为分类线, 为分类线 为过两类中距离分类线最近的样本且平行于分类线的 直线, 它们之间的距离称为分类间隔 分类间隔。 直线 它们之间的距离称为分类间隔。 最优分类线就是 最优分类线 就是 要求分类线不但 能将两类样本正 确分开, 而且使 分类间隔最大。 分类间隔最大。
一维特征空间中非线性可 分图示
若选择下列非线性变换: 若选择下列非线性变换 y = [ y1 , y2 ]T = [ x, x 2 ]T a = [a1 , a2 ]T = [c1 , c2 ]T 于是二次判决函数就可以化为向量y的线性函数 于是二次判决函数就可以化为向量 的线性函数: 的线性函数
第9章 神经网络模式识别
< w , x i > +b ≥ 0 判别函数满足条件: 判别函数满足条件 < w , x i > +b < 0
(yi=+1) (yi=-1) -
归一化, 将判别函数进行归一化 将判别函数进行归一化 使两类所有样本都满足 |f(x)|≥1, 则判别函数变为 判别函数变为
1 N N W (a) = ∑ ai − ∑∑ yi y j ai a j K (xi , x j ) 2 i =1 j =1 i =1
相应的分类函数为 相应的分类函数为 分类函数
N
f (x) = sgn[< w , Φ (x) > +b] = sgn[∑ yi ai K (xi , x) + b]
线性可分情况下的最优分类
第9章 神经网络模式识别
• 假设存在训练样本 i, yi), i=1, 2, …, N, 假设存在训练样本(x xi∈Rn, yi∈{-1, +1} • 在线性可分情况下会有一个超平面使得这两类样本 完全分开。 完全分开。 • n维空间中线性判别函数的一般形式为 维空间中线性判别函数 维空间中线性判别函数的一般形式为 f(x)=〈w, x〉+b, 〈 〉 , 超平面描述为 描述为 则超平面描述为< w , x > +b = 0 其中, 维向量空间中的两个向量的内积, 其中 〈w, x〉是n维向量空间中的两个向量的内积 〉 维向量空间中的两个向量的内积 w是超平面的法向量。 是超平面的法向量。 是超平面的法向量
第9章 神经网络模式识别
使‖w‖2最小就变成了求下面的函数 ‖ 1 解: 最小化: 最小化: V (w, b) = < w, w >
2 使满足: 使满足: yi (< w, xi > +b) − 1 ≥ 0
(i=1, 2, …, N)
利用Lagrange优化方法可以把上面问题转化为其对偶问题 优化方法可以把上面问题转化为其对偶问题: 利用 优化方法可以把上面问题转化为其对偶问题
yi (< w, xi > +b) − 1 ≥ 0
中的等号
第9章 神经网络模式识别
2
线性不可分情况 线性不可分情况
非线性SVM问题的基本思想是: 通过非线性变换将非线性 问题的基本思想是 非线性 问题的基本思想
问题转换为某个高维空间中的线性问题, 问题转换为某个高维空间中的线性问题 在变换空间求最优分 类面。 一般地, 新空间维数要高于原空间维数。 类面。 一般地 新空间维数要高于原空间维数。 这种非线性 映射可表示为: 将x作变换 作变换Φ: Rn→H (H为某个高维特征空间 为某个高维特征空间) 映射可表示为 作变换 为某个高维特征空间
i =1
N
第9章 神经网络模式识别
举例 ω1的决策区域为 -∞, a)和(b, +∞), 的决策区域为(- 和 ω2的决策区域为 b), 由此可以建 的决策区域为(a, 立一个二次函数 g(x)=(x-a)(x-b)=c0+c1x+c2x2, - 对应的决策规则为 对应的决策规则为
g ( x) > 0 x ∈ ω1 g ( x) < 0 x ∈ ω 2
g (x) = aT y + w0 = ∑ ai yi + w0
i =1
ˆ d
这样, 原来的问题就通过从x到 的映射简化为寻找一个齐次线 这样 原来的问题就通过从 到y的映射简化为寻找一个齐次线 性分类器问题。 性分类器问题。
第9章 神经网络模式识别
非线性支持向量机的最优化问题为
最大化: 最大化: 使满足: 使满足:
K ( x , x i ) = ( < x, x i > + c ) q
(c≥0)
此时, 支持向量机是一个q阶多项式学习机器 阶多项式学习机器。 此时 支持向量机是一个 阶多项式学习机器。 当c>0时, 称 时 它为非齐次多项式核; 它为非齐次多项式核 当c=0时, 称为齐次多项式核。 时 称为齐次多项式核。
第9章 神经网络模式识别
线性可分情况 线性可分情况 SVM从线性可分情况下的最优分类发展而来。 从线性可分情况下的最优分类发展而来。 从线性可分情况下的最优分类发展而来 利用支持向量机进行样本分类也包括训练和执 行两个阶段。 行两个阶段。 (1) 样本训练:给定训练样本集训练线性分类器 样本训练:给定训练样本集训练线性分类器, 即确定线性分类器参数。 即确定线性分类器参数。 (2) 样本识别:利用训练好的分类器对输入样本 样本识别: 进行识别。 进行识别。
其中, 其中 µ>0, c<0。 。
第9章 神经网络模式识别
(2) 高斯径向基函数 高斯径向基函数(RBF), 表达式为 表达式为
2 1 K (x, xi ) = exp − 2 x − xi 2σ
(3) Sigmoid函数 表达式为 函数, 表达式为 函数
K (x, xi ) = tanh[ µ < x, xi > +c]
yi (< w, xi > +b) − 1 ≥ 0 (i=1, 2, …, N)
此时样本点到超平面的最小距离为 此时样本点到超平面的最小距离为 1/ w , 分类间隔 样本点到超平面的最小距离 最大等价于使‖ ‖ 最小。 等于 2 / w 。使 2 / w 最大等价于使‖w‖2 最小。 满足归一化判别函数并且使‖ ‖ 满足归一化判别函数并且使‖w‖2最小的分界面称为 最优分界面, 上的训练样本点称为支持向量。 最优分界面 H1和H2上的训练样本点称为支持向量。
第9章 神经网络模式识别
此时最优分类函数为 此时最优分类函数为 最优分类函数
Fra Baidu bibliotek
f (x) = sgn{< w , x > +b} = sgn{∑ ai yi < xi , x > +b}
i =1
N
上式求和计算取a 中不为零的值, 可以利用任一支 上式求和计算取 i中不为零的值 b可以利用任一支 持向量满足 求得。 求得。