基于核函数的学习算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这时,输入训练样本由原来的x变为Ø ( x) ,然后在这个特征空间F中进行线性FDA 。问题转变为在F中最大化目标函数JF(w)
式中,ω∈F,
是F中相应的矩阵,分别为
由于F空间的维数通常很高甚至是无穷维,因JF (w )式直接求解 很困难。借用非线性支持向量机的核方法,引入以下内积核函 数 来隐含地进行运算,,定义核矩阵K为 式中, (Ki ) pj = k ( xp , xij ) , p = 1, 2, ⋯, n, 是n ×ni 矩阵( i = 1, 2) ,是全体样本分别与类1、类2的内积核矩阵。 由再生核理论可知, F空间的任何解wØ 都是F空间中的训练样 本的线性组合,即:
基于核的Fisher判别分析
KFDA算法的思想是:引入核方法,通过一个非线性映射,将输入数据映射到一个 高维的线性可分的特征空间中,然后在这个特征空间中进行线性Fisher判别分析, 从而实现相对于输入空间的非线性判别分析。 在进行KFDA时,首先通过非线性映射Ø 将输入数据映射到一个高维特征空间中, 即
核方法分为核函数设计和算法设计两个部分,具体情况如图1 所示。核方法的实施步骤,具体描述为: ①收集和整理样本,并 进行标准化; ②选择或构造核函数; ③ 用核函数将样本变换成 为核矩阵; ④在特征空间对核矩阵实施各种线性算法;⑤得到 输入空间中的非线性模型。
核函数
主要的核函数有三类: 多项式核函数
该线性分类函数的VC维即为3
一般而言,VC维越大, 学习能力就越强,但学 习机器也越复杂。
目前还没有通用的关于计算任意函数集的VC 维的理论,只有对一些特殊函数集的VC维可以 准确知道。
结构风险最小化准则
Vapnik和Chervonenkis(1974)提出了SRM。 传统机器学习方法中普遍采用的经验风险最小化原则 在样本数目有限时是不合理的,因此,需要同时最小 化经验风险和置信范围。 统计学习理论提出了一种新的策略,即把函数集构造 为一个函数子集序列,使各个子集按照VC维的大小排 列;在每个子集中寻找最小经验风险,在子集间折衷考 虑经验风险和置信范围,取得实际风险的最小。这种 思想称作结构风险最小化准则(Structural Risk Minimization Principle)。
是第i类各个样本与总体的内积核的均值。
由上述三式可得
在F空间中,求解Fisher线性判别函数: 该判别函数隐式地对应原空间的一个非线性判别函数,因此, 它是一种非线性方法。求解矩阵N - 1M 的最大特征值对应的 特征向量就可求得上式的最优解。 测试数据在特征向量wØ 上的投影为: 在实际应用中为了防止N 非正定,使解更稳定,通常引入一个正 则化参数λ,令Nλ =N +λI, I是单位矩阵。则判别函数可以写为:
核函数
在处理线性分类问题时,数据以点积的形式( xi · xj ) 出现。 而在处理非线性分类问题时,需要采用非线性映射把输入 空间映射到高维特征空间,记为:
当在特征空间H 中构造最优超平面时,训练算法仅使用空 间中的点积,即 存在一种核函数K,使得: 核函数将m维高维空间的内积运算转化为n维低维输入空 间的核函数计算,从而巧妙地解决了在高维特征空间中计 算的“维数灾难”等问题。
径向基函数
S形函数
有监督学习 (supervised learning)
监督学习,就是人们常说的分类,通过已有 的训练样本(即已知数据以及其对应的输出) 去训练得到一个最优模型(这个模型属于某 个函数的集合,再利用这个模型将所有的输 入映射为相应的输出,对输出进行简单的判 断从而实现分类的目的,也就具有了对未知 数据进行分类的能力。 典型的例子就是SVM(可支持向量机)、 KFD(基于核的Fisher判别分析)。
机器学习
机器学习是现代智能技术中重要的一个方面,研究从观测样本出 发去分析对象,去预测未来。 机器学习的基本模型:
输出y与x之间存在一种固定的、但形式未知的联合概率分布函数 F(y,x)。
学习机中有函数集{f(x,w)},可估计输入与输出之间依赖关系, 其中w为广义参数。
风险最小化-机器学习问题表示
ω·x + b = 0
(1)
其中· 表示向量的点积,如图1 所示,超平面能将这n 个样 本分为两类,那么存在最优超平面不仅能将两类样本准确 分开,而且能使两类样本到超平面的距离最大。式(1) 中 的ω和b 乘以系数后仍能满足方程,进行归一化处理之后, 对于所有样本xi ,式| ω·xi + b| 的最小值为1 , 则样本与 此最优超平面的最小距离为|ω·xi + b |/‖ω‖= 1/‖ω‖,那么最优超平面应满足条件: yi(ω·xi + b)≥1,i=1,…,n. (2)
Kernel-Based Learning Algorithms
引言
近几年,出现了一些基于核函数的机器学习 方法,例如:SVM(可支持向量机)、KFD (基于核的Fisher判别分析)、KPCA(核主 成分分析)等。这些方法在分类问题、回归 问题以及无监督学习上都具有现实意义。这 些核函数方法已经成功应用到模式识别的各 个领域,比如目标识别、文本分类、时间序 列预测等等
已知变量y与输入x之间存在一定的未知依赖关系,即联合概率分布F(x,y) 机器学习就是根据独立同分布的n个观测样本: (x1, y1), (x2, y2), · · ·, (xn, yn) 在一组函数{f(x,w)}中求一个最优函数f(x,w0),使预测的期望风险R(w)最 小化。
R( w) L( y, f ( x, w))dF ( x, y )
理论基础 监督学习:SVM、KFD
无监督学习:KPCA
模型选择
理论基础
机器学习 VC维
结构风险最小化原则
SLT(Statistical Learning Theory)
上世纪90年代中才成熟的统计学习理论,是 在基于经验风险的有关研究基础上发展起来 的,专门针对小样本的统计理论。 统计学习理论为研究有限样本情况下的模式 识别、函数拟合和概率密度估计等三种类型 的机器学习问题提供了理论框架,同时也为 模式识别发展了一种新的分类方法——支持 向量机。
其思想可描述为:通过一个非线性函数,将输入空间映射 到更高维的特征空间中,然后在此高维空间中使用PCA方 法提取数据特征。由图1可以看出,非线性可分的输入空间 通过函数映射到特征空间后,变成了一个线性可分的问题。
Principal Component Analysis
主成分分析(Principal Component Analysis, 简称PCA)是 一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽 提的有效方法。
SVM(Support vector machines)
SVM是基于SLT的一种机器学习方法。简单的
说,就是将数据单元表示在多维空间中,然 后对这个空间做划分的算法。
SVM是建立在统计学习理论的VC维理论和结
构风险最小原理基础上的,根据有限的样本 信息在模型的复杂性之间寻求最佳折衷,以 期获得最好的推广(泛化)能力。
线性Fisher判别分析
对于两类问题,设待分类的样本有n个:x1, x2,…,xn∈Rd 。在进 行Fisher判别分析时,目标是找到线性投影方向(投影轴),使得 训练样本在这些轴上的投影结果类内散度最小,类间散度最大 。设样本类内均值为mi,则
设样本类间离散度矩阵为Sω,则
ຫໍສະໝຸດ Baidu
设样本类间离散度矩阵为Sb,则
支持向量机方法建立在统计学习理论基础之上,专门 针对小样本情况下的机器学习问题。 对于分类问题, 支持向量机方法根据区域中的样本计算该区域的分类 曲面,由该曲面决定该区域中的样本类别。 已知样本x 为m 维向量, 在某个区域内存在n个样本: (x1,y1),(x2,y2),…,(xn,yn) 其中,xi 是训练元组,xi∈Rm,yi是类标号,yi∈{1,1}。 若存在超平面( hyperplane):
Kernel Fisher discriminant analysis(基于核的Fisher判别 方法)
是由Mika 等人于1999 年提出的方法。 核 Fisher 判别分析是一种很有用的机器学习方 法,将一个非线性问题通过非线性变换转化为
另一个空间中的线性问题进行求解. 它不依赖于
模型 ,也不存在维数灾难。
无监督学习 (unsupervised learning)
无监督学习是我们事先没有任何训练样本,而需要直接对数 据进行建模。 典型的例子就是KPCA(核主成分分析)。
Kernel Principal Component Analysis
KPCA方法借鉴SVM的核方法思想,将线性的PCA扩展到 非线性情形。
b可以通过求解具有L1 软边界的一维线性支持向量机( SVM)来 确定。
SVM和KFD的比较
核Fisher判别分析与支持向量机分类精度相差不大;但由于SVM 需要求解二次优化问题,因此在训练样本较多的情况下需要的训 练时间较长,而KFDA只计算矩阵的特征向量,计算量小,在消耗 时间上具有明显的优势。 与SVM分类相似, KFDA的分类性能受核函数及参数影响很大, 核函数参数在特定的范围内才能得到良好的分类精度。
模型选择
核函数方法中模型选择十分重要,模型选择包 括核函数的选择、构造以及参数调整;就SVMs 而言,还包括容量控制参数(正则化参数) 、损 失函数的确定等。
最佳投影方向是通过最大化目标函数J(w) W为投影方向。
考虑到J(w)的尺度不变性,令分母为非零常数,用Lagrange乘 子法求解得到下面的特征值: W*就是J(w)中的极值解,也就是矩阵S - 1ω Sb的最大特征值对 应的特征向量。测试样本在这个向量上的投影系数就是所提 取的测试样本的特征值。 则FDA的判别函数为 b为偏移量,可以通过求解以下方程得到 则对于一待测样本xi ,求Fisher判别分析判别函数 f ( xi ) =w*xi + b,通过f ( xi )正负确定其归属。
根据最优超平面的定义可知:ω和b 的优化条件是使两类样本到超平 面最小距离之和2/‖ω‖最大。 此外,考虑到可能存在一些样本不 能被超平面正确分类,因此引入松弛变量 (slack variable):
ζi≥0, i=1,…,n.
(3)
(4)
这样上述二元分类问题转换为在式(2) 和式(3)的约束下最小化:
L(y, {f(x,w)})为损失函数,由于对y进行预测而造成的损失;w为函数的 广义参数,故{f(x,w)}可表示任何函数集;F(x,y) 为联合分布函数。
VC维
Vanik和Chervonenkis(1968)提出了VC维的概念。 VC维:对于一个指示函数(即只有0和1两种取值的函 数)集,如果存在h个样本能够被函数集里的函数按照 所有可能的2h种形式分开,则称函数集能够把h个样本 打散,函数集的VC维就是能够打散的最大样本数目。 VC维是描述函数集或学习机器的复杂性或者说是学习 能力的一个重要指标,在此概念基础上发展出了一系列 关于统计学习的一致性、收敛速度、泛化性能等的重 要结论。
对于类型未知的样本x , 可以采用线性判决函数: 来判断其所属类别,综合式(9),可得分类判决函数:
根据核函数的相关知识,可以使用核函数K( xi · xj )替代 线性分类问题中的点积形式,从而实现非线性变换后 的线性分类。由此,式(5) 的对偶形式可变为:
约束条件:
相应的分类判决函数转变为:
其中,非负常数C 为惩罚因子,C 值越大表示对错误分类的惩罚越大。 这是一个具有线性约束的二次规划问题,利用拉格朗日乘子法可以 将式(4) 转化为其对偶形式:
(5)
约束条件:
(6)
其中ai为原问题中与约束条件式(2) 对应的拉格朗日乘子。 这是一个不等式约束下的二次函数寻优问题,存在高效的 算法求解。可以证明,在此寻优问题的解中有一部分ai不 为0,它们所对应的训练样本完全确定了这个超平面,因 此称其为支持向量(support vector)。