[工学]PR 第五章非线性分类

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i 1 n

感知器，感知准则函数
g ( y) T y
min J P ( )
y j Y

( T y j )
k
(k 1) (k ) k
y j Y

yj
k

当两类线性可分时，此算法收敛 Minsky等发现并证明 (1969)，感知器只能解决一阶谓词逻辑问题，不能解决高阶问题，如不能解决XOR 问题。出路：多个感知器结点结合，引入隐节点，如右图的结构可实现 XOR。如何求多层感知器的权值？
特征x进行非线性变换 z ( x) 决策函数： f ( x) sgn w z b sgn y ( x ) ( x) b

i1

n
i
i
i

优化问题变成：
max
α
1 n Q ( ) i i j yi y j (x i ) (x j ) 2 i , j 1 i 1
上一章的多类线性判别函数实际就是分段线性判别函数。思路：如果两类可以划分为线性可分的若干子类，则可以设计多个线性分类器，实现分段线性分类器。

最简单情况：直接依据样本到各子类中心的距离判别（距离分类器）更一般情况：对每个子类求一个线性判别函数。

5.3 二次判别函数 (Quadratic Discriminant)
l j l j l j nl 1 k 1 l 1 k l 1 jk
,m
, nl

(5) 重新计算输出，考查误差指标（或其它终止条件）。如达到终止条件则终止，否则置t=t+1，转（2）。
说明：算法可能收敛于局部极小点（梯度算法）与初值、步长等的选择有关，更与网络结构（结点数目）有关，多凭经验或试验选择
该思想的推广：核函数方法（核方法）例：核Fisher判别（Kernel Fisher’s Discriminant）

核Fisher判别（Kernel Fisher’s Discriminant）：扩展到非线性情况
Fisher线性判别
wT S B w max J ( w) T w w SW w

5.4.4 用多层感知器网络实现模式识别
输入—— 样本特征向量（必要时归一化）输出—— 类别编码常用输出编码： 1-of-C编码：c类则c个输出结点，该输出结点值为1则为该类，否则为0 两类：一个输出结点，0、1各代表一类。也可用c个网络解决c类问题，每个网络只分一类（是与否）。
第五章非线性Baidu Nhomakorabea类器
5.1 引言
线性判别函数：简单、实用、经济，但线性不可分时错误率可能较大问题线性不可分采用非线性分类器本章介绍几种非线性分类器

分段线性分类器二次判别函数
神经网络
支持向量机
5.2 分段线性判别函数 (piecewise linear discriminant functions)
5.4.3 采用反向传播算法的多层感知器

MLP结构

结点采用Sigmoid函数
f ( ) 1/(1 e )
1 f ( ) 1 e ( )
MLP特性：可以实现任意复杂的非线性映射关系用于分类：

两层网（一个隐层）可实现空间内任意的凸形成
区域的划分。三层网（两个隐层）可实现任意形状（连续或不连续）区域划分。
i j
1 m
i j i j i, j
核函数 K ( x , x ) ( x ) ( x ) 变换空间里的支持向量机

i j i j

是下列优化问题的解：
n
n f ( x) sgn i yi K ( xi , x) b i 1
max
问题：如何找到这样的网络结构？权值如何确定？反向传播算法----BP算法（Back Propagation Algorithm）

BP算法：LeCun, 1986; Rumelhart, Hinton & Williams, 1986; Parker, 1985 (1) 权值初始化，t=0（用小随机数） (2) 给出一个训练样本 x x ,, x R 和期望输出 D d ,, d R (3) 计算在x输入下的实际输出 Y y ,, y (4) 从输出层开始，调整权值，对第l层，有
三种SVM方法
5.5.6 用于函数拟合的支持向量机
支持向量回归SVR 用于函数拟合采用的损失函数不同于SVM

5.6 核函数机器（Kernel Machines）

SVM的两个核心思想
大间隔方法（Large-margin
methods）具有良
好的推广能力核函数方法（Kernel methods）解决了非线性映射和计算问题

5.5 支持向量机 (Support Vector Machines)
统计学习理论线性可分的情况非线性可分的情况

分类函数应该使期望风险最小，但实际实现时是使经验风险最小
1 N Remp ( w) L( yi , f ( xi , w)) N i 1 R( w) L( yi , f ( x, w))dF ( x, y)
1 w SW (m1 m2 )

emp
5.5.1 广义线性判别函数
y ( x)
5.5.2 核函数变换与支持向量机

线性支持向量机的对偶问题：
1 N max Q() i i j yi y j ( xi x j ) 2 i , j 1 i 1
s.t.
N
y
i 1 i
N
i
0
0 i C, i 1,, N

j 1
x
Ni
j
Ni 1 ˆi ( x j mi )(x j mi )T Ni 1 j1

两类的决策面方程：
g1 ( x) g2 ( x)

决策规则：
0 g1 ( x) g 2 ( x) 0 x 1 x 2
5.4 多层感知器神经网络

常用核函数形式
多项式核函数
K ( x, x' ) ( x x' ) 1
q
径向基（RBF）核函数
( x x' ) 2 K ( x, x' ) exp 2
Sigmoid函数
K ( x, x' ) tanhv( x x' ) c
人工神经网络 Artificial Neural Network (NN)的基本结构：
大量简单的计算单元（结点）以某种形式相连
接，形成一个网络，其中的某些因素，如连接强度（权值）、结点计算特性甚至网络结构等，可依某种规则随外部数据进行适当的调整，最终实现某种功能。

三个要素：
神经元的计算特性（传递函数）网络的结构（连接形式）学习规则

5.4.5 神经网络结构的选择

三个要素：
神经元的传递函数 ---- 通常选Sigmoid函数网络结构 ---- 通常三层（1个隐层）即可满足常见任务
需求，隐层节点数目？连接权值 ---- 通常采用 BP算法学习

过学习（over-fitting）与欠学习（under-fitting）问题样本数与网络结构问题隐层节点数目：
正态分布下贝叶斯决策面一般为二次函数，根据样本学习分类（决策、判别）函数的参数。样本近似正态分布时效果较好。判别函数 2 T ˆ 1

ˆ i ) i ( x m ˆ i ), i 1, 2 gi ( x) ki ( x m
1 ˆi m Ni
阈值，控制决策椭球大小。 ki 样本到类均值的 Mahalanobis距离的平方与阈值的比较

三要素的不同形成了各种各样的神经网模型基本可分为三大类：
前馈网络
以MLP为代表反馈网络以Hopfield网为代表自组织网络（竞争学习网络）以SOM为代表

基本的神经元模型 McCulloch-Pitts Model (1943)
y sgn( wi xi w0 )
α
1 n Q ( ) i i j yi y j K ( xi x) 2 i , j 1 i 1
s.t.
y
i 1 i
n
i
0
0 i C , i 1, , n

支持向量满足等式
n yi i K ( xi x) b 1 0 i1
n
s.t.
y
i 1 i
n
i
0
0 i C , i 1, , n

支持向量满足等式
n yi i ( xi ) ( x) b 1 0 i 1

定理（Mercer条件）对于任意的对称函数 K (x, x) 它是某个特征空间中的内积运算的充分必要条件是，对于任意的 0and (x)dx 有
经验风险是在给定的训练样本上对期望风险 h R( w ) R ( w ) ( ) 的估计 N 这个估计量怎么样？统计学习理论：有限样本下，经验风险和期望风险的关系在训练误差相同的情况下，学习机器的复杂度越低（VC维越低），期望风险与经验风险的差别越小，学习机器的推广能力越好。

5.4.1 神经元与感知器神经元（neuron）：细胞体（cell）、树突（dentrite）、轴突（axon）、突触（synapses）神经元的作用：加工、传递信息（电脉冲信号）神经系统：神经网：大量神经元的复杂连接通过大量简单单元的广泛、复杂的连接而实现各种智能活动。

判别函数：
N * f ( x) sgn g ( x) sgn (w x) b sgn i yi ( xi x) b* i 1

*

支持向量满足等式
n yi i ( xi x) b 1 0 i1

T n 1 n
T m 1 m
T
1
m
l l wij (t 1) wij (t ) lj xil 1
l j
j 1,
, nl
i 1,
, nl 1
其中为学习步长, 计算如下：对输出层： lj y j (1 y j )(d j y j ) j 1, 对中间层： x (1 x ) w (t ) j 1,
根据具体问题进行试探选择：例
维数据对问题的先验知识去精心地设计隐层节点的层数和节点数目：例用算法来推测适当的隐层节点数目：例
隐结点数目小于输入

前馈神经网络与传统模式识别的关系
感知器，基于感知准则函数的线性分类器
多层感知器，对贝叶斯后验概率的估计
用于分类：前馈神经网络--多层感知器， RBF神经网络用于函数优化：反馈神经网络—Hopfield网用于聚类（非监督学习）：基于竞争学习的神经网络—SOM神经网络

核函数及其参数的选择

核函数与相似性度量
SVM的基本思想、优势 SVM和NN SVM的决策过程可以看做是一种相似性比较的过
程
5.5.3支持向量机应用举例
方法
测试错误率
人工
决策树方法两层神经网络五层神经网络
2.5%
16.2% 最小5.9% 5.1% 4.0%、4.1%和 4.1%
2
K (x, x) (x) (x)dxdx 0 正定核（positive definite kernels）： K (x , x ) 是定义在空间X上的对称函数，且对任意的训练数据 x ,, x X 和任意的实系数 a1 ,, am R 都有 a a K ( x , x ) 0 。这样构成的空间是可再生核希尔伯特空间 RKHS（reproducing kernel Hilbert space）

[工学]PR 第五章 非线性分类

[工学]PR 第五章非线性分类