分段线性函数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矩阵所有行向量的最大无关组个数称为 行秩; 矩阵所有列向量的最大无关组个数称为 列秩; 一个矩阵的行秩等于列秩,称为矩阵的 秩。
转置
列矢量W的转置WT为一个行矢量;
N*M的矩阵A的转置AT为一个M*N的矩 阵。
矢量与矢量的乘法(1)
设W和X为N维列矢量
WT X wi xi
i 1 N
优化的准则函数
定义误差矢量e:
e XW B
定义准则函数J(W,B):
1 2 1 1 2 T J W, B e XW B XW B XW B 2 2 2
梯度法求解
J 0 W
J 0 B
上面两个公式成立的W即为所求。
定义伪逆矩阵X*:
df f dX xij M N f x 11 f xM 1 f x1N f xMN
常用矢量微分的性质
X和W为N维矢量,A为M*N的矩阵:
f X X W
T
df X W dX df X W dX
2维特征的二次判别函数。
2 3 1 2 4 2
d X a1x1 a2 x2 a x a x a5 x1x2 a6
XOR问题的二次函数解
2 d X 0.6636x1 1.0056x2 0.4189x12 0.8578x2 3.3908x1x2 0.6207
多类问题(情况二)
d12 X x1 x3 5
d13 X x1 3
d12(X)=0
+
-
d23 X x1 x2
类别一
类别二
+
)=0 X ( d 13
-
d
类别三
23 (
X) =0
-
+
多类问题(情况三)
情况三是情况二的特例,不存在拒识区 域。
d1 (X 2 )=0
多类问题(情况二)
每两类之间可以用一个超平面分开,但 是不能用来把其余类别分开; 需要将M个类别的多类问题转化为 M(M-1)/2个两类问题。 第i类与第j类之间的判别函数的为:
T dij X Wij X
i j
多类问题(情况二)判别准则
如果对任意j≠i ,有dij(X) )≥0 ,则决策X 属于Ωi。 其它情况,则拒识。
扩展的感知器算法
4.
重复2,3步,当k=M时,检测L个判别 函数是否能够对全部训练样本正确分 类,如正确分类,则结束,否则k=1, 转2,继续。
3.4 非线性判别函数的学习
一、二次判别函数
二、分段线性函数
三、其它非线性判别函数方法
XOR问题
二次判别函数
增加特征的高次项,降低维特征转化为高维 特征;
多类问题情况三
1.
2.
采用扩展的感知器算法 初始化L个权向量Wi(1),选择常数C, 置步数k=1; 输入增广特征矢量Xk,计算L各判别函 数的输出:
di Xk W k Xk
T i
扩展的感知器算法
3.
修改权矢量,规则为: 若Xk属于Ωi,并且di(Xk)>dj(Xk),对任 意的j≠i,则: W i(k+1)=W i(k),i=1,…,L 若Xk属于Ωi,而dl(Xk)<dj(Xk),则: W i(k+1)=Wi(k)+CXk; W l(k+1)=Wl(k)+CXk W j(k+1)=Wj(k),j≠I, l
N
i 1 N wi ai 2 T W A i 1 N w a i iN i 1
i i1
结果是一个N维列矢量。
正交
设W和X为N维列矢量,如果W与X的内 积等于零:
W X0
T
则称W与X正交,也称W垂直于X。
逆矩阵
多类问题(情况一)
每一类模式可以用一个超平面与其它类 别分开; 这种情况可以把M个类别的多类问题分 解为M个两类问题解决;
多类问题(情况一)
d1 X x1 x2 d2 X x1 x2 5 d3 X x2 1
x2
d( 2 X )= 0
IR
类别一 类别二 IR d3(X)=0 IR 类别三
X i
3.2 两类别线性判别函数的学习
一、问题的表达
二、感知器算法
三、最小均方误差算法(LMSE)
问题的表达
已知两个类别的训练样本集合:
1 : X1, X2 ,
, XL
2 : XL1, XL2 ,
, XM
求向量W,使得d(X)=WTX,能够区分 Ω1类和Ω2类。
类别一 类别二
)=0 d 13(X
类别三
d
23 (
X) =0
多类问题(情况三)判别函数
M个类别需要M个线性函数:
di X WiT X wi1x1 wi 2 x2 wiN xN wi ( N 1)
判别准则:
1 j M
di X max d j X
3.
重复第2步,直到所有训练样本被正确 识别。
LMSE算法的思想
此方法也称为Ho-Kashyap算法(H-K算法) 将线性不等式组XW≥0的问题,转化为 解线性方程组XW=B的问题。 其中:B=(b1, b2, …, bN)T,bi≥0
问题求解
已知:增广矩阵X(可由训练样本集得 到 ); 求:W和B。 X一般不是方阵,所以问题实际上无解, 只能求近似解。
A为一个N*N的方阵,A的迹为主对角线 元素之和:
tr A aij
i 1 N
A为一个N*N的方阵,A的迹为主对角线 元素之和:
det A
矩阵的迹、行列式值与特征值 之间的关系
矩阵A有N个特征值1,2,…, N, 则有如下关系:
tr A i
i 1
N
det( A) i
i 1
N
矩阵对数值变量微分
矩阵A(t)=[aij(t)]M*N,元素aij(t)是变量t 的函数,矩阵A(t)对t的微分:
dA(t ) daij (t ) dt dt M N
矩阵函数对矩阵的微分
矩阵X=(xij)M*N,M*N元函数f(X),定义 f(X)对矩阵X的导数:
x1N xLN x( L 1) N xMN
1 w1 0 1 wL 0 1 wL 1 0 1 0 wM
XW 0
结果是一个数。
矢量与矢量的乘法(2)
设W和X为N维列矢量
w1 x1 w x 2 1 T WX wN x1
w1 x2 w2 x2 wN x2
w1 xN w2 xN wN xN
结果是一个N*N维的矩阵。
矢量与矩阵的乘法
设W为N维列矢量,A为一个N*M的矩 阵: w a
问题的表达
X W 0, X W 0,
T 1 T 2
,X W 0
T L
X W 0, X
T L1
T L 2
W 0,
, X W 0
T M
矩阵形式描述
T x12 X1 x11 XT xL1 xL 2 L T W X L 1 x( L 1)1 x( L 1)2 T xM 2 xM 1 XM
X称为增广矩阵。
权矢量的解
只有当样本集线性可分的条件下,解才 存在; 线性不等式组的解是不唯一;
感知器算法的思想
Y + W(k+1) +
W(k)
感知器算法
1.
2.
初始化,置W(1)中的元素为一个小的 随机数; 在第k步学习训练样本Xk,按照如下公 式修正权值W:
WT k X k 0 W k , W k 1 T W k C X , W k Xk 0 k
第三章 判别函数分类器
矢量
矢量X可以看作是N维欧氏空间中的一个 点,用一个列矢量表示:
x1 x 2 X xN
矩阵
矩阵可以看作是由若干个矢量构成的:
X X A T XM
T 1 T 2
矩阵的秩
df X ( A AT ) X dX
f X W X
T
f X X AX
T
3.1 线性判别函数
一、两类问题 二、多类问题
两类问题的线性判别函数
d X0 w1x1 w2 x2
wn xn wn1 W X0 wn1
T 0
X0=(x1, x2,…, xN)T为待识模式的特征矢 量; W0=(w1, w2, …, wN)T称为权矢量。
线性判别函数的增广形式
d X W X
T
X=(x1, x2,…, xN, 1) T称为增广的特征矢 量; W=(w1, w2, …, wN , 1)T称为增广的权矢 量。
两类问题线性判别准则
0, X 1 T d X W X 0, X 2 0, 拒识
T
X X X X
1
T
W X B X X X B
* T 1 T
H-K算法
1. 2.
3. 4.
由训练样本集计算X,X*=(XTX)-1XT; 初始化 B(0),每个分量是一个小的正 值,选常数C,置k=0; 计算W(k)=X*B(k),e(k)=XW(k)-B(k); 若e(k)=0,停止迭代,输出W=W(k); 若e(k)≤0,停止迭代,线性不可分; 其它情况,继续第5步;
A为一个N*N的方阵,A的逆阵用A-1表 示,满足:
AA A A I
其中I为单位阵。 一个矩阵的逆阵存在条件:1)是一个方阵, 2)是一个满秩矩阵,矩阵的秩为N
1
1
矩阵的特征值和特征向量
A为一个N*N的方阵,如果有:
Aξ ξ
数称为A的特征值,矢量ξ 称为A的特 征矢量。
矩阵的迹和行列式值
分段线性函数—聚类的方法
子类1
类别1
子类1 子类2
类别2
子类2
类别1
子类3
分段线性函数—逐块二分法
类别1
类别2
类别1
类别2
其它的非线性判别函数
函数逼近法:多项式函数,指数函数等;
多层感知器
H-K算法
5.
迭代计算:
ek 0 B k , B k 1 B k Ce k , e k 0
6.
k=k+1,返回第3步,继续。
3.3 多类别线性判别函数的学习
情况一:M类问题转化为M个两类问题: Ωi样本作为一类,其它样本作为另一类 进行训练; 情况二:M类问题问题转化为M(M-1)/2 个两类问题, Ωi样本作为一类, Ωj样 本作为另一类,训练Wij;
IR
d
1
(X )= 0
x1
多类问题(情况一)判别规则
当d1(X)≥0,而d2(X)<0且d3(X)<0时,判 别X属于Ω1; 当d2(X)≥0,而d1(X)<0且d3(X)<0时,判 别X属于Ω2; 当d3(X)≥0,而d1(X)<0且d2(X)<0时,判 别X属于Ω3; 其它情况,拒识。