核函数特征空间0610
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( x1, x2 )
( x1, x2 ) ( x12 , x22 , x1, x2 ) (4维)
• 对于n维输入空间,自由度取为d的单项式形式,特征映 射: d d
( x1 ,..., xn ) x1 ,..., xn ( x1 ,..., xn ) x 2 ,..., x 2 n 1 x ,....., x n 1
• 对目标概念的更为简洁的直接描述涉及比 给定数据更为广泛的抽象特征
– 导致核表示方法
核表示方法的特点
• 将给定数据映射到高维空间,变线性 不可分情形为线性可分,来增加线性 学习器的计算能力 • 用于学习的算法和理论可以在很大程 度上同应用领域的特性分开,而这些 特性将在设计合适的核函数时考虑
Ch.3 主要内容
P.26 图3.1 经过特征映射,使得所得数据可以线性分开
P.26 图3.1
特征映射:二维输入空间 → 二维特征空间 不能 → 能
数据线性分开:
3)特征映射可能产生的困难
• 考虑二维输入空间的情形 假定关于问题的先验知识提示:相关信息已编码到自由 度为 2 的单项式的形式,则一个可能使用的映射是:
C
K (g, x) f ( x)dx是正的。
(2)式中的{l j , j = 1, 2,...}是算子 TK 的谱 f j j 是 TK 的特征函数(标准正交)
b) 一般情形的说明(续)
② K ( x, y )对应的特征映射和特征空间上的内积: x = ( x1 ,..., xn ) a f ( x) = (f 1 ( x), f 2 ( x),..., f n ( x),...) 挝F F 上的内积: < f ( x), f ( y ) > = l2
f ( x) wii ( x) b w, ( x)
i 1 N F
b
( x) (i ( x), i 1,..., N )
(非线性特征映射)
即用二步法建立一个非线性学习器。
2)到特征空间的隐式映射
• 线性学习器的一个重要性质是可以表述为对偶形式 l (对偶变量 , w j 1 j y j ( x j ) ) • 针对上述变换后的假设
å
¥
l if i ( x)f i ( y ) = K ( x, y)
i= 1
③ 相应的决策函数 f ( x) =
邋l
i= 1
¥
l i
y if i ( x) + b =
i= 1
a j y j K ( x, x j ) + b
等式右边第一项为 < y , f ( x) > , 其中y =
决策函数在 原输入空间 上的表示 决策函数在 对偶空间上 的表示
CH.3 核函数特征空间
《导论》pp.24-46
• 需要学习的目标函数的复杂度取决于它的表示
(自变元个数、定义域、函数关系式、……),
学习任务的难易程度随之而变化。 • 线性学习器计算能力有限 • 核表示方法的特点
使用线性学习器分二类问题
• 分二类问题
寻找一个实值函数(决策函数)f:X R, 当 f(x) 0 时,输入 赋给正类; x ( x1 ,..., xn )' 当 f(x) 0 时,输入 赋给负类。
d
d1 d2 j x x 若还要用到交错项 n1 n2 ... xn j 的信息表示,则其特征 空间的维数将很快变得不可计算。
4)特征选择面临的重要任务
降低和排除维数灾难,提高计算性能和泛化性能 • 检测出无关特征并将其去除
– 特别是那些与目标值输出无关的特征
1、特征空间和特征选择问题
2、使用线性学习器学习一个非线性关系
3、关于核函数的讨论
4、特征空间中的计算
5、核与高斯过程
使用不同技术的困难所在
1、特征空间和特征选择问题
1)一个合理的思路 2)定义和概念 3)特征映射可能产生的困难 4)特征选择面临的重要任务
1)一个合理的思路
需要增加一个预处理步骤,将给定数据 的表达形式转换成一个与特定的学习问题 (如P.25, 例3.1 万有引力,x→lnx ) 所需 要的表示相匹配的一种形式。
• 例:万有引力计算中,物体的颜色、温度等
• 维数约简:
(主成分分析,…)
– 寻找包含原始属性中必要信息的最小特征集 x ( x1,..., xn ) ( x) (1 ( x),..., d ( x)) (d尽可能小于n)
• 关于万有引力的例子
• 作为学习过程的一个重要部分,如何实现自动化及 避免选择的任意性。
特征:自由度 为 d 的多项式
d
n d 维特征 d
iii)核函数方法的特点
• 直观想法: ①创建一个复杂的特征空间 ②寻找该特征空间上适当的内积 ③寻找一种直接的方法,用原始输入计算该值
• 实际做法: ①直接定义一个核函数 ②通过它隐式地定义了特征空间
(因此,在计算内积时,在学习器的设计中, 都避开了具体的特征空间)
i 1
n
n+2 特征空间: 维 2
d ) 推广到高次: K ( x, y ) x, y d ;
d n d 1 或 ( x , y c ) 维特征
3、关于核函数的讨论
1)核函数的性质和Mercer定理
2)再生核希尔伯特空间(RKHS)
(Reproducing Kernel Hilbert Space)
3)从核函数出发构造核函数 4)从特征出发构造核函数
1)核函数的性质和Mercer定理
i)对称性: K ( x, y) ( x) ( y) K ( y, x) ii)Cauchy-Schward不等式:
0(1)
¥
则存在函数列 F j 蜟L2 ( ),|| f j ||L2 = 1, j = 1, 2,... 及 l j ? 0, 使得K ( x, y )
å
l jf j ( x)f j ( y )(2)
l
i , j 1
是半正定的(非负定)
(证明:p.30 命题3.5)
实际对应特征映射 : xi
( t vti )
l t 1
l
, i 1,..., l
其中λ t是K 的第t个特征值, vt 是λ t对应的特征向量。
有限维输入下,Mercer 定理的证明(命题3.5)
命题 3.5 证明(续)
i 1 i 1 j 1
n
xi x j yi y j
i 1 j 1
n
n
( n,n ) ( i , j ) (1,1)
( xi , x j )( yi , y j ) ( x), ( y )
( n,n ) ( i , j ) (1,1)
P.26,例 3.2 关于万有引力定理的进一步例子:
8 3
2、使用线性学习器学习一个非线性 关系
Biblioteka Baidu1)考虑问题的思路
2)到特征空间的隐式映射
3)核函数方法
1)考虑问题的思路
• 应用一个固定的非线性映射Φ ,将原始数据(属 性)从输入空间 Χ 映射到特征空间 F ,在特 征空间 F 中使用线性学习器,提高计算能力。 • 所考虑的假设集是形为 f(x) 的函数:
反解得特征映射: ( x) ( xi , x j ) K ( x , y ) ( x, y c )
( n,n ) ( i , j ) (1,1) 2
c) 更一般地,也可以内积形式表示核函数:
( xi , x j )( yi , y j ) ( 2cxi )( 2c yi ) c 2
K ( x, y)2 K ( x, x) K ( y, y)
iii)非负定性 —— Mercer定理 K ( x, y) a) 是有限个输入组成的空间, 是 上对称函数 b) 更一般情形
iii)非负定性 —— Mercer定理
a) 是有限个输入组成的空间, K ( x, y) 是 上对称 函数: K ( x, y) 是核函数 矩阵 K ( K ( xi , x j ))
• 线性学习器 n 使用线性假设 f ( x) w, x b 1 wi xi b 确定最优超平面,其控制参数为 (w, b) Rn R 而决策规则由 sgn( f ( x)) 给出。
线性学习器计算能力有限
• 目标概念(函数)通常不能由给定属性的 简单线性函数组合产生
– 导致使用多层阈值线性函数(如:多层神经网 络、BP算法等)
iii)非负定性——Mercer定理(续)
b) 一般情形(输入的个数可能无限) n C ① Mercer定理:设输入空间 是 ¡ 紧子集,假设 K 是
连续对称函数。
任意对称,非负定函数 可以看作平方可积函数 空间上的一个内积。
且" f 蜟L2 ( ),都有 虺 C碈 K ( x, y ) f ( x ) f ( y )dxdy
å
l
a i y jf ( x j )
j= 1
② K ( x, y) 对应的特征映射和特征空间上的内积
③ 相应的决策函数 f ( x)
① Mercer 定理的说明
假设 K 是连续对称函数
" f 蜟L2 ( ),都有 虺 C碈 K ( x, y ) f ( x ) f ( y ) dxdy 0(1)
存在函数列F j 蜟L2 ( ),|| f j ||L2 = 1, j = 1, 2,... 及 l j ? 0, 使得K ( x, y )
å
¥
l j f j ( x)f j ( y )(2)
j= 1
(1) 式等价于:$ 积分算子 : L2 (C ) 瓹 L2 ( ) 使得(TK f )(g) =
f ( x) j y j ( x j ) ( x) bl : 训练样本个数
j 1 l
如果能找到一种方式,避开对特征映射Φ 的显式运算,而 在特征空间F中直接计算内积 <(xi ),(x)> , 则可得到假设函数在对偶空间上的表示: ( , b) l 1 • 原问题化为对偶空间( )上的一个线性学习问题, 而特征空间 F 本身的维数 N 和特征映射的显式表示 ( x) (i ( x), i 1,..., N ) 不再影响计算。
P.25 ―万有引力定理”,使用映射:x→lnx
2)定义和概念
• 属性: 原始的数据量(或输入量), xi ( xi (1) ,...xi ( n) ) 空间X是输入空间(低维)。
n
• 特征: 经变化后,用于描述数据的量 ( xi ) (1 ( xi ),...,N ( xi )) 新空间 F { ( x); x X } 是特征空间(高维) • 特征选择(特征映射): ( ( )) 选择最适合学习问题的数据表达方式的任务
l i,j=1
ii)核的几个简单例子(pp.28-29)
iii)核函数方法的特点
ii) 核的几个简单例子
a) 线性变换:x Ax, ( x, y ) x ' A ' Ay x ' By
2 n 2 n
返回 3.4 节
b)从核函数出发:K ( x, y ) x, y ( xi yi ) ( xi yi )( x j y j )
l 1
3)核函数方法
i)定义:核是一个函数K,s.t.x, y , K ( x, y) ( x) ( y) 其中(特征映射) : F
内积特征空间
核的使用,避免了特征向量的显式表示,而用原始数据 隐式表达了特征空间,并在对偶空间上直接训练线性学 习器。关于训练样例的唯一信息是它们在特征空间上的 Gram矩阵 K (xi, yi ) ,称为核矩阵(l l维 ),用粗体 表示