极限学习机原理介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
w11 w W 21 ... wl1
w12 w22 ... wl 2
... w1n ... w2 n ... ... ... wln l n
(1)
其中, w ji 表示输入层第 i 个神经元与隐含层第 j 个神经元的连接权值。 设隐含层与输出层间的连接权值 为
^ ^
提及,ELM 的性能也得到了很大的提升,其应用范围亦愈来愈广,其重要性亦日 益体现出来。
T n
ti [ti1 , ti 2 ,..., tim ] R m ,给定任意小误差 0 ,和一个任意区间无限可微的
激活函数 g : R R,则总存在一个含有 K ( K Q ) 个隐含层神经元的 SLFN,在 任意赋值 wi R 和 bi
n
R 的情况下,有 || H N M M m T ' ||
.
由定理 1 可知, 若隐含层神经元个数与训练集样本个数相等, 则对于任意的 w 和
b ,SLFN 都可以零误差逼近训练样本,即
|| t
j 1
Q
j
y j || 0
(8)
其中,
y j [ y1 j , y2 j ,..., ymj ]T ( j 1,2,..., Q) .
然而,当训练样本个数 Q 较大时,为了减少计算量,隐含层神经元个数 K 通常 取比 Q 小的数,由定理 2 可知,SLFN 的训练误差逼近一个任意的
(7)
Ql
在前人的基础上,黄广斌等人提出了以下两个定理: 定理 1 给定任意 Q 个不同样本( ( xi , ti ) ,其中, xi [ xi1 , xi 2 ,..., xin ] R ,
T n
ti [ti1 , ti 2 ,..., tim ] R m ,一个任意区间无限可微的激活函数 g : R R,则对
极限学习机(Extreme Learning Machine,ELM)
一,ELM 概要 极 限 学 习 机 是 一 种 针 对 单 隐 含 层 前 馈 神 经 网 络 (Single-hidden Layer Feedforward Neural Network, SLFN)的新算法。相对于传统前馈神经网络训练速度 慢,容易陷入局部极小值点,学习率的选择敏感等缺点,ELM 算法随机产生输入 层与隐含层的连接权值及隐含层神经元的阈值,且在训练过程中无需调整, 只需 要设置隐含层神经元的个数, 便可以获得唯一的最优解。 与之前的传统训练方法 相比,ELM 方法具有学习速度快,泛化性能好等优点。
(10)
其解为
H T '
其中, H 为隐含层输出矩阵 H 的 Moore Penrose 广义逆.
^
(11)
三,ELM 的学习算法 由以上分析可知,ELM 在训练之前可以随机产生 w 和 b ,只需确定隐含层 神经元个数及隐含层神经元的激活函数 (无限可微) , 即可计算出 .具体地, ELM 的学习算法主要有以下几个步骤: (1) 确定隐含层神经元个数,随机设定输入层与隐含层的连接权值 w 和隐 含层神经元的阈值 b ; (2) 选择一个无限可微的函数作为隐含层神经元的激活函数,进而计算隐含 层输出矩阵 H ; (3) 计算输出层权值 : H T ' . 值得一提的是,相关研究结果表明,在 ELM 中不仅许多非线性激活函数都 可以使用(如 S 型函数,正弦函数和复合函数等) ,还可以使用不可微函数,甚 至使用不连续的函数作为激活函数。 四, ELM 当前研究现状 ELM 以其学习速度快,泛化性能好等优点, 引起了国内外许多专家和学者的 研究和关注。 ELM 不仅适用于回归, 拟合问题, 亦适用于分类, 模式识别等领域, 因此,其在各个领域均得到广泛的应用。同时,不少改进的方法和策略也被不断
0 ,即
|| t
j 1
Q
j
y j ||
(9)
因此,当激活函数 g ( x) 无限可微时,SLFN 的参数并不需要全部进行调整, w 和
b 在训练前可以随机选择,且在训练过程中保持不变。而隐含层和输出层的连接
权值 可以通过求解以下方程组的最小二乘解获得:
min || H T ' ||
其中, wi
(5)
[ wi1 , wi 2 ,..., win ] ; x j x1 j , x2 j ,..., xnj
T
式(5)可表示为
H T '
'
(6)
其中,T 为矩阵 T 的转置; H 称为神经网络的隐含层输出矩阵,具体形式如下:
H ( w1 , w2 ,..., wl , b1 , b2 ,..., bl , x1 , x2 ,...xQ ) g ( w1 x1 b1 ) g ( w2 x1 b2 ) g ( w x b ) g ( w x b ) 1 2 1 2 2 2 ... ... g ( w1 xQ b1 ) g ( w2 xQ b2 ) ... g ( wl x1 bl ) ... g ( wl x2 bl ) ... ... ... g ( wl xQ bl )
于具有 Q 个隐含层神经元的 SLFN,在任意赋值 wi R 和 bi
n
' 隐含层输出矩阵 H 可逆且有 || H T || 0 .
R 的情况下,其
定理 2 给定任意 Q 个不同样本 ( xi , ti ) ,其中, xi [ xi1 , xi 2 ,..., xin ] R ,
11 21 ... l1
12 22 ... l 2
.ቤተ መጻሕፍቲ ባይዱ. 1m ... 2 m ... ... ... lm l m
(2)
其中, jk 表示隐含层第 j 个神经元与输出层第 k 个神经元间的连接权值。 设隐含层神经元的阈值 b 为
二,ELM 概述 传统的典型单隐含层前馈神经网络结构如下图一所示,由输入层,隐含层和 输出层组成,输入层与隐含层,隐含层与输出层神经元间全连接。其中,输入层 有 n 个神经元, 对应 n 个输入变量; 隐含层有 l 个神经元; 输出层有 m 个神经元, 对应 m 个输出变量。在不失一般性的情况下,设输入层与隐含层间的连接权值 W为
y12 y22 ... ym 2
... y1Q ... y2Q ... ... ... ymQ mQ
(4)
设隐含层神经元的激活函数为 g ( x ) ,则由图一可知,网络的输出 T 为
T [t1 , t 2 ,..., tQ ]mQ
l g ( w x b ) i 1 i j i t1 j i 1 l t 2j g ( w x b ) i 2 i j i tj i 1 ( j 1,2,..., Q) l t mj m1 im g ( wi x j bi ) i 1 m1
b1 b b 2 bl l1
设具有 Q 个样本的训练集输入矩阵 X 和输出矩阵 Y 分别为
(3)
x11 x 21 X ... xn1
x12 x22 ... xn 2
... x1Q y11 y ... x2Q Y 21 ... ... ... ... xnQ nQ ym1