神经网络误差函数大全

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于误差函数的深入研究姓名:李宏成

学号:6720130345

摘要

我写这篇文章的目的意在补充老师上课中遗留的一些问题以及我自身对神经网络中误差函数的一些看法。文章涉及到hebb学习规则中误差函数推导过程,非线性传输函数中误差函数推导过程以及感知机的误差函数证明。如有不足之处,敬请谅解。

1.Hebb 学习规则中误差函数的推导过程

首先,在推导过程中我们首先要问问自己为什么我们要选择最小二乘?有许多东西都可以被优化,为什么我们要选择这样的指标(()()

∑=-=

m

i T

P W T W F 1

2

)?

其次,理论的推导过程是以有监督hebb 学习规则为前提,采用的传输函数是类似于线性联想器的purelin 函数。此函数为一过原点且斜率为1的直线,因此整个系统的输出结果就可以直接认为是该系统的净输入。 在这里,我们先定义如下几个基本参数 m 表示训练的样本数目 p 表示输入变量

a 表示实际输出 w 表示权值参数

于是()a p ,就构成了一个训练样本,更一般的()

()

()(

)p a

p i i ,表示第i 列训练样本集。所以,

我们可以用如下表达式来表述成我们所预想的结果:

()n n p w p w p w p a +++=...1100 (1.1)

为了突出权值在实际输出函数()p a 中的作用和更具有真实性质,以上式(1.1)子我们可以改写成:

()B p w p w p w p a n n w ++++=...1100 (1.2)

其中B 是一个偏置项,你可以把偏置项看成是对未建模事物产生的效应的一种估测。我们举个例子,购买房屋时我们主要是考虑房子每平米的价格,地理位置等主要特征(这里所指的权值),也许房子还有其它的特征比如说朝向,楼层高度,是否有电梯等因素。 用矩阵形式表示(1.2)可以改写成:

()

()()()()i i T i i i n

i i w

b p W b p w p a +=+∑==1

(1.3)

现在我们假设偏置项()

i b 服从均值为0,方差为2

∂的高斯分布,那么它的概率密度函数可以表示为: ()

()

()()

()()()(

)⎪

⎪⎭

⎫ ⎝

⎛--=⎪⎪⎭⎫ ⎝⎛-=22

222exp 212exp 21σσπσσπi T i w

i i p W p a b b

f (1.4)

观察等式(1.4)的右半部分,我们不难看出输出项()

i w a 服从均值为()

i T

P W ,方差为2

∂的高

斯分布。这里假设不同输入对应的偏置项()

i p 是彼此独立同分布的,这意味着它们都服从均值和方差完全相同的高斯分布。现在我们定义一个似然性函数:

()()()()

⎪⎪⎭

⎛--=⎪⎪⎭⎫ ⎝⎛-=22

222exp 21

2exp 21σσπσσπP W p a B W L T w (1.5)

由于所有的不同输入对应的偏置项都是彼此独立同分布的,则按上式列拆开就可以改写成:

()()()()(

)∏

=⎪

⎪⎭

⎫ ⎝

⎛--=m

i i T i w

p W p a W L 1

22

2exp 21

σσπ (1.6)

似然性越好,拟合的程度也就越高。这里我们通过调节权值矩阵W 来使得样本点尽可能的落在拟合线上或者是它附近区域内。这样我们才能够更精确地预测到所需要得到结果的最大概率。为了使得数学运算简便,我们定义()W l =()()W L ln 称之为对数似然性函数。这样,上式我们可以进一步得到:

()()()()()

⎪⎪⎭

⎛⎪⎪⎭⎫ ⎝

⎛--=∏=m i i T i w

p W p a W l 1

22

2exp 21

ln σσπ (1.7)()()()()

()

⎪⎪⎭

⎛⎪⎪⎭⎫ ⎝⎛--∑==2

2

12exp 21ln σσπi T i w

m

i p W p a W l ()()()()

()

∑=⎪⎪⎭

⎫ ⎝

--

-=m

i i T

i w

p W

p a W l 12

2

22ln

σσπ ()()()()()

()

∑=⎪⎪⎭

⎫ ⎝

-+

-=m i i T

i w

p W

p a W l 12

2

22ln

σ

σπ()(

)

()()()

()

2

1

2

1

22ln

σ

σπ∑∑==--

-=m

i i T

i w

m

i p W

p a W l

(1.8)

所以,要使得()w L 最大则只需

()()()

∑=-m

i i T

i

w

P W

a 1

2

最小即可。在这里我们又定义函数:

()()()

(

)2

1

∑=-=m

i i T

i w

p

W p a w F (1.9)

当()w F 等于零时,这个系统的似然性取得最大值。说明此模型的拟合度达到最佳状态;当

()w F 不等于零时,这个系统的似然性不为最大值,因此就说明此模型存在一定的误差。

其实,在某种意义上来说,似然性可以等价为训练样本与拟合线之间的距离。当训练样

本越靠近拟合线,取到这点的概率就越大,相应的似然程度就越高;当训练样本远离拟合线时,取到这点的概率越小,相应的似然程度也就越低。 这里,我们不妨将()w F 用矩阵的形式表示,即为:

()()()

2

1∑=-=m

i T W P W p a W F (1.10)

相关文档
最新文档