数据挖掘技术第十一课前馈神经网络

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

缺点：
• 效率比梯度下降法低。 • 不适合处理大型神经网络。
神经网络的优点
抗噪性能好既能处理连续数据，也能处理类别型数据在多个领域有成功应用既适合有监督学习，也适合无监督学习
神经网络的缺点
缺乏可解释性可能无法找到最优解可能存在过学习问题(overfitting)
隐含层结点的错误计算
Error(j) = (kError(k)Wjk)f ’(xj)
• Error(k): 输出层结点k的错误
• Wjk • f ’(xj) • xj
: 连接隐含层结点j与输出层结点k的权重 : 隐含层结点j的sigmoid函数的一阶导数 : 隐含层结点j的输入值
Error(j) = 0.017*0.1*0.562*(1 0.562)=0.00042
激励函数(activation function)
用输入神经元的加权和来产生输出。绝大多数神经网络使用sigmoid函数。
• 平滑、连续、且单调递增 • 值域有明确的上下限，但是开区间，即无法达到最大
值和最小值
sigmoid函数
最常用的sigmoid函数是
• f (x) = 1 / (1 + e x ) • 在神经网络中，激励函数的导数十分重要，该函数的
感知器(Perceptron)
最早具有学习能力的神经网络只有输入神经元和输出神经元输入神经元通常只有两个状态: ON和OFF 输出神经元使用简单阈值(threshold)激励函数只能解决线性问题，应用范围有限
一个感知器的例子
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
• w3j = 0.1 + 0.5 * 0.00042 * 0.7 = 0.099853
与i相关的权重更新留作练习
隐含层与神经元
对绝大多数问题，一层隐含层就足够了当目标函数不连续时，一般需要两层隐含层神经元的数量对性能的影响很关键:
• 太少，Underfitting • 太多，Overfitting • 多凭经验，一般从少量结点开始，随着训练不断增加
限制，ANN与真正的人脑相去甚远。
人工脑
认为人工脑现在不能与人脑匹敌的原因突出表现在神经元的数量对比上。
提高人工脑神经元的数量，宣称他开发的人工脑可达猫脑的水平。
很多学者也认为，除了数量以外，人脑神经元间的“结构”也非常重要。批评者们认为Garis求"量" 不求"质"。
Hugo de Garis
Output node
Y
Perceptron Model
YI( wiXi t) or
i
Ysig( nwiXit)
i
感知器中权重的确定
有监督的训练若输出有误，则根据如下公式调整权重:
感知器的缺陷
只有二值输入和二值输出。
只有输入和输出两层。
1969年， Minsky & Papert论证了感知器的功能有限，无法表达某些逻辑功能，如XOR。
S O function
i
g(Si )
i
Oi
threshold, t
训练神经网络意味着学习神经元之间连接的权重
神经网络与人类大脑
人类大脑大概有1011个神经元。这些神经元通过神经突触互相连接。平均每个神经元与其它104个神经元互相连接。神经元之间通信的时间10-3秒。 ANN研究的动机是模拟人脑，但由于目前的技术
导数实用
• f ‘(x) = f (x) (1 f (x))
其余的sigmoid函数还有：
• 双曲正切(hyperbolic tangent) • 反正切(arctangent)
训练(training)
有监督的训练
• 向NN提供输入数据和理想的输出数据 • 评价神经网络对输入的响应，根据实际输出与理想输出的差异来
多层前馈神经网络
神经网络普遍采用这种形式
是感知器的扩展
• 多个层次，输入输出之间的层称为隐含层(hidden layer) • 激励函数不再是简单的阈值，通常是sigmoid函数 • 通用的功能模拟器，应用范围不再局限于线性问题
信息单向传递
• 当前层的输出构成了下一层的输入 • 反向更新权重
输出层结点的错误计算
Error(k) = (T Ok)f ’(xk)
• T : 目标输出 • Ok : 输出结点k的计算输出值 • f ’(xk): 输出结点k的sigmoid函数的一阶导数 • xk : 输出结点k的输入值
Error(k) = (T Ok) Ok (1 Ok)
Error(k) = (0.65 0.582)*0.582*(1 0.582)=0.017
数据挖掘技术第十一课前馈神经网络
Artificial Neural Networks (ANN)
由生物神经系统(如人脑)所引发的信息处理框架。
结构: 大量互连的信息处理单元，即神经元 (neuron)，相互协作，共同解决问题。
向人类一样, 神经网络从实例中进行学习。
原理简单，功能强大。
神经网络的组成
0.10
W ik
0.50
计算实际输出
结点j的输入: 0.2*1+0.3*0.4+(-0.1)*0.7=0.25 结点j的输出: 1/(1+e-0.25)=0.562
结点i的输入: 0.1*1.0+(-0.1)*0.4+0.2*0.7=0.2 结点i的输出: 1/(1+e-0.2)=0.550
结点k的输入: 0.1*0.562+0.5*0.550=0.331 结点k的输出: 1/(1+e-0.331)=0.582
训练就是向NN模型提供样本数据，并不断修改权重，使络中多个权重的最普遍的做法
有监督的训练
核心思想是基于对错误函数的导数最小化
• 简单 • 效率低 • 易于陷入局部最小值
BP(Backpropagation algorithm)算法
1. 初始化
• 确定输入层、隐含层和输出层结点的数量 • 随机产生(1.0,1.0)之间的权重 • 选择一个[0,1]之间的学习率 • 确定结束条件
修改权重。
无监督的训练
• 只提供输入数据和理想的输出数据 • NN自行调整权重，使得相似的输入会得到相似的输出。即NN在
没有外界帮助的条件下，自动确定模式及其差异。
Epoch
• 从提供输入到NN更新一次权重的一次迭代过程 • 训练神经网络需要多次epochs。
权重的确定
神经网络中，权重的作用至关重要，学习神经网络实际上就是学习其连接的权重。
由大量互相连接的神经元(neuron)组成，这些神经元相互协作，共同完成复杂的功能。
神经网络的一般结构
Input Layer
x1
x2 x3 x4 x5
Hidden Layer
Output Layer
y
Input
I1 wi1 I2 wi2
wi3 I3
Neuron i
Output
Activation
结点数量
训练策略
在线训练(Online training):
• 每处理一个训练实例，就更新一次权重。
离线训练(Offline training):
• 把所有训练实例都处理一遍之后，再更新权重。
在线学习应用范围广、简单易行
• 对单个训练实例敏感 • 产生局部极值的几率比离线训练小
利用梯度下降法更新权重
Input
X1 X2 X3
Black box
Output
Y
若3个输入中至少有两个为1，则输出结果为1
打开黑盒
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
Input nodes
X1
X2
X3
Black box
0.3 0.3
Output node
Y
0.3 t=0.4
2. 对每条训练实例:
• 输入神经网络，计算输出结果 • 确定输出错误 • 更新权重
3. 若未满足终止条件，则转步骤2 4. 测试神经网络的精度。若不满意，则更改参数重新训练。
示例
Input Layer
Hidden Layer
Output Layer
1.0
Node 1
W1j
W1i
W2j
0.4
Node 2
Error(i) 的计算留作练习。
权重的更新
wjk(new) = wjk (old) + wjk
wjk = * Error(k) * Oj
•
: 学习率, 0 < < 1
• Error(k) : 结点k的错误
• Oj
: 结点j的输出
假设 = 0.5
• wjk = 0.1 + 0.5 * 0.017 * 0.562 = 0.1048 • w1j = 0.2 + 0.5 * 0.00042 * 1.0 = 0.2002 • w2j = 0.3 + 0.5 * 0.00042 * 0.4 = 0.300084
W2i
W3j
0.7
Node 3
W3i
Node j Node i
理想输出：0.65
Wjk
Node k
Wik
Initial Weight Values for the Neural Network
W lj
0.20
W li
0.10
W 2j
0.30
W 2i
–0.10
W 3j
–0.10
W 3i
0.20
W jk
YI(0.3X10.3X20.3X30.40) 1 ifzistrue
wheIr(ze) 0 otherwise
用感知器分类
由互连的结点和带有权重的连接所组成的模型。
对输入值加权求和
将加权求和结果与某个阈值t进行比较
Input nodes
X1
X2
X3
Black box
w1 w2
w3 t
优点
• 实现简单 • 使用范围广，使用效果较好
缺点
• 效率低 • 易于陷入局部极小值，从而无法得到最优解
模拟退火方法(Simulated Annealing)
优点：
全局最优，可保证得到最优解。
缺点：
比梯度下降效率低，实现复杂。
遗传算法(Genetic Algorithm)
优点：
• 效率高于模拟退火法。 • 陷入局部极值的概率比BP神经网络低。