数据挖掘技术第十一课前馈神经网络
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺点:
• 效率比梯度下降法低。 • 不适合处理大型神经网络。
神经网络的优点
抗噪性能好 既能处理连续数据,也能处理类别型数据 在多个领域有成功应用 既适合有监督学习,也适合无监督学习
神经网络的缺点
缺乏可解释性 可能无法找到最优解 可能存在过学习问题(overfitting)
隐含层结点的错误计算
Error(j) = (kError(k)Wjk)f ’(xj)
• Error(k): 输出层结点k的错误
• Wjk • f ’(xj) • xj
: 连接隐含层结点j与输出层结点k的权重 : 隐含层结点j的sigmoid函数的一阶导数 : 隐含层结点j的输入值
Error(j) = 0.017*0.1*0.562*(1 0.562)=0.00042
激励函数(activation function)
用输入神经元的加权和来产生输出。 绝大多数神经网络使用sigmoid函数。
• 平滑、连续、且单调递增 • 值域有明确的上下限,但是开区间,即无法达到最大
值和最小值
sigmoid函数
最常用的sigmoid函数是
• f (x) = 1 / (1 + e x ) • 在神经网络中,激励函数的导数十分重要,该函数的
感知器(Perceptron)
最早具有学习能力的神经网络 只有输入神经元和输出神经元 输入神经元通常只有两个状态: ON和OFF 输出神经元使用简单阈值(threshold)激励函数 只能解决线性问题,应用范围有限
一个感知器的例子
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
• w3j = 0.1 + 0.5 * 0.00042 * 0.7 = 0.099853
与i相关的权重更新留作练习
隐含层与神经元
对绝大多数问题,一层隐含层就足够了 当目标函数不连续时,一般需要两层隐含层 神经元的数量对性能的影响很关键:
• 太少,Underfitting • 太多,Overfitting • 多凭经验,一般从少量结点开始,随着训练不断增加
限制,ANN与真正的人脑相去甚远。
人工脑
认为人工脑现在不能与人脑匹敌的原 因突出表现在神经元的数量对比上。
提高人工脑神经元的数量,宣称他开 发的人工脑可达猫脑的水平。
很多学者也认为,除了数量以外,人 脑神经元间的“结构”也非常重要。 批评者们认为Garis求"量" 不求"质"。
Hugo de Garis
Output node
Y
Perceptron Model
YI( wiXi t) or
i
Ysig( nwiXit)
i
感知器中权重的确定
有监督的训练 若输出有误,则根据如下公式调整权重:
感知器的缺陷
只有二值输入和二值输出。
只有输入和输出两层。
1969年, Minsky & Papert论证了感知器的功能 有限,无法表达某些逻辑功能,如XOR。
S O function
i
g(Si )
i
Oi
threshold, t
训练神经网络意味着学习 神经元之间连接的权重
神经网络与人类大脑
人类大脑大概有1011个神经元。 这些神经元通过神经突触互相连接。 平均每个神经元与其它104个神经元互相连接。 神经元之间通信的时间10-3秒。 ANN研究的动机是模拟人脑,但由于目前的技术
导数实用
• f ‘(x) = f (x) (1 f (x))
其余的sigmoid函数还有:
• 双曲正切(hyperbolic tangent) • 反正切(arctangent)
训练(training)
有监督的训练
• 向NN提供输入数据和理想的输出数据 • 评价神经网络对输入的响应,根据实际输出与理想输出的差异来
多层前馈神经网络
神经网络普遍采用这种形式
是感知器的扩展
• 多个层次,输入输出之间的层称为隐含层(hidden layer) • 激励函数不再是简单的阈值,通常是sigmoid函数 • 通用的功能模拟器,应用范围不再局限于线性问题
信息单向传递
• 当前层的输出构成了下一层的输入 • 反向更新权重
输出层结点的错误计算
Error(k) = (T Ok)f ’(xk)
• T : 目标输出 • Ok : 输出结点k的计算输出值 • f ’(xk): 输出结点k的sigmoid函数的一阶导数 • xk : 输出结点k的输入值
Error(k) = (T Ok) Ok (1 Ok)
Error(k) = (0.65 0.582)*0.582*(1 0.582)=0.017
数据挖掘技术第十一课前馈神经网络
Artificial Neural Networks (ANN)
由生物神经系统(如人脑)所引发的信息处理框架。
结构: 大量互连的信息处理单元,即神经元 (neuron),相互协作,共同解决问题。
向人类一样, 神经网络从实例中进行学习。
原理简单,功能强大。
神经网络的组成
0.10
W ik
0.50
计算实际输出
结点j的输入: 0.2*1+0.3*0.4+(-0.1)*0.7=0.25 结点j的输出: 1/(1+e-0.25)=0.562
结点i的输入: 0.1*1.0+(-0.1)*0.4+0.2*0.7=0.2 结点i的输出: 1/(1+e-0.2)=0.550
结点k的输入: 0.1*0.562+0.5*0.550=0.331 结点k的输出: 1/(1+e-0.331)=0.582
训练就是向NN模型提供样本数据,并不断修改权 重,使络中多个权重的最普遍的做法
有监督的训练
核心思想是基于对错误函数的导数最小化
• 简单 • 效率低 • 易于陷入局部最小值
BP(Backpropagation algorithm)算法
1. 初始化
• 确定输入层、隐含层和输出层结点的数量 • 随机产生(1.0,1.0)之间的权重 • 选择一个[0,1]之间的学习率 • 确定结束条件
修改权重。
无监督的训练
• 只提供输入数据和理想的输出数据 • NN自行调整权重,使得相似的输入会得到相似的输出。即NN在
没有外界帮助的条件下,自动确定模式及其差异。
Epoch
• 从提供输入到NN更新一次权重的一次迭代过程 • 训练神经网络需要多次epochs。
权重的确定
神经网络中,权重的作用至关重要,学习神经网 络实际上就是学习其连接的权重。
由大量互相连接的神经元(neuron)组成,这些神经元相互 协作,共同完成复杂的功能。
神经网络的一般结构
Input Layer
x1
x2 x3 x4 x5
Hidden Layer
Output Layer
y
Input
I1 wi1 I2 wi2
wi3 I3
Neuron i
Output
Activation
结点数量
训练策略
在线训练(Online training):
• 每处理一个训练实例,就更新一次权重。
离线训练(Offline training):
• 把所有训练实例都处理一遍之后,再更新权重。
在线学习应用范围广、简单易行
• 对单个训练实例敏感 • 产生局部极值的几率比离线训练小
利用梯度下降法更新权重
Input
X1 X2 X3
Black box
Output
Y
若3个输入中至少有两个为1,则输出结果为1
打开黑盒
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
Input nodes
X1
X2
X3
Black box
0.3 0.3
Output node
Y
0.3 t=0.4
2. 对每条训练实例:
• 输入神经网络,计算输出结果 • 确定输出错误 • 更新权重
3. 若未满足终止条件,则转步骤2 4. 测试神经网络的精度。若不满意,则更改参数重新训练。
示例
Input Layer
Hidden Layer
Output Layer
1.0
Node 1
W1j
W1i
W2j
0.4
Node 2
Error(i) 的计算留作练习。
权重的更新
wjk(new) = wjk (old) + wjk
wjk = * Error(k) * Oj
•
: 学习率, 0 < < 1
• Error(k) : 结点k的错误
• Oj
: 结点j的输出
假设 = 0.5
• wjk = 0.1 + 0.5 * 0.017 * 0.562 = 0.1048 • w1j = 0.2 + 0.5 * 0.00042 * 1.0 = 0.2002 • w2j = 0.3 + 0.5 * 0.00042 * 0.4 = 0.300084
W2i
W3j
0.7
Node 3
W3i
Node j Node i
理想输出:0.65
Wjk
Node k
Wik
Initial Weight Values for the Neural Network
W lj
0.20
W li
0.10
W 2j
0.30
W 2i
–0.10
W 3j
–0.10
W 3i
0.20
W jk
YI(0.3X10.3X20.3X30.40) 1 ifzistrue
wheIr(ze) 0 otherwise
用感知器分类
由互连的结点和带有 权重的连接所组成的 模型。
对输入值加权求和
将加权求和结果与某 个阈值t进行比较
Input nodes
X1
X2
X3
Black box
w1 w2
w3 t
优点
• 实现简单 • 使用范围广,使用效果较好
缺点
• 效率低 • 易于陷入局部极小值,从而无法得到最优解
模拟退火方法(Simulated Annealing)
优点:
全局最优,可保证得到最优解。
缺点:
比梯度下降效率低,实现复杂。
遗传算法(Genetic Algorithm)
优点:
• 效率高于模拟退火法。 • 陷入局部极值的概率比BP神经网络低。
• 效率比梯度下降法低。 • 不适合处理大型神经网络。
神经网络的优点
抗噪性能好 既能处理连续数据,也能处理类别型数据 在多个领域有成功应用 既适合有监督学习,也适合无监督学习
神经网络的缺点
缺乏可解释性 可能无法找到最优解 可能存在过学习问题(overfitting)
隐含层结点的错误计算
Error(j) = (kError(k)Wjk)f ’(xj)
• Error(k): 输出层结点k的错误
• Wjk • f ’(xj) • xj
: 连接隐含层结点j与输出层结点k的权重 : 隐含层结点j的sigmoid函数的一阶导数 : 隐含层结点j的输入值
Error(j) = 0.017*0.1*0.562*(1 0.562)=0.00042
激励函数(activation function)
用输入神经元的加权和来产生输出。 绝大多数神经网络使用sigmoid函数。
• 平滑、连续、且单调递增 • 值域有明确的上下限,但是开区间,即无法达到最大
值和最小值
sigmoid函数
最常用的sigmoid函数是
• f (x) = 1 / (1 + e x ) • 在神经网络中,激励函数的导数十分重要,该函数的
感知器(Perceptron)
最早具有学习能力的神经网络 只有输入神经元和输出神经元 输入神经元通常只有两个状态: ON和OFF 输出神经元使用简单阈值(threshold)激励函数 只能解决线性问题,应用范围有限
一个感知器的例子
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
• w3j = 0.1 + 0.5 * 0.00042 * 0.7 = 0.099853
与i相关的权重更新留作练习
隐含层与神经元
对绝大多数问题,一层隐含层就足够了 当目标函数不连续时,一般需要两层隐含层 神经元的数量对性能的影响很关键:
• 太少,Underfitting • 太多,Overfitting • 多凭经验,一般从少量结点开始,随着训练不断增加
限制,ANN与真正的人脑相去甚远。
人工脑
认为人工脑现在不能与人脑匹敌的原 因突出表现在神经元的数量对比上。
提高人工脑神经元的数量,宣称他开 发的人工脑可达猫脑的水平。
很多学者也认为,除了数量以外,人 脑神经元间的“结构”也非常重要。 批评者们认为Garis求"量" 不求"质"。
Hugo de Garis
Output node
Y
Perceptron Model
YI( wiXi t) or
i
Ysig( nwiXit)
i
感知器中权重的确定
有监督的训练 若输出有误,则根据如下公式调整权重:
感知器的缺陷
只有二值输入和二值输出。
只有输入和输出两层。
1969年, Minsky & Papert论证了感知器的功能 有限,无法表达某些逻辑功能,如XOR。
S O function
i
g(Si )
i
Oi
threshold, t
训练神经网络意味着学习 神经元之间连接的权重
神经网络与人类大脑
人类大脑大概有1011个神经元。 这些神经元通过神经突触互相连接。 平均每个神经元与其它104个神经元互相连接。 神经元之间通信的时间10-3秒。 ANN研究的动机是模拟人脑,但由于目前的技术
导数实用
• f ‘(x) = f (x) (1 f (x))
其余的sigmoid函数还有:
• 双曲正切(hyperbolic tangent) • 反正切(arctangent)
训练(training)
有监督的训练
• 向NN提供输入数据和理想的输出数据 • 评价神经网络对输入的响应,根据实际输出与理想输出的差异来
多层前馈神经网络
神经网络普遍采用这种形式
是感知器的扩展
• 多个层次,输入输出之间的层称为隐含层(hidden layer) • 激励函数不再是简单的阈值,通常是sigmoid函数 • 通用的功能模拟器,应用范围不再局限于线性问题
信息单向传递
• 当前层的输出构成了下一层的输入 • 反向更新权重
输出层结点的错误计算
Error(k) = (T Ok)f ’(xk)
• T : 目标输出 • Ok : 输出结点k的计算输出值 • f ’(xk): 输出结点k的sigmoid函数的一阶导数 • xk : 输出结点k的输入值
Error(k) = (T Ok) Ok (1 Ok)
Error(k) = (0.65 0.582)*0.582*(1 0.582)=0.017
数据挖掘技术第十一课前馈神经网络
Artificial Neural Networks (ANN)
由生物神经系统(如人脑)所引发的信息处理框架。
结构: 大量互连的信息处理单元,即神经元 (neuron),相互协作,共同解决问题。
向人类一样, 神经网络从实例中进行学习。
原理简单,功能强大。
神经网络的组成
0.10
W ik
0.50
计算实际输出
结点j的输入: 0.2*1+0.3*0.4+(-0.1)*0.7=0.25 结点j的输出: 1/(1+e-0.25)=0.562
结点i的输入: 0.1*1.0+(-0.1)*0.4+0.2*0.7=0.2 结点i的输出: 1/(1+e-0.2)=0.550
结点k的输入: 0.1*0.562+0.5*0.550=0.331 结点k的输出: 1/(1+e-0.331)=0.582
训练就是向NN模型提供样本数据,并不断修改权 重,使络中多个权重的最普遍的做法
有监督的训练
核心思想是基于对错误函数的导数最小化
• 简单 • 效率低 • 易于陷入局部最小值
BP(Backpropagation algorithm)算法
1. 初始化
• 确定输入层、隐含层和输出层结点的数量 • 随机产生(1.0,1.0)之间的权重 • 选择一个[0,1]之间的学习率 • 确定结束条件
修改权重。
无监督的训练
• 只提供输入数据和理想的输出数据 • NN自行调整权重,使得相似的输入会得到相似的输出。即NN在
没有外界帮助的条件下,自动确定模式及其差异。
Epoch
• 从提供输入到NN更新一次权重的一次迭代过程 • 训练神经网络需要多次epochs。
权重的确定
神经网络中,权重的作用至关重要,学习神经网 络实际上就是学习其连接的权重。
由大量互相连接的神经元(neuron)组成,这些神经元相互 协作,共同完成复杂的功能。
神经网络的一般结构
Input Layer
x1
x2 x3 x4 x5
Hidden Layer
Output Layer
y
Input
I1 wi1 I2 wi2
wi3 I3
Neuron i
Output
Activation
结点数量
训练策略
在线训练(Online training):
• 每处理一个训练实例,就更新一次权重。
离线训练(Offline training):
• 把所有训练实例都处理一遍之后,再更新权重。
在线学习应用范围广、简单易行
• 对单个训练实例敏感 • 产生局部极值的几率比离线训练小
利用梯度下降法更新权重
Input
X1 X2 X3
Black box
Output
Y
若3个输入中至少有两个为1,则输出结果为1
打开黑盒
X1 X2 X3 Y
1000 1011 1101 1111 0010 0100 0111 0000
Input nodes
X1
X2
X3
Black box
0.3 0.3
Output node
Y
0.3 t=0.4
2. 对每条训练实例:
• 输入神经网络,计算输出结果 • 确定输出错误 • 更新权重
3. 若未满足终止条件,则转步骤2 4. 测试神经网络的精度。若不满意,则更改参数重新训练。
示例
Input Layer
Hidden Layer
Output Layer
1.0
Node 1
W1j
W1i
W2j
0.4
Node 2
Error(i) 的计算留作练习。
权重的更新
wjk(new) = wjk (old) + wjk
wjk = * Error(k) * Oj
•
: 学习率, 0 < < 1
• Error(k) : 结点k的错误
• Oj
: 结点j的输出
假设 = 0.5
• wjk = 0.1 + 0.5 * 0.017 * 0.562 = 0.1048 • w1j = 0.2 + 0.5 * 0.00042 * 1.0 = 0.2002 • w2j = 0.3 + 0.5 * 0.00042 * 0.4 = 0.300084
W2i
W3j
0.7
Node 3
W3i
Node j Node i
理想输出:0.65
Wjk
Node k
Wik
Initial Weight Values for the Neural Network
W lj
0.20
W li
0.10
W 2j
0.30
W 2i
–0.10
W 3j
–0.10
W 3i
0.20
W jk
YI(0.3X10.3X20.3X30.40) 1 ifzistrue
wheIr(ze) 0 otherwise
用感知器分类
由互连的结点和带有 权重的连接所组成的 模型。
对输入值加权求和
将加权求和结果与某 个阈值t进行比较
Input nodes
X1
X2
X3
Black box
w1 w2
w3 t
优点
• 实现简单 • 使用范围广,使用效果较好
缺点
• 效率低 • 易于陷入局部极小值,从而无法得到最优解
模拟退火方法(Simulated Annealing)
优点:
全局最优,可保证得到最优解。
缺点:
比梯度下降效率低,实现复杂。
遗传算法(Genetic Algorithm)
优点:
• 效率高于模拟退火法。 • 陷入局部极值的概率比BP神经网络低。