北京大学 机器学习 9 神经网络 Neural Networks

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


改进 随机梯度下降

wi wi + (t-o) xi
Stochastic Gradient Descent

对每个训练样本的输入,修改一次 权重
随机梯度下降算法

解释:对每个训练样本定义一个误差函数
Ed ( w)



对梯队下降的近似 足够小,随机梯度下降可以任意精度逼近梯度下降 随机梯度下降与梯度下降区别
Back Propagation Algorithm
-逆向传播算法


BA(training example, , nin, nout, nhidden) Create a feed-forward network with nin inputs, nhidden hidden units, and nout outputs units. Initialize all network weights to small random numbers Until the termination condition is met, Do For each < x, t> in training_examples, Do
Ed 1 (t j o j ) 2 (t j o j ) o j o j 2
逆向传播算法-相关推导

计算输出单元权重
o j net j

(net j ) net j
wi wi + wi
梯度下降算法-讨论

梯度下降


适用 函数空间包含连续型参数化函数 (如感知器中的权重) 误差(度量函数)对参数是可微分 的 不足 For each <x, t> in training_examples, Do 有时需要很长的时间才能收敛到局 Input the instance x to the unit and compute 部最小值 the output o 如果误差曲面有多个局部最小值, 则梯度下降算法不能保证收敛到全 For each linear unit weight wi, Do 局最小值。

无指导学习

用于聚类
神经网络

简介 感知器

线性模型

多层神经网络

非线性模型

相关讨论 总结
感知器模型 (Perceptrons)
x1 x2
.
w1 w2
x0=1 w0
z wi xi
i 0 n
Output
n 1 if wi xi 0 o i 0 otherwise 1
w

w ji w ji w ji w ji j x ji
逆向传播算法-相关推导


E w ji w ji


其中 E ( w) 1 d
2
k koutputs
(t
ok )
2
Outputs:网络
输出单元集合

注意权重wji仅通过单元netj影响网络。因此, 利用微分链式规则,有:


Input the instance x to the unit and compute the output ou of every unit u in the network. For each network output unit k, calculate its error term k
Exclusive OR (XOR)
Input a) -1 -1 b) -1 1 c) 1 -1 d) 1 1 Output -1 1 1 -1
0
b 1
神经网络

简介 感知器

线性模型

多层神经网络

非线性模型

相关讨论 总结
多层神经网络

Multilayer Networks 包含既非输出又非输 入的中间层
第九讲 神经网络
邓志鸿
北京大学信息科学技术学院
2016年4月12日星期二
回顾

主题模型

pLSI LDA

主题模型
每个主题(Topic)视为关于词的概率分布 每篇文档视为关于主题的概率分布
写文档的过程: (1) 根据文档的主题概 率分布选择一个主题T1。 (2)根据主题T1的词概率 分布,选择一个词,并 把这个词写下来。
1 2 min E ( w) min (t d od ) wW wW 2 d D
???

Delta规则

梯度下降搜索 (Gradient descent search)

基本思想 初始化权重向量为任一向量 重复执行以下操作,直到获得全局最小误 差: 沿着误差曲面的最陡下降方向改变权 重向量
Ed Ed net j Ed x ji w ji net j w ji net j

Ed 计算 net j
逆向传播算法-相关推导

计算输出单元权重

netj仅通过oj影响网络,再次利用链式规则
E d E d o j net j o j net j
Ed 1 2 ( t o ) k k o j o j 2 koutputs
o
.
.
wn
权重
xn
The MP (McCullogh-Pitts) model
学习

概念空间
H {w | w



n 1
}

(N+1)维连续空 间中找一向量, 满足:
如何搜索?

specific-to-general

Find-S ID3 ?
1 if x 对应的是正样本 sign( w x ) otherwise 1

输出层 隐层
中间层也称隐层

Sigmoid单元


输入层 对每个单元采用 Sigmoid函数作为阈 值函数 可微分
Sigmoid单元

(x)是Sigmoid函数
1 1 ex

特性

用梯度下降方法来训练

一个Sigmoid单元 Sigmoid 单元 组成的多层神经网络
梯度

梯度
E E E E ( w) , ,..., w w w 1 n 0

Input the instance x to the unit and compute the output o For each linear unit weight wi, Do
wi wi + (t-o) xi

For each linear unit weight wi, Do

Simple-to-complex


穷举法

学习方法

学习方法

感知器规则

wi wi + wi wi = (t-o) xi 训练样本

t是当前训练样本的目标输出(原始标注) ({1,-1}); o是以当前训练样本为输入感知器的输出 ({1,-1}); 是一正常量,控制学习的速度,也称学 习率 (Learning rate)。 t t

考虑一个无阈值的感知器,其输出如下:
o( x ) w x




训练误差E

感知器对训练样本拟和的程度 常用度量

D是训练样本集 td是样本d的目标输出 od是以样本d为输入感知器的输出
1 2 E ( w) (t d od ) 2 dD
Delta规则

概念空间可视化

假定两个输入的感知器
线性可分,将找到所求的权重向量 线性不可分的,将不收敛。

Delta规则

= o? o?
如果训练样本不是线性可分的, Delta rule能收敛到与目标概念(函数) 最为近似的概念
Delta规则

采用梯度下降 (gradient descent)方法指导在高维连续空间中搜索 所求权重向量。

梯度下降也是逆向传播算法的基础。

1 (t d od ) 2 2
权值修改

梯度下降:先累积所以样本误差,再修改权重 随机梯度下降:基于每个样本误差,修改权重 梯度下降较随机梯度下降慢。Why? 在有多个局部最小值的情况下,随机梯度下降可能比梯度下降能更有效陷避免入局 部最小值


效率


效果

用多个不同的 Ed ( w) 指导搜索


E wi wi
计算
E wi
Delta规则
E 1 2 (t d od ) wi wi 2 dD
(t d od ) (t d w x d ) wi d D

d D
(t
d
od )( xid )
wi (t d od )xid
x2
w1 x1 w2 x2 T
??
w1 x1 w2 x2 T w T x2 1 x1 w2 w2
在n 维空间是超平面 x
表达能力-感知器

设计感知器,表达以下布尔函数

AND OR

为什么不能表示XOR
Not linearly separable X1 c d X2 a

多层神经网络

非线性模型

相关讨论 总结
简介



类似生物神经系统,是目前已知鲁棒性最好的学 习系统之一。 1943年,心理学家McCulloch与数学家Pitts对神 经元进行了形式化研究,提出了神经元的数学模 型MP模型。 1957年,Rosenblatt首次引入感知器模型。 1969年,Minsky和Paper发表《认知论》,指出 单层神经网络无法解决“异或”问题,神经网络 进入低谷 1982,Hopfield模型的提出,以及逆向传播算法 又推动了神经网络的发展
Biblioteka Baidu
与感知器规则区别

sgn w x


针对的输出函数不同,一个是原始输出,另外一个是取了阈值后的输出。 随机梯度下降可以看成是perceptron rule的扩展
表达能力-感知器

线性可分 可以表示基本的布尔函数

AND, OR, NAND (NOT AND), NOR (NOT OR) 不能表示XOR
Delta规则

误差曲面的最陡下降方向

解释

E E E E ( w) , ,..., w w w 1 n 0

数学分析
在权重空间中,上述方向代表了E的最快增长方向


梯度下降规则
w w w w E ( w)

wi wi wi

k ok (1 ok )(t k ok ) For each network hidden unit h, calculate its error term h
h oh (1 oh )

Update each network weigth wji
kh k kdownstream (h)
神经网络分类

拓扑结构

单层神经网络-仅有输出层 两层神经网络-包含一个隐层 N层神经网络-包含N-1个隐层 前馈式网络:连接是单向的 反馈式网络:最后一层单元可作为输入 全连接神经网络 有指导学习


连接方式


学习

用于分类:

感知器(上世纪50年代) 反向传播网络 (上世纪80年代)
dD
梯度下降算法

GD(training example, )
Initialize each wi to some small random value Until the termination condition is met, Do


Initialize each wi to zero. For each <x, t> in training_examples, Do


训练规则
Sigmoid 单元-误差梯度
已知
所以
Back Propagation Algorithm
-逆向传播算法

符号说明

nin:网络输入单元数目 nout :网络输出单元数目 nhidden :网络隐藏单元数目 :是学习率
样本用向量表示 xji表示单元i到单元j的输出 wji表示单元i到单元j的权重 downstream(h):直接输入包括单元h输出的单元集 合。即由h直接输出的下一个单元的集合。
pLSA
概率图模型表示
d t w
N
M
给定文档dj,生成词wi的概率
选主题
P(wi | d j )
P(w
k 1
K
i
| tk ) P(tk | d j )
选单词
LDA
概率图模型表示
文档的主题概率分布 模型超参数 主题的词概率分布 词的主题配置
观测到的词
神经网络

简介 感知器

线性模型
相关文档
最新文档