从神经网络到深度学习-AI视野

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 方案1:FNN
– 需要预先确定最大位数 – 对不同的位使用不同的权重 – 泛化能力差
二进制加法的算法
方案2:RNN
•网络结构
– 2 in's, 3 hiddens, 1 out – h(t) = f(Wihx(t) + Wh'hh(t-1)) (前一时刻的隐状态, 当前时刻的输入) -> 下一时刻的隐状态
– 将源句子的编码为向量表示,然后将向量解码为目 标 句子
– 网络学到了什么?
• 源语言和目标语言的词法、语法、短语搭配、语义。。。
基于短语的统计机器翻译
网络结构: A deep and big LSTM network
Google神经网络翻译
基于注意力的神经机器翻译
注意力机制的其他应用
• “看图说话”:为图片自动生成文本描述
•2个时间步的延迟
– 输入->隐单元 – 隐单元->输出
网络学到了什么?
• 自动学习出3个隐单元的4种不同的激活模 式,用以完成加法运算
• 模拟有限状态自动机,但能力更强
– N个隐单元,2N种激活模式,N2个参数(权重) – 对比HMM
RNN训练的难题:梯度爆炸与消失
if gradient explode
LSTM怎样保持梯度信息
(works like a mini-computer with read/write units)
LSTM学到了什么? 例子:字符级语言模型
RNN vs LSTM:一个核心区别
• 隐状态更新方式:替换 --> 累加
– 更加稳健的动力学特性,减轻梯度爆炸和消失
• 端到端的机器翻译
• 捕获语言的某些规律
5
嵌入空间可视化
6
从单词到句子
CNN
7
序列学习问题
• 序列识别和生成
– 语音、时间序列、文本...
• 注意控制
– 按顺序决定下一时刻注意什么
• 运动控制、玩游戏 • 。。。 • 共同模式
– 历史状态(可变长度)-> 内部状态表示(短时 记忆) -> 下一步动作
传统序列学习模型
从神经网络到深度学习
——大数据催生的新智慧物种
自然语言处理
• 怎样用神经网络处理离散(符号)数据?
– 嵌入(Embedding)
2
怎样学习词嵌入?
• Neural Language Model & word2vec
3
word2vec词嵌入的性质
• 向量空间中的距离 = 词义相似性
4
word2vec词嵌入的性质
记忆增强的神经网络: NTM、MemNN、DNC等
提纲
• 为什么要深度学习?背景和动机 • 怎样深度学习?基本学习算法 • 有什么应用?典型网络结构和应用举例 • 反思和展望
32
对ImageNet网络的反思
• 大量有标签训练数据 • 在两块GPU上训练 • 使用多个大隐层 • 更好的神经元(Rectified linear) • 用dropout正则化
• 梯度弥散问题
– 没有足够快的计算机
• 局部极值问题
– 没有合适的参数初始化 方法
• 1986年以来
– 有标签数据变得更多 – 大数据:燃料
– 计算机变得更快 – GPU:催化剂
– 找到了更好的参数初始 化方法
– 算法:导火索
• 深层神经网络的复兴
35
深度学习为什么这Hale Waihona Puke Baidu火? 一个生态学视角
• 不挑食
if gradient vanish
for all m: for all m:
在包含长时关联(dt > 10)的序列上很难有效训练RNN
Long Short-Term Memory (LSTM)
• Two types of memory in RNN
– Short-term memory: encoded in activity patterns of hidden units – Long-term memory: encoded in weights
• 常用的训练目标:预测下一时刻的输入
训练RNN:Backpropagation through time (BPTT)
• 优化目标
– 最大对数似然(在整个序列上累加)
T
L log ykt t 1
A toy problem for RNN:二进制加法
• 问题
– train a neural net to do binary addition by giving it many 01 string as examples
33
对深层神经网络的重新认识
• 数据获取问题
– 没有足够多的有标签数 据
• 梯度弥散问题
– 没有足够快的计算机
• 局部极值问题
– 没有合适的参数初始化 方法
• 1986年以来
– 有标签数据变得更多
– 计算机变得更快
– 找到了更好的参数初始 化方法
34
对深层神经网络的重新认识
• 数据获取问题
– 没有足够多的有标签数 据
– 图像识别、语言识别、NLP、生物医药。。。 – 大脑用同一套算法解决视觉、听觉、嗅觉等感知问题
• 胃口大
– 喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良 – 动物通过大量经验而不是精巧的数学公式学习
36
深度学习为什么这么火?
一个生态学视角
• 不挑食
– 图像识别、语言识别、NLP、生物医药。。。 – 大脑用同一套算法解决视觉、听觉、嗅觉等感知问题
•“无记忆”
– Autoregressive models – Feed-forward NN
•“简单记忆”
– Linear dynamical systems (LDS) – Hidden Markov Models (HMM)
FNN -> RNN
Forward propagation
RNN for 语言模型/序列生成
• 胃口大
– 喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良 – 动物通过大量经验而不是精巧的数学公式学习
• 有了充足的食物供应(大数据),并进化出了极强劲的消 化系统(GPU、云计算),deep learning怪兽终于崛起, 并逐渐淘汰其他物种(浅层学习算法),称霸地球
不同类型的记忆
LSTM cell
• Input gate: scales input to cell (write) • Output gate: scales output from cell (read) • Forget gate: scales old cell value (reset) • Cell • Cell output
相关文档
最新文档