深度学习讲义

合集下载

深度学习的基本理论与方法通用课件

推荐系统：深度学习通过挖掘用户历史行为和数据，实现个性化推荐，提高推荐效果。
计算机视觉：深度学习在计算机视觉领域取得了显著成果，如图像分类、目标检测、人脸识别等。
语音识别：基于深度学习的语音识别技术大大提高了语音识别的准确率和鲁棒性。
以上仅是深度学习应用的一部分领域，实际上，深度学习正在渗透到越来越多的领域，不断推动着人工智能技术的进步。
• 应用场景：Transformer及其变种广泛应用于各种自然语言处理任务，如机器翻译、文本分类、问答系统、文本生成等。它们通常作为核心组件，结合其他技术构建更复杂的模型。
• 优势与改进：Transformer具有并行计算能力强、能够捕捉长程依赖关系等优点。然而，它也面临着计算量大、对于某些任务可能过于复杂等问题。针对这些问题，一些轻量级的Transformer模型被提出，如MobileBERT、TinyBERT 等，它们在保持性能的同时降低了计算成本。
机器翻译
基于深度学习技术的神经机器翻译方法，如基于循环神经网络（RNN）的Seq2Seq模型、基于Transformer的GPT 和BERT等模型，实现了高质量的机器翻译。
THANKS
感谢观看
Keras
Keras是一个高级神经网络API，可运行于TensorFlow、Theano 等后端，以简洁易用受到广泛欢
迎。
深度学习在计算机视觉中的应用
1 2 3
图像分类
通过训练深度神经网络，实现对图像的分类和识别，如ImageNet挑战赛中的图像分类任务。
目标检测
利用深度学习技术，实现在图像中准确快速地检测出目标物体的位置和类别，如R-CNN、YOLO 等算法。
在卷积神经网络末尾，通常加入全连接层，对特征图进行高维抽象和分类器设计，输出最终的分类或回归结果。

深度学习讲义

深度学习概述
谯平 2016年07月21日
目录
• 什么是深度学习 • 为什么需要深度学习 • 深度学习如何进行训练 • 深度学习常用模型 • 深度学习框架Caffe
什么是深度学习-概述
• 深度学习：一种基于无监督特征学习和特征层次结构的学习方法
• 基本原理：深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。
为什么需要深度学习-深层
• 结构性特征表示
为什么需要深度学习-深层
• 浅层学习的局限 ✓ 人工神经网络（BP算法） —虽被称作多层感知机，但实际是种只含有一层隐层
节点的浅层模型 ✓ SVM、Boosting、最大熵方法（如LR，Logistic
Regression） —带有一层隐层节点（如SVM、Boosting），或没有
传统的模式识别方法：
底层感知
预处理
特征提取特征选择预测与识别
• 良好的特征表达，对最终算法的准确性起了非常关键的作用； • 识别系统主要的计算和测试工作耗时主要集中在特征提取部分； • 特征的样式目前一般都是人工设计的，靠人工提取特征。
为什么需要深度学习-特征
• 机器学习中，获得好的特征是识别成功的关键 • 目前存在大量人工设计的特征，不同研究对象特
孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃
为什么需要深度学习-源头
• 由此可知人的视觉系统的信息处理是分级的，高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图，抽象层面越高，存在的可能猜测就越少，就越利于分类。
为什么需要深度学习-特征

深度学习介绍 ppt课件

自编码器的建立
建立AutoEncoder的方法是：
对于m个数据的输入，有：
Code编码:使用非线性激活函数，将维输入数据映射到维隐含层（隐含节点表示特征）
其中W是一个的权重矩阵，b是一个d'维的偏移向量 Decode解码:通过反向映射，对映射后的数据进行重建
hi
yi
SAE网络每一次训练输入都会得到映射后的与解码后的。通过对代价函数的最优
深层带来的好处
为什么采用层次网络
预训练与梯度消失现象
主要内容
自编码器结构
单层自动编码器网络（AutoEncoder）实质上是一个三层的反向传播神经网络。它逐层采用无监督学习的方式，不使用标签调整权值，将输入映射到隐含层上，再经过反变换映射到输出上，实现输入输出的近似等价。
X1 X2 X3 X4 X5 +1
RBM网络有几个参数，一个是可视层与隐含层之间的权重矩阵，一个是可视节点的偏移量b，一个是隐含节点的偏移量c，这几个参数决定了RBM网络将一个m维的样本编码成一个什么样的n维的样本。
受限玻尔兹曼机
RBM介绍

RBM训练
一般地，链接权重Wij可初始化为来自正态分布N(0,0.01)的随机数，隐单元的偏置cj初始化为0；对于第i个可见单元，偏置bj初始化为log[pi/(1-pi)] 。pi表示训练样本中第i个特征处于激活状态所占的比率学习率epsilon至关重要，大则收敛快，但是算法可能不稳定。小则慢。为克服这一矛盾引入动量，使本次参数值修改的方向不完全由当前样本似然函数梯度方向决定，而是上一次参数值修改方向与本次梯度方向的结合可以避免过早的收敛到局部最优点
激活函数
y f (x)

深度学习讲义-bib

Bibliograp(1997). Neural learning in structured parameter spaces - natural Riemannian gradien gradient. t. In In Advanc dvances es in Neur Neural al Information Pr Pro ocessing Systems , pages 127–133. MIT Press. Amari, S. (1997). Neural learning in structured parameter spaces - natural Riemannian gradient. In In A. Advanc es in Neur al Information Processing Systems , pages 127–133. MIT Press. Barron, E. (1993). Universal appro approximation ximation b ounds for superp superpositions ositions of a sigmoidal function. IEEE Trans. on Information The Theory ory , 39, 930–945. Barron, A. E. (1993). Universal approximation b ounds for superp ositions of a sigmoidal function. IEEE T rans. on Information The ory , 39, 930–945. Bastien, F., Lam Lamblin, blin, P., Pascanu, R., Bergstra, J., Go Goodfellow, o

深度学习的常用模型和方法ppt课件

2.4 循环神经网络（RNN）与LSTM
根据上个输出和当前的输入决定更新哪些属性以及新属性的内容
执行之前的决定，更新当前的状态
根据上个输出和当前的状态决定现在输出什么
病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
目录
1 深度学习的背景
2 深度学习常用模型和方法
1
自动编码器
2
稀疏编码
3
卷积神经网络
4
RNN与LSTM
3 总结与展望
病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
MIN | I – O |，其中，I 为输入，O 为输出
通过求解这个最优化式子，可以求得Φi和ai，也就能得出输入的特征表示。
如果我们加上稀疏规则限制，得到：
MIN | I – O | + λ（|a1| + |a2| + … + |ai |）
这种方法就是稀疏编码。
病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
然而，手工地选取特征是一件非常费力、启发式的方法，能不能选取好很大程度上靠经验和运气。
自动地学习特征的方法，统称为Deep Learning。
病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程

《机器学习与深度学习》PPT课件讲义

训练神经元网络 -- Back Propagation
梯度下降迭代算法
输出层误差： δki 隐含层误差： smi
BP 算法
初始化参数 θ 两阶段算法： Two-Pass
前向 Forward-Pass：给定参数，计算输出值后向 Backward-Pass: 计算输出层误差，计算隐含层误差，更新
• 一个BN 是一个由随机变量组成的有向非循环图
• 一部分变量为可观察已知变量
• 如何由已知变量推断出非观察变量的状态
• 调整变量之间连接的参数优化：最大可能重新生成观察变量
可信任，信任什么？
随机的二元单元
(Bernoulli variables)
• 隐含层的神经元的状态为0或1
• 该神经元激活的概率为输入层加权和的 sigmoid 函数
什么为最佳匹配？
参数估计方法一：最小化误差平方和
机器学习背景
RSS()
0
正则化 L2 (Ridge) Regularization
限制参数的大小，以避免过拟合
正则化 L1 Regularization (Lasso)
| j | j1...p
No closed form for β 限制参数的大小，以避免过拟合
➢ Still Perceptron ➢ 一个特殊的单隐含层网络 ➢ 每个训练案例用于构造一个
特征，该特征用于测量改训练案例和测试案例的距离 ➢ SVM训练选择自由特征集以及特征的权重 ➢ 1990-2010 很多让放弃NN, 选择 SVM
深层信任网络（Deep Belief Net，DBN) 是部分解决了以上问题的神经元网络
小结一个基础的DBN网络

深度学习介绍 ppt课件

从数学的角度来说，稀疏编码是一种多维数据描述方法，数据经稀疏编码后仅有少数分量同时处于明显激活状态。在实际应用中，稀疏编码有如下几个优点：稀疏编码方案存储能力大，具有联想记忆能力，并且计算简便；使自然信号的结构更加清晰；事实上，这一简单的自编码神经网络通常可以学习出一个跟主成分分析（PCA）结果非常相似的输入数据的低维表示。
2016年10月，NVIDIA 发布了新版本的通用并行计算架构库：统一计算设备架构（Compute Unified Device Architecture，CUDA）8.0，以及深度学习专用GPU 加速库：cuDNN 5.0；
2016年11月，在2016全球超级计算机大会（SC16）上，AMD 宣布推出新版Radeon开放计算平台
求误差梯度
求期望和实际的偏差E
计算隐含层单元误差
E满足要求？
Y
N
达到最大训练次数？
N Y
结束
BP算法流程
13
主要问题
主要问题
训练过程易陷入局部极小值，从而得不到全局最优解；计算量大，训练次数多，使得学习效率低，收敛速度慢；对于隐含层个数和隐含层神经元节点的个数选择，至今还没有一个具体的定论，缺乏理论指导；训练时，学习新样本有遗忘旧样本的趋势
常用改进方法
添加动量项，Dropout等规则化算法等；采用改进的梯度下降法，使用硬件辅助计算； RNN，LSTM等改进模型和神经元。
2020/12/27
14
主要内容
现状
神经网络
深度学习
介绍常见模型
• Stacked Auto-Encoder • Convolutional Neural Network • Deep Belief Network

深度学习技术介绍PPT课件

根据Marr(1982)年理论，理解一个信息处理系统，具有三个被称为分析层面的内容：计算理论(computational theory)对应计算目标和任务的抽象定义。表示和算法(representation and algorithm)是关于输人和输出如何表示和从输入到输
出变换的算法说明。硬件实现(hardware implementation)是系统的实物物理实现。
29
29
M40 GPU加速特性
30
GPU与CPU连接
通过PCIe与CPU连接, 最大理论带宽8GB/s(gen2.0)、16GB/s(gen3.0) CPU称为主机(host), 显卡(GPU)称为设备(device)
31
31
最优连接数量：4
32
32
目前的GPU使用方案
33
33
CPU困境
34
机器学习还可以进行压缩(compression)。用规则拟合数据，我们能得到比数据更简单的解释，需要的存储空间更少，处理所需要的计算更少，例如，一旦你掌握了加法规则，你就不必记忆每对可能数字的和是多少。
机器学习的另一种用途是离群点检测(outlier detection)，即发现那些不遵守规则的例外实例。在这种情况下，学习规则之后，我们感兴趣的不是规则，而是规则未能覆盖的例外，他们可能暗示出我们需要注意的异常，如诈骗等。
具体应用-人脸识别
对于人脸识别(face recognition)。输入是人脸图像，类是需要识别的人，并且学习程序应当学习人脸图像与身份之间的关联性。人脸会有更多的类，输入图像也更大一些，并且人脸是三维的，不同的姿势和光线等都会导致图像的显著变化。另外，对于特定人脸的输人也会出现问题，比如说眼镜可能会把眼睛和眉毛遮住，胡子可能会把下巴盖住等。

深度学习详解37页PPT文档

深度学习与浅层学习的区别
强调了模型结构的深度，通常有5-10多层的隐层节点；
明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。
深度学习的训练方法
深度学习的训练过程
自下而上的非监督学习：从底层开始，一层一层的往顶层训练，分别得到各层参数。
采用无标签数据分层训练各层参数（可以看作是特征学习的过程）。
自上而下的监督学习
基于第一步的得到的各层参数进一步调整整个多层模型的参数，这一步是一个有监督的训练过程。
深度学习的几种常用模型
Auto Encoder（自动编码器） Sparse Coding （稀疏编码） Restricted Boltzmann Machine（限制玻尔兹曼机） Deep Belief Networks （深度信任网络） Convolutional Neural Networks （卷积神经网络）
深度学习可以通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本中集中学习数据及本质特征的能力。
深度学习的实质
通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。
Convolutional Neural Networks(CNN)
Convolutional Neural Networks(CNN)
卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

深度学习课件：理论与实践详解

深度学习课件：理论与实践详解
本课程详细介绍深度学习的基本理论和实践应用，包含深度学习的概述、基本原理以及常用框架，还分享了实际案例和未来应用前景，并解决了挑战和答疑。
深度学习概述
什么是深度学习？
深度学习是一种机器学习技术，通过神经网络模型来解决复杂的模式识别和决策问题。
为什么深度学习重要？
深度学习在未来的应用前景
1 医疗领域
深度学习可用于医学影像分析、疾病预测等，为精准医疗提供支持。
2 智能交通
深度学习可应用于自动驾驶、交通流量预测等，提高交通安全和效率。
3 金融领域
深度学习可应用于风险评估、欺诈检测等，提高金融行业效益和安全性。
深度学习的挑战与解决方案
1பைடு நூலகம்
数据量和质量
3
神经网络模型
深度学习基于多层神经网络构建，其中包括输入层、隐藏层和输出层。
前向传播与反向传播
前向传播计算输出结果，反向传播计算梯度并更新模型参数，以提高预测准确率。
常用深度学习框架介绍
TensorFlow
开源的深度学习框架，具有强大的计算能力和广泛的生态系统。
PyTorch
动态图式的深度学习框架，易于使用且具有良好的可扩展性。
深度学习在图像识别、自然语言处理等领域取得了突破性进展，为人工智能的发展提供了强有力的支持。
深度学习的应用场景
深度学习在人脸识别、语音识别、自动驾驶等领域具有广泛的应用前景。
深度学习的基本原理
1
损失函数与优化算法
2
通过定义损失函数来衡量模型预测结果
与实际结果的差异，并使用优化算法来
调整模型参数。
Keras

一天搞懂深度学习演示教学ppt课件

= Multi-class Classifier
Softmax
1-2 基本思想
Neural Network
1-2 基本思想
……
……
……
……
……
……
y1
y2
y10
Cross Entropy
“1”
……
1
0
0
……
target
Softmax
……
Given a set of parameters
目标识别
目标分析
图像捕获图像压缩图像存储
图像预处理图像分割
特征提取目标分类判断匹配
模型建立行为识别
2-1 机器视觉
关键技术与应用
A)生物特征识别技术——安全领域应用广泛生物特征识别技术是一种通过对生物特征识别和检测,对身伤实行鉴定的技术。从统计意义上讲人类的指纹、虹膜等生理特征存在唯一性，可以作为鉴另用户身份的依据。目前，生物特征识别技术主要用于身份识别，包括语音、指纹、人脸、静脉，虹膜识别等。
1958: Perceptron (linear model) 1969: Perceptron has limitation 1980s: Multi-layer perceptron Do not have significant difference from DNN today 1986: Backpropagation Usually more than 3 hidden layers is not helpful 1989: 1 hidden layer is “good enough”, why deep? 2006: RBM initialization 2009: GPU 2011: Start to be popular in speech recognition 2012: win ILSVRC image competition 2015.2: Image recognition surpassing human-level performance 2016.3: Alpha GO beats Lee Sedol 2016.10: Speech recognition system as good as humans

深度学习讲义

Ups and downs of Deep Learning
• 1958: Perceptron (linear model) • 1969: Perceptron has limitation • 1980s: Multi-layer perceptron • Do not have significant difference from DNN today • 1986: Backpropagation • Usually more than 3 hidden layers is not helpful • 1989: 1 hidden layer is “good enough”, why deep? • 2006: RBM initialization • 2009: GPU • 2011: Start to be popular in speech recognition • 2012: win ILSVRC image competition • 2015.2: Image recognition surpassing human-level performance • 2016.3: Alpha GO beats Lee Sedol • 2016.10: Speech recognition system as good as humans
3.57%
16.4% AlexNet (2012)
7.3% VGG (2014)
6.7%
GoogleNet (2014)
Residual Net (2015)
Taipei 101
Matrix Operation
1 1 4 0.98
y1
-2
1
-1 -1
1
-2

深度学习课件-第2讲：深度学习基础

=
1
exp
2 2
1
− 2
2
−
2
由精度参数化（Parametrized by precision）:

; , −1

=

exp
2
1
−
2
−
2
高斯分布
多元高斯分布
由协方差矩阵参数化（Parametrized by covariance
matrix）:
1
exp
(2) det(σ)
摩尔-彭若斯广义逆
+
=
• 方程组解的情况包括:
― 仅有一个解：此时摩尔-彭若斯广义逆矩阵与逆矩阵相
同
― 无解：此时会给出解的最小误差 −
― 多个解：此时会给出范数最小的解
2
迹（Trace）
= ෍ ,
矩阵的迹的性质：

+ = +
自信息:
= −log ()
信息熵:
H = ~
= ~ log ()
KL散度:

∥ = ~

= ~ − ()
KL散度是不对称的
∗ = ∥
∗ = ∥
1979 – deep neocognitron, convolution, Fukushima
1987 – autoencoder, Ballard
1989 – convolutional neural networks (CNN), Lecun
1991 – deep recurrent neural networks (RNN), Schmidhuber

深度学习介绍ppt课件

39
4.3 Caffe
Caffe由加州大学伯克利的PHD贾扬清开发，全称Convolutional Architecture for Fast Feature Embedding，是一个清晰而高效的开源深度学习框架，目前由伯克利视觉学中心（Berkeley Vision and Learning Center，BVLC）进行维护。（贾扬清曾就职于MSRA、NEC、Google Brain，他也是TensorFlow的作者之一，目前任职于Facebook FAIR实验室。）
19
3.1 卷积神经网络（CNN）
20
3.1 卷积神经网络（CNN）
21
3.1 卷积神经网络（CNN）
卷积层（Convolutional layer），卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。
38
4.2 TensorFlow
TensorFlow最初是由研究人员和Google Brain团队针对机器学习和深度神经网络进行研究所开发的，目前开源之后可以在几乎各种领域适用。
TensorFlow灵活的架构可以部署在一个或多个CPU、GPU的台式以及服务器中，或者使用单一的API应用在移动设备中。
28
3.1 卷积神经网络（CNN）
全连接层：连接所有的特征，将输出值送给分类器（如softmax分类器），最终得出识别结果。
29
3.2 常见网络模型
LeNet
30
3.2 常见网络模型
AlexNet

《深度学习之》课件

Part Five
深度学习的未来展望
深度学习的发展趋势
深度学习技术将更加成熟，应用领域更加广泛
深度学习技术将与其他技术相结合，如大数据、云计算等
深度学习技术将更加注重实际应用，如医疗、金融、教育等领域
深度学习技术将更加注重安全性和隐私保护，如数据加密、隐私保护等技术
深度学习与其他技术的融合
动画效果：适当添加动画效果，如淡入淡出、缩放等，以增强视觉效果
PPT课件的动画与交互设计
动画效果：使用动画效果可以使PPT课件更加生动有趣，吸引观众的注意力
交互设计：交互设计可以增加PPT课件的互动性，让观众更加深入地参与到学习中
动画与交互设计的结合：将动画效果和交互设计相结合，可以使PPT课件更加生动有趣，增加观众的参与度动画与交互设计的注意事项：在使用动画效果和交互设计时，要注意不要过度使用，以免影响观众的注意力和参与度
生成对抗网络（GAN）是一种深度学习技术，由两个子网络组成：生成器和判别器。
生成器负责生成假数据，判别器负责判断数据是真是假。
GAN通过两个子网络的对抗训练，不断提高生成器的生成能力，最终生成与真实数据非常接近的假数据。
GAN在图像生成、数据增强、图像翻译等领域有广泛应用。
深度强化学习
概念：一种结合了深度学习和强化学习的技术特点：能够处理高维、复杂的数据，同时具备学习能力和决策能力应用场景：自动驾驶、游戏AI、机器人控制等领域技术挑战：需要大量的数据和计算资源，以及复杂的算法设计
PPT课件的内容组织与布局设计
ቤተ መጻሕፍቲ ባይዱ
内容组织：根据深度学习的主题，将内容分为不同的章节，如“深度学习概述”、“深度学习方法”、“深度学习应用”等。

《深度学习介绍》课件

强化学习
推荐系统和强化学习是深度学习在智能推荐和决策领域的重要应用，能够提高推荐和决策的准确性和智能化水平。
总结
06
CHAPTER
深度学习的未来展望
随着深度学习在各领域的广泛应用，对模型的可解释性需求日益增强。未来研究将致力于开发更透明的模型，通过可视化、解释性图谱等技术，帮助用户理解模型决策过程。
池化层用于降低数据的维度，减少计算量和过拟合的风险。常用的池化方法有最大池化和平均池化等。
池化层
激活函数
03
CHAPTER
深度学习的主要模型
1
2
3
卷积神经网络是一种专门用于处理具有类似网格结构数据的深度学习模型，例如图像、语音信号等。
CNN通过局部连接、权重共享和下采样等策略，实现对输入数据的逐层特征提取和抽象。
《深度学习介绍》ppt课件
目录
深度学习概述深度学习的基本原理深度学习的主要模型深度学习的训练技巧深度学习的应用实例深度学习的未来展望
01
CHAPTER
深度学习概述ຫໍສະໝຸດ ABCD
自动驾驶
用于车辆控制、障碍物检测等自动驾驶系统的关键技术。
推荐系统
用于个性化推荐、广告投放等商业应用。
自然语言处理
用于机器翻译、文本分类、情感分析等任务。
防止模型在验证集上过拟合
当模型在验证集上的性能停止提升时，应停止训练并保存模型。早停法可以防止模型在训练集上过拟合。同时，定期保存模型权重也有助于后续的重训练或迁移学习。
05
CHAPTER
深度学习的应用实例
自然语言处理
利用深度学习技术对自然语言文本进行分析和处理，例如机器翻译、情感分析等。
DBN在图像识别、语音识别和自然语言处理等领域有一定的应用价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

This is the “learning” of machines in deep learning …… Even alpha go using this approach.
People image ……
Actually …..
I hope you are not too disappointed :p
……
xN
is 0
……
You need to decide the network structure to let a good function in your function set.
FAQ
• Q: How many layers? How many neurons for each layer? Intuition Trial and Error + • Q: Can the structure be automatically determined?
……
xN
……
Hidden Layers
……
……
Output Layer
yM
Deep = Many hidden layers
22 layers
http://cs231n.stanford.e du/slides/winter1516_le cture8.pdf
19 layers
8 layers 7.3% 6.7%
Backpropagation
libdnn
台大周伯威同學開發
Ref: .tw/~tlkagk/courses/MLDS_2015_2/Lecture/DNN%20b ackprop.ecm.mp4/index.html
Three Steps for Deep Learning
Deep Learning
Hung-yi Lee 主讲：李宏毅
Deep learning attracts lots of attention.
• I believe you have seen lots of exciting results before.
Deep learning trends at Google. Source: SIGMOD 2016/Jeff Dean
Ups and downs of Deep Learning
• 1958: Perceptron (linear model) • 1969: Perceptron has limitation • 1980s: Multi-layer perceptron • Do not have significant difference from DNN today • 1986: Backpropagation • Usually more than 3 hidden layers is not helpful • 1989: 1 hidden layer is “good enough”, why deep? • 2006: RBM initialization • 2009: GPU • 2011: Start to be popular in speech recognition • 2012: win ILSVRC image competition • 2015.2: Image recognition surpassing human-level performance • 2016.3: Alpha GO beats Lee Sedol • 2016.10: Speech recognition system as good as humans
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Acknowledgment
16.4%
AlexNet (2012)
VGG (2014)
GoogleNet (2014)
Deep = Many hidden layers
152 layers 101 layers
Special structure
Ref: https:///watch?v= dxB6299gpvI
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Loss for an Example
• E.g. Evolutionary Artificial Neural Networks
• Q: Can we design the network structure? Convolutional Neural Network (CNN)
Three Steps for Deep Learning
16 x 16 = 256
……
Ink → 1 No ink → 0
0.2 y10
is 0
Each dimension represents the confidence of a digit.
Example Application
• Handwriting Digit Recognition
x1
y1
Three Steps for Deep Learning
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Deep Learning is so simple ……
Gradient Descent
0.2 0.15
-0.1
0.05
……
0.3
0.2
……
gradient
Gradient Descent
0.2 0.15 0.09
……
-0.1
0.05
0.15
……
0.3
……
0.2 0.10
……
……
Gradient Descent
Neural Network

z

z
z

z
“Neuron”
Neural Network
Different connection leads to different network structures
Fully Connect Feedforward Network
Given network structure, define a function set
Fully Connect Feedforward Network
neuron Input Layer 1 Layer 2 Layer L Output

x1
…… …… ……
y1 y2 ……
x2
Input Layer
-2
0.83 2
-1
1
-1 0
4
Fully Connect Feedforward Network
0 1 0.73 2 0.72 -1 1 3 -1
0.51 -2
-2 -1
0.5
0
-2 0.12 0 -1
0.85
2
0
1
-1 0
4
This is a function. Input vector, output vector
• 感謝 Victor Chen 發現投影片上的打字錯誤
x1
…… …… A function set containing the candidates for Handwriting Digit Recognition …… …… …… ……
Hidden Layers Output Layer
y1
is 1
x2
“2”
…… y10
y2
is 2
Input Layer
Neural Machine Network
What is needed is a function ……
is 1 is 2
x2
“2”
…… y10
y2
x256
Input: 256-dim vector
……
is 0
output: 10-dim vector
……
Example Application
Input Layer 1 Layer 2 Layer L Output
Input Layer
x2
……
……
……
Hidden Layers
xK
yM
Output = Multi-class Layer Classifier
Example Application
Input
x1
Output
y1 0.1
0.7 y2
is 1
is 2
x2
The image is “2”
……
……
x256
1 1 4 0.98
-2
1
-1 -1
1
-2
0.12
0
Sigmoid Function
z
1 z 1 ez
z
Fully Connect Feedforward Network
1 1 4 0.98 2 -1 1