[数据分析] 推荐：用Python实现神经网络(附完整代码)!

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在学习神经网络之前，我们需要对神经网络底层先做一个基本的了解。我们将在本节介绍感知机、反向传播算法以及多种梯度下降法以给大家一个全面的认识。

一、感知机

数字感知机的本质是从数据集中选取一个样本（example），并将其展示给算法，然后让算法判断“是”或“不是”。一般而言，把单个特征表示为xi，其中i是整数。所有特征的集合表示为，表示一个向量：

，

类似地，每个特征的权重表示为其中对应于与该权重关联的特征

的下标，所有权重可统一表示为一个向量:

这里有一个缺少的部分是是否激活神经元的阈值。一旦加权和超过某个阈值，感知机就输出1，否则输出0。我们可以使用一个简单的阶跃函数（在图5-2中标记为“激活函数”）来表示这个阈值。

一般而言我们还需要给上面的阈值表达式添加一个偏置项以确保神经元对全0的输入具有弹性，否则网络在输入全为0的情况下输出仍然为0。

注：所有神经网络的基本单位都是神经元，基本感知机是广义神经元的一个特例，从现在开始，我们将感知机称为一个神经元。

二、反向传播算法

2.1 代价函数

很多数据值之间的关系不是线性的，也没有好的线性回归或线性方程能够描述这些关系。许多数据集不能用直线或平面来线性分割。比如下图中左图为线性可分的数据，而右图为线性不可分的数据：

在这个线性可分数据集上对两类点做切分得到的误差可以收敛于0，而对于线性不可分的数据点集，我们无法做出一条直线使得两类点被完美分开，因此我们任意做一条分割线，可以认为在这里误差不为0，因此我们需要一个衡量误差的函数，通常称之为代价函数：

而我们训练神经网络（感知机）的目标是最小化所有输入样本数据的代价函数

2.2 反向传播

权重通过下一层的权重（）和（）来影响误差，因此我们需要一种方法来计算对误差的贡献，这个方法就是反向传播。

下图中展示的是一个全连接网络，图中没有展示出所有的连接，在全连接网络中，每个输入元素都与下一层的各个神经元相连，每个连接都有相应的权

重。因此，在一个以四维向量为输入、有5个神经元的全连接神经网络中，一共有20个权重（5个神经元各连接4个权重）。

感知机的每个输入都有一个权重，第二层神经元的权重不是分配给原始输入的，而是分配给来自第一层的各个输出。从这里我们可以看到计算第一层权重对总体误差的影响的难度。第一层权重对误差的影响并不是只来自某个单独权重，而是通过下一层中每个神经元的权重来产生的。反向传播的推导过程较为复杂，这里仅简单展示其结果：

如果该层是输出层，借助于可微的激活函数，权重的更新比较简单, 对于

第个输出，误差的导数如下

如果要更新隐藏层的权重，则会稍微复杂一点儿：

函数表示实际结果向量，表示该向量第个位置上的值，，是倒数第二层第个节点和输出第个节点的输出，连接这两个节点的权重为，误差代价函数对求导的结果相当于用（学习率）乘以前一层的输出再乘以后一层代价函数的导数。公式中表示层第个节点上的误差项，前一层第个节点到层所有的节点进行加权求和。

2.3 多种梯度下降法

到目前为止，我们一直是把所有训练样本的误差聚合起来然后再做梯度下降，这种训练方法称为批量学习（batch learning）。一批是训练数据的一个子集。但是在批量学习中误差曲面对于整个批是静态的，如果从一个随机的起始点开始，得到的很可能是某个局部极小值，从而无法看到其他的权重值的更优解。这里有两种方法来避开这个陷阱。

第一种方法是随机梯度下降法。在随机梯度下降中，不用去查看所有的训练样本，而是在输入每个训练样本后就去更新网络权重。在这个过程中，每次都会重新排列训练样本的顺序，这样将为每个样本重新绘制误差曲面，由于每个相异的输入都可能有不同的预期答案，因此大多数样本的误差曲面都不一样。对每个样本来说，仍然使用梯度下降法来调整权重。不过不用像之前

那样在每个训练周期结束后聚合所有误差再做权重调整，而是针对每个样本都会去更新一次权重。其中的关键点是，每一步都在向假定的极小值前进（不是所有路径都通往假定的极小值）。

使用正确的数据和超参数，在向这个波动误差曲面的各个最小值前进时，可以更容易地得到全局极小值。如果模型没有进行适当的调优，或者训练数据不一致，将导致原地踏步，模型无法收敛，也学不会任何东西。不过在实际应用中，随机梯度下降法在大多数情况下都能有效地避免局部极小值。这种方法的缺点是计算速度比较慢。计算前向传播和反向传播，然后针对每个样本进行权重更新，这在本来已经很慢的计算过程的基础上又增加了很多时间开销。

第二种方法，也是更常见的方法，是小批量学习。在小批量学习中，会传入训练集的一个小的子集，并按照批量学习中的误差聚合方法对这个子集对应的误差进行聚合。然后对每个子集按批将其误差进行反向传播并更新权重。下一批会重复这个过程，直到训练集处理完成为止，这就重新构成了一个训练周期。这是一种折中的办法，它同时具有批量学习（快速）和随机梯度下降（具有弹性）的优点。

三、Keras：用Python实现神经网络

用原生Python来编写神经网络是一个非常有趣的尝试，而且可以帮助大家理解神经网络中的各种概念，但是Python在计算速度上有明显缺陷，即使对于中等规模的网络，计算量也会变得非常棘手。不过有许多Python 库可以用来提高运算速度，包括PyTorch、Theano、TensorFlow和Lasagne等。本书中的例子使用Keras。

Keras是一个高级封装器，封装了面向Python的API。API接口可以与3个不同的后端库相兼容：Theano、谷歌的TensorFlow和微软的CNTK。这几个库都在底层实现了基本的神经网络单元和高度优化的线性代

数库，可以用于处理点积，以支持高效的神经网络矩阵乘法运算。

我们以简单的异或问题为例，看看如何用Keras来训练这个网络。

import numpy as np

from keras.models import Sequential# Kera的基础模型类

from yers import Dense, Activation# Dense是神经元的全连接层

from keras.optimizers import SGD# 随机梯度下降，Keras中还有一些其他优化器

# Our examples for an exclusive OR.

x_train = np.array([[0, 0],

[0, 1],

[1, 0],

[1, 1]]) # x_train是二维特征向量表示的训练样本列表

y_train = np.array([[0],

[1],

[0]]) # y_train是每个特征向量样本对应的目标输出值

model = Sequential()

num_neurons = 10#全连接隐藏层包含10个神经元

model.add(Dense(num_neurons, input_dim=2)) # input_dim仅在第一层中使用，后面的其他层会自动计算前一层输出的形状，这个例子中输入的XOR样本是二维特征向量，因此

input_dim设置为2

model.add(Activation('tanh'))

model.add(Dense(1)) #输出层包含一个神经元，输出结果是二分类值（0或1）

model.add(Activation('sigmoid'))

model.summary()

可以看到模型的结构为：

[数据分析] 推荐 ：用Python实现神经网络(附完整代码)!

[数据分析] 推荐：用Python实现神经网络(附完整代码)!