神经网络考试重点全解

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

神经网络考试重点
1、熵和信息的关系、性质，什么叫熵，条件熵、联合熵、互信息之间的关系，K-L 散度的定义（K-L 极小等于极大似然估计）。

第十章
答：熵H(X)：表示每一个消息所携带的信息的平均量。

在H(X)中X 不是H(X)的变量，而是一个随机变量的标记。

条件熵：给定Y 时X 的条件熵为H(X|Y)=H(X,Y)—H(Y) 具有性质：0<=H(X|Y)<=H(X)
条件熵H(X|Y)表示在观测到系统输出Y 后，对X 保留的不确定性度量。

H(X,Y)是X 和Y 的联合熵，由
∑∑∈∈=X Y
y ),(log ),(-Y H(X,x y x p y x p ）
定义，其中，p(x,y)是离散随机变量X 和Y 的联合概率质量函数，而x 和y 表示它们各自的字母表。

互信息：I(X;Y)=H(X)—H(X|Y)=
∑∑∈∈⎪
⎪⎭
⎫ ⎝
⎛X Y
y )()(),(log ),(x y p x p y x p y x p 熵是互信息的一个特例。

熵H(X)表示在没有观测系统输出前我们对系统输入的不确定性，条件熵H(X|Y)表示在观测到系统输出后对系统的不确定性，差H(X)—H(X|Y)表示观察到系统输出之后我们对系统输入的不确定性的减少。

信息的属性：
（1）X 和Y 的互信息具有对称性：I(X;Y)=I(Y;X) （2）X 和Y 的互信息总是非负的：0Y)I(X;≥
（3）X 和Y 的互信息也可以用Y 的熵表示为：I(X;Y)=H(Y)—H(Y|X) 定义
)(X f x 和)(X g x 的K-L 散度为：
dx X g X f X f g D x x x x f x ⎰∞∞
-⎪⎪⎭
⎫ ⎝⎛=)()(log )(
I(X;Y)=Y X f f |D Y X,f
总的来说，X 和Y 之间的互信息等于联合概率密度函数
),(,y x f Y X 以及概率密度函数)(X f x 和
)(Y f y 的乘积的K-L 散度。

2、ICA 原理，推导过程、数学模型、降维。

简述PCA 原理（第一个成分如何得来，第一、二个成分关系），推导过程（方差最大）。

ICA 与PCA 的差异。

答：ICA 的原理：
无噪声信号模型为：
X=As ，
其中，A 为信号混合矩阵，x 是N 维观测信号向量，s 是M (N>M) 维原始信号向量。

X=kA. s/k
信号S 放大 k 倍与A 的相应列缩小k 倍的结果相同，从而决定了ICA 得到的信号存在强
ICA和PCA的差异：个性和共性。

3、SVM的基本原理（PPT）、数学模型（线性可分、线性不可分的原理和模型）。

答：支持向量机（SVM）的主要思想是建立一个超平面作为决策曲面，使得正例和反例之间的隔离边缘被最大化。

更精确说，支持向量机是结构风险最小化方法的近似实现。

4、什么是竞争，怎样体现竞争与合作的关系，以及竞争的原理及过程。

答：
自组织神经网络是神经网络最富有魅力的研究领域之一，它能够通过其输入样本学会检测其规律性和输入样本相互之间的关系，并且根据这些输入样本的信息自适应调整网络，使网络以后的响应与输入样本相适应。

竞争型神经网络的神经元通过输入信息能够识别成组的相似输入向量；自组织映射神经网络通过学习同样能够识别成组的相似输入向量，使那些网络层中彼此靠得很近的神经元对相似的输入向量产生响应。

与竞争型神经网络不同的是，自组织映射神经网络不但能学习输入向量的分布情况，还可以学习输入向量的拓扑结构，其单个神经元对模式分类不起决定性作用，而要靠多个神经元的协同作用才能完成模式分类。

5、RBF 网络模型、原理，XOR 问题，正则化网络（λ）答：
1、RBF 的定义：在神经网络的背景下，隐藏单元提供一个“函数”集，该函数集在输入模式（向量）扩展至隐藏空间时为其构建了一个任意的“基”；这个函数集中的函数就被称为径向基函数。

2、RBF 网络的构成：包括三层，每一层都有着完全不同的作用。

第一层为输入层，输入层由一些源点（感知单元）组成，将网络与外界环境连结起来；第二层为隐藏层，作用是从输入空间到隐藏空间之间进行非线性变换，在大多数情况下隐藏层具有较高的维数；第三层为输出层，是线性的，为作用与输入层的激活模式（信号）提供响应。

3、原理：当用RBF 神经网络来解决一个复杂的模式分类任务时，问题的基本解决可以通过用非线性方式将其变换到一个高维空间。

它的潜在合理性来自模式可分性的cover 定理，基本描述如下：
将复杂的模式分类问题非线性地投射到高维空间将比投射到低维空间更肯呢过是线性可分的。

4、XOR 问题：
5、正则化的基本思想：
通过某些含有解的先验知识的非负的辅助泛函来使解稳定。

将正则化参数
λ 视为一个指示器，用来
指示所给的数据集作为确定解）
（x F λ 的样本的充分性。

特别是在极限情况下，当0→λ时，表明改问题不受约束，问题解）
（x F λ完全决定于所给的样本。

另一方面，当∞→λ时，表明仅由算子D 所定义的先验光滑条件就足以得到问题的解）
（x F λ，这也是所给样本完全不可信的另一种说法。

在实际应用中，正则化参数 λ取值在上述两个极限值之间。

6、多层感知器（MLPs ）的基本模型，BP 算法的基本原理。

（第四章）
答：
1、多层感知器（MLPs ）的基本模型：
一组感知单元（源节点）组成输入层，一层或多层计算节点的隐藏层，还有一层计算节点的输出层。

输入信号在层层递进基础上前向传播通过网络。

这些神经网络通常称为多层感知器。

2、MLPs 的特点：
1、网络中的每一个神经元模型包括一个非线性激活函数；
2、网络包括一层或者多层隐藏神经元；
3、网络展示出高度的连续性。

3、BP （反向传播）算法：
反向传播算法是基于误差修正学习规则的，由误差来决定是否更新权重，可以被看成是同样普遍使用的自适应滤波算法的推广。

误差反向传播学习由两次经过网络不同层的通过组成：一次前向通过和一次反向通过。

在前向通过中，一个活动模式（输入向量）作用于网络感知节点，它的影响经过网络一层接一层地传播。

最后，产生一个输出作为网络的实际响应。

在前向通过中，网络的突触权值全为固定的。

另一方面，在反向通过中，突出权值全部根据误差修正规则来调整。

特别是从目标响应减去网络的实际响应而产生误差信号。

突触权值被调整使得网络的实际响应从统计意义上接近目标响应。

7、梯度算法（单层感知器），0-1问题（第三章）答：
1、单层感知器：
感知器的突触权值记为w 1,w 2,...,w m ,相应的，用于感知器的输入量记为x 1,x 2,...,x m ，外部应用偏置记为b ，可知硬限幅器输入或神经元的诱导局部域是：
∑=+=m
i i i b x w 1
v
感知器的目的是把外部应用刺激x 1,x 2,...,x m 正确的分为两类。

分类规则是：如果感知器输出y 是+1就将x 1,x 2,...,x m 表示的点归为一类，如果感知器输出y 是-1则归为另一类。

2、0-1问题
8、有哪几种学习算法，它们的基本原理。

答：
学习是一个过程，通过这个过程神经网络的自由参数在其嵌入的环境的激励过程之下得到调节。

1、误差修正学习：
描述神经网络惟一输出的输出信号y k(n)与由d k(n)表示的期望响应或目标输出比较，由此产生由e k(n)表示的误差信号。

误差信号e k(n)驱动控制机制，其目的是将修正调节序列作用于神经元k的突触权值，修正调节能够以一步步逼近的方式使输出信号y k(n)向期望输出d k(n)靠近，这一目标通过最小化代价函数或性能指标来实现。

2、基记忆的学习：
基于记忆的学习通过明确地记住训练数据来进行。

在基于记忆的学习中，所有（或大部分）以往的经验被显式地存储到正确分类的输入-输出实例的大量记忆中。

其包括；两个重要的组成部分：用于定义测试向量X test的局部邻域的准则；
用于X test的和局部邻域中的训练实例的学习规则。

3、Hebb学习：
Hebb学习受了神经生物学上的考虑的启发。

Hebb算法核心思想是，当两个神经元同时处于激发状态时两者间的连接权会被加强，否则被减弱。

Hebb的理论认为在同一时间被激发的神经元间的联系会被强化。

比如，铃声响时一个神经元被激发，在同一时间食物的出现会激发附近的另一个神经元，那么这两个神经元间的联系就会强化，从而记住这两个事物之间存在着联系。

相反，如果两个神经元总是不能同步激发，那么它们间的联系将会越来越弱。

4、竞争学习：
竞争学习受了神经生物学上的考虑的启发。

在竞争学习中，神经网络中的输出神经元彼此通过竞争来成为活跃的点。

对于竞争学习规则，有三个基本元素：
（1）、一个神经元集合，这些神经元处理一些随机分布的突触权值以外是完全相同的，且由于突出权值的不同而对一个给定的输入模式集合有不同的响应。

（2）对每一个神经元的强度加上的限制；
（3）允许神经元为响应一个给定输入子集的权利而竞争的机制，从而使得每次只有一个输出神经元或者魅族只有一个神经元是激活的。

5、Boltzman 学习：
Boltzman 学习是建立在从统计学力学借来的思想基础上的。

Boltzman 学习规则是一个植根于统计力学中的思想推倒得出的袭击学习算法。

Boltzman 机中，神经元构成递归结构，并以二值方式运作。

Boltzman 机由能量函数E 所表征，能量函数的值由机器的个体神经元占据的特定状态所决定，表示成：
k
k j k
kj j
x x w
≠∑∑=j 21
-
E
9、其他：
1) 学习就是更新神经网络中的权重；
2) 梯度算法刚开始收敛速度很快，接近目标时速度很慢，与初值无关；牛顿算法则相反，且与初值有关；
3) 梯度算法有步长，牛顿算法无步长；
4) 简述感知器的基本模型（图形、三个公式）：P94 5) BP 算法中的Delta 规则：P119
6) 贝叶斯分类器：描述贝叶斯分类器的基本原理（最小化平均风险P99页）、P102的图3.12---几何
定义 7) 简述正则化思想：P191-192，叙述正则化的神经网络：P198-199 8) 简述SVM 的思想，描述SVM 的建模过程（具体）：P230-234 9)
原规划到对偶规划的推导过程：P233 10) 非线性PCA （核函数）： 11) 委员会机器：P253
五个基本的学习算法：误差—修正学习；基于记忆的学习；Hebb 学习；竞争学习和Boltzmann 学习。

误差修正学习植根于最优滤波。

基于记忆的学习通过明确的记住训练数据来进行。

Hebb 学习和竞争学习都是受了神经生物学上的考虑的启发。

Boltzmann 学习是建立在统计学力学借来的思想基础上。

1、误差修正学习
神经元k 的输出信号)(n y k 表示，)(n d k 表示的是期望响应或目标输出比较。

由此产生)(n e k 表示的误差信号，有：
)
()()(n y n d n e k k k -=。

这一目标通过最小化代价函数或性能指标)(n ξ来实现。

定义如下：)
(21
)(2
n e n k =ξ
也就是说)(n ξ是误差能量的瞬时值。

这种对神经元k 的突触权值步步逼近的调节将持续下去，直到系统达
到稳定状态。

这时，学习过程停止。

根据增量规则，在第n 时间步作用于突触权值的调节量)
(n w kj ∆定义如
下：)()()(n x n e n w j k kj η=∆ 2、基于记忆的学习
在一个简单而有效的称作最近邻规则的基于记忆的学习类型中，局部邻域被定义为测试向量test X 的直接邻
域的训练实例，特别，向量{}
N N X X X X ,,,21'⋅⋅⋅∈，被称作
test
X 的最邻近，如果
),(),(min '
test N test i i
X X d X X d =。

这里，),(test i X X d 是向量i X 和test X 的欧几里德距离。

与最短距离相关的类别，也就是向量'
N X 被划分的类别。

3、Hebb 学习
我们定义Hebb 突触为这样一个突触，它使用一个依赖时间的、高度局部的和强烈交互的机制来提高突触效率为前突触和后突触活动间的相互关系的一个函数。

可以得出Hebb 突触特征的４个重要机制：时间依赖机制；局部机制；交互机制；关联或相关机制。

竞争学习
获胜神经元k 的输出信号
k
y 被置为１；竞争失败的所有神经元输出信号被置为０。

这样，我们有
⎩⎨
⎧≠>=否则对于所有如果,0,,1k
j j v v y j k k
其中，诱导局部域k
v 表示结合所有达到神经元k 的前向和反馈输入的动作。

令
kj
w 表示连接输入节点j 到神经元k 的突触权值。

假定每个神经元被分配固定量的突触权值，权值分布在
它的节点之中；也就是
k
w kj j
对于所有的,1=∑
然后神经元通过将突触权值从它的不活跃输入移向活跃输入来进行学习。

如果神经元对一个特定输入模式不响应，那么没有学习发生在那个神经元上。

如果一个特定神经元赢得了竞争，这个神经元的每个输入节点经一定的比例释放它的突触权值，释放的权值然后平均分布到活跃输入节点上。

作用于突触权值kj
w 的
改变量
kj
w ∆定义为
⎩⎨
⎧-=∆竞争失败如果神经元竞争成功
如果神经元k k w x w kj j kj ,0),(η
5、Boltzmann 学习令+
kj ρ表示网络在钳制条件下神经元j 和k 的状态间的相关量。

令
-kj
ρ表示网络在其自由运作条件下神经元j 和k 的状态间的相关量。

作用于神经元j 到神经元k 的突触权
值的改变量由 )
(-
+-=∆kj kj kj w ρρη，
k j ≠
定义，其中
η是学习率参数。

五种学习算法的区别：
误差－修正学习和Boltzmann 学习是有监督学习；而Hebb 学习和竞争学习是无监督学习。

在误差－修正学习中，作用于神经元突触权值的调节量正比于本次学习中误差信号的突触的输入的乘积，它实际上带有局部性质，这仅仅是说由增量规则计算的突触调节局部于神经元k 周围。

同时，对η的选择对学习过程的准确及其它方面也有深刻的影响。

基于记忆的学习中的最邻近规则，基于两个假设；分类实例（i i d X ,）按照实例（d X ,）的联合概率分布是独立同分布的；样本大小N 是无限大的，它的分类错误率同贝叶斯误差概率的关系为
**)12(P C C P P --
≤≤
其中*P 为贝叶斯误差概率，C 是分类的类别数目。

Hebb 学习中如果在突触（连接）每一边的两个神经元同时（即同步）激活，那么那个突触的强度被选择性增强；如果在突触每一边的两个神经元被异步激活，那么那个突触被选择性地减弱或消除。

竞争学习中突触权值的改变取决于前突触j x 和当前的突触权值，与后突触权值k y 无关。

神经网络可以通过竞争学习来进行聚类。

然而，开始时输入模式必须落入充分分离的分组中。

否则，网络可能不稳定，因为它将不再以同样的输出神经元响应给定的输入模式。

Boltzmann 学习中突触权值的改变实质上取决于前突触
j x 和后突触k y 之间的相关量。

并同时考虑在钳制条件和自由运行条件下的相关量，且
-+kj kj ρρ和的值数都在-1和+1范围内。