深度学习之自动编码器总结_20160216
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
rand:
生成均匀分布的伪随机数。分布在(0~1)之间
主要语法:rand(m,n)生成m行n列的均匀分布的伪随机数
rand(m,n,'double')生成指定精度的均匀分布的伪随机数,参数还可以是'single'
rand(RandStream,m,n)利用指定的RandStream(我理解为随机种子)生成伪随机数
最后的W1的权值如下所示:
2.
根据代码中的sparseAutoencoderCost模块进行说明。
%将长向量转换成每一层的权值矩阵和偏置向量值;将theta中的数据赋值给w1,w2,b1,b2,这些矩阵的维度与其初始维度相同。
W1 =reshape(theta(1:hiddenSize*visibleSiபைடு நூலகம்e),hiddenSize,visibleSize);
b2 =theta(2*hiddenSize*visibleSize+hiddenSize+1:end);
% Costandgradient variables (your code needstocompute these values).
%Here, we initialize themtozeros.
b1grad = (1/m)*b1grad;%注意b的偏导是一个向量,所以这里应该把每一行的值累加起来
%计算b2grad
b2grad = b2grad+sum(d3,2);
b2grad = (1/m)*b2grad;
3.
3.1
%% CS294A/CS294W Programming Assignment Starter Code
%损失函数的总表达式 ;
%其中 是代价函数
cost =Jcost+lambda*Jweight+beta*Jsparse;%cost等于
%******************************
%以上部分为进行前向计算的内容,以下部分实施反向传播
%反向算法求出每个节点的误差值
d3 =-(data-a3).*sigmoidInv(z3);%输出层 ;
%
%计算预测产生的误差
Jcost= (0.5/m)*sum(sum((a3-data).^2));%
%计算权值惩罚项,即权值衰减项
Jweight= (1/2)*(sum(sum(W1.^2))+sum(sum(W2.^2)));%
%计算稀释性规则项; a2的取值为10000个64位的值,每个64位的值是一个8*8图像的像素值;
cost=0;
W1grad =zeros(size(W1));
W2grad =zeros(size(W2));
b1grad =zeros(size(b1));
b2grad =zeros(size(b2));
Jcost=0;%直接误差
Jweight=0;%权值惩罚
Jsparse=0;%稀疏性惩罚
[n m] = size(data);%m为样本的个数,n为样本的特征数
repmat:
该函数是扩展一个矩阵并把原来矩阵中的数据复制进去。比如说B =repmat(A,m,n),就是创建一个矩阵B,B中复制了共m*n个A矩阵,因此B矩阵的大小为[size(A,1)*m size(A,2)*m]。
使用函数句柄的作用:
不使用函数句柄的情况下,对函数多次调用,每次都要为该函数进行全面的路径搜索,直接影响计算速度,借助句柄可以完全避免这种时间损耗。也就是直接指定了函数的指针。函数句柄就像一个函数的名字,有点类似于C++程序中的引用。
一些malab函数:
bsxfun:
C=bsxfun(fun,A,B)表达的是两个数组A和B间元素的二值操作,fun是函数句柄或者m文件,或者是内嵌的函数。在实际使用过程中fun有很多选择比如说加,减等,前面需要使用符号’@’.一般情况下A和B需要尺寸大小相同,如果不相同的话,则只能有一个维度不同,同时A和B中在该维度处必须有一个的维度为1。比如说bsxfun(@minus, A, mean(A)),其中A和mean(A)的大小是不同的,这里的意思需要先将mean(A)扩充到和A大小相同,然后用A的每个元素减去扩充后的mean(A)对应元素的值。
深度学习之自动编码器
1.
1.1
实现自动便器的功能,除了本文档代码章节所列出的代码以外,还需要IMAGES.mat文件和minFunc功能模块。minFunc功能模块用于实现L-BFGS算法。具体算法可参看以下网址的文档:
/wiki/index.php/UFLDL教程
exist:
测试参数是否存在,比如说exist('opt_normalize', 'var')表示检测变量opt_normalize是否存在,其中的’var’表示变量的意思。
colormap:
设置当前常见的颜色值表。
floor:
floor(A):取不大于A的最大整数。
ceil:
ceil(A):取不小于A的最小整数。
实验基础:
其实实现该功能的主要步骤还是需要计算出网络的损失函数以及其偏导数,具体的公式可以参考前面的博文Deep learning:八(Sparse Autoencoder)。下面用简单的语言大概介绍下这个步骤,方便大家理清算法的流程。
1.计算出网络每个节点的输入值(即程序中的z值)和输出值(即程序中的a值,a是z的sigmoid函数值)。
%计算W1grad
W1grad = W1grad+d2*data';
W1grad = (1/m)*W1grad+lambda*W1;
%计算W2grad
W2grad = W2grad+d3*a2';%
%
W2grad = (1/m).*W2grad+lambda*W2;
%
%计算b1grad
b1grad = b1grad+sum(d2,2);
%% STEP 0: Here we provide the relevant parameters values that will
% allowyour sparseautoencoderto get good filters; you do not need to
randn:
生成标准正态分布的伪随机数(均值为0,方差为1)。主要语法:和上面一样
randi:
生成均匀分布的伪随机整数
主要语法:randi(iMax)在闭区间(0,iMax)生成均匀分布的伪随机整数
randi(iMax,m,n)在闭区间(0,iMax)生成mXn型随机矩阵
r =randi([iMin,iMax],m,n)在闭区间(iMin,iMax)生成mXn型随机矩阵
/wiki/index.php/UFLDL_Tutorial
代码中的checkNumericalGradient模块用于验证数值计算的梯度和解析法计算的梯度值之间的差距,不用于实现自动编码器的功能,可以不运行。
Train.m模块是整个自动编码器运行的顶层代码和框架;
实验流程:
首先运行主程序train.m中的步骤1,即随机采样出10000个小的patch,并且显示出其中的204个patch图像,图像显示如下所示:
然后运行train.m中的步骤2和步骤3,进行损失函数和梯度函数的计算并验证。进行gradient checking的时间可能会太长,我这里大概用了1个半小时以上(反正1个多小时还没checking完,所以去睡觉了),当用gradient checking时,发现误差只有6.5101e-11,远小于1e-9,所以说明前面的损失函数和偏导函数程序是对的。后面就可以接着用优化算法来求参数了,本程序给的是优化算法是L-BFGS。经过几分钟的优化,就出结果了。
%sum(a2,2)计算出a2矩阵中10000个64位的值中,每组64位值的和。
%
rho= (1/m).*sum(a2,2);%求出第一个隐含层的平均值向量
Jsparse=sum(sparsityParam.*log(sparsityParam./rho)+ ...
(1-sparsityParam).*log((1-sparsityParam)./(1-rho)));%
W2 =reshape(theta(hiddenSize*visibleSize+1:2*hiddenSize*visibleSize),visibleSize,hiddenSize);
b1 =theta(2*hiddenSize*visibleSize+1:2*hiddenSize*visibleSize+hiddenSize);
%其它层的统一计算公式为:
sterm= beta*(-sparsityParam./rho+(1-sparsityParam)./(1-rho));%因为加入了稀疏规则项,所以
%计算偏导时需要引入该项,即
d2 = (W2'*d3+repmat(sterm,1,m)).*sigmoidInv(z2);%
% Instructions
% %This file contains code that helps you get started on the
% programmingassignment. You will need to complete the code insampleIMAGES.m,
imagesc:
imagesc和image类似,可以用于显示图像。比如imagesc(array,'EraseMode','none',[-1 1]),这里的意思是将array中的数据线性映射到[-1,1]之间,然后使用当前设置的颜色表进行显示。此时的[-1,1]充满了整个颜色表。背景擦除模式设置为node,表示不擦除背景。
display_networks模块用于通过图形化的形式显示计算结果;
1.2
1
θθ
theta
2
λλ
lamda
3
j
rho
4
ρ
sparsityParam
5
β
beta
1.3
前言:
现在来进入sparseautoencoder的一个实例练习,参考Ng的网页教程:Exercise:Sparse Autoencoder。这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparseautoencoder的方法训练出一个隐含层网络所学习到的特征。该网络共有3层,输入层是64个节点,隐含层是25个节点,输出层当然也是64个节点了。
%前向算法计算各神经网络节点的线性组合值和active值
z2 = W1*data+repmat(b1,1,m);%注意这里一定要将b1向量复制扩展成m列的矩阵
a2 =sigmoid(z2);%a(2)=f(z(2))
z3 = W2*a2+repmat(b2,1,m);%
a3 =sigmoid(z3);%
SampleIMAGES用于将图像数据文件IMAGES.mat中的图像数据的格式进行调整以便于后续处理。
initializeParameters模块用于对theta参数进行初始化;
sparseAutoencoderCost模块用于实现自动编码器的核心功能;
computeNumericalGradient模块用于计算数值梯度;
%sparseAutoencoderCost.mandcomputeNumericalGradient.m.
% Forthe purpose of completing the assignment, you do not need to
% changethe code in this file.
%======================================================================
2.利用z值和a值计算出网络每个节点的误差值(即程序中的delta值)。
3.这样可以利用上面计算出的每个节点的a,z,delta来表达出系统的损失函数以及损失函数的偏导数了,当然这些都是一些数学推导,其公式就是前面的博文Deep learning:八(Sparse Autoencoder)了。
其实步骤1是前向进行的,也就是说按照输入层——》隐含层——》输出层的方向进行计算。而步骤2是方向进行的(这也是该算法叫做BP算法的来源),即每个节点的误差值是按照输出层——》隐含层——》输入层方向进行的。
生成均匀分布的伪随机数。分布在(0~1)之间
主要语法:rand(m,n)生成m行n列的均匀分布的伪随机数
rand(m,n,'double')生成指定精度的均匀分布的伪随机数,参数还可以是'single'
rand(RandStream,m,n)利用指定的RandStream(我理解为随机种子)生成伪随机数
最后的W1的权值如下所示:
2.
根据代码中的sparseAutoencoderCost模块进行说明。
%将长向量转换成每一层的权值矩阵和偏置向量值;将theta中的数据赋值给w1,w2,b1,b2,这些矩阵的维度与其初始维度相同。
W1 =reshape(theta(1:hiddenSize*visibleSiபைடு நூலகம்e),hiddenSize,visibleSize);
b2 =theta(2*hiddenSize*visibleSize+hiddenSize+1:end);
% Costandgradient variables (your code needstocompute these values).
%Here, we initialize themtozeros.
b1grad = (1/m)*b1grad;%注意b的偏导是一个向量,所以这里应该把每一行的值累加起来
%计算b2grad
b2grad = b2grad+sum(d3,2);
b2grad = (1/m)*b2grad;
3.
3.1
%% CS294A/CS294W Programming Assignment Starter Code
%损失函数的总表达式 ;
%其中 是代价函数
cost =Jcost+lambda*Jweight+beta*Jsparse;%cost等于
%******************************
%以上部分为进行前向计算的内容,以下部分实施反向传播
%反向算法求出每个节点的误差值
d3 =-(data-a3).*sigmoidInv(z3);%输出层 ;
%
%计算预测产生的误差
Jcost= (0.5/m)*sum(sum((a3-data).^2));%
%计算权值惩罚项,即权值衰减项
Jweight= (1/2)*(sum(sum(W1.^2))+sum(sum(W2.^2)));%
%计算稀释性规则项; a2的取值为10000个64位的值,每个64位的值是一个8*8图像的像素值;
cost=0;
W1grad =zeros(size(W1));
W2grad =zeros(size(W2));
b1grad =zeros(size(b1));
b2grad =zeros(size(b2));
Jcost=0;%直接误差
Jweight=0;%权值惩罚
Jsparse=0;%稀疏性惩罚
[n m] = size(data);%m为样本的个数,n为样本的特征数
repmat:
该函数是扩展一个矩阵并把原来矩阵中的数据复制进去。比如说B =repmat(A,m,n),就是创建一个矩阵B,B中复制了共m*n个A矩阵,因此B矩阵的大小为[size(A,1)*m size(A,2)*m]。
使用函数句柄的作用:
不使用函数句柄的情况下,对函数多次调用,每次都要为该函数进行全面的路径搜索,直接影响计算速度,借助句柄可以完全避免这种时间损耗。也就是直接指定了函数的指针。函数句柄就像一个函数的名字,有点类似于C++程序中的引用。
一些malab函数:
bsxfun:
C=bsxfun(fun,A,B)表达的是两个数组A和B间元素的二值操作,fun是函数句柄或者m文件,或者是内嵌的函数。在实际使用过程中fun有很多选择比如说加,减等,前面需要使用符号’@’.一般情况下A和B需要尺寸大小相同,如果不相同的话,则只能有一个维度不同,同时A和B中在该维度处必须有一个的维度为1。比如说bsxfun(@minus, A, mean(A)),其中A和mean(A)的大小是不同的,这里的意思需要先将mean(A)扩充到和A大小相同,然后用A的每个元素减去扩充后的mean(A)对应元素的值。
深度学习之自动编码器
1.
1.1
实现自动便器的功能,除了本文档代码章节所列出的代码以外,还需要IMAGES.mat文件和minFunc功能模块。minFunc功能模块用于实现L-BFGS算法。具体算法可参看以下网址的文档:
/wiki/index.php/UFLDL教程
exist:
测试参数是否存在,比如说exist('opt_normalize', 'var')表示检测变量opt_normalize是否存在,其中的’var’表示变量的意思。
colormap:
设置当前常见的颜色值表。
floor:
floor(A):取不大于A的最大整数。
ceil:
ceil(A):取不小于A的最小整数。
实验基础:
其实实现该功能的主要步骤还是需要计算出网络的损失函数以及其偏导数,具体的公式可以参考前面的博文Deep learning:八(Sparse Autoencoder)。下面用简单的语言大概介绍下这个步骤,方便大家理清算法的流程。
1.计算出网络每个节点的输入值(即程序中的z值)和输出值(即程序中的a值,a是z的sigmoid函数值)。
%计算W1grad
W1grad = W1grad+d2*data';
W1grad = (1/m)*W1grad+lambda*W1;
%计算W2grad
W2grad = W2grad+d3*a2';%
%
W2grad = (1/m).*W2grad+lambda*W2;
%
%计算b1grad
b1grad = b1grad+sum(d2,2);
%% STEP 0: Here we provide the relevant parameters values that will
% allowyour sparseautoencoderto get good filters; you do not need to
randn:
生成标准正态分布的伪随机数(均值为0,方差为1)。主要语法:和上面一样
randi:
生成均匀分布的伪随机整数
主要语法:randi(iMax)在闭区间(0,iMax)生成均匀分布的伪随机整数
randi(iMax,m,n)在闭区间(0,iMax)生成mXn型随机矩阵
r =randi([iMin,iMax],m,n)在闭区间(iMin,iMax)生成mXn型随机矩阵
/wiki/index.php/UFLDL_Tutorial
代码中的checkNumericalGradient模块用于验证数值计算的梯度和解析法计算的梯度值之间的差距,不用于实现自动编码器的功能,可以不运行。
Train.m模块是整个自动编码器运行的顶层代码和框架;
实验流程:
首先运行主程序train.m中的步骤1,即随机采样出10000个小的patch,并且显示出其中的204个patch图像,图像显示如下所示:
然后运行train.m中的步骤2和步骤3,进行损失函数和梯度函数的计算并验证。进行gradient checking的时间可能会太长,我这里大概用了1个半小时以上(反正1个多小时还没checking完,所以去睡觉了),当用gradient checking时,发现误差只有6.5101e-11,远小于1e-9,所以说明前面的损失函数和偏导函数程序是对的。后面就可以接着用优化算法来求参数了,本程序给的是优化算法是L-BFGS。经过几分钟的优化,就出结果了。
%sum(a2,2)计算出a2矩阵中10000个64位的值中,每组64位值的和。
%
rho= (1/m).*sum(a2,2);%求出第一个隐含层的平均值向量
Jsparse=sum(sparsityParam.*log(sparsityParam./rho)+ ...
(1-sparsityParam).*log((1-sparsityParam)./(1-rho)));%
W2 =reshape(theta(hiddenSize*visibleSize+1:2*hiddenSize*visibleSize),visibleSize,hiddenSize);
b1 =theta(2*hiddenSize*visibleSize+1:2*hiddenSize*visibleSize+hiddenSize);
%其它层的统一计算公式为:
sterm= beta*(-sparsityParam./rho+(1-sparsityParam)./(1-rho));%因为加入了稀疏规则项,所以
%计算偏导时需要引入该项,即
d2 = (W2'*d3+repmat(sterm,1,m)).*sigmoidInv(z2);%
% Instructions
% %This file contains code that helps you get started on the
% programmingassignment. You will need to complete the code insampleIMAGES.m,
imagesc:
imagesc和image类似,可以用于显示图像。比如imagesc(array,'EraseMode','none',[-1 1]),这里的意思是将array中的数据线性映射到[-1,1]之间,然后使用当前设置的颜色表进行显示。此时的[-1,1]充满了整个颜色表。背景擦除模式设置为node,表示不擦除背景。
display_networks模块用于通过图形化的形式显示计算结果;
1.2
1
θθ
theta
2
λλ
lamda
3
j
rho
4
ρ
sparsityParam
5
β
beta
1.3
前言:
现在来进入sparseautoencoder的一个实例练习,参考Ng的网页教程:Exercise:Sparse Autoencoder。这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparseautoencoder的方法训练出一个隐含层网络所学习到的特征。该网络共有3层,输入层是64个节点,隐含层是25个节点,输出层当然也是64个节点了。
%前向算法计算各神经网络节点的线性组合值和active值
z2 = W1*data+repmat(b1,1,m);%注意这里一定要将b1向量复制扩展成m列的矩阵
a2 =sigmoid(z2);%a(2)=f(z(2))
z3 = W2*a2+repmat(b2,1,m);%
a3 =sigmoid(z3);%
SampleIMAGES用于将图像数据文件IMAGES.mat中的图像数据的格式进行调整以便于后续处理。
initializeParameters模块用于对theta参数进行初始化;
sparseAutoencoderCost模块用于实现自动编码器的核心功能;
computeNumericalGradient模块用于计算数值梯度;
%sparseAutoencoderCost.mandcomputeNumericalGradient.m.
% Forthe purpose of completing the assignment, you do not need to
% changethe code in this file.
%======================================================================
2.利用z值和a值计算出网络每个节点的误差值(即程序中的delta值)。
3.这样可以利用上面计算出的每个节点的a,z,delta来表达出系统的损失函数以及损失函数的偏导数了,当然这些都是一些数学推导,其公式就是前面的博文Deep learning:八(Sparse Autoencoder)了。
其实步骤1是前向进行的,也就是说按照输入层——》隐含层——》输出层的方向进行计算。而步骤2是方向进行的(这也是该算法叫做BP算法的来源),即每个节点的误差值是按照输出层——》隐含层——》输入层方向进行的。