深度学习读书笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
深度学习读书笔记
【篇一:深度学习文字识别论文综述】
深度学习文字识别论文综述
深度学习文字识别论文综述
深度学习是机器学习研究中的
一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度
学习是无监督学习的一种,深度学习采用了神经网络的分层结构,
系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相
邻的节点之间有连接,同一层以及跨层节点之间相互无连接。深度
学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从
底层到高层的特征,从而能很好地建立从底层信号到高层语义的映
射关系。近年来,谷歌、微软、百度等拥有大数据的高科技公司相
继投入大量资源进行深度学习技术研发,在语音、图像、自然语言、在线广告等领域取得显著进展。从对实际应用的贡献来说,深度学
习可能是机器学习领域最近这十年来最成功的研究方向。深度学习
模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量
的时间进行人工特征提取的工作,使得在线运算效率大大提升。
深度学习用于文字定位
论文thai text localization in natural scene images using convolutional neural network主要采用cnn的方法进行自然场景
中的文本分类,并根据泰字的特点进行分类后的后处理,得到更加
精确的定位效果。如图1所示为cnn网络模型,cnn网络由一个输
入层,两个卷积层和两个下采样层以及一个全连接层组成,输出为
一个二分类向量,即文本和非文本。
图1 cnn网络模型
该文主要思路为将图像切块后进行训练,采用人工标注样本的方法,使得网络具有识别文本和非文本的能力。由于样本数量较少,文中
采用了根据已有字体生成训练数据集的方法,包括对字体随机添加
背景、调整字体风格以及应用滤波器。如图2为生成的泰字样本,
文中在标签的过程中将半个字或者整个字都标记为文本,增加了网
络对文字的识别率。
图2训练样本集
在使用生成好的网络进行文字定位的过程中,论文采用的编组方法结合了泰字的特点,如图3为对图像文字的初步定位,其中被标记的区域被网络识别为文字。
图3图像文字的初步定位
论文后期对标记的矩形小框区域进行了整合,结合了泰字本身的特点,如图图4所示为原始图像文字,图5为对识别结果进行的后处理,其中a,b,c将文字分为上、中、下三个部分。文中指出泰字一般的最高不超过中心线b的50%,采用这个规律进行了文字编组,得到如图6的编组结果,其中白色区域为编组结果。
图4原始文本图像
图5 后处理结果
图6 编组结果
同时论文也考虑了泰字的其他特点,如中心线与上边界和下边界的夹角不超过45度,根据这个规律又对编组结果进行调整。如图7所示,当超过夹角限制是进行了微调。如图8与图9为论文的最终定位结果。
图7 泰字编组调整
图8定位结果
图9定位结果
论文reading numbers in natural scene images with convolutional neural
networks结合隐马尔可夫模型 (hidden markov model,hmm)和深度学习方法来实现对自然场景中的数字进行定位和识别。首先采用cnn方法对原始的数字图像进行特征提取,将提取的结果输入至hmm模型进而得到数字的识别结果。如图10为论文提出的识别方法模型。
图10 文字识别模型
论文为了实现直接在原始的图像上进行识别,采用了动态窗口滑动的方法,提取一系列的图像块。如图11为论文采用的cnn结构,包括4个卷积层,其中3个卷积层都有相邻的下采样层,每个卷积层都包含一个本地归一化,共2个全连接层。网络的训练首先通过滑动窗口提取图像的骨架,然后采用主成分分析pca方法进行降维,然后将得到的主要特征作为gmm-hmm模型的输入,采用viterbi 译码对gmm-hmm的输出进行处理,最后采用cnn对生成的数据进行训练,数据的标签自动生成不需要人工参与。
图11cnn网络结构模型
论文首先采用cnn对数字进行分类,其中分类数为11即数字
0,1,2,3,4,5,6,7,8,9,以及标签10代表非数字,论文采用hmm
模型对分类的
【篇二:深度学习的9篇标志性论文】
a fast learning algorithm for deep belief nets (2006)
- 首次提出layerwise greedy pretraining的方法,开创deep learning方向。 layerwise pretraining的restricted boltzmann machine (rbm)堆叠起来构成 deep belief network (dbn),其中训
练最高层的rbm时加入了label。之后对整个dbn进行fine-tuning。在 mnist数据集上测试没有严重过拟合,得到了比neural network (nn)更低的test error。
reducing the dimensionality of data with neural networks (2006)
- 提出deep autoencoder,作为数据降维方法发在science上。autoencoder是一类通过最小化函数集对训练集数据的重构误差,
自适应地编解码训练数据的算法。deep autoencoder模型用contrastive divergence (cd)算法逐层训练重构输入数据的rbm,
堆叠在一起fine-tuning最小化重构误差。作为非线性降维方法在图
像和文本降维实验中明显优于传统方法。
learning deep architectures for ai (2009)
- bengio关于deep learning的tutorial,从研究背景到rbm和
cd再到数种deep learning算法都有详细介绍。还有丰富的reference。于是也有个缺点就是太长了。
a practical guide to training restricted boltzmann machines (2010)
- 如果想要自己实现deep learning算法,这篇是不得不看的。我
曾经试过自己写但是效果很不好,后来看到它才知道算法实现中还
有很多重要的细节。对照网上的代码看也能更好地理解代码。
greedy layer-wise training of deep networks (2007)
- 对dbn的一些扩展,比如应用于实值输入等。根据实验提出了对deep learning的performance的一种解释。
why does unsupervised pre-training help deep learning? (2010)