基于神经网络的图像语义分割

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数学理论的分割:形态学、模糊数学、模糊集合、小波分析等
结合特定理 论工具的分
遗传算法:基于进化论自然选择机制的、并行的、统计的、随机搜索方法
割法:
基于神经网络分割法:通过训练多层感知机得到最终的决策函数,然后用决策函数对像素进行
分类达到分割的目的
3 图像语义分割
图像语义分割,本质上还是图像分割的问题,语义分割顾名思义是在图像分割基础上,根据 图像本身的纹理和场景,来得出图像本身需要表达的信息,这里信息主要包含两个部分:
14 V G G - n e t 深 度 卷 积 网 络 结 构
VGG-net来自牛津大学Andrew Zisserman教授实验组。VGG通常有16-19层, 所有卷积层使用相同大小的 卷积核,卷积核大小为3×3
15 V G G - n e t 深 度 卷 积 网 络 结 构
Dropout就是在前向传导的时候,让某个神经元的激活值以一定的概率p,让其停止工作,示意图如下:
1 0 经典的LeNet
各项参数详解
5. C5层是一个卷积层 输入:S4层的全部16个单元特征map(与s4全相连) 卷积核大小:5*5 卷积核种类:120 输出特征图大小:1*1(5-5+1)
6. F6层全连接层 输入:c5 120维向量 计算方式:计算输入向量和权重向量之间的点积,再 加上一个偏置,结果通过sigmoid函数
9 经典的LeNet
各项参数详解
3. C3层也是一个卷积层 输入:S2中所有6个或者几个特征图组合 卷积核大小:5*5 卷积核种类:16 输出featureMap大小:10*10 C3中的每个特征map是连接到S2中的所有6个或者几个特征map的,表 示本层的特征map是上一层提取到的特征map的不同组合 存在的一个方式是:C3的前6个特征图以S2中3个相邻的特征图子集为输 入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不 相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。 则:可训练参数:6*(3*25+1)+6*(4*25+1)+3*(4*25+1)+ (25*6+1)=1516
提取主要特征
Max-pooling:整个图片被不重叠的分割成若干个同样大小的小块(pooling size)。每个小块内只取最大的数字,
再舍弃其他节点后,保持原有的平面结构得出output
13 M a x - p o o l i n g
Max pooling 的主要功能是下采样( down sampling ),却不会损坏识别结果。
11 V G G - n e t 深 度 卷 积 网 络 结 构
VGG-net来自牛津大学Andrew Zisserman教授实验组。VGG通常有16-19层, 所有卷积层使用相同大小的 卷积核,卷积核大小为3×3
12 M a x - p o o l i n g
池化层(采样层):对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,
2. S2层是一个下采样层(池化层Pooling) 输入:28*28 采样区域:2*2 采样方式:4个输入相加,乘以一个可训练参数, 再加上一个可训练偏置。结果通过sigmoid 采样种类:6 输出特征图大小:14*14(28/2) S2中每个特征图的大小是C1中特征图大小的1/4
8 经典的LeNetቤተ መጻሕፍቲ ባይዱ
5 经典的LeNet
LeNet一共有7层(不包括输入层),C1,C3,C5为卷积层,S2,S4为降采样层,F6为全连接层,还有一个输出层。
6 经典的LeNet
卷积和子采样
卷积代替全连接
卷积过程:用一个可训练的滤波器fx去卷积一个输入的图像(第一阶 段是输入的图像,后面的阶段就是卷积特征map),然后加一个偏置 bx,得到卷积层Cx;
4. S4层是一个下采样层 输入:10*10 采样区域:2*2 采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。 结果通过sigmoid 采样种类:16 输出featureMap大小:5*5(10/2) 可训练参数:2*16=32(和的权+偏置) S4中每个特征图的大小是C3中特征图大小的1/4
基于神经网络的图像语义分割
1 图像分割
图像分割,从宏观上讲就是将一张图片根据特定需求分成多个部分。
一般来讲,图像分割就是根据图像本身一些特征,比如色彩,纹理等,把图像中不同位 置的像素点具有相同特征的聚类成一个分类的过程。
2 常用方法
阈值分割法:用一个或几个阈值将图像的灰度直方图分成几类,认为图像中灰度值相同的像素属于同一物体 基于边缘分割法:通过检测包含不同的区域之间的边缘来进行图像的分割。不同区域之间的边缘信息 基于区域分割法:把具有相似性质的像素点进行连通,从而慢慢的组合成最终的分各区域结果
图像所要表达的场景 图像中某个物体的类别
4 基于卷积神经网络的图像语义分割
通过原始图片输入,先对图片大小进行调整,再经过卷积层对图像特征进行刻画,利用反卷积层来直接产 生图像语义分割结果
下图中,前半段表示算法的卷积层和池化层(pooling)阶段,主要参考VGG-net的结构来实现,后半段 为反卷积过程,主要依赖于unpooling的过程来还原图片的大小,从而得到最终的图像语义分割结果
子采样过程:邻域四个像素求和变为一个像素,然后通过标量W加权, 再增加偏置b,然后通过一个sigmoid激活函数,产生一个缩小四倍 的特征映射图Sx+1
7 经典的LeNet
各项参数详解
1. C1层是一个卷积层 输入图片:32*32 卷积核大小:5*5 卷积核种类:6 输出特征图大小:28*28 ,(32-5+2*0)/1+1 可训练参数:(5*5+1)*6(每个滤波器 5*5=25个unit参数和一个bias参数,一共6个滤 波器)
上面公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量。 Dropout让某个神经元以概率p,停止工作,其实就是让它的激活值以概率p变为0。比如我们某一层网络神经元的 个数为1000个,其激活值为x1,x2……x1000,我们dropout比率选择0.4,那么这一层神经元经过drop后, x1……x1000神经元其中会有大约400个的值被置为0。 故Dropout是为了防止过拟合,一般加在全连接层之后,全连接层易出现过度拟合
相关文档
最新文档