一种基于对抗学习的三维重建系统及其方法[发明专利]

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011371730.4
(22)申请日 2020.11.30
(71)申请人 江苏科技大学
地址 212003 江苏省镇江市梦溪路2号
(72)发明人 史金龙 白素琴 周志强 钱强 
郭凌 欧镇 田朝晖 钱萍 
(74)专利代理机构 南京经纬专利商标代理有限
公司 32200
代理人 徐澍
(51)Int.Cl.
G06T 17/00(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于对抗学习的三维重建系统及其方

(57)摘要
本发明公开了一种基于对抗学习的三维重
建系统及其方法。

本发明采用GAN原理实现了高
质量三维重建,提出一种新的对抗学习三维重建
框架,通过训练GAN模型迭代地改进和收敛原始
三维重建模型。

该模型仅以实时二维观测图像作为弱监督手段,不依赖于形状模型的先验知识或
任何三维基准数据。

本发明提供一种无接触、方
便的从视图中快速重建物体三维形状的技术,可
适用于船舶综合保障、装备虚拟维修、交互式电
子技术手册、电影、动画、虚拟现实、增强现实、工
业制造等多个领域,
在具备广阔的市场前景。

权利要求书3页 说明书6页 附图3页CN 112489198 A 2021.03.12
C N 112489198
A
1.一种基于对抗学习的三维重建系统,其特征在于,包括:
三维生成网络和三维判别网络;
所述的三维判别网络:区分由三维生成网络重建的三维场景模型和真实的三维场景;最终输出:生成图像的分类概率值;
所述的三维生成网络:重建与真实三维场景一致的三维场景模型,并试图混淆三维判别网络,让三维判别网络无法区分真实的三维场景与重建的三维模型场景;最终输出:分辨率为64×64×64×1的三维网格模型。

2.根据权利要求1所述的一种基于对抗学习的三维重建系统,其特征在于,所述的三维生成网络包括:
1个二维卷积层,记作Conv;2个稠密连接模块;3个全连接层,记作FC;4个三维转置卷积层,记作ConvT;
所述的二维卷积层的卷积核尺寸为3×3,步幅为2,记作Stride,输出16个特征图,记作FM;
所述的2个稠密连接模块均包括4个二维卷积层;每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个批量归一化层,记作BN层,和1个ReLU激活函数;最后一个卷积层后面再设置1个平均池化层,记作Avg Pool;第一个稠密连接模块中每个二维卷积层输出32个特征图;第二个稠密连接模块中每个二维卷积层输出64个特征图;
所述的3个全连接层的输出分别为2048、1024和256×4×4×4,每个全连接层之后均设置1个BN层和1个ReLU激活函数;
所述的4个三维转置卷积层的核大小均是3×3×3,步幅均为2,输出通道分别是256、128、64和16,在每个三维转置卷积层之后设置1个BN层和ReLU激活函数。

3.根据权利要求1所述的一种基于对抗学习的三维重建系统,其特征在于,所述的三维判别网络包括:
1个二维卷积层、2个稠密连接模块和2个全连接层;
所述的二维卷积层的卷积核尺寸为3×3,步幅为2,输出64个特征图;
所述的2个稠密连接模块均包括4个二维卷积层,每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个BN层和1个ReLU激活函数;最后一个卷积层后面再设置1个Avg Pool;第一个稠密连接模块中每个二维卷积层输出128个特征图;第二个稠密连接模块中每个二维卷积层输出256个特征图;
所述的2个全连接层的输出分别为2048和1,前一个全连接层之后设置1个BN层和1个ReLU激活函数;后一个全连接层之后设置一个Sigmoid函数。

4.一种基于对抗学习的三维重建系统及其方法,其特征在于:
采用一种基于对抗学习的三维重建系统,该系统包括:三维生成网络和三维判别网络;
所述的三维判别网络:区分由三维生成网络重建的三维场景模型和真实的三维场景;最终输出:生成图像的分类概率值;所述的三维生成网络:重建与真实三维场景一致的三维场景模型,并试图混淆三维判别网络,让三维判别网络无法区分真实的三维场景与重建的三维模型场景;最终输出:分辨率为64×64×64×1的三维网格模型;
所述方法包括:设计训练深度神经网络的损失函数L Overall ,对抗训练三维生成网络和三维判别网络,当网络模型达到纳什均衡时,三维生成网络便可以重建与真实场景的特征和分布完全一致的三维场景模型;对于重建的三维场景模型的观测图像和真实的三维场景的观察视图,三维判别网络的分类概率均为0.5;
所述的对抗训练包括以下过程:
步骤1.生成初始三维场景模型,初始化三维生成网络;具体过程为:使用摄像机拍摄视频,根据视频生成真实的基准图像数据集、摄像机参数和运动位姿T;通过比较相邻图像帧间的差异估计图像深度信息;采用空间映射方法生成的初始的三维场景模型;
步骤2.将重建的三维场景模型置于三维虚拟环境,在三维虚拟环境中设置了一个与真实摄像机参数相同的虚拟摄像机,用该虚拟相机采集三维场景模型的渲染图像流;具体过
程为:通过在获取基准视频过程中记录的摄像机轨迹T,将虚拟摄像机沿该轨迹T移动;
在与真实观察场景相同位置和视点上,利用伪渲染器将重建的三维场景模型投影到二维图像,生成与基准图像数量相同的渲染图像;
步骤3.基准图像和渲染图像准备就绪后,便可进行网络模型对抗训练;具体过程为:利用三维判别网络分辨基准图像和渲染图像;通过损失函数计算总损失值,进行网络微调、形成新的三维生成网络和三维判别网络;
步骤4.迭代训练三维生成网络和三维判别网络;具体过程为:根据基准图像利用新的三维生成网生成新的三维重建模型;转入步骤(b),即:将三维重建模型置于虚拟环境,利用虚拟摄像机观察,新观测到的渲染图像及基准图像再被输入到三维判别网络中进行判别;然后,重复步骤(b)‑(d),迭代地训练和创建新的三维生成网络和三维判别网络,直止总损失收敛到期望的值。

5.根据权利要求4所述的一种基于对抗学习的三维重建方法,其特征在于,所述的训练深度神经网络的损失函数L Overall ,包括:重建损失函数L Recons 、交叉熵损失函数L GAN ,定义如下:
L Overall =λ·L Recons +(1‑λ)·L GAN (1)
其中,λ是调整重建损失和交叉熵损失间权重的参数;
①重建损失函数L Recons
重建损失函数L Recons 可通过从三维判别器中计算的基准图像与渲染图像之间差异来定义;采用两个指标:结构相似性SSIM,是一种基于人类视觉系统的图像质量评价指标,基准图像与渲染图像的SSIM指示值在0‑1之间,当SSIM值接近1时,图像x和y之间的差异较小;峰值信噪比PSNR,其指标从灰度保真度的角度评价影响效果的差异,PSNR的公共值在20‑70dB 之间,此处采用Sigmoid函数将其值调整到0到1的范围:
其中E_Sigm()表示Sigmoid函数;
本发明重建损失函数L Recons 定义为:
其中,α,β是调整PSNR、SSIM权重的参数;下标G j F j 表示基准图像和渲染图像对;N表示图
像对的总数;
②交叉熵损失函数L GAN
交叉熵损失值L GAN 可以定量地反映三维生成网络和三维判别网络的训练过程;带梯度惩罚的WGAN对训练的复杂三维生成网和三维判别网更加有效;此处采用WGAN训练方法设计交叉熵损失函数L GAN :
其中,P r 是真实基准图像分布;P g 是渲染图像分布;符号x表示基准图像,符号是由三维生成网络隐式地生成的渲染图像;表示三维生成网络的梯度惩罚;θ是交叉熵损失中调整梯度惩罚权重的参数;被隐式定义为数据集,该数据集沿着来自P r 和P g 分布的点对之间的直线均匀采样;E表示数学期望。

一种基于对抗学习的三维重建系统及其方法
技术领域
[0001]本发明属于计算机三维重建技术领域,具体涉及一种基于对抗学习的三维重建系统及其方法。

技术背景
[0002]在计算机图形学和计算机视觉领域,三维重建是恢复真实物体的形状、结构和外观的技术。

由于其丰富直观的表现力,三维重建被广泛应用于装备保障、虚拟维修、建筑、地质学、考古学、游戏和虚拟现实等领域。

在过去的若干来,研究人员在三维重建方面取得了重大进展。

传统的SFM(Structure from motion)和MVS(Multi View Stereo)等三维重建方法:首先,在两幅图像中寻求特征匹配,估计两视图初始的三维重建结果;然后,以两视图重建结果为基础,迭代地添加新的图像,新加入的图像与之前的图像进行特征匹配;再利用三角测量、结构与运动束调整等方式重建三维模型。

然而,传统SFM和MVS方法的时间复杂度通常较高;另外重建物体的表面缺乏纹理或有镜面反射时,往往会产生空洞、变形和模糊的部分,或者只能对简单孤立的物体进行体素化三维模型的重建,因此不满足实际应用需求。

新开发的生成对抗网络(GAN,Generative Adversarial Networks)是深度神经网络中极具影响力的方法,在图像处理的很多领域都取得了成功。

最近有些学者将GAN用于三维重建。

其中,代表性的工作是3D‑GAN【Jiajun Wu,Chengkai Zhang,Tianfan Xue,Bill Freeman,and Josh Tenenbaum.Learning a probabilistic latent space of object shapes via 3d generative adversarial modeling.In Advances in Neural Information Processing Systems,pages 82–90,2016】。

3D‑GAN引入生成‑对抗损失作为判断物体是真实的还是重构的。

由于三维物体是高度结构化的,生成‑对抗准则比传统方法在捕捉三维对象结构差异方面具有更好性能。

当前的GAN网络三维重建方法仍然有很多不足之处,例如精度仍然不高,训练过程的稳定性差等。

发明内容
[0003]本发明目的是针对现有单视图三维重建技术存在的不足之处,利用GAN网络技术,从低维概率空间到三维物体空间的映射关系,提供一种基于对抗学习的三维重建系统及其方法。

本方法的重建过程不依赖于三维CAD模型和对应二维图像的训练数据集。

[0004]为解决上述技术问题,本发明采用以下技术方案。

[0005]本发明的一种基于对抗学习的三维重建系统,包括:
[0006]三维生成网络和三维判别网络;
[0007]所述的三维判别网络:区分由三维生成网络重建的三维场景模型和真实的三维场景;最终输出:生成图像的分类概率值;
[0008]所述的三维生成网络:重建与真实三维场景一致的三维场景模型,并试图混淆三维判别网络,让三维判别网络无法区分真实的三维场景与重建的三维模型场景;最终输出:分辨率为64×64×64×1的三维网格模型。

[0009]进一步地,所述的三维生成网络包括:
[0010]1个二维卷积层,记作Conv;2个稠密连接模块;3个全连接层,记作FC;4个三维转置卷积层,记作ConvT;
[0011]所述的二维卷积层的卷积核尺寸为3×3,步幅为2,记作Stride,输出16个特征图,记作FM;
[0012]所述的2个稠密连接模块均包括4个二维卷积层;每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个批量归一化层,记作BN层,和1个ReLU激活函数;最后一个卷积层后面再设置1个平均池化层,记作Avg Pool;第一个稠密连接模块中每个二维卷积层输出32个特征图;第二个稠密连接模块中每个二维卷积层输出64个特征图;
[0013]所述的3个全连接层的输出分别为2048、1024和256×4×4×4,每个全连接层之后均设置1个BN层和1个ReLU激活函数;
[0014]所述的4个三维转置卷积层的核大小均是3×3×3,步幅均为2,输出通道分别是256、128、64和16,在每个三维转置卷积层之后设置1个BN层和ReLU激活函数。

[0015]进一步地,所述的三维判别网络包括:
[0016]1个二维卷积层、2个稠密连接模块和2个全连接层;
[0017]所述的二维卷积层的卷积核尺寸为3×3,步幅为2,输出64个特征图;
[0018]所述的2个稠密连接模块均包括4个二维卷积层,每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个BN层和1个ReLU激活函数;最后一个卷积层后面再设置1个Avg Pool;第一个稠密连接模块中每个二维卷积层输出128个特征图;第二个稠密连接模块中每个二维卷积层输出256个特征图;
[0019]所述的2个全连接层的输出分别为2048和1,前一个全连接层之后设置1个BN层和1个ReLU激活函数;后一个全连接层之后设置一个Sigmoid函数。

[0020]本发明的一种基于对抗学习的三维重建系统及其方法,包括:设计训练深度神经
,对抗训练三维生成网络和三维判别网络,当网络模型达到纳什均网络的损失函数L
Overall
衡时,三维生成网络便可以重建与真实场景的特征和分布完全一致的三维场景模型;对于重建的三维场景模型的观测图像和真实的三维场景的观察视图,三维判别网络的分类概率均为0.5;
[0021]所述的对抗训练包括以下过程:
[0022] a.生成初始三维场景模型,初始化三维生成网络;具体过程为:使用摄像机拍摄视频,根据视频生成真实的基准图像数据集、摄像机参数和运动位姿T;通过比较相邻图像帧间的差异估计图像深度信息;采用空间映射方法生成的初始的三维场景模型;
[0023] b.将重建的三维场景模型置于三维虚拟环境,在三维虚拟环境中设置了一个与真实摄像机参数相同的虚拟摄像机,用该虚拟相机采集三维场景模型的渲染图像流;具体过程为:通过在获取基准视频过程中记录的摄像机轨迹T,将虚拟摄像机沿该轨迹T移动;在与真实观察场景相同位置和视点上,利用伪渲染器将重建的三维场景模型投影到二维图像,生成与基准图像数量相同的渲染图像;
[0024] c.基准图像和渲染图像准备就绪后,便可进行网络模型对抗训练;具体过程为:利
用三维判别网络分辨基准图像和渲染图像;通过损失函数计算总损失值,进行网络微调、形成新的三维生成网络和三维判别网络;
[0025] d.迭代训练三维生成网络和三维判别网络;具体过程为:根据基准图像利用新的三维生成网生成新的三维重建模型;转入步骤(b),即:将三维重建模型置于虚拟环境,利用虚拟摄像机观察,新观测到的渲染图像及基准图像再被输入到三维判别网络中进行判别;然后,重复步骤(b)‑(d),迭代地训练和创建新的三维生成网络和三维判别网络,直止总损失收敛到期望的值。

[0026]进一步地,所述的训练深度神经网络的损失函数L Overall ,包括:重建损失函数L Recons 、交叉熵损失函数L GAN ,定义如下:
[0027]L Overall =
λ·L Recons +(1‑λ)·L GAN (1)[0028]其中,λ是调整重建损失和交叉熵损失间权重的参数;
[0029]①重建损失函数L Recons
[0030]重建损失函数L Recons 可通过从三维判别器中计算的基准图像与渲染图像之间差异来定义;采用两个指标:结构相似性SSIM,是一种基于人类视觉系统的图像质量评价指标,基准图像与渲染图像的SSIM指示值在0‑1之间,当SSIM值接近1时,图像x和y之间的差异较小;峰值信噪比PSNR,其指标从灰度保真度的角度评价影响效果的差异,PSNR的公共值在20‑70dB之间,此处采用Sigmoid函数将其值调整到0到1的范围:
[0031]
[0032]
其中E_Sigm()表示Sigmoid函数;[0033]
本发明重建损失函数L Recons 定义为:
[0034][0035]其中,α,β是调整PSNR、SSIM权重的参数;下标G j F j 表示基准图像和渲染图像对;N表
示图像对的总数;
[0036]②交叉熵损失函数L GAN
[0037]交叉熵损失值L GAN
可以定量地反映三维生成网络和三维判别网络的训练过程;带梯度惩罚的WGAN对训练的复杂三维生成网和三维判别网更加有效;此处采用WGAN训练方法设计交叉熵损失函数L GAN :
[0038]
[0039]其中,P r 是真实基准图像分布;P g 是渲染图像分布;符号x表示基准图像,符号是由三维生成网络隐式地生成的渲染图像;
表示三维生成网络的梯度惩罚;θ是交叉熵损失中调整梯度惩罚权重的参数;被隐式定义为数据集,该数据集沿着来自P r 和P g 分布的点对之间的直线均匀采样;E表示数学期望。

[0040]相比现有技术,本发明包括以下优点和有益效果:
[0041](1)本发明提出的方法属于弱监督学习框架,只以采集到的二维观测图像作为监督,不依赖于三维形状先验信息、CAD模型库等基准数据。

由于获取三维标注需要设计三维
CAD模型或采用诸如三维扫描仪等专用设备进行三维扫描,工作量巨大。

对于某些特定的应用场景,甚至无法获取三维基准形状。

在这样的情况下,本发明提出的弱监督学习框架,大大减轻了获取标注数据的工作量,有效地实现了三维重建。

[0042](2)本发明提出的方法为基于深度学习的三维重建提供了一种新的解决方法,包括采用空间映射方法生成初始三维场景模型、采用虚拟相机采集三维场景模型的渲染图像流、采用对抗模式训练网络模型等模块。

通过多个模块的协同工作,该方法能有效提高重建精度,并提升训练过程的稳定性。

附图说明
[0043]图1是本发明基于对抗学习的三维重建系统的一种实施例的系统框架示意图。

[0044]图2是本发明的一种实施例的三维生成网络的结构图。

[0045]图3是本发明的一种实施例的三维判别网络的结构图。

具体实施方式
[0046]本发明的一种基于对抗学习的三维重建系统及其方法,采用GAN原理实现高质量的三维重建,为此提出了一种新的对抗学习三维重建框架系统,它可以通过训练GAN模型来迭代地改进和收敛任何原始的三维重建模型。

该模型仅以实时二维观测图像作为弱监督手段,不依赖于形状模型的先验知识或任何三维基准数据。

本发明是一种无接触、方便的、从视图中快速重建物体三维形状的技术,可广泛应用于船舶综合保障、装备虚拟维修、交互式电子技术手册、电影、动画、虚拟现实、增强现实、工业制造等多个领域,具备广阔的市场前景。

[0047]下面结合附图,对本发明做进一步详细说明。

[0048]图1是本发明基于对抗学习的三维重建系统的一种实施例的系统框架示意图。

[0049]如图1所示,本发明该实施例的系统包括:三维生成网络和三维判别网络。

[0050]所述的三维生成网络:重建与真实三维场景一致的三维场景模型,并试图混淆三维判别网络,让三维判别网络无法区分真实的三维场景与重建的三维模型场景。

最终输出:分辨率为64×64×64×1的三维网格模型。

[0051]所述的三维判别网络:区分由三维生成网络重建的三维场景模型和真实的三维场景;最终输出:生成图像的分类概率值。

[0052]本发明所述方法包括:设计训练深度神经网络的损失函数L
,对抗训练三维
Overall
生成网络和三维判别网络,当网络模型达到纳什均衡时,三维生成网络便可以重建与真实场景的特征和分布完全一致的三维场景模型;对于重建的三维场景模型的观测图像和真实的三维场景的观察视图,三维判别网络的分类概率均为0.5;
[0053]所述的对抗训练包括以下过程:
[0054]步骤1.生成初始三维场景模型,初始化三维生成网络。

具体过程为:使用摄像机拍摄视频,根据视频生成真实的基准图像数据集、摄像机参数和运动位姿T;通过比较相邻图像帧间的差异估计图像深度信息;采用空间映射方法生成的初始的三维场景模型。

[0055]步骤2.将重建的三维场景模型置于三维虚拟环境,在三维虚拟环境中设置了一个与真实摄像机参数相同的虚拟摄像机,用该虚拟相机采集三维场景模型的渲染图像流。


体过程为:通过在获取基准视频过程中记录的摄像机轨迹T,将虚拟摄像机沿该轨迹T移动;在与真实观察场景相同位置和视点上,利用伪渲染器将重建的三维场景模型投影到二维图像,生成与基准图像数量相同的渲染图像。

[0056]步骤3.基准图像和渲染图像准备就绪后,便可进行网络模型对抗训练。

具体过程为:利用三维判别网络分辨基准图像和渲染图像;通过损失函数计算总损失值,进行网络微调、形成新的三维生成网络和三维判别网络。

本发明训练深度神经网络的损失函数L Overall 包括:重建损失函数L Recons 和交叉熵损失函数L GAN 。

损失函数L Overall 表示如下:
[0057]L Overall =
λ·L Recons +(1‑λ)·L GAN (1)[0058]其中,λ是调整重建损失和交叉熵损失间权重的参数。

[0059]①重建损失函数L Recons
[0060]重建损失函数L Recons 可通过从三维判别器中计算的基准图像与渲染图像之间差异来定义。

本发明采用两个指标:结构相似性(SSIM,Structural SIMilarity)是一种基于人类视觉系统的图像质量评价指标,两幅图像的SSIM指示值在0‑1之间,当SSIM值接近1时,图像x和y之间的差异较小;峰值信噪比(PSNR,Peak Signal to Noise Ratio)指标从灰度保真度的角度评价影响效果的差异,PSNR的公共值在20‑70dB之间,本发明采用Sigmoid函数将其值调整到0到1的范围:
[0061]
[0062]
其中E_Sigm()表示Sigmoid函数。

[0063]
本发明重建损失函数L Recons 定义为:
[0064]
[0065]其中,α,β是调整PSNR、SSIM权重的参数;下标G j F j 表示基准图像和渲染图像对;N表示图像对的总数。

[0066]②交叉熵损失函数L GAN
[0067]交叉熵损失值L GAN
可以定量地反映三维生成网络和三维判别网络的训练过程。

带梯度惩罚的WGAN(Wasserstein GAN)对训练的复杂三维生成网和三维判别网更加有效。

因此,本发明采用WGAN训练方法设计交叉熵损失函数L GAN ,具体如下:
[0068]
[0069]其中,P r 是真实基准图像分布;P g 是渲染图像分布;符号x表示基准图像,符号是由三维生成网络隐式地生成的渲染图像;
表示三维生成网络的梯度惩罚;θ是交叉熵损失中调整梯度惩罚权重的参数;被隐式定义为数据集,该数据集沿着来自P r 和P g 分布的点对之间的直线均匀采样;E表示数学期望。

[0070]步骤4.迭代训练三维生成网络和三维判别网络.具体过程为:根据基准图像利用新的三维生成网生成新的三维重建模型;转入步骤,即:将三维重建模型置于虚拟环境,利用虚拟摄像机观察,新观测到的渲染图像及基准图像再被输入到三维判别网络中进行判别。

重复步骤(b)‑(d),迭代地训练和创建新的三维生成网络和三维判别网络,直止总损失
收敛到期望的值。

[0071]图2是本发明的一种实施例的三维生成网络的结构图。

如图2所示,包括:[0072]1个二维卷积层(记作Conv)、2个稠密连接模块、3个全连接层(记作FC)和4个三维转置卷积层(记作ConvT)。

[0073]所述的二维卷积层的卷积核尺寸为3×3,步幅(记作Stride)为2,输出16个特征图(记作FM)。

[0074]所述的2个稠密连接模块均由4个二维卷积层组成,每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个批量归一化层(记作BN层)和1个ReLU激活函数;最后一个卷积层后面再设置1个平均池化层(记作Avg Pool)。

第一个稠密连接模块中每个二维卷积层输出32个特征图;第二个稠密连接模块中每个二维卷积层输出64个特征图。

[0075]所述的3个全连接层的输出分别为2048、1024和256×4×4×4,每个全连接层之后均设置1个BN层和1个ReLU激活函数。

[0076]所述的4个三维转置卷积层的核大小均是3×3×3,步幅均为2,输出通道分别是256、128、64和16,在每个三维转置卷积层之后设置1个BN层和ReLU激活函数。

[0077]图3是本发明的一种实施例的三维判别网络的结构图。

如图3所示,包括:[0078]1个二维卷积层、2个稠密连接模块和2个全连接层。

[0079]所述的二维卷积层的卷积核尺寸为3×3,步幅为2,输出64个特征图。

[0080]所述的2个稠密连接模块均由4个二维卷积层组成,每个稠密连接模块的前3个卷积层的卷积核尺寸是3×3,最后一个卷积核尺寸为1×1;步幅均为1;每个二维卷积层之后设置1个BN层和1个ReLU激活函数;最后一个卷积层后面再设置1个Avg Pool。

第一个稠密连接模块中每个二维卷积层输出128个特征图;第二个稠密连接模块中每个二维卷积层输出256个特征图。

[0081]所述的2个全连接层的输出分别为2048和1,前一个全连接层之后设置1个BN层和1个ReLU激活函数;后一个全连接层之后设置一个Sigmoid函数。

[0082]综上所述,本发明结合了最新的生成对抗GAN网络原理和多视点立体视觉三维重建方法的优点,通过对三维生成模型和三维判别模型的对抗训练,迭代地提高重建质量和稳定性。

本发明提出的方法属于弱监督学习框架,只以采集到的二维观测图像作为监督,不依赖于三维形状先验信息、CAD模型库等基准数据,大大减轻了获取标注数据的工作量,有效地实现了三维重建。

本发明提出的方法为基于深度学习的三维重建提供了一种新的解决方法,包括采用空间映射方法生成初始三维场景模型、采用虚拟相机采集三维场景模型的渲染图像流、采用对抗模式训练网络模型等模块。

通过多个模块的协同工作,该方法能有效提高重建精度,并提升训练过程的稳定性。

本发明提供了一种无接触、方便的、从视图中快速重建物体三维形状的技术,可以用于船舶综合保障、装备虚拟维修、交互式电子技术手册、电影、动画、虚拟现实、增强现实、工业制造等多个领域,具备广阔的市场前景。

相关文档
最新文档