专利 三维场景重建中增强特征融合的单目深度估计系统及其方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211003081.1 (22)申请日 2022.08.19 (71)申请人中国矿业大学地址 221000 江苏省徐州市南郊翟山 (72)发明人陈俊辉　程德强　寇旗旗　徐飞翔　王晓艺　韩成功　张皓翔　吕晨　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师俞晓梅 (51)Int.Cl. G06T 17/00(2006.01) G06T 7/70(2017.01) G06T 7/579(2017.01) G06T 7/246(2017.01) G06V 10/80(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称三维场景重建中增强特征融合的单目深度估计系统及其方法 (57)摘要本发明公开了一种三维场景重建中增强特征融合的单目深度估计系统，该系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；单目深度估计网络包括深度估计网络和位姿预测网络，深度估计网络用于帮助目标图像恢复深度；位姿预测网络用于输出邻帧间运动量；深度估计网络包括深度编码器和深度解码器；深度编码器接用于提取输入图像的深度信息特征；深度解码器生成各尺度的深度预测图；深度编码器与深度解码器采用全尺度跳跃连接，获得全尺度的编、解码器特征信息，并将其融合。本发明通过深度编码器和深度解码器采用全尺度跳跃连接，优化学习分配各层特征信息的参数权重，得到精确的深度边界与预测精度。权利要求书3页说明书8页附图2页 CN 115294282 A 2022.11.04 CN 115294282 A 1.三维场景重建中增强特征融合的单目深度估计系统，其特征在于：所述该系统包括单目深度估计网络，单目深度估计网络采用自监督方式优化训练；所述单目深度估计网络基于 MonoDepth2的网络框架；所述单目深度估计网络包括深度估计网络和位姿预测网络，深度估计网络用于帮助目标图像恢复深度；所述位姿预测网络用于输出邻帧间运动量。 2.根据权利要求1所述的单目深度估计系统，其特征在于：所述深度估计网络包括深度编码器和深度解码器；所述深度编码器接用于提取输入图像的深度信息特征；所述深度解码器生成各尺度的深度预测图；所述深度编码器与深度解码器采用全尺度跳跃连接，获得全尺度的编、解码器特征信息，并将其融合。 3.根据权利要求1所述的单目深度估计方法，其特征在于：所述自监督方式优化网络包括损失函数，损失函数包括最小重投影损失函数与边缘平滑度损失函数；所述最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值；所述边缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。 4.利用权利要求1 ‑3任意一项所述的单目深度估计系统形成的单目深度估计方法，其特征在于：所述该方法包括以下步骤：步骤1：构建KIT TI数据集；步骤2：构建单目深度估计网络的深度估计网络，通过深度编码器提取输入图像的深度信息特征，深度解码器生成各尺度的深度预测图；步骤3：构建单目深度估计网络的位姿预测网络，通过相机邻帧间运动位姿的估计重投影到目标图像的光度损失作为主要深度监督信号；步骤4：构建自监督方式优化网络，通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络。 5.根据权利要求4所述的单目深度估计方法，其特征在于：所述构建KITTI数据集采用对应应用场景图片，将数据集内九层图片作为训练集，剩下一层图片作为验证集，统一将训练照片缩放到分辨率的大小，以单目视频序列作为训练方式，对数据集手工挑选去掉静态帧后，以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。 6.根据权利要求4所述的单目深度估计方法，其特征在于：所述深度编码器与深度解码器采用全尺度跳跃连接，采用尺度跳跃连接后，深度估计网络的具体步骤为：步骤2‑1：将图片尺寸为640*192、 3通道的图像输入到编码器中，经过第一层的卷积层，输出尺寸缩减为原尺寸的通道数变为64的特征图；经过第二层的卷积层，输出尺寸缩减为原尺寸的通道数为64的特征图；经过第三层的卷积层，输出尺寸缩减为原尺寸的通道数为128的特征图；经过第四层的卷积层，输出尺寸缩减为原尺寸的通道数为256的特权　利　要　求　书 1/3 页 2 CN 115294282 A 2征图；经过第五层的卷积层，输出尺寸缩减为原尺寸的通道数为512的特征图；第四层解码器首先接收第五层输出特征图，将其上采样至原尺寸的后，通过一个卷积层将其通道数变为32；步骤2‑2：将另四层编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的后、通道数变为32的四个特征图；步骤2‑3：沿着通道数的维度拼接融合这五个通道数为32的特征图，得到大小为原尺寸的通道数为160的特征图；通过两次不改变尺寸和通道的卷积后，作为第四层解码器的输出；步骤2‑4：第三层解码器首先将尺寸缩减为原尺寸的通道数为64、 64、 128的编码器输出经过上述类似的操作，转化成尺寸为原尺寸的通道数为32的三个特征图；步骤2‑5：将上两层解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的通道数为32的两个特征图，沿着通道数的维度拼接融合这五个通道数为32的特征图，得到大小为原尺寸的通道数为160的特征图，通过两次不改变尺寸和通道的卷积后，作为第三层解码器的输出。 7.根据权利要求5所述的单目深度估计方法，其特征在于：所述深度解码器输出的多尺度特征图转化为多尺度视差图的过程中，添加个轻量级的卷积注意力模块，基于全尺度跳跃连接深度编码器、解码器的特征图进行自适应的特征细化选择，强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息；首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块，然后将两个特征块经过一个共享权重的MLP运算聚集通道信息，最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块；将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′；通道注意力块的计算如下式1所示： Mc(F)＝σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F))) (1) 其中F是输入特征图， σ(.)是Sigmo id(.)计算；其次，以中间特征图F ′为输入，首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为 1，尺寸为80x24的特征块；沿通道数连接上述生成的两个特征块，并将其送入一个标准卷积层，通过Sigmoid(.)激活函数生成空间注意力特征块；将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F ″；空间注意力块的计算如下式 2所示，其中F ′是输入的通道注意力特征图， f7×7(.)是经过一个卷积核为7的卷积运算： Ms(F′)＝σ(f7×7([AvgPool(F′)； MaxPool(F′)])) (2) 运用注意力机制的整体运算如下式3、 4所示：权　利　要　求　书 2/3 页 3 CN 115294282 A 3

专利 三维场景重建中增强特征融合的单目深度估计系统及其方法

专利三维场景重建中增强特征融合的单目深度估计系统及其方法