(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211003081.1
(22)申请日 2022.08.19
(71)申请人 中国矿业大 学
地址 221000 江苏省徐州市南郊翟山
(72)发明人 陈俊辉 程德强 寇旗旗 徐飞翔
王晓艺 韩成功 张皓翔 吕晨
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 俞晓梅
(51)Int.Cl.
G06T 17/00(2006.01)
G06T 7/70(2017.01)
G06T 7/579(2017.01)
G06T 7/246(2017.01)
G06V 10/80(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
三维场景重建中增强特征融合的单目深度
估计系统及其方法
(57)摘要
本发明公开了一种三维场景重建中增强特
征融合的单目深度估计系统, 该系统包括单目深
度估计网络, 单目深度估计网络采用自监督方式
优化训练; 单目深度估计网络包括深度估计网络
和位姿预测网络, 深度估计网络用于帮助目标图
像恢复深度; 位姿预测网络用于输出邻帧间运动
量; 深度估计网络包括深度编码器和深度解码
器; 深度编码器接用于提取输入图像的深度信息
特征; 深度解码器生成各尺度的深度预测图; 深
度编码器与深度解码器采用全尺度跳跃连接, 获
得全尺度的编、 解码器特征信息, 并将其融合。 本
发明通过深度编码器和深度解码器采用全尺度
跳跃连接, 优化学习分配各层特征信息的参数权
重, 得到精确的深度边界与预测精度。
权利要求书3页 说明书8页 附图2页
CN 115294282 A
2022.11.04
CN 115294282 A
1.三维场景重建中增强特征融合的单目深度估计系统, 其特征在于: 所述该系统包括
单目深度估计网络, 单目深度估计网络采用自监 督方式优化训练;
所述单目深度估计网络基于 MonoDepth2的网络 框架;
所述单目深度估计网络包括深度估计网络和位姿预测网络, 深度估计网络用于帮助目
标图像恢复深度;
所述位姿预测网络用于 输出邻帧间运动量。
2.根据权利要求1所述的单目深度估计系统, 其特征在于: 所述深度估计网络包括深度
编码器和深度解码器;
所述深度编码器接用于提取输入图像的深度信息特 征;
所述深度解码器生成各尺度的深度预测图;
所述深度编码器与深度解码器采用全尺度跳跃连接, 获得全尺度的编、 解码器特征信
息, 并将其融合。
3.根据权利要求1所述的单目深度估计方法, 其特征在于: 所述自监督方式优化网络包
括损失函数, 损失函数包括 最小重投影损失函数与边 缘平滑度损失函数;
所述最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差
值;
所述边缘平滑度损失函数用于解决在相机坐标系中静态 物体具有无穷大深度的问题。
4.利用权利要求1 ‑3任意一项所述的单目深度估计系统形成的单目深度估计方法, 其
特征在于: 所述该 方法包括以下步骤:
步骤1: 构建KIT TI数据集;
步骤2: 构建单目深度估计网络的深度估计网络, 通过深度编码器提取输入图像的深度
信息特征, 深度解码器生成各尺度的深度预测图;
步骤3: 构建单目深度估计网络的位姿预测网络, 通过相机邻帧间运动位姿的估计重投
影到目标图像的光度损失作为主 要深度监 督信号;
步骤4: 构建自监督方式优化网络, 通过使用全尺度的最小重投影损失函数与边缘平滑
度损失函数 结合训练单目深度估计网络 。
5.根据权利要求4所述的单目深度估计方法, 其特征在于: 所述构建KITTI数据集采用
对应应用场景图片, 将数据集内九层图片作为训练集, 剩下一层图片作为验证集, 统一将训
练照片缩放到分辨率的大小, 以单目视频序列作为训练方式, 对数据集手工挑选去掉静态
帧后, 以目标帧及其上 下帧作为 一组的形式输入给 单目深度估计网络 。
6.根据权利要求4所述的单目深度估计方法, 其特征在于: 所述深度编码器与深度解码
器采用全尺度跳跃 连接, 采用尺度跳跃 连接后, 深度估计网络的具体步骤为:
步骤2‑1: 将图片尺寸为640*192、 3通道的图像输入到编码器中, 经过第一层的卷积层,
输出尺寸缩减为原尺寸的
通道数变为64的特征图; 经过第二层的卷积层, 输出尺寸缩减
为原尺寸 的
通道数为64的特征图; 经过第三层的卷积层, 输出尺寸缩减为原尺寸的
通
道数为128的特征图; 经过第四层的卷积层, 输出尺寸缩减为原尺寸的
通道数为256的特权 利 要 求 书 1/3 页
2
CN 115294282 A
2征图; 经过第五层的卷积层, 输出尺寸缩减为原尺寸的
通道数为512的特征图; 第四层解
码器首先接收第五层输出特征图, 将其上采样至原尺寸的
后, 通过一个卷积层将其通道
数变为32;
步骤2‑2: 将另四层编码器输出的特征图选择性地利用最大池化层和卷积的操作转化
成尺寸为原尺寸的
后、 通道数变为32的四个特 征图;
步骤2‑3: 沿着通道数的维度拼接融合这五个通道数为32的特征图, 得到大小为原尺寸
的
通道数为160的特征图; 通过两次不改变尺寸和 通道的卷积后, 作为第四层解码器的
输出;
步骤2‑4: 第三层解码器首先将尺寸缩减为原尺寸的
通道数为64、 64、 128的编
码器输出 经过上述类似的操作, 转 化成尺寸 为原尺寸的
通道数为32的三个特 征图;
步骤2‑5: 将上两层解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原
尺寸的
通道数为32的两个特征图, 沿着 通道数的维度拼接融合这五个通道 数为32的特征
图, 得到大小为原尺寸的
通道数为160的特征图, 通过两次不改变尺寸和通道的卷积后,
作为第三层解码器的输出。
7.根据权利要求5所述的单目深度估计方法, 其特征在于: 所述深度解码器输出的多尺
度特征图转化为多尺度视差图的过程中, 添加个轻量级的卷积注意力模块, 基于全尺度跳
跃连接深度编码器、 解码器的特征图进行自适应的特征细化选择, 强调特征图在生成视差
图的过程中的重要特 征并抑制不必要的特 征信息;
首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度
的1x1特征块, 然后将两个特征块经过一个共享权重的MLP运算聚集通道信息, 最后将两个
特征块相加后通过Sigmoid(.)激活函数生 成通道注 意力特征块; 将通道注 意力块与输入 特
征图按元 素广播相乘得到通道 注意力特 征图F′; 通道注意力块的计算如下式1所示:
Mc(F)=σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F))) (1)
其中F是输入特 征图, σ(.)是Sigmo id(.)计算;
其次, 以中间特征图F ′为输入, 首先沿通道维度应用最大池化以及平均池化操作获得
两个通道维度为 1, 尺寸为80x24的特征块; 沿通道数连接上述生 成的两个特征块, 并将其送
入一个标准卷积层, 通过Sigmoid(.)激活函数生成空间注意力 特征块; 将空间注意力块与
通道注意力特征图按 元素广播相乘得到空间注意力特征图F ″; 空间注意力块的计算如下式
2所示, 其中F ′是输入的通道 注意力特 征图, f7×7(.)是经过一个卷积核为7的卷积运 算:
Ms(F′)=σ(f7×7([AvgPool(F′); MaxPool(F′)])) (2)
运用注意力机制的整体运 算如下式3、 4所示:
权 利 要 求 书 2/3 页
3
CN 115294282 A
3
专利 三维场景重建中增强特征融合的单目深度估计系统及其方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:40上传分享