专利 一种基于深度学习的水下目标三维重建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210799673.2 (22)申请日 2022.07.06 (71)申请人西北工业大学地址 710072 陕西省西安市友谊西路127号 (72)发明人沈钧戈　危欢　毛昭勇　孙健　王亦晨　 (74)专利代理机构西北工业大学专利中心 61204 专利代理师金凤 (51)Int.Cl. G06V 20/05(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于深度学习的水下目标三维重建方法 (57)摘要本发明提供了一种基于深度学习的水下目标三维重建方法，采用注意力机制获得水下图片重点聚焦的特征，对图片进行单应性变换，生成匹配特征体，计算该图片的特征体与其他图片特征体的匹配代价，得到一个四维的匹配代价体，使用基于多尺度的三维卷积神经网络进行匹配代价体正则化，对代价体进行过滤，得到深度值概率体，通过神经网络得出深度图，将深度值映射到三维空间，得到三维点云图。本发明充分使用卷积神经网络的特征提取能力，进一步提升模型的表征能力，极大改善立体匹配效果，动态平衡各个通道的权重大小，能够精准的对特征的各个通道进行全局信息调整，有利于优化特征局部信息。权利要求书4页说明书9页附图1页 CN 115147709 A 2022.10.04 CN 115147709 A 1.一种基于深度学习的水下目标三维重建方法，其特征在于包括下述步骤：步骤1，采用注意力机制获得水下图片重点聚焦的特征；步骤2，从步骤1获得的图片任意选出一张图片作为推理图片；引入先验信息，包括相机内参以及每张图片对应的内参和外参，进行单应性变换，生成匹配特征体，计算该图片的特征体与其他图片特征体的匹配代价，得到一个四维的匹配代价体；步骤3，使用基于多尺度的三维卷积神经网络进行匹配代价体正则化，利用U ‑Net网络，对匹配代价体进行降采样，并提取不同尺度中的上下文信息和临近像素信息，对代价体进行过滤，得到深度值概率体；步骤4，将深度值概率体直接与预设的连续深度值相乘再求和，得到一个初步的深度图；最大深度值设置为192，由推理图片生成另一张深度图，将两张深度图分别与真实的深度图进行比对，两部分损失之和作为损失值；步骤5，通过调节步骤1和步骤3的深度卷积神经网络的超参数，所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数，超参数属于神经网络的通用参数，调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果；步骤6，将待分类的水下图像数据经过步骤1至步骤4之后，通过神经网络得出深度图，将深度值映射到三维空间，得到三维点云图。 2.根据权利要求1所述的基于深度学习的水下目标三维重建方法，其特征在于：所述步骤1中，采用一个通道注意力模块加强特征的提取，输入的图片依次经过CNN、注意力机制及CN N得到特征提取，得到一个和水下图片大小一样但是特征更加明显的图片；所述CNN包括一系列卷积、批归一化层和线性整流激活函数，即： Conv ‑BN‑Relu，卷积核的尺寸为3×3，卷积核个数为 128，经过两次卷积操作，匹配三个层次的特征尺寸，降维到统一到尺寸；表1 CNN模型的网络各层特征信息在水下图片特征提取各层次特征信息如表1所示。 3.根据权利要求1所述的基于深度学习的水下目标三维重建方法，其特征在于：所述步骤2中构建匹配代价体的步骤为：通过深度特征抽取后，每张图片得到一张对应的特征图，根据先验的深度范围信息，以权　利　要　求　书 1/4 页 2 CN 115147709 A 2主光轴为扫描方向，将参考影像按照某一深度间隔，从最小深度一直映射到最大深度处，得到一个处于不同深度间隔的相机锥体，利用插值的方法，使得每张投影的长宽一样；已知推理水下图片Iref，候选集中影像的相机参数为： {Ki,Ri,ti}，其中， Ki代表相机内参， Ri和ti代表外参中的旋转角和平移，对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中，定义投影变换为： Vi＝Hj( θ )xj， θ表示深度值， xj为候选集中第j个图片经过结合注意力的CNN得到的特征， Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果； Hj表示对于第j个特征图映射到深度θ 的参考影像上的单应性矩阵，单应性矩阵的计算公式为：其中， Kj代表第j个特征的内参， Rj表示第j个特征的外参旋转角， I代表图片， tref代表推理图片外参的平移矩阵， tj代表第j张图片外参的平移矩阵，代表推理图片法向量的转置， θ表示深度值，表示推理图片的外参旋转矩阵的转置，表示推理图片的内参矩阵的转置；单应性矩阵是完全可以微分的，通过投影变换， N张图片形成N个特征体Vi(i∈N)，特征体Vi就是匹配代价体的表示；采用一种基于方差的多视图一致性度量准则，保证每一个特征体Vi都加入方差计算中，表示一致性度量，利用下式构造三维代价体：其中C代表三维代价体， N代表匹配代价数量， Vi代表第i个代价体，代表匹配代价的平均值。 4.根据权利要求1所述的基于深度学习的水下目标三维重建方法，其特征在于：所述步骤3中，优化匹配代价体的步骤为：采用基于多尺度的三维卷积神经网络进行代价体正则化，利用U ‑Net网络，对代价体进行降采样，并提取不同尺度中的上下文信息和临近像素信息，对代价体进行过滤；首先进行下采样，构建输入图像的高斯金字塔，获得3个尺度的特征；然后，在进行特征融合用于联合精细信息和粗略信息；输入为初始匹配代价体C，各层次特征信息如表 2所示：表2优化匹配代价体中CN N模型的网络各层特征信息权　利　要　求　书 2/4 页 3 CN 115147709 A 3

专利 一种基于深度学习的水下目标三维重建方法

专利一种基于深度学习的水下目标三维重建方法