专利 基于注意力机制的多模态数据融合三维目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210816612.2 (22)申请日 2022.07.12 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人朱虎明　李佳昌　杨贵鹏　惠少雄　王光磊　王金成　田小林　侯彪　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师陈宏社　王品华 (51)Int.Cl. G06V 10/25(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于注意力机制的多模态数据融合三维目标检测方法 (57)摘要本发明提出了一种基于注意力机制的多模态数据融合三维目标检测方法，实现步骤为：建立训练和测试样本集并对数据进行预处理；构建基于注意力机制的多模态数据融合三维目标检测网络；定义基于注意力机制的多模态数据融合三维目标检测网络的损失函数；对网络模型进行迭代训练；获取三维目标的检测结果。本发明利用特征学习网络，初步提取出一些候选区域，然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合，充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息，减小了误差累积，进而提高了局部空间出现多个目标时的检测精度。权利要求书3页说明书7页附图1页 CN 115082674 A 2022.09.20 CN 115082674 A 1.一种基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，包括如下步骤： (1)获取训练样本集E1和测试样本集E2：从公开数据集中获取T幅维度为W ×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据，并对每个点云数据进行预处理，然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1，将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2，其中， T≥5 000， T1＞T2， T1+T2＝T； (2)基于注意力机制的多模态数据融合三维目标检测网络： (2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构：构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D，其中，点云特征学习模块，包括顺次连接的三维稀疏卷积网络和区域回归网络；基于Transformer的特征提取模块，包括顺次连接的编码器和解码器； (2b)定义三维目标检测网络D的损失函数L：定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L： L＝Lconf+Lrpn； (3)对三维目标检测网络D进行迭代训练： (3a)初始化迭代次数为r，最大迭代次数为R，当前三维目标检测网络模型为Dr的权值参数为θr，并令r＝1， Dr＝D； (3b)从训练样本集E1中无放回的选取训练样本作为网络模型Dr的输入进行前向传播，实现步骤为： (3b1)将训练样本集E1作为三维目标检测网络Dr的输入，点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习，点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成，得到共包含T1个点云数据的S个候选区域且每个候选区域至少包含一个点云数据，其中S≥ 1000，和分别表示每个候选区域的中心点坐标值， lrpn、 wrpn和hrpn分别表示每个候选区域的长、宽和高， θrpn表示每个候选区域的旋转角度值； (3b2)多模态数据融合模块对每个候选区域RPN 内所有点云数据中的点与其对应的RGB 图像信息，进行多模态数据拼接，得到N个融合后的点云数据P＝{pi,Δpic,Δpij,fi},i＝1, 2,…,n,其中pi表示候选区域中的i个点， Δpic表示候选区域中的每个点到候选区域中心点的距离、 Δpij表示候选区域中的每个点到八个角点的距离， fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值； (3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取，得到P的点云特征；解码器对P的点云特征进行通道加权解码，得到T1个点云数据中的预测三维目标框xpre＝{xpre,ypre,zpre,lpre,wpre,hpre}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir； (3c)采用三维目标检测网络D的损失函数L，并根据置信度概率c计算置信度损失值 Lconf，根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率权　利　要　求　书 1/3 页 2 CN 115082674 A 2dir计算三维目标损失值Lrpn，然后采用随机梯度下降法，通过计算三维目标检测网络D 的 Lconf与Lrpn的和对权值参数θr的偏导数，对θr进行更新，得到本次迭代的三维目标检测网络模型Dr； (3d)判断r＝R是否成立，若是，得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*，否则令r＝r+1， Dr＝D，并执行步骤(3b)； (4)获取三维目标的检测结果：将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*的输入进行前向传播，得到每个测试样本的三维目标检测结果，包括每个测试样本中的预测三维目标框xpre、以及三维目标框对应的角度值θpre和目标类别。 2.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(1)中所述的对每个点云数据进行预处理，实现步骤为：对每幅RGB图像对应的点云数据进行去噪处理，并对去噪后的每个点云数据进行随机水平翻转，再对随机水平翻转处理后的点云数据进行降采样，得到T个预处理后的点云数据。 3.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(2a)中所述的三维目标检测网络D，其中：点云特征学习模块，其所包含的三维稀疏卷积网络包括顺次连接的8个三维稀疏卷积结构；每个三维稀疏卷积结构包括顺次连接的子流形三维稀疏卷积层、批量规范化层和 Relu激活层；区域回归网络包括顺次连接的4个复合层和2个全连接层，每个复合层包括顺次连接的三维稀疏卷积层、归一化层和Relu激活层， 2个全连接层连接在第4复合层的输出端； 4复合层中的卷积层的卷积核大小均为3，卷积核个数均为256，第1卷积层的卷积步长为 2，第2、第3、第4卷积层的卷积步长均为1；基于Transformer的特征提取模块，其所包含的编码器包括3个堆叠的特征编码模块，每个特征编码模块包括2个线性层、 3个Dropout层和2个归一化层，具体结构为：第1线性层—>第1Dr opout层—>第2线性层—>第1归一化层—>第2归一化层—>第2Dropout层—>第 3Dropout层；第1线性层的输入、输出通道数分别为256和512，第2线性层的输入、输出通道数分别为512和25 6，归一化层的输入维度均为25 6，每个Dropout层的概率值均为0.1；基于Transformer的特征提取模块，其所包含的解码器包含3个卷积层、 3个线性层、 3个 Dropout层和4个归一化层； 3个卷积层的输入维度均为256，卷积核均为1，步长均为1；第1线性层的输入、输出维度分别为64、 1,第2线性层的输入、输出维度分别为256、 512，第3线性层的输入、输出维度分别为512、 256； 3个Dropout层的概率值均为0.1； 4个归一化层的输入维度都为256；该解码器的具体结构为：第1卷积层—>第2卷积层—>第3卷积层—>第1线性层—>第2线性层—>第1Dropout层—>第3线性层—>第1归一化层—>第2归一化层—>第3归一化层—>第2Dropout层— >第3Dropout层— >第4归一化层。 4.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(2b)中所述的置信度损失Lconf和三维目标损失Lrpn，其表达式分别为： Lconf＝‑clog(c)‑(1‑c)log(1‑c) Lrpn＝β1Lcls+β2(Lreg‑θ+Lreg‑other)+β3Ldir权　利　要　求　书 2/3 页 3 CN 115082674 A 3

专利 基于注意力机制的多模态数据融合三维目标检测方法

专利基于注意力机制的多模态数据融合三维目标检测方法