(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210816612.2
(22)申请日 2022.07.12
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
(72)发明人 朱虎明 李佳昌 杨贵鹏 惠少雄
王光磊 王金成 田小林 侯彪
(74)专利代理 机构 陕西电子 工业专利中心
61205
专利代理师 陈宏社 王品华
(51)Int.Cl.
G06V 10/25(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/44(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于注意力机制的多模态数据融合三维目
标检测方法
(57)摘要
本发明提出了一种基于注意力机制的多模
态数据融合三维目标检测方法, 实现步骤为: 建
立训练和测试样本集并对数据进行预处理; 构建
基于注意力机制的多模态数据融合三维目标检
测网络; 定义基于注意力机制的多模态数据融合
三维目标检测网络的损失函数; 对网络模型进行
迭代训练; 获取三维目标的检测结果。 本发明利
用特征学习网络, 初步提取出一些候选区域, 然
后将候选区域中的点云数据、 点的位置特征以及
对应的图像信息进行了融合, 充分利用了点云的
规则化空间位置信息、 点特征的精细化空间结构
信息和图像的语义信息, 减小了误差累积, 进而
提高了局部空间出现多个目标时的检测精度。
权利要求书3页 说明书7页 附图1页
CN 115082674 A
2022.09.20
CN 115082674 A
1.一种基于注意力机制的多模态数据融合三维目标检测方法, 其特征在于, 包括如下
步骤:
(1)获取训练样本集E1和测试样本集E2:
从公开数据集中获取T幅维度为W ×H的已标注RGB图像、 每幅RGB图像所对应场景中维
度为N×K的已标注点云数据和两者的标定数据, 并对每个点云数据进行预处理, 然后将预
处理后的T1个点云数据及其对应的RGB图像组成训练样 本集E1, 将剩余的T2个预处理后的点
云数据及其对应的RGB图像组成测试样本集E2, 其中, T≥5 000, T1>T2, T1+T2=T;
(2)基于注意力机制的多模态数据融合 三维目标检测网络:
(2a)构建基于注意力机制的多模态数据融合 三维目标检测网络D的结构:
构建包括顺次连接的点云特征学习模块、 多模态数据融合模块、 基于Transformer的特
征提取模块的三维目标检测网络D, 其中, 点云特征学习模块, 包括顺次连接的三维稀疏卷
积网络和区域回归网络; 基于Transformer的特征提取模块, 包括顺次连接的编码 器和解码
器;
(2b)定义 三维目标检测网络D的损失函数L:
定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L:
L=Lconf+Lrpn;
(3)对三维目标检测网络D进行迭代训练:
(3a)初始化迭代次数为r, 最大迭代次数为R, 当前三维目标检测网络模型为Dr的权值参
数为θr, 并令r=1, Dr=D;
(3b)从训练样本集E1中无放回的选取训练样本作为网络模型Dr的输入进行前向传播,
实现步骤为:
(3b1)将训练样本集E1作为三维目标检测网络Dr的输入, 点云特征学习模块中的三维稀
疏卷积网络对每个训练样本进 行三维特征学习, 点云特征学习模块中的区域回归网络对三
维稀疏卷积网络输出的三维特征进行区域生成, 得到共包含T1个点云数据的S个候选区域
且每个候选区域至少包含一个点云数据, 其中S≥
1000,
和
分别表示每个候选区域的中心点坐标值, lrpn、 wrpn和hrpn分别表示每个
候选区域的长、 宽和高, θrpn表示每个候选区域的旋转角度值;
(3b2)多模态数据融合模块对每个候选区域RPN 内所有点云数据中的点与 其对应的RGB
图像信息, 进行多模态数据拼接, 得到N个融合后的点云数据P={pi,Δpic,Δpij,fi},i=1,
2,…,n,其中pi表示候选区域中的i个点, Δpic表示候选区域中的每个点到候选区域中心点
的距离、 Δpij表示候选区域中的每个点到八个角点的距离, fi表示候选区域内的每个点经
过标定矩阵的转换 所找到的对应图像 像素中的RGB三 通道值;
(3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征
提取, 得到P的点云特征; 解码器对P的点云特征进行通道加权解码, 得到T1个点云数据中 的
预测三维目标框xpre={xpre,ypre,zpre,lpre,wpre,hpre}、 以及三维目标框对应的角度值θpre、 分
类概率y、 置信度概 率c和方向概 率dir;
(3c)采用三维目标检测网络D的损失函数L, 并根据置信度概率c计算置信度损失值
Lconf, 根据预测的三维目标值xpre、 预测的角度值θpre、 预测的分类概率y和预测的方向概率权 利 要 求 书 1/3 页
2
CN 115082674 A
2dir计算三维目标损失值Lrpn, 然后采用随机梯度下降法, 通过计算三维目标检测网络D 的
Lconf与Lrpn的和对权值参数θr的偏导数, 对θr进行更新, 得到本次迭代的三维目标检测网络
模型Dr;
(3d)判断r=R是否成立, 若是, 得到训练好的基于注意力机制的多模态数据融合三维
目标检测网络模型D*, 否则令r=r+1, Dr=D, 并执 行步骤(3b);
(4)获取三维目标的检测结果:
将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模
型D*的输入进行前向传播, 得到每个测试样本的三维目标检测结果, 包括每个测试样本中
的预测三维目标框xpre、 以及三维目标框对应的角度值θpre和目标类别。
2.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法, 其特
征在于, 步骤(1)中所述的对每个点云数据进 行预处理, 实现步骤为: 对每幅RGB图像对应的
点云数据进行去 噪处理, 并对去 噪后的每个点云数据进行随机水平翻转, 再对随机水平翻
转处理后的点云数据进行降采样, 得到T个预处 理后的点云数据。
3.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法, 其特
征在于, 步骤(2a)中所述的三维目标检测网络D, 其中:
点云特征学习模块, 其所包含的三维稀疏卷积网络包括顺次连接的8个三维稀疏卷积
结构; 每个三维稀疏卷积结构包括顺次连接的子流形三维稀疏卷积层、 批量规范化层和
Relu激活层; 区域回归网络包括顺次连接的4个复合层和2个全连接层, 每个复合层包括顺
次连接的三维稀疏卷积层、 归一化层和Relu激活层, 2个全连接层连接在第4复合层的输出
端; 4复合层中的卷积层的卷积核 大小均为3, 卷积核个数均为256, 第1卷积层的卷积步长为
2, 第2、 第3、 第4卷积层的卷积步长均为1;
基于Transformer的特征提取模块, 其所包含的编码器包括3个堆叠的特征编码模块,
每个特征编码模块包括2个线性层、 3个Dropout层和2个归一化层, 具体结构为: 第1线性
层—>第1Dr opout层—>第2线性层—>第1归一化层—>第2归一化层—>第2Dropout层—>第
3Dropout层; 第1线性层的输入、 输出通道数分别 为256和512, 第2线性层的输入、 输出通道
数分别为512和25 6, 归一化层的输入维度均为25 6, 每个Dropout层的概 率值均为0.1;
基于Transformer的特征提取模块, 其所包含的解码器包含3个卷积层、 3个线性层、 3个
Dropout层和4个归一化层; 3个卷积层的输入维度均为256, 卷积核均为1, 步长均为1; 第1线
性层的输入、 输出维度分别为64、 1,第2线性层的输入、 输出维度分别为256、 512, 第3线性层
的输入、 输出维度 分别为512、 256; 3个Dropout层的概率值均为0.1; 4个归一化层的输入维
度都为256; 该解码器的具体结构为: 第1卷积层—>第2卷积层—>第3卷积层—>第1线性
层—>第2线性层—>第1Dropout层—>第3线性层—>第1归一化层—>第2归一化层—>第3归
一化层—>第2Dropout层— >第3Dropout层— >第4归一 化层。
4.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法, 其特
征在于, 步骤(2b)中所述的置信度损失Lconf和三维目标损失Lrpn, 其表达式分别为:
Lconf=‑clog(c)‑(1‑c)log(1‑c)
Lrpn=β1Lcls+β2(Lreg‑θ+Lreg‑other)+β3Ldir权 利 要 求 书 2/3 页
3
CN 115082674 A
3
专利 基于注意力机制的多模态数据融合三维目标检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:46上传分享