专利 融合注意力机制的目标检测方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210880449.6 (22)申请日 2022.07.25 (71)申请人中国兵器工业计算机应用技术研究所地址 100089 北京市海淀区车道沟10号 (72)发明人赵小川　刘华鹏　樊迪　史津竹　陈路豪　王子彻　 (74)专利代理机构北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 专利代理师马铁良 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称融合注意力机制的目标检测方法、装置及电子设备 (57)摘要本发明公开了一种融合注意力机制的目标检测方法、装置及电子设备,所述方法包括：获取输入图像；通过预设的仿初级视觉感知皮层模块对所述输入图像进行特征提取，得到第一特征图；所述预设的仿初级视觉感知皮层模型包括 VOneBlock层、 Conv层和特征融合层；通过预设的目标检测模型对所述第一特征图进行目标检测，得到三个不同尺寸的目标特征图；所述目标检测模型中包含融合注意力模块，所述融合注意力模块用于提取坐标通道注意力特征和空间注意力特征；对所述三个不同尺寸的目标特征图进行目标分类和坐标定位，得到目标检测结果。本发明通过使用融合注意力模块来提取通道注意力和空间注意力，能够有效地滤除图像背景等干扰信息，提高对小目标检测的准确率。权利要求书3页说明书11页附图4页 CN 115311468 A 2022.11.08 CN 115311468 A 1.一种融合注意力机制的目标检测方法，其特征在于，所述方法包括：获取输入图像；通过预设的仿初级视觉感知皮层模块对所述输入图像进行特征提取，得到第一特征图；所述预设的仿初级视觉感知皮层模型包括VOneBl ock层、 Co nv层和特征融合层；通过预设的目标检测模型对所述第一特征图进行目标检测，得到三个不同尺寸的目标特征图；所述目标检测模型中包含融合注意力模块，所述融合注意力模块用于提取坐标通道注意力特征和空间注意力特征；对所述三个不同尺寸的目标特征图进行目标分类和坐标定位，得到目标检测结果。 2.根据权利要求1所述的方法，其特征在于，所述融合注意力模块包括坐标通道注意力模块和空间注意力模块；所述坐标通道注意力模块用于提取原始特征图的坐标通道注意力特征，得到经过坐标通道注意力处理的特征图；所述原始特征图是输入所述融合注意力模块的特征图；所述空间注意力模块用于对所述经过坐标通道注意力处理的特征图提取空间注意力特征。 3.根据权利要求2所述的方法，其特征在于，所述坐标通道注意力模块用于提取原始特征图的坐标通道注意力特征，得到经过通道注意力处理的特征图，包括：对原始特征图各个通道的X方向和Y方向分别进行池化，得到X方向特征图和Y方向特征图；对所述X方向特征图和所述Y方向特征图进行拼接，得到二维通道权重特征图；对所述二维通道权重特征图依次进行二维卷积、归一化与非线性变化，得到优化后的特征图；根据所述优化后的特征图得到X 方向通道注意力特征图和Y方向通道注意力特征图；根据所述X方向通道注意力特征图、所述Y方向通道注意力特征图以及所述原始特征图，得到所述经过坐标通道注意力处理的特征图。 4.根据权利要求2所述的方法，其特征在于，所述空间注意力模块用于对所述经过坐标通道注意力处理的特征图提取空间注意力特征，包括：所述空间注意力模块对所述坐标通道注意力模块输出的特征图在通道方向上进行池化，得到空间注意力权重特征图；根据所述空间注意力权重特征图和所述坐标通道注意力模块输出的特征图得到空间注意力特征。 5.根据权利要求1所述的方法，其特征在于，所述预设的目标检测模型包括骨干网络和头部网络，所述骨干网络和所述头部网络中均设有所述融合注意力模块，所述通过预设的目标检测模型对所述第一特征图进行目标检测，得到三个不同尺寸的目标特征图，包括：通过所述骨干网络对所述第一特征图进行多次尺寸压缩和特征提取，得到多个不同尺寸的骨干特征图；将所述多个不同尺寸的骨干特征图输入所述头部网络，得到所述三个不同尺寸的目标特征图。 6.根据权利要求5所述的方法，其特征在于，所述骨干网络包括第一Conv层、第一C3层、第二Conv层、第二C3层、第三Conv层、第三C3层、第四Conv层、第四C3层，所述融合注意力模权　利　要　求　书 1/3 页 2 CN 115311468 A 2块包括设置在所述第一C3层之后的第一CCASA注意力层、设置在所述第二C3层之后的第二 CCASA注意力层、设置在所述第三C 3层之后的C CASA注意力层；所述通过所述骨干网络对所述第一特征图进行多次尺寸压缩和特征提取，得到多个不同尺寸的骨干特征图，包括：通过所述第一Conv层对所述第一特征图进行特征图尺寸压缩，通过所述第一C3层对所述第一Conv层输出的特征图进行特征提取，通过所述第一CCASA注意力层对所述第一C3层输出的特征图进行感兴趣特征提取，通过所述第二Conv层对所述第一CCASA注意力层输出的特征图进行特征图尺寸压缩，通过所述第二C3层对所述第二Conv层输出的特征图进行特征提取，得到第一骨干特征图；通过所述第二CCASA注意力层对所述第一骨干特征图进行感兴趣特征提取，通过所述第三Conv层对所述第二CCASA注意力层输出的特征图进行特征图尺寸压缩，通过所述第三 C3层对所述第三Co nv层输出的特征图进行特征提取，得到第二骨干特征图；通过所述第三CCASA注意力层对所述第二骨干特征图进行感兴趣特征提取，通过所述第四Conv层对所述第三CCASA注意力层输出的特征图进行特征图尺寸压缩，通过所述第四 C3层对所述第四Co nv层输出的特征图进行特征提取，得到第三骨干特征图。 7.根据权利要求6所述的方法，其特征在于，所述头部网络包括两个串联的FPN模块、两个特征聚合模块、 SPPF层以及第四CCASA注意力层，所述FPN模块包括依次连接的Conv层、 Upsample层、 Co ncat层、 C 3层；所述将所述第一特征图和所述多个不同尺寸的骨干特征图输入所述头部网络，得到所述三个不同尺寸的目标特征图，包括：通过所述SPPF层对所述第三骨干特征图进行空间信息融合，通过所述第四CCASA注意力层对所述S PPF层输出的特征图进行感兴趣特征提取，得到第四特征图；所述第一FPN模块接收所述第四特征图和所述第二骨干特征图作为输入，所述第二FPN 模块接收所述第一FPN模块输出的特征图和所述第一骨干特征图作为输入，所述第二FPN模块输出第一目标特征图；将所述第一目标特征图和所述第二FPN模块的Conv层输出的特征图输入第一特征聚合模块，所述第一特征聚合模块对输入的多个特征图进行尺寸压缩和通道聚合，得到第二目标特征图；将所述第二目标特征图和所述第一FPN模块的Conv层输出的特征图输入第二特征聚合模块，所述第二特征聚合模块对输入的多个特征图进行尺寸压缩和通道聚合，得到第三目标特征图。 8.一种融合注意力机制的目标检测装置，其特征在于，所述装置包括：图像获取模块，用于获取输入图像；预处理模块，用于通过预设的仿初级视觉感知皮层模块对所述输入图像进行特征提取，得到第一特征图；所述预设的仿初级视觉感知皮层模型包括VOneBlock层、 Conv层和特征融合层；目标检测模块，用于通过预设的目标检测模型对所述第一特征图进行目标检测，得到三个不同尺寸的目标特征图；所述目标检测模型中包含融合注意力模块，所述融合注意力模块用于提取坐标通道注意力特征和空间注意力特征；对所述三个不同尺寸的目标特征图权　利　要　求　书 2/3 页 3 CN 115311468 A 3

专利 融合注意力机制的目标检测方法、装置及电子设备

专利融合注意力机制的目标检测方法、装置及电子设备