专利 一种基于广域感受野空间注意力的目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210882431.X (22)申请日 2022.07.26 (71)申请人湖北工业大学地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人王改华　曹清程　翟乾宇　甘鑫　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师王琪 (51)Int.Cl. G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) (54)发明名称一种基于广域感受野空间注意力的目标检测方法 (57)摘要本发明公开一种基于广域感受野空间注意力的目标检测方法，包括：准备训练、测试用的图像数据集；构建基于广域感受野空间注意力的目标检测网络，包括Backbone、 Neck、 Head和MSA 四部分；使用训练好的网络对测试集图像进行特征提取。本发明从广域感受野的角度捕获像素级特征信息，同时考虑了不同特征信息之间的相互交叉，在不显着增加参数量和计算量的情况下，大大提高了特征提取的效果。权利要求书2页说明书5页附图2页 CN 115294356 A 2022.11.04 CN 115294356 A 1.一种基于广域感受野空间注意力的目标检测方法，其特征在于，包括以下步骤：步骤1，准备图像数据集用于测试和训练；步骤2，构建基于广域感受野空间注意力的目标检测网络，该网络由Backbone、 Neck、 Head和MSA广域感受野空间注意力四部分构成， Backbone采用的是ResNet50骨干网络，用于提取图片的特征， Neck结构用于连接Backbone和Head，用于融合特征， Head用于物体的检测，实现目标的分类和回归， MSA放在 Backbone与Neck之间，以及Neck与Head之间；步骤3，使用训练集图像对基于广域感受野空间注意力的目标检测网络模型进行训练；步骤4，使用步骤3训练好的网络模型对测试集图像进行目标检测。 2.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法，其特征在于：步骤1中将所有图像的尺寸调整到512 ×512大小进行多尺度训练，采用数据增强对图像数据集进行一系列操作：随机翻转， pad ding填充，随机裁剪，归一化处理，图像失真处理。 3.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法，其特征在于：步骤2中ResNet50骨干网络输出4个不同尺寸的特征图[C1,C2,C3,C4]，步距为[4， 8,16, 32]，通道大小为[256,512,1024,2048]， Neck结构采用了B ackbone的三个特征图[C2,C3, C4]，经过1 ×1卷积后通道都降为256，经过FPN结构里面的[P1,P2,P3]进行特征融合，然后对P3进行两次下采样得到P4和P 5，最后采用3 ×3卷积对特征图进行消融处理，输出5个不同尺寸的特征图，步距为[ 8,16,32,64,128]，通道大小都为25 6。 4.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法，其特征在于：步骤2中MSA的结构如下：设F∈RC×H×W为输入张量，其中C、 H、 W分别表示通道、高度和宽度；通过3×3卷积将F的高和宽减半得到F'∈RC×H/2×W/2，接着分别经过一个普通卷积分支得到F0∈ R1×H/2×W/2和三个深度可分离卷积分支得到F1∈RC/2×H/2×W/2、 F2∈RC/2×H/2×W/2、 F3∈RC/2×H/2×W/2，然后将F1、 F2、 F3通过维度的变化，即三维变二维，重塑为M1、 M2、 M 3，即： M1、 M2、 M3具有相同的矩阵形状[H/2*W/2,C/2]， H/2*W/2和C/2代表矩阵的行和列；将 M1、 M2、 M3分别相乘，得到三个关系矩阵N1、 N2、 N3，关系矩阵中的每个值表示特征中每两个像素之间的关系； N1、 N2、 N3的计算公式如下：式中，表示矩阵乘法， M1T,M2T,M3T分别为M1、 M2、 M3的转置矩阵， N1、 N2、 N3的形状为[H/ 2*W/2,H/2*W/2]， H /2*W/2和H /2*W/2分别代表矩阵的行和列；将N1、 N2、 N3重新整形为T1、 T2、 T3， T1、 T2、 T3的形状为[H/2*W/2,H/2,W/2]， H/2*W/2、 H/ 2、 W/2分别表示通道、高度和宽度；为了获得包含更多有用全局先验的输出，将F0和T1、 T2、 T3拼接在一起得到特征FM： FM＝concat[F0,T1,T2,T3] (3) 式中， FM∈R(H/2*W/2)* 3×H/2×W/2， H/2， W/2， (H /2*W/2)* 3表示高度、宽度和通道；权　利　要　求　书 1/2 页 2 CN 115294356 A 2将FM重新整形为Y1以产生注意力权重，然后使用插值算法将注意力权重Y1调整为Y2，得到与输入特征Input相同的空间大小，之后通过reshaping操作将Y2整形为三维空间，大小为[1,W,H]，最后经过Sigmoid函数与输入特征Input相乘，得到最终输出Output。 5.如权利要求4所述的一种基于广域感受野空间注意力的目标检测方法，其特征在于：步骤3中将训练集图像大小统一为512 ×512，学习率设置为0.001， batch_size大小设置为 4，训练次数为12个epoc h，并在第8个和第1 1个epoch时，将学习率降为原来的1/10 。权　利　要　求　书 2/2 页 3 CN 115294356 A 3

专利 一种基于广域感受野空间注意力的目标检测方法

专利一种基于广域感受野空间注意力的目标检测方法