(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210882431.X
(22)申请日 2022.07.26
(71)申请人 湖北工业大 学
地址 430068 湖北省武汉市洪山区南李路
28号
(72)发明人 王改华 曹清程 翟乾宇 甘鑫
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 王琪
(51)Int.Cl.
G06V 10/44(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/82(2022.01)
G06V 10/80(2022.01)
(54)发明名称
一种基于广域感受野空间注意力的目标检
测方法
(57)摘要
本发明公开一种基于广域感受野空间注意
力的目标检测方法, 包括: 准备训练、 测试用的 图
像数据集; 构建基于广域 感受野空间注意力的目
标检测网络, 包括Backbone、 Neck、 Head和MSA 四
部分; 使用训练好的网络对测试集图像进行特征
提取。 本发 明从广域感受野的角度捕获像素级特
征信息, 同时考虑了不同特征信息之间的相互交
叉, 在不显着增加参数量和计算量的情况下, 大
大提高了特 征提取的效果。
权利要求书2页 说明书5页 附图2页
CN 115294356 A
2022.11.04
CN 115294356 A
1.一种基于广域感受野空间注意力的目标检测方法, 其特 征在于, 包括以下步骤:
步骤1, 准备图像数据集用于测试和训练;
步骤2, 构建基于广域感受野空间注意力的目标检测网络, 该网络由Backbone、 Neck、
Head和MSA广域感受野空间注意力四部分构成, Backbone采用的是ResNet50骨干网络, 用于
提取图片的特征, Neck结构用于连接Backbone和Head, 用于融合特征, Head用于物体的检
测, 实现目标的分类和回归, MSA放在 Backbone与Neck之间, 以及Neck与Head之间;
步骤3, 使用训练集图像对基于广域感受野空间注意力的目标检测网络模型进行训练;
步骤4, 使用步骤3训练好的网络模型对测试集图像进行目标检测。
2.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法, 其特征在于:
步骤1中将所有图像的尺寸调整到512 ×512大小进行多尺度训练, 采用数据增强对图像数
据集进行一系列操作: 随机翻转, pad ding填充, 随机 裁剪, 归一化处理, 图像失真处 理。
3.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法, 其特征在于:
步骤2中ResNet50骨干网络输出4个不同尺寸的特征图[C1,C2,C3,C4], 步距为[4, 8,16,
32], 通道大小为[256,512,1024,2048], Neck结构采用了B ackbone的三个特征图[C2,C3,
C4], 经过1 ×1卷积后通道都降为256, 经过FPN结构里面的[P1,P2,P3]进行特征融合, 然后
对P3进行两次下采样得到P4和P 5, 最后采用3 ×3卷积对特征图进行消融处理, 输出5个不同
尺寸的特 征图, 步距为[ 8,16,32,64,128], 通道大小都为25 6。
4.如权利要求1所述的一种基于广域感受野空间注意力的目标检测方法, 其特征在于:
步骤2中MSA的结构如下: 设F∈RC×H×W为输入张量, 其中C、 H、 W分别表示通道、 高度和宽度; 通
过3×3卷积将F的高和宽减半得到F'∈RC×H/2×W/2, 接着分别经过一个普通卷积分支得到F0∈
R1×H/2×W/2和三个深度可分离卷积分支得到F1∈RC/2×H/2×W/2、 F2∈RC/2×H/2×W/2、 F3∈RC/2×H/2×W/2,
然后将F1、 F2、 F3通过维度的变化, 即三维变二维, 重塑为M1、 M2、 M 3, 即:
M1、 M2、 M3具有相同的矩阵形状[H/2*W/2,C/2], H/2*W/2和C/2代表矩阵的行和列; 将
M1、 M2、 M3分别相 乘, 得到三个关系矩阵N1、 N2、 N3, 关系矩阵中的每个值表示特征中每两个
像素之间的关系; N1、 N2、 N3的计算公式如下:
式中,
表示矩阵乘 法, M1T,M2T,M3T分别为M1、 M2、 M3的转置矩阵, N1、 N2、 N3的形状为[H/
2*W/2,H/2*W/2], H /2*W/2和H /2*W/2分别代 表矩阵的行和列;
将N1、 N2、 N3重新整形为T1、 T2、 T3, T1、 T2、 T3的形状为[H/2*W/2,H/2,W/2], H/2*W/2、 H/
2、 W/2分别表示通道、 高度和宽度; 为了获得包含更多有用全局先验的输出, 将F0和T1、 T2、
T3拼接在一 起得到特 征FM:
FM=concat[F0,T1,T2,T3] (3)
式中, FM∈R(H/2*W/2)* 3×H/2×W/2, H/2, W/2, (H /2*W/2)* 3表示高度、 宽度和通道;权 利 要 求 书 1/2 页
2
CN 115294356 A
2将FM重新整形为Y1以产生注意力权重, 然后使用插值算法将注意力权重Y1调整为Y2, 得
到与输入特征Input相同的空间大小, 之后通过reshaping操作将Y2整形为三维空间, 大小
为[1,W,H], 最后经 过Sigmoid函数与输入特 征Input相乘, 得到最终输出Output。
5.如权利要求4所述的一种基于广域感受野空间注意力的目标检测方法, 其特征在于:
步骤3中将训练集图像大小统一为512 ×512, 学习率设置为0.001, batch_size大小设置为
4, 训练次数为12个epoc h, 并在第8个和第1 1个epoch时, 将学习率降为原来的1/10 。权 利 要 求 书 2/2 页
3
CN 115294356 A
3
专利 一种基于广域感受野空间注意力的目标检测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:42上传分享