(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221074820 3.3
(22)申请日 2022.06.29
(71)申请人 上海交通大 学宁波人工智能研究院
地址 315012 浙江省宁波市海曙区南门街
道南站西路2 9号
(72)发明人 李馨蔚 何小其 杨根科 褚健
(74)专利代理 机构 上海剑秋知识产权代理有限
公司 31382
专利代理师 徐海兵
(51)Int.Cl.
G06V 20/17(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于复合主干网络和多预测头的航拍
目标检测方法
(57)摘要
本发明公开了一种基于复合主干网络和多
预测头的航拍目标检测方法, 涉及计算机视觉目
标检测技术领域, 包括以下步骤: 步骤1、 准备航
拍图像的数据集; 步骤2、 构建目标检测模型; 步
骤3、 应用目标检测模型进行目标预测; 其中, 步
骤2包括: 步骤2.1、 建立目标检测模型的主干网
络 , 并 提 取 多 尺 度特 征 ; 步 骤 2 .2 、 通 过
Recursive ‑FPN网络对多尺度特征进行融合, 得
到融合增强后的多尺度特征; 步骤2.3、 基于融合
增强后的多尺度特征 , 使用TPH网络作为
detection head, 构建目标检测模型; 步骤2.4、
将航拍图像的数据集按比例划分为训练集和测
试集, 用训练集输入模型进行训练, 再用测试集
对模型进行测试, 确定目标检测模型。 该方法实
现航拍图像目标检测速度与精度更好的权 衡。
权利要求书3页 说明书9页 附图3页
CN 115035429 A
2022.09.09
CN 115035429 A
1.一种基于复合主干网络和多预测头的航拍目标检测方法, 其特征在于, 所述方法包
括以下步骤:
步骤1、 准备航拍图像的数据集;
步骤2、 构建目标检测模型;
步骤3、 应用所述目标检测模型进行目标 预测;
其中, 所述 步骤2包括以下子步骤:
步骤2.1、 通过复合连接Swin Transformer建立所述目标检测模型的主干网络, 并提取
多尺度特 征;
步骤2.2、 通过Recursive ‑FPN网络对所述多尺度特征进行融合, 得到融合增强后的所
述多尺度特 征;
步骤2.3、 基于融合增强后的所述多尺度特征, 使用TPH网络作为detection head, 构建
所述目标检测模型;
步骤2.4、 将所述航拍图像的所述数据集按比例划分为训练集和测试集, 用所述训练集
输入所述 目标检测模型进行训练, 再用所述测试集对所述 目标检测模型进行测试, 确定所
述目标检测模型; 其中, 训练时的正负 样本的划分是遵循OTA策略。
2.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 在所述步骤2.1中, 所述主干网络包含若干前后 连接的backb one, 所述每个backb one中
有L个stage, 所述每个stage包含若干卷积层, 并且 所述每个 stage的特征图大小都相同; 其
中, 所述backbo ne的第l个所述sta ge会进行非线性 转换Fl(·);
通过对相邻的所述backbone位于同一水平位置 的所述stage进行复合连接, 将若干相
同的所述backbo ne进行组合;
所述backbone分为两种类型, 分别为assist ant backbone和lead backbone; 其中, 所
述assistant backbone表示为B1, B2, ..., Bk‑1, 所述lead backbone表示为Bk; 所述一个
assistant backbone的输出通过所述复合连接流动到下一个所述backbone中, 作为同一水
平位置的所述stage的输入, 并将最后 一个所述backbone, 即所述lead backbone的输出作
为提取的所述多尺度特 征。
3.如权利要求2所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 在所述步骤2.1中, 所述主干网络进行所述backbone的相邻高层复合, 即将Bk中第l‑1个
所述stage 的输出
和Bk‑1中第l个所述stage的输出
融合起来, 作为Bk中第l个所述
stage的输入:
其中, q(·)表示复合连接, 对
进行降维和 上采样操作后, 作为当前所述backbone
的第l个sta ge的输入。
4.如权利要求3所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 在所述步骤2.1中的所述backbone的所述相邻高层复合中, 用于复合连接的两个所述
backbone为Swin Transformer;
所述Swin Transformer利用步长为4的7*7卷积实现图像块划分, 所述不同stage之间
的特征图利用步长为2的3*3卷积实现下采样; 在每个Swin Transformer block中, 在不重权 利 要 求 书 1/3 页
2
CN 115035429 A
2叠的局部窗口中计算自注意力;
假设所述每个局部窗口中包含M*M个图像块, 整个图像含有h*w个图像块, 则 全局MSA和
基于窗口 的W‑MSA的计算复杂度分别为:
Ω(MSA)= 4hwC2+2(hw)2C;
Ω(W‑MSA)=4hwC2+2M2hwC;
其中, h表示图像高度, w表示图像宽度, C表示图像通道;
所述Swin Transformer的计算复杂度与图像大小成线性关系。
5.如权利要求4所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 所述Sw in Transformer允许跨窗口连接;
在连续的Swin Transformer blocks间移位窗口分区, 分别采用W ‑MSA和SW‑MSA机制,
计算如下:
其中, LN表示层归一化,
表示第l层采用W ‑MSA机制的注意力,
表示第l层采用SW ‑
MSA机制的注意力, zl和zl+1表示第l层采用MLP机制的注意力。
6.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 在所述步骤2.3 中, 所述detectionhead部分应用Transformer encoderblock形成所述
TPH网络; 其中, 所述每个Transformer encoder block包含两个子层, 第一子层为多头注意
力层, 第二子层MLP为全连接层, 每 个子层之间使用残差连接 。
7.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 所述步骤1包括以下子步骤:
步骤1.1、 采集所述 航拍图像;
步骤1.2、 使用图像标注工具对采集到的所述航拍图像进行目标标注, 得到标注文件;
其中, 标注内容 为目标的类别及所述目标在所述 航拍图像中的位置;
步骤1.3、 对获得的所述数据集进行数据增 强, 所述数据增 强的方式包括随机裁剪、 随
机水平翻转、 随机垂直翻转、 尺度抖动、 颜色抖动、 Mosaic或Mixup; 利用得到的所述标注文
件及原始的所述 航拍图像构成所述目标检测模型 所需要的所述数据集。
8.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 所述步骤2.4中用所述训练集输入所述目标检测模型进行训练的过程中采用多尺度训
练, 将输入的所述航拍图像的大小调整为图像短边在480 ‑800之间, 同时图像长边不超过
1333; 采用动量为0.9和权重衰减为0.005的SGD优化器; 模型总计训练100 epochs, 初始学习
率为0.0001; 在第6 7和89epoch时学习率降低为原来的1/10; 使用8块GPU训练, 每块 GPU分配
两张图像, 总batc h size为16 。
9.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在
于, 在所述 步骤2.4中, 将所述 航拍图像的所述数据集按4∶ 1的比例划分为训练集和 测试集。
10.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法, 其特征在权 利 要 求 书 2/3 页
3
CN 115035429 A
3
专利 一种基于复合主干网络和多预测头的航拍目标检测方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:50上传分享