专利 一种基于复合主干网络和多预测头的航拍目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221074820 3.3 (22)申请日 2022.06.29 (71)申请人上海交通大学宁波人工智能研究院地址 315012 浙江省宁波市海曙区南门街道南站西路2 9号 (72)发明人李馨蔚　何小其　杨根科　褚健　 (74)专利代理机构上海剑秋知识产权代理有限公司 31382 专利代理师徐海兵 (51)Int.Cl. G06V 20/17(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于复合主干网络和多预测头的航拍目标检测方法 (57)摘要本发明公开了一种基于复合主干网络和多预测头的航拍目标检测方法，涉及计算机视觉目标检测技术领域，包括以下步骤：步骤1、准备航拍图像的数据集；步骤2、构建目标检测模型；步骤3、应用目标检测模型进行目标预测；其中，步骤2包括：步骤2.1、建立目标检测模型的主干网络，并提取多尺度特征；步骤 2 .2 、通过 Recursive ‑FPN网络对多尺度特征进行融合，得到融合增强后的多尺度特征；步骤2.3、基于融合增强后的多尺度特征，使用TPH网络作为 detection head，构建目标检测模型；步骤2.4、将航拍图像的数据集按比例划分为训练集和测试集，用训练集输入模型进行训练，再用测试集对模型进行测试，确定目标检测模型。该方法实现航拍图像目标检测速度与精度更好的权衡。权利要求书3页说明书9页附图3页 CN 115035429 A 2022.09.09 CN 115035429 A 1.一种基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，所述方法包括以下步骤：步骤1、准备航拍图像的数据集；步骤2、构建目标检测模型；步骤3、应用所述目标检测模型进行目标预测；其中，所述步骤2包括以下子步骤：步骤2.1、通过复合连接Swin Transformer建立所述目标检测模型的主干网络，并提取多尺度特征；步骤2.2、通过Recursive ‑FPN网络对所述多尺度特征进行融合，得到融合增强后的所述多尺度特征；步骤2.3、基于融合增强后的所述多尺度特征，使用TPH网络作为detection head，构建所述目标检测模型；步骤2.4、将所述航拍图像的所述数据集按比例划分为训练集和测试集，用所述训练集输入所述目标检测模型进行训练，再用所述测试集对所述目标检测模型进行测试，确定所述目标检测模型；其中，训练时的正负样本的划分是遵循OTA策略。 2.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中，所述主干网络包含若干前后连接的backb one，所述每个backb one中有L个stage，所述每个stage包含若干卷积层，并且所述每个 stage的特征图大小都相同；其中，所述backbo ne的第l个所述sta ge会进行非线性转换Fl(·)；通过对相邻的所述backbone位于同一水平位置的所述stage进行复合连接，将若干相同的所述backbo ne进行组合；所述backbone分为两种类型，分别为assist ant backbone和lead backbone；其中，所述assistant backbone表示为B1， B2， ...， Bk‑1，所述lead backbone表示为Bk；所述一个 assistant backbone的输出通过所述复合连接流动到下一个所述backbone中，作为同一水平位置的所述stage的输入，并将最后一个所述backbone，即所述lead backbone的输出作为提取的所述多尺度特征。 3.如权利要求2所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中，所述主干网络进行所述backbone的相邻高层复合，即将Bk中第l‑1个所述stage 的输出和Bk‑1中第l个所述stage的输出融合起来，作为Bk中第l个所述 stage的输入：其中， q(·)表示复合连接，对进行降维和上采样操作后，作为当前所述backbone 的第l个sta ge的输入。 4.如权利要求3所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.1中的所述backbone的所述相邻高层复合中，用于复合连接的两个所述 backbone为Swin Transformer；所述Swin Transformer利用步长为4的7*7卷积实现图像块划分，所述不同stage之间的特征图利用步长为2的3*3卷积实现下采样；在每个Swin Transformer block中，在不重权　利　要　求　书 1/3 页 2 CN 115035429 A 2叠的局部窗口中计算自注意力；假设所述每个局部窗口中包含M*M个图像块，整个图像含有h*w个图像块，则全局MSA和基于窗口的W‑MSA的计算复杂度分别为： Ω(MSA)＝ 4hwC2+2(hw)2C； Ω(W‑MSA)＝4hwC2+2M2hwC；其中， h表示图像高度， w表示图像宽度， C表示图像通道；所述Swin Transformer的计算复杂度与图像大小成线性关系。 5.如权利要求4所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，所述Sw in Transformer允许跨窗口连接；在连续的Swin Transformer blocks间移位窗口分区，分别采用W ‑MSA和SW‑MSA机制，计算如下：其中， LN表示层归一化，表示第l层采用W ‑MSA机制的注意力，表示第l层采用SW ‑ MSA机制的注意力， zl和zl+1表示第l层采用MLP机制的注意力。 6.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.3 中，所述detectionhead部分应用Transformer encoderblock形成所述 TPH网络；其中，所述每个Transformer encoder block包含两个子层，第一子层为多头注意力层，第二子层MLP为全连接层，每个子层之间使用残差连接。 7.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，所述步骤1包括以下子步骤：步骤1.1、采集所述航拍图像；步骤1.2、使用图像标注工具对采集到的所述航拍图像进行目标标注，得到标注文件；其中，标注内容为目标的类别及所述目标在所述航拍图像中的位置；步骤1.3、对获得的所述数据集进行数据增强，所述数据增强的方式包括随机裁剪、随机水平翻转、随机垂直翻转、尺度抖动、颜色抖动、 Mosaic或Mixup；利用得到的所述标注文件及原始的所述航拍图像构成所述目标检测模型所需要的所述数据集。 8.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，所述步骤2.4中用所述训练集输入所述目标检测模型进行训练的过程中采用多尺度训练，将输入的所述航拍图像的大小调整为图像短边在480 ‑800之间，同时图像长边不超过 1333；采用动量为0.9和权重衰减为0.005的SGD优化器；模型总计训练100 epochs，初始学习率为0.0001；在第6 7和89epoch时学习率降低为原来的1/10；使用8块GPU训练，每块 GPU分配两张图像，总batc h size为16 。 9.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在于，在所述步骤2.4中，将所述航拍图像的所述数据集按4∶ 1的比例划分为训练集和测试集。 10.如权利要求1所述的基于复合主干网络和多预测头的航拍目标检测方法，其特征在权　利　要　求　书 2/3 页 3 CN 115035429 A 3

专利 一种基于复合主干网络和多预测头的航拍目标检测方法

专利一种基于复合主干网络和多预测头的航拍目标检测方法