专利 基于改进特征金字塔和边界损失的道路场景行人检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210295880.4 (22)申请日 2022.03.24 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人彭树生　杨举魁　吴礼　张靖桢　 (74)专利代理机构南京理工大学专利中心 32203 专利代理师岑丹 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/762(2022.01) G06K 9/62(2022.01) (54)发明名称基于改进特征金字塔和边界损失的道路场景行人检测方法 (57)摘要本发明公开了一种基于改进特征金字塔和边界损失的道路场景行人检测方法，可用于对包含行人的视频或者图像进行检测，主要解决现有检测技术中聚类结果差异性较大和无法训练优化的问题，实现步骤为：创建训练集和测试集；采用k‑means++算法对数据集进行聚类分析，筛选出标注数据中的无效信息，对有效信息进行聚类操作，得到精度更高的锚框尺寸；在原YOLOv3算法中特征金字塔结构的基础上引入PANet结构，并提出一种ResBlock结构代替原有的残差结构，提高模型对小目标物体的检测精度；采用GIoU作为边界框损失函数，解决IoU相等时产生的差异性问题，从而得到准确率更高的行人检测模型。权利要求书3页说明书9页附图4页 CN 114782983 A 2022.07.22 CN 114782983 A 1.一种基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，包括如下步骤： S1:获取道路场景的行人视频，创建训练集和测试集； S2：采用k ‑means++算法对数据集进行聚类分析，得到候选框尺寸； S3：对输入图像进行预处理； S4：将预处理后的图像输入改进的YOLOv3检测模型进行训练，得到行人检测模型。 2.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用k ‑means++算法对数据集进行聚类分析前筛选训练集中的有效坐标数据，具体方法为：将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中，起始坐标数据从data_box中保存的第一组数据开始算起，初始化数组的索引值 index＝0；计算出标注框的宽度width及高度 height，若width＝0或height＝0，则其对应的data_ box中的坐标数据无效，删除这组数据，令lenth＝lenth ‑1，并进行下一组数据的判断；若 width与height都不为0，则其对应的坐标数据有效，计算宽度width与高度height的比值 rate，若比值rate大于设定值，则该比值对应的坐标数据无效，令lenth＝lenth ‑1，从data_ box数组中删除并进行下一组数据的判断；若比值rate小于或等于设定值，则该比值对应的坐标数据有效，令index＝index+1，重复执行之前步骤直至index＝lenth，筛选出全部有效坐标数据。 3.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用k ‑means++算法对数据集进行聚类分析，得到候选框尺寸的具体方法为：设定9个聚类中心Z＝{ z1,z2…,z9}，定义行数等于lenth，列数等于9的二维数组data_ kmeans，数组的行表示data_box中的有效坐标数据，列表示聚类中心的距离值，初始化 data_kmeans中的元素为0；计算data_box数组的数据均值，作为第一个聚类中心z_1；计算data_box中lenth组有效坐标信息与聚类中心z_1的距离，选择距离最远的8个点作为剩下的聚类中心；计算data_box中lenth组有效坐标信息与9个聚类中心的距离，将得到的距离值写进 data_kmeans数组中对应的行数和列数的位置；将data_b ox中每行对应的有效坐标信息分配给该行中最小距离值对应的聚类中心；完成全部坐标信息的分配，计算出每个聚类中心里成员的宽高均值，作为该聚类中心新的数值；重复执行之前的步骤，直至9个聚类中心的数值不再变化。 4.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用的距离度量公式为： d＝1‑IOU(box， Z) 其中， box表示有效坐标信息， IOU表示预测框和真实框的交互比， AP和AG分别表示预测框和真实框的面积， AI表示两种区域集合部分的面积， Z表示聚类中心。 5.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，对图像进行预处理具体包括行Mosaic数据增强、 hsv数据增强、自适应图片缩权　利　要　求　书 1/3 页 2 CN 114782983 A 2放。 6.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，改进的YOLOv3检测模型具体为: 在YOLOv3检测模型特征金字塔层与检测层之间添加PANet结构，采用ResBl ock结构替代YOLOv3检测模型特征金字塔层中的残差结构；所述PANet结构包括两个下采样层、两个Concat层和两个Resblock结构，将替代后的 ResBlock结构输出的感受野尺度为52x52的特征图通过一个下采样层进行处理，输出尺寸为26x26的新特征图；经过一个Concat层，将下采样后的性特征图与替代后的ResBlock结构输出的感受野尺度为26x26的特征图融合在一起；将融合后的特征图通过一个Resblock结构进行特征提取，并使用ReLu激活函数对特征进行非线性化处理；将新的感受野尺度为 26x26的特征图经过一个下采样层完成下采样操作，输出尺寸为13x13的特征图；经过一个 Concat层和Resblock结构实现与替代后的ResBlock结构输出的感受野尺度为13x13的特征图融合，完成尺度为26x26特征图与13x13特征图之间的下采样融合。 7.根据权利要求6所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，所述ResBlock结构包括2条支路，第一条支路通过三个CBL结构，提取输入特征图关键特征，并将第一个CBL结构的输出与输入特征图关键特征进行一次Add操作，得到第一条支路的输出；第二条支路通过一个CBL结构处理，通过一个Concat层将两条支路的输出特征进行通道叠加，将叠加后的特征图经过一个CBL结构获得相应感受野尺度的特征图。 8.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，改进后的YOLOv3检测模型的损失函数为： Ltotal＝lbox_giou+lobj+lcls 式中， lbox表示边界回归损失， lobj表示置信度损失， lclc表示分类误差损失， λcoord表示协调各种尺寸的预测框对误差函数贡献不一致设置的协调系数，表示该预测框是否负责预测物体，如果负责则其值为1，否则等于0， lbox表示特征图里所有单元格内每一个预测框的宽高、中心坐标位置与标记框平方误差损失总和， λobj和 λnoobj分别表示预测到目标和未预测到目标的权重值，等于表示如果该预测框不负责预测物体，值为1， s表示特征图的尺寸，表示遍历特征图的每个格子且每个格子产生三个预测， ci表示预测框内包含检测目标的概率得分， pj(c)表示预测框内目标属于类别c的概率值，表示标记框内权　利　要　求　书 2/3 页 3 CN 114782983 A 3

专利 基于改进特征金字塔和边界损失的道路场景行人检测方法

专利基于改进特征金字塔和边界损失的道路场景行人检测方法