(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210295880.4
(22)申请日 2022.03.24
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 彭树生 杨举魁 吴礼 张靖桢
(74)专利代理 机构 南京理工大 学专利中心
32203
专利代理师 岑丹
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/762(2022.01)
G06K 9/62(2022.01)
(54)发明名称
基于改进特征金字塔和边界损失的道路场
景行人检测方法
(57)摘要
本发明公开了一种基于改进特征金字塔和
边界损失的道路场景行人检测方法, 可用于对包
含行人的视频或者图像进行检测, 主要解决现有
检测技术中聚类结果差异性较大和无法训练优
化的问题, 实现步骤为: 创建训练集和测试集; 采
用k‑means++算法对数据集进行聚类分析, 筛选
出标注数据中的无效信息, 对有效信息进行聚类
操作, 得到精度更高的锚框尺寸; 在原YOLOv3算
法中特征金字塔结构的基础上引入PANet结构,
并提出一种ResBlock结构代替原有的残差 结构,
提高模型对小目标物 体的检测精度; 采用GIoU作
为边界框损失函数, 解决IoU相等时产生的差异
性问题, 从而得到准确率更高的行 人检测模型。
权利要求书3页 说明书9页 附图4页
CN 114782983 A
2022.07.22
CN 114782983 A
1.一种基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 包括
如下步骤:
S1:获取道路场景的行 人视频, 创建训练集和 测试集;
S2: 采用k ‑means++算法对数据集进行聚类分析, 得到候选 框尺寸;
S3: 对输入图像进行 预处理;
S4: 将预处 理后的图像输入改进的YOLOv3检测模型进行训练, 得到行 人检测模型。
2.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 采用k ‑means++算法对 数据集进 行聚类分析前筛选训练集中的有效坐标数据,
具体方法为:
将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中, 起
始坐标数据从data_box中保存的第一组数据开始算 起, 初始化数组的索引值 index=0;
计算出标注框的宽度width及高度 height, 若width=0或height=0, 则其对应的data_
box中的坐标数据无效, 删除这组数据, 令lenth=lenth ‑1, 并进行下一组数据的判断; 若
width与height都不为0, 则其对应的坐标数据有效, 计算宽度width与高度height的比值
rate, 若比值rate大于设定值, 则该比值对应的坐标数据无效, 令lenth=lenth ‑1, 从data_
box数组中删除并进行下一组数据的判断; 若比值rate小于或等于 设定值, 则该比值对应的
坐标数据有效, 令index=index+1, 重复执行之前步骤直至index=lenth, 筛选出全部有效
坐标数据。
3.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 采用k ‑means++算法对数据集进行聚类分析, 得到候选 框尺寸的具体方法为:
设定9个聚类中心Z={ z1,z2…,z9}, 定义行数等于lenth, 列数等于9的二维数组data_
kmeans, 数组的行表示data_box中的有效坐标数据, 列表示聚类中心的距离值, 初始化
data_kmeans中的元 素为0;
计算data_box数组的数据均值, 作为第一个聚类中心z_1; 计算data_box中lenth组有
效坐标信息与聚类中心z_1的距离, 选择距离最远的8个点作为剩下的聚类中心;
计算data_box中lenth组有效坐标信息与9个聚类中心的距离, 将得到的距离值写进
data_kmeans数组中对应的行数和列数的位置; 将data_b ox中每行对应的有效坐标信息分
配给该行中最小距离值对应的聚类中心; 完成全部坐标信息的分配, 计算出每个聚类中心
里成员的宽高均值, 作为该聚类中心新的数值; 重复执行之前的步骤, 直至9个聚类中心的
数值不再变化。
4.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 采用的距离度量公式为:
d=1‑IOU(box, Z)
其中, box表示有效坐标信息, IOU表示预测框和真实框的交互比, AP和AG分别表示预测
框和真实框的面积, AI表示两种区域 集合部分的面积, Z表示聚类中心。
5.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 对图像进行预处理具体包括行Mosaic数据增强、 hsv数据增强、 自适应图片缩权 利 要 求 书 1/3 页
2
CN 114782983 A
2放。
6.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 改进的YOLOv3检测模型 具体为:
在YOLOv3检测模型 特征金字塔层与检测层之间添加PANet结构,
采用ResBl ock结构替代YOLOv3检测模型 特征金字塔层中的残差结构;
所述PANet结构包括两个下采样层、 两个Concat层和两个Resblock结构, 将替代后的
ResBlock结构输出的感受野尺度为52x52的特征图通过一个下采样层进行处理, 输出尺寸
为26x26的新特征图; 经过一个Concat层, 将下采样后的性特征图与替代后的ResBlock结构
输出的感受野尺度为26x26的特征图融合在一起; 将融合后的特征图通过一个Resblock结
构进行特征提取, 并使用ReLu激活函数对特征进行非线性化处理; 将新的感受野尺度为
26x26的特征图经过一个下采样层完成下采样操作, 输出尺寸为13x13的特征图; 经过一个
Concat层和Resblock结构实现与替代后的ResBlock结构输出的感受野尺度为13x13的特征
图融合, 完成尺度为26x26特 征图与13x13特 征图之间的下采样融合。
7.根据权利要求6所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 所述ResBlock结构包括2条支路, 第一条支路通过三个CBL结构, 提取输入 特征
图关键特征, 并将第一个CBL结构的输出与输入特征图关键特征进行一次Add操作, 得到第
一条支路的输出; 第二条支路通过一个CBL结构处理, 通过一个Concat层将两条支路的输出
特征进行通道叠加, 将叠加后的特 征图经过一个CBL结构获得相应感受野尺度的特 征图。
8.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法,
其特征在于, 改进后的YOLOv3检测模型的损失函数为:
Ltotal=lbox_giou+lobj+lcls
式中, lbox表示边界回归损失, lobj表示置信度损失, lclc表示分类误差损失, λcoord表示协
调各种尺寸的预测框对误差函数贡献不一致设置的协调系 数,
表示该预测框是否负责
预测物体, 如果负责则其值为1, 否则等于0, lbox表示特征图里所有单元格内每一个预测 框
的宽高、 中心坐 标位置与标记框平方误差损失总和, λobj和 λnoobj分别表示预测到目标和未预
测到目标的权重值,
等于
表示如果该预测框不负责预测物体, 值为1, s表示特征
图的尺寸,
表示遍历特征图的每个格子且每个格子产生三个预测, ci表示预测框内包
含检测目标的概率得分, pj(c)表示预测框内目标属于类别c的概率值,
表示标记框内权 利 要 求 书 2/3 页
3
CN 114782983 A
3
专利 基于改进特征金字塔和边界损失的道路场景行人检测方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:35:55上传分享