说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210295880.4 (22)申请日 2022.03.24 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 彭树生 杨举魁 吴礼 张靖桢  (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 岑丹 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/762(2022.01) G06K 9/62(2022.01) (54)发明名称 基于改进特征金字塔和边界损失的道路场 景行人检测方法 (57)摘要 本发明公开了一种基于改进特征金字塔和 边界损失的道路场景行人检测方法, 可用于对包 含行人的视频或者图像进行检测, 主要解决现有 检测技术中聚类结果差异性较大和无法训练优 化的问题, 实现步骤为: 创建训练集和测试集; 采 用k‑means++算法对数据集进行聚类分析, 筛选 出标注数据中的无效信息, 对有效信息进行聚类 操作, 得到精度更高的锚框尺寸; 在原YOLOv3算 法中特征金字塔结构的基础上引入PANet结构, 并提出一种ResBlock结构代替原有的残差 结构, 提高模型对小目标物 体的检测精度; 采用GIoU作 为边界框损失函数, 解决IoU相等时产生的差异 性问题, 从而得到准确率更高的行 人检测模型。 权利要求书3页 说明书9页 附图4页 CN 114782983 A 2022.07.22 CN 114782983 A 1.一种基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 包括 如下步骤: S1:获取道路场景的行 人视频, 创建训练集和 测试集; S2: 采用k ‑means++算法对数据集进行聚类分析, 得到候选 框尺寸; S3: 对输入图像进行 预处理; S4: 将预处 理后的图像输入改进的YOLOv3检测模型进行训练, 得到行 人检测模型。 2.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 采用k ‑means++算法对 数据集进 行聚类分析前筛选训练集中的有效坐标数据, 具体方法为: 将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中, 起 始坐标数据从data_box中保存的第一组数据开始算 起, 初始化数组的索引值 index=0; 计算出标注框的宽度width及高度 height, 若width=0或height=0, 则其对应的data_ box中的坐标数据无效, 删除这组数据, 令lenth=lenth ‑1, 并进行下一组数据的判断; 若 width与height都不为0, 则其对应的坐标数据有效, 计算宽度width与高度height的比值 rate, 若比值rate大于设定值, 则该比值对应的坐标数据无效, 令lenth=lenth ‑1, 从data_ box数组中删除并进行下一组数据的判断; 若比值rate小于或等于 设定值, 则该比值对应的 坐标数据有效, 令index=index+1, 重复执行之前步骤直至index=lenth, 筛选出全部有效 坐标数据。 3.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 采用k ‑means++算法对数据集进行聚类分析, 得到候选 框尺寸的具体方法为: 设定9个聚类中心Z={ z1,z2…,z9}, 定义行数等于lenth, 列数等于9的二维数组data_ kmeans, 数组的行表示data_box中的有效坐标数据, 列表示聚类中心的距离值, 初始化 data_kmeans中的元 素为0; 计算data_box数组的数据均值, 作为第一个聚类中心z_1; 计算data_box中lenth组有 效坐标信息与聚类中心z_1的距离, 选择距离最远的8个点作为剩下的聚类中心; 计算data_box中lenth组有效坐标信息与9个聚类中心的距离, 将得到的距离值写进 data_kmeans数组中对应的行数和列数的位置; 将data_b ox中每行对应的有效坐标信息分 配给该行中最小距离值对应的聚类中心; 完成全部坐标信息的分配, 计算出每个聚类中心 里成员的宽高均值, 作为该聚类中心新的数值; 重复执行之前的步骤, 直至9个聚类中心的 数值不再变化。 4.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 采用的距离度量公式为: d=1‑IOU(box, Z) 其中, box表示有效坐标信息, IOU表示预测框和真实框的交互比, AP和AG分别表示预测 框和真实框的面积, AI表示两种区域 集合部分的面积, Z表示聚类中心。 5.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 对图像进行预处理具体包括行Mosaic数据增强、 hsv数据增强、 自适应图片缩权 利 要 求 书 1/3 页 2 CN 114782983 A 2放。 6.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 改进的YOLOv3检测模型 具体为: 在YOLOv3检测模型 特征金字塔层与检测层之间添加PANet结构, 采用ResBl ock结构替代YOLOv3检测模型 特征金字塔层中的残差结构; 所述PANet结构包括两个下采样层、 两个Concat层和两个Resblock结构, 将替代后的 ResBlock结构输出的感受野尺度为52x52的特征图通过一个下采样层进行处理, 输出尺寸 为26x26的新特征图; 经过一个Concat层, 将下采样后的性特征图与替代后的ResBlock结构 输出的感受野尺度为26x26的特征图融合在一起; 将融合后的特征图通过一个Resblock结 构进行特征提取, 并使用ReLu激活函数对特征进行非线性化处理; 将新的感受野尺度为 26x26的特征图经过一个下采样层完成下采样操作, 输出尺寸为13x13的特征图; 经过一个 Concat层和Resblock结构实现与替代后的ResBlock结构输出的感受野尺度为13x13的特征 图融合, 完成尺度为26x26特 征图与13x13特 征图之间的下采样融合。 7.根据权利要求6所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 所述ResBlock结构包括2条支路, 第一条支路通过三个CBL结构, 提取输入 特征 图关键特征, 并将第一个CBL结构的输出与输入特征图关键特征进行一次Add操作, 得到第 一条支路的输出; 第二条支路通过一个CBL结构处理, 通过一个Concat层将两条支路的输出 特征进行通道叠加, 将叠加后的特 征图经过一个CBL结构获得相应感受野尺度的特 征图。 8.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法, 其特征在于, 改进后的YOLOv3检测模型的损失函数为: Ltotal=lbox_giou+lobj+lcls 式中, lbox表示边界回归损失, lobj表示置信度损失, lclc表示分类误差损失, λcoord表示协 调各种尺寸的预测框对误差函数贡献不一致设置的协调系 数, 表示该预测框是否负责 预测物体, 如果负责则其值为1, 否则等于0, lbox表示特征图里所有单元格内每一个预测 框 的宽高、 中心坐 标位置与标记框平方误差损失总和, λobj和 λnoobj分别表示预测到目标和未预 测到目标的权重值, 等于 表示如果该预测框不负责预测物体, 值为1, s表示特征 图的尺寸, 表示遍历特征图的每个格子且每个格子产生三个预测, ci表示预测框内包 含检测目标的概率得分, pj(c)表示预测框内目标属于类别c的概率值, 表示标记框内权 利 要 求 书 2/3 页 3 CN 114782983 A 3

.PDF文档 专利 基于改进特征金字塔和边界损失的道路场景行人检测方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进特征金字塔和边界损失的道路场景行人检测方法 第 1 页 专利 基于改进特征金字塔和边界损失的道路场景行人检测方法 第 2 页 专利 基于改进特征金字塔和边界损失的道路场景行人检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:35:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。