(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210571467.6
(22)申请日 2022.05.24
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 常战国 吕一 邓天生 贠挺
(74)专利代理 机构 北京市通商律师事务所
11951
专利代理师 姜莹丽
(51)Int.Cl.
G06V 30/148(2022.01)
G06V 10/762(2022.01)
(54)发明名称
文本遮挡区域检测方法、 装置、 电子设备及
存储介质
(57)摘要
本公开提供一种文本遮挡区域检测方法、 装
置、 电子设备及存储介质, 涉及图像处理技术领
域, 具体涉及计算机视觉、 图像识别、 文本处理技
术领域, 可应用于图片或视频中的文本遮挡区域
检测等场景。 具体实现方案包括: 获取待检测的
第一图像; 合并第一图像中像素值之间的距离小
于预设距离阈值的像素点, 并重复执行合并第一
图像的像素点的步骤直至满足预设条件, 得到多
个聚类像素值; 根据聚类像素值对第一图像进行
实例分割, 得到与多个聚类像素值一一对应的多
个颜色实例分割区域; 根据颜色实例分割区域和
第一图像中的文本框的交叠关系, 从多个颜色实
例分割区域中确定第一图像中的文本遮挡区域。
本公开可以提高文本遮挡区域检测的速度、 降低
误检率。
权利要求书3页 说明书15页 附图9页
CN 114998903 A
2022.09.02
CN 114998903 A
1.一种文本遮挡区域检测方法, 其特 征在于, 所述方法包括:
获取待检测的第一图像;
合并所述第 一图像中像素值之间的距离小于预设距离 阈值的像素点, 并重复执行所述
合并所述第一图像的像素点的步骤直至满足预设条件, 得到多个聚类 像素值;
根据每个所述聚类像素值对所述第 一图像进行实例分割, 得到与多个聚类像素值一一
对应的多个颜色实例分割区域;
根据每个所述颜色实例分割区域和所述第 一图像中的文本框的交叠关系, 从多个所述
颜色实例分割区域中确定所述第一图像中的文本遮挡区域。
2.根据权利要求1所述的方法, 其特征在于, 所述预设距离阈值包括第 一距离阈值和第
二距离阈值, 所述预设条件 包括第一预设条件和第二预设条件;
所述合并所述第 一图像中像素值之间的距离小于预设距离阈值的像素点, 并重复执行
所述合并所述第一图像的像素点的步骤直至满足预设条件, 包括:
将所述第一图像分割为多个第二图像;
合并每个所述第 二图像中像素值之间的距离小于所述第 一距离阈值的像素点, 并重复
执行所述合并每个所述第二图像的像素点的步骤直至满足所述第一预设条件;
在重复执行所述合并每个所述第二图像的像素点的步骤直至满足所述第一预设条件
后, 合并多个所述第二图像中像素值之间的距离小于所述第二距离阈值的像素点, 并重复
执行所述合并多个所述第二图像的像素点的步骤直至满足所述第二预设条件。
3.根据权利要求2所述的方法, 其特征在于, 所述第 一预设条件, 包括: 每个所述第二图
像中任意两个像素点之间的距离小于第三距离阈值, 或者, 重复执行所述合并每个所述第
二图像的像素点的步骤的迭代次数达 到第一次数;
所述第二预设条件, 包括: 多个所述第二图像中任意两个像素点之间的距离小于第 四
距离阈值, 或者, 重复执行所述合并多个所述第二图像的像素点的步骤的迭代次数达到第
二次数。
4.根据权利要求3所述的方法, 其特征在于, 所述第一距离阈值等于所述第二距离阈
值。
5.根据权利要求3或4所述的方法, 其特征在于, 所述第三距离阈值等于所述第 四距离
阈值, 所述第一次数等于所述第二次数。
6.根据权利要求3 ‑5任一项所述的方法, 其特征在于, 所述第三距离阈值等于所述第一
距离阈值, 所述第四距离阈值 等于所述第二距离阈值。
7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据每个所述聚类像素值对
所述第一图像进行实例分割, 得到与多个聚类像素值一一对应的多个颜色实例分割区域,
包括:
根据每个所述聚类像素值对所述第一图像进行颜色降维, 得到颜色降维后的第一图
像;
根据每个所述聚类像素值, 对所述颜色降维后的第一图像进行二值化处理, 得到每个
所述聚类 像素值对应的二 值化图像;
从每个所述聚类像素值对应的二值化图像中提取连通区域, 得到每个所述聚类像素值
对应的颜色实例分割区域。权 利 要 求 书 1/3 页
2
CN 114998903 A
28.根据权利要求7所述的方法, 其特征在于, 所述从每个所述聚类像素值对应的二值化
图像中提取 连通区域之前, 所述方法还 包括:
对所述二值化图像依次进行腐蚀处 理、 膨胀处 理和腐蚀处 理。
9.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述根据每个所述颜色实例分割
区域和所述第一图像中的文本框的交叠 关系, 从多个所述颜色实例分割区域中确定所述第
一图像中的文本遮挡区域, 包括:
获取所述颜色实例分割区域和所述文本框的交叠区域的面积与所述文本框的面积 的
第一比值、 所述交叠区域的面积与所述颜色实例分割区域的面积的第二比值、 以及所述交
叠区域的面积与所述颜色实例分割区域和所述文本 框的面积之和的第三比值;
当所述第一比值、 所述第二比值、 以及所述第三比值中的最大值大于预设交叠比阈值
时, 确定所述颜色实例分割区域为文本遮挡区域; 所述预设交叠比阈值的大小与所述 目标
图像的业 务场景相关。
10.根据权利要求9所述的方法, 其特征在于, 所述当所述第一比值、 所述第二比值、 以
及所述第三比值中的最大值大于预设交叠比阈值时, 确定所述颜色实例分割区域为文本遮
挡区域, 包括:
当所述第一比值、 所述第二比值、 以及所述第三比值中的最大值大于预设交叠比阈值
时, 将所述颜色实例分割区域对应的图像输入预设的二分类模型, 得到所述二分类模型输
出的识别结果; 所述识别结果包括所述颜色实例分割区域是文本遮挡区域或者不是文本遮
挡区域;
当所述识别结果为所述颜色实例分割区域是文本遮挡区域 时, 确定所述颜色实例分割
区域为文本遮挡区域。
11.根据权利要求1 ‑10任一项所述的方法, 其特征在于, 所述根据每个所述颜色实例分
割区域和所述第一图像中的文本框的交叠 关系, 从多个所述颜色实例分割区域中确定所述
第一图像中的文本遮挡区域之前, 所述方法还 包括:
对所述第一图像进行光学字符识别文本行检测, 得到所述第一图像中的文本 框。
12.根据权利要求1 ‑11任一项所述的方法, 其特征在于, 所述合并所述第 一图像中像素
值之间的距离小于预设距离阈值的像素点, 包括:
对所述第一图像中的任意两个目标像素点, 当两个所述目标像素点的像素值之间的距
离小于所述预设距离阈值时, 分别将两个所述目标像素点的像素值赋值为两个所述目标像
素点的像素值的均值。
13.根据权利要求1 ‑12任一项所述的方法, 其特征在于, 所述合并所述第 一图像中像素
值之间的距离小于预设距离阈值的像素点之前, 所述方法还 包括:
将所述第一图像压缩为预设尺寸, 并将所述第一图像的格式转换为RGB格式。
14.一种文本遮挡区域检测装置, 其特 征在于, 所述装置包括:
获取单元, 用于获取待检测的第一图像;
聚类单元, 用于合并所述第一图像中像素值之间的距离小于预设距离阈值的像素点,
并重复执行所述合并所述第一图像的像素点的步骤直至满足预设条件, 得到多个聚类像素
值;
分割单元, 用于根据每个所述聚类像素值对所述第一图像进行实例分割, 得到与多个权 利 要 求 书 2/3 页
3
CN 114998903 A
3
专利 文本遮挡区域检测方法、装置、电子设备及存储介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:36:53上传分享