(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210454708.9
(22)申请日 2022.04.24
(71)申请人 深圳思谋信息科技有限公司
地址 518051 广东省深圳市南 山区高新 南
九道45号 三航科技大厦2 2楼
申请人 北京思谋智能科技有限公司
(72)发明人 孙宇君 李睿宇 杨帆 吕江波
沈小勇
(74)专利代理 机构 华进联合专利商标代理有限
公司 44224
专利代理师 樊倩
(51)Int.Cl.
G06V 20/62(2022.01)
G06K 9/62(2022.01)
G06F 16/35(2019.01)G06V 10/75(2022.01)
G06V 10/774(2022.01)
G06V 10/762(2022.01)
G06V 30/19(2022.01)
(54)发明名称
样本文本图像获取方法、 文本识别模 型训练
方法和装置
(57)摘要
本申请涉及一种样本文本图像获取方法及
装置, 所述方法包括: 获取初始样本文本图像; 基
于初始样 本文本图像, 得到初始样 本文本图像的
文本位置区域, 以及初始样本文本图像的第一背
景图层; 获取预设的文本内容参数, 以及文本样
式参数; 基于文本内容参数, 以及文本样式参数,
得到文本图层; 基于文本位置区域, 得到文本图
层的文本图层位置信息; 将文本图层, 叠加至第
一背景图层中, 与文本图层位置信息相匹配的区
域中, 生成初始样本文本图像对应的目标样本文
本图像。 采用本方法能够提高样 本文本图像的数
量。
权利要求书3页 说明书14页 附图6页
CN 114565915 A
2022.05.31
CN 114565915 A
1.一种样本文本图像获取 方法, 其特 征在于, 所述方法包括:
获取初始样本文本 图像; 基于所述初始样本文本 图像, 得到所述初始样本文本 图像的
文本位置区域, 以及所述初始样本文本图像的第一背景图层;
获取预设的文本内容参数, 以及文本样式参数; 基于所述文本内容参数, 以及所述文本
样式参数, 得到文本图层;
基于所述文本位置区域, 得到所述文本图层的文本图层位置信息;
将所述文本 图层, 叠加至所述第一背景图层中, 与所述文本 图层位置信息相匹配的区
域中, 生成所述初始样本文本图像对应的目标样本文本图像。
2.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本内容参数, 以及所述文
本样式参数, 得到文本图层, 包括:
获取所述文本内容 参数对应的文本内容; 以及所述文本样式参数对应的文本样式;
基于所述文本内容, 以及所述文本样式, 得到文本掩膜;
获取与所述文本掩膜相匹配的第 二背景图层, 以及所述文本掩膜在所述第 二背景图层
中的文本掩膜位置信息;
基于所述文本掩膜、 所述第 二背景图层, 以及所述文本掩膜位置信 息, 得到所述文本图
层。
3.根据权利要求2所述的方法, 其特征在于, 所述获取所述文本 内容参数对应的文本 内
容; 以及所述文本样式参数对应的文本样式, 包括:
根据所述文本内容参数, 得到所述文本内容参数相匹配的候选文本内容集合; 从所述
候选文本内容集合包含的候选文本内容中, 按照所述文本内容参数中所表征的内容筛选参
数筛选得到所述文本内容;
根据所述文本样式参数, 得到所述文本样式参数相匹配的候选文本样式集合; 从所述
候选文本样式集合包含的候选文本样式中, 按照所述文本样式参数中所表征的样式筛选参
数筛选得到所述文本样式。
4.根据权利要求2所述的方法, 其特征在于, 所述获取与 所述文本掩膜相匹配的第 二背
景图层, 以及所述文本掩膜在所述第二背景图层中的文本掩膜位置信息, 包括:
获取所述文本掩膜 的第一尺寸信息; 并基于所述第一尺寸信息, 生成所述第二背景图
层; 其中, 所述第二背景图层的第二尺寸信息大于所述第一尺寸信息;
获取所述第 二背景图层中包含的文本掩膜位置区域集合; 所述文本掩膜位置区域集合
中包含的文本掩膜位置区域 位于所述第二背景图层区域内;
从所述文本掩膜位置区域集合中, 随机获取目标文本掩膜位置区域, 并将所述目标文
本掩膜位置区域的位置信息作为所述文本掩膜位置信息 。
5.根据权利要求2所述的方法, 其特征在于, 所述文本样式包括第 一文本样式和第 二文
本样式;
所述基于所述文本内容, 以及所述文本样式, 得到文本掩膜, 包括:
基于所述文本内容, 以及所述第一文本样式, 得到所述文本掩膜;
所述基于所述文本掩膜、 所述第 二背景图层, 以及所述文本掩膜位置信息, 得到所述文
本图层, 包括:
根据所述第二文本样式, 生成与所述文本掩膜对应的最终文本掩膜;权 利 要 求 书 1/3 页
2
CN 114565915 A
2将所述最终文本掩膜, 叠加至所述第二背景图层中, 与所述文本掩膜位置信息相匹配
的区域中, 得到所述文本图层。
6.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本位置区域, 得到所述文
本图层的文本图层位置信息, 包括:
获取所述文本位置区域的基准 点;
基于所述文本位置区域的基准点, 对所述文本位置区域进行预设倍数的放大处理, 得
到放大后的文本位置区域;
获取所述放大后的文本位置区域中包含的文本图层位置区域集合; 所述文本图层位置
区域集合中包含的文本图层位置区域 位于所述 放大后的文本位置区域内;
从所述文本 图层位置区域集合中, 随机获取目标文本 图层位置区域, 并将所述目标文
本图层位置区域的位置信息作为所述文本图层位置信息 。
7.根据权利要求1所述的方法, 其特征在于, 所述基于所述初始样本文本 图像, 得到所
述初始样本文本图像的文本位置区域, 以及所述初始样本文本图像的第一背景图层, 包括:
获取所述初始样本文本图像包 含的各个字符图像的字符位置区域;
将所述字符位置区域进行聚类组合, 得到所述文本位置区域;
擦除所述初始样本文本图像中的所述各个字符图像, 得到所述第一背景图层。
8.一种文本识别模型训练方法, 其特 征在于, 所述方法包括:
获取样本文本 图像, 对所述样本文本 图像的文本进行标记, 得到所述样本文本 图像的
标记图像; 其中, 所述样本文本图像包括初始样本文本图像, 以及目标样本文本图像, 所述
目标样本文本图像根据如权利要求1至7中任一项所述的样本文本图像获取 方法得到;
将所述样本文本图像输入待训练的文本识别模型中, 利用所述标记图像对所述待训练
的文本识别模型进行训练, 得到所述训练完成的文本识别模型。
9.一种样本文本图像获取装置, 其特 征在于, 所述装置包括:
初始图像获取模块, 用于获取初始样本文本图像; 基于所述初始样本文本图像, 得到所
述初始样本文本图像的文本位置区域, 以及所述初始样本文本图像的第一背景图层;
文本图层获取模块, 用于获取预设的文本内容参数, 以及文本样式参数; 基于所述文本
内容参数, 以及所述文本样式参数, 得到文本图层;
图层位置获取模块, 用于基于所述文本位置区域, 得到所述文本图层的位置信息;
目标图像获取模块, 用于将所述文本图层, 叠加至所述第 一背景图层中, 与所述文本图
层的位置信息相匹配的区域中, 生成所述初始样本文本图像对应的目标样本文本图像。
10.一种文本识别模型训练装置, 其特 征在于, 所述装置包括:
标记图像获取模块, 用于获取样本文本图像, 对所述样本文本图像的文本进行标记, 得
到所述样本文本图像的标记图像; 其中, 所述样本文本图像包括初始样本文本图像, 以及目
标样本文本图像, 所述目标样本文本图像根据如权利要求 1至7中任一项 所述的样本文本图
像获取方法得到;
识别模型训练模块, 用于将所述样本文本 图像输入待训练的文本识别模型中, 利用所
述标记图像对所述待训练的文本识别模型进行训练, 得到所述训练完成的文本识别模型。
11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处理器执行所述计算机程序时实现权利要求 1至7中任一项 所述的样本文本图像获权 利 要 求 书 2/3 页
3
CN 114565915 A
3
专利 样本文本图像获取方法、文本识别模型训练方法和装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:37:01上传分享