说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210454708.9 (22)申请日 2022.04.24 (71)申请人 深圳思谋信息科技有限公司 地址 518051 广东省深圳市南 山区高新 南 九道45号 三航科技大厦2 2楼 申请人 北京思谋智能科技有限公司 (72)发明人 孙宇君 李睿宇 杨帆 吕江波  沈小勇  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 樊倩 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06F 16/35(2019.01)G06V 10/75(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 30/19(2022.01) (54)发明名称 样本文本图像获取方法、 文本识别模 型训练 方法和装置 (57)摘要 本申请涉及一种样本文本图像获取方法及 装置, 所述方法包括: 获取初始样本文本图像; 基 于初始样 本文本图像, 得到初始样 本文本图像的 文本位置区域, 以及初始样本文本图像的第一背 景图层; 获取预设的文本内容参数, 以及文本样 式参数; 基于文本内容参数, 以及文本样式参数, 得到文本图层; 基于文本位置区域, 得到文本图 层的文本图层位置信息; 将文本图层, 叠加至第 一背景图层中, 与文本图层位置信息相匹配的区 域中, 生成初始样本文本图像对应的目标样本文 本图像。 采用本方法能够提高样 本文本图像的数 量。 权利要求书3页 说明书14页 附图6页 CN 114565915 A 2022.05.31 CN 114565915 A 1.一种样本文本图像获取 方法, 其特 征在于, 所述方法包括: 获取初始样本文本 图像; 基于所述初始样本文本 图像, 得到所述初始样本文本 图像的 文本位置区域, 以及所述初始样本文本图像的第一背景图层; 获取预设的文本内容参数, 以及文本样式参数; 基于所述文本内容参数, 以及所述文本 样式参数, 得到文本图层; 基于所述文本位置区域, 得到所述文本图层的文本图层位置信息; 将所述文本 图层, 叠加至所述第一背景图层中, 与所述文本 图层位置信息相匹配的区 域中, 生成所述初始样本文本图像对应的目标样本文本图像。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本内容参数, 以及所述文 本样式参数, 得到文本图层, 包括: 获取所述文本内容 参数对应的文本内容; 以及所述文本样式参数对应的文本样式; 基于所述文本内容, 以及所述文本样式, 得到文本掩膜; 获取与所述文本掩膜相匹配的第 二背景图层, 以及所述文本掩膜在所述第 二背景图层 中的文本掩膜位置信息; 基于所述文本掩膜、 所述第 二背景图层, 以及所述文本掩膜位置信 息, 得到所述文本图 层。 3.根据权利要求2所述的方法, 其特征在于, 所述获取所述文本 内容参数对应的文本 内 容; 以及所述文本样式参数对应的文本样式, 包括: 根据所述文本内容参数, 得到所述文本内容参数相匹配的候选文本内容集合; 从所述 候选文本内容集合包含的候选文本内容中, 按照所述文本内容参数中所表征的内容筛选参 数筛选得到所述文本内容; 根据所述文本样式参数, 得到所述文本样式参数相匹配的候选文本样式集合; 从所述 候选文本样式集合包含的候选文本样式中, 按照所述文本样式参数中所表征的样式筛选参 数筛选得到所述文本样式。 4.根据权利要求2所述的方法, 其特征在于, 所述获取与 所述文本掩膜相匹配的第 二背 景图层, 以及所述文本掩膜在所述第二背景图层中的文本掩膜位置信息, 包括: 获取所述文本掩膜 的第一尺寸信息; 并基于所述第一尺寸信息, 生成所述第二背景图 层; 其中, 所述第二背景图层的第二尺寸信息大于所述第一尺寸信息; 获取所述第 二背景图层中包含的文本掩膜位置区域集合; 所述文本掩膜位置区域集合 中包含的文本掩膜位置区域 位于所述第二背景图层区域内; 从所述文本掩膜位置区域集合中, 随机获取目标文本掩膜位置区域, 并将所述目标文 本掩膜位置区域的位置信息作为所述文本掩膜位置信息 。 5.根据权利要求2所述的方法, 其特征在于, 所述文本样式包括第 一文本样式和第 二文 本样式; 所述基于所述文本内容, 以及所述文本样式, 得到文本掩膜, 包括: 基于所述文本内容, 以及所述第一文本样式, 得到所述文本掩膜; 所述基于所述文本掩膜、 所述第 二背景图层, 以及所述文本掩膜位置信息, 得到所述文 本图层, 包括: 根据所述第二文本样式, 生成与所述文本掩膜对应的最终文本掩膜;权 利 要 求 书 1/3 页 2 CN 114565915 A 2将所述最终文本掩膜, 叠加至所述第二背景图层中, 与所述文本掩膜位置信息相匹配 的区域中, 得到所述文本图层。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本位置区域, 得到所述文 本图层的文本图层位置信息, 包括: 获取所述文本位置区域的基准 点; 基于所述文本位置区域的基准点, 对所述文本位置区域进行预设倍数的放大处理, 得 到放大后的文本位置区域; 获取所述放大后的文本位置区域中包含的文本图层位置区域集合; 所述文本图层位置 区域集合中包含的文本图层位置区域 位于所述 放大后的文本位置区域内; 从所述文本 图层位置区域集合中, 随机获取目标文本 图层位置区域, 并将所述目标文 本图层位置区域的位置信息作为所述文本图层位置信息 。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述初始样本文本 图像, 得到所 述初始样本文本图像的文本位置区域, 以及所述初始样本文本图像的第一背景图层, 包括: 获取所述初始样本文本图像包 含的各个字符图像的字符位置区域; 将所述字符位置区域进行聚类组合, 得到所述文本位置区域; 擦除所述初始样本文本图像中的所述各个字符图像, 得到所述第一背景图层。 8.一种文本识别模型训练方法, 其特 征在于, 所述方法包括: 获取样本文本 图像, 对所述样本文本 图像的文本进行标记, 得到所述样本文本 图像的 标记图像; 其中, 所述样本文本图像包括初始样本文本图像, 以及目标样本文本图像, 所述 目标样本文本图像根据如权利要求1至7中任一项所述的样本文本图像获取 方法得到; 将所述样本文本图像输入待训练的文本识别模型中, 利用所述标记图像对所述待训练 的文本识别模型进行训练, 得到所述训练完成的文本识别模型。 9.一种样本文本图像获取装置, 其特 征在于, 所述装置包括: 初始图像获取模块, 用于获取初始样本文本图像; 基于所述初始样本文本图像, 得到所 述初始样本文本图像的文本位置区域, 以及所述初始样本文本图像的第一背景图层; 文本图层获取模块, 用于获取预设的文本内容参数, 以及文本样式参数; 基于所述文本 内容参数, 以及所述文本样式参数, 得到文本图层; 图层位置获取模块, 用于基于所述文本位置区域, 得到所述文本图层的位置信息; 目标图像获取模块, 用于将所述文本图层, 叠加至所述第 一背景图层中, 与所述文本图 层的位置信息相匹配的区域中, 生成所述初始样本文本图像对应的目标样本文本图像。 10.一种文本识别模型训练装置, 其特 征在于, 所述装置包括: 标记图像获取模块, 用于获取样本文本图像, 对所述样本文本图像的文本进行标记, 得 到所述样本文本图像的标记图像; 其中, 所述样本文本图像包括初始样本文本图像, 以及目 标样本文本图像, 所述目标样本文本图像根据如权利要求 1至7中任一项 所述的样本文本图 像获取方法得到; 识别模型训练模块, 用于将所述样本文本 图像输入待训练的文本识别模型中, 利用所 述标记图像对所述待训练的文本识别模型进行训练, 得到所述训练完成的文本识别模型。 11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至7中任一项 所述的样本文本图像获权 利 要 求 书 2/3 页 3 CN 114565915 A 3

.PDF文档 专利 样本文本图像获取方法、文本识别模型训练方法和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 样本文本图像获取方法、文本识别模型训练方法和装置 第 1 页 专利 样本文本图像获取方法、文本识别模型训练方法和装置 第 2 页 专利 样本文本图像获取方法、文本识别模型训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:37:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。