专利 样本文本图像获取方法、文本识别模型训练方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210454708.9 (22)申请日 2022.04.24 (71)申请人深圳思谋信息科技有限公司地址 518051 广东省深圳市南山区高新南九道45号三航科技大厦2 2楼申请人北京思谋智能科技有限公司 (72)发明人孙宇君　李睿宇　杨帆　吕江波　沈小勇　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师樊倩 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06F 16/35(2019.01)G06V 10/75(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 30/19(2022.01) (54)发明名称样本文本图像获取方法、文本识别模型训练方法和装置 (57)摘要本申请涉及一种样本文本图像获取方法及装置，所述方法包括：获取初始样本文本图像；基于初始样本文本图像，得到初始样本文本图像的文本位置区域，以及初始样本文本图像的第一背景图层；获取预设的文本内容参数，以及文本样式参数；基于文本内容参数，以及文本样式参数，得到文本图层；基于文本位置区域，得到文本图层的文本图层位置信息；将文本图层，叠加至第一背景图层中，与文本图层位置信息相匹配的区域中，生成初始样本文本图像对应的目标样本文本图像。采用本方法能够提高样本文本图像的数量。权利要求书3页说明书14页附图6页 CN 114565915 A 2022.05.31 CN 114565915 A 1.一种样本文本图像获取方法，其特征在于，所述方法包括：获取初始样本文本图像；基于所述初始样本文本图像，得到所述初始样本文本图像的文本位置区域，以及所述初始样本文本图像的第一背景图层；获取预设的文本内容参数，以及文本样式参数；基于所述文本内容参数，以及所述文本样式参数，得到文本图层；基于所述文本位置区域，得到所述文本图层的文本图层位置信息；将所述文本图层，叠加至所述第一背景图层中，与所述文本图层位置信息相匹配的区域中，生成所述初始样本文本图像对应的目标样本文本图像。 2.根据权利要求1所述的方法，其特征在于，所述基于所述文本内容参数，以及所述文本样式参数，得到文本图层，包括：获取所述文本内容参数对应的文本内容；以及所述文本样式参数对应的文本样式；基于所述文本内容，以及所述文本样式，得到文本掩膜；获取与所述文本掩膜相匹配的第二背景图层，以及所述文本掩膜在所述第二背景图层中的文本掩膜位置信息；基于所述文本掩膜、所述第二背景图层，以及所述文本掩膜位置信息，得到所述文本图层。 3.根据权利要求2所述的方法，其特征在于，所述获取所述文本内容参数对应的文本内容；以及所述文本样式参数对应的文本样式，包括：根据所述文本内容参数，得到所述文本内容参数相匹配的候选文本内容集合；从所述候选文本内容集合包含的候选文本内容中，按照所述文本内容参数中所表征的内容筛选参数筛选得到所述文本内容；根据所述文本样式参数，得到所述文本样式参数相匹配的候选文本样式集合；从所述候选文本样式集合包含的候选文本样式中，按照所述文本样式参数中所表征的样式筛选参数筛选得到所述文本样式。 4.根据权利要求2所述的方法，其特征在于，所述获取与所述文本掩膜相匹配的第二背景图层，以及所述文本掩膜在所述第二背景图层中的文本掩膜位置信息，包括：获取所述文本掩膜的第一尺寸信息；并基于所述第一尺寸信息，生成所述第二背景图层；其中，所述第二背景图层的第二尺寸信息大于所述第一尺寸信息；获取所述第二背景图层中包含的文本掩膜位置区域集合；所述文本掩膜位置区域集合中包含的文本掩膜位置区域位于所述第二背景图层区域内；从所述文本掩膜位置区域集合中，随机获取目标文本掩膜位置区域，并将所述目标文本掩膜位置区域的位置信息作为所述文本掩膜位置信息。 5.根据权利要求2所述的方法，其特征在于，所述文本样式包括第一文本样式和第二文本样式；所述基于所述文本内容，以及所述文本样式，得到文本掩膜，包括：基于所述文本内容，以及所述第一文本样式，得到所述文本掩膜；所述基于所述文本掩膜、所述第二背景图层，以及所述文本掩膜位置信息，得到所述文本图层，包括：根据所述第二文本样式，生成与所述文本掩膜对应的最终文本掩膜；权　利　要　求　书 1/3 页 2 CN 114565915 A 2将所述最终文本掩膜，叠加至所述第二背景图层中，与所述文本掩膜位置信息相匹配的区域中，得到所述文本图层。 6.根据权利要求1所述的方法，其特征在于，所述基于所述文本位置区域，得到所述文本图层的文本图层位置信息，包括：获取所述文本位置区域的基准点；基于所述文本位置区域的基准点，对所述文本位置区域进行预设倍数的放大处理，得到放大后的文本位置区域；获取所述放大后的文本位置区域中包含的文本图层位置区域集合；所述文本图层位置区域集合中包含的文本图层位置区域位于所述放大后的文本位置区域内；从所述文本图层位置区域集合中，随机获取目标文本图层位置区域，并将所述目标文本图层位置区域的位置信息作为所述文本图层位置信息。 7.根据权利要求1所述的方法，其特征在于，所述基于所述初始样本文本图像，得到所述初始样本文本图像的文本位置区域，以及所述初始样本文本图像的第一背景图层，包括：获取所述初始样本文本图像包含的各个字符图像的字符位置区域；将所述字符位置区域进行聚类组合，得到所述文本位置区域；擦除所述初始样本文本图像中的所述各个字符图像，得到所述第一背景图层。 8.一种文本识别模型训练方法，其特征在于，所述方法包括：获取样本文本图像，对所述样本文本图像的文本进行标记，得到所述样本文本图像的标记图像；其中，所述样本文本图像包括初始样本文本图像，以及目标样本文本图像，所述目标样本文本图像根据如权利要求1至7中任一项所述的样本文本图像获取方法得到；将所述样本文本图像输入待训练的文本识别模型中，利用所述标记图像对所述待训练的文本识别模型进行训练，得到所述训练完成的文本识别模型。 9.一种样本文本图像获取装置，其特征在于，所述装置包括：初始图像获取模块，用于获取初始样本文本图像；基于所述初始样本文本图像，得到所述初始样本文本图像的文本位置区域，以及所述初始样本文本图像的第一背景图层；文本图层获取模块，用于获取预设的文本内容参数，以及文本样式参数；基于所述文本内容参数，以及所述文本样式参数，得到文本图层；图层位置获取模块，用于基于所述文本位置区域，得到所述文本图层的位置信息；目标图像获取模块，用于将所述文本图层，叠加至所述第一背景图层中，与所述文本图层的位置信息相匹配的区域中，生成所述初始样本文本图像对应的目标样本文本图像。 10.一种文本识别模型训练装置，其特征在于，所述装置包括：标记图像获取模块，用于获取样本文本图像，对所述样本文本图像的文本进行标记，得到所述样本文本图像的标记图像；其中，所述样本文本图像包括初始样本文本图像，以及目标样本文本图像，所述目标样本文本图像根据如权利要求 1至7中任一项所述的样本文本图像获取方法得到；识别模型训练模块，用于将所述样本文本图像输入待训练的文本识别模型中，利用所述标记图像对所述待训练的文本识别模型进行训练，得到所述训练完成的文本识别模型。 11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求 1至7中任一项所述的样本文本图像获权　利　要　求　书 2/3 页 3 CN 114565915 A 3

专利 样本文本图像获取方法、文本识别模型训练方法和装置

专利样本文本图像获取方法、文本识别模型训练方法和装置