说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210376081.X (22)申请日 2022.04.11 (71)申请人 深圳市星桐科技有限公司 地址 518027 广东省深圳市福田区华强北 街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人 秦勇  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 王艳斌 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06V 30/19(2022.01) G06V 10/762(2022.01) (54)发明名称 一种图像处理方法、 装置、 电子设备和存储 介质 (57)摘要 本公开涉及一种图像处理方法、 装置、 电子 设备和存储介质。 获取目标图像, 目标图像包括 多行文本, 多行文本中每行文本包括至少一个字 符; 通过预先训练的文本识别模 型对目标图像中 的字符进行识别, 文本识别模型包括特征映射 层、 特征提取层、 自适应聚类层和输出层, 其中, 通过特征映射层对目标图像进行特征映射, 得到 目标图像对应的映射信息, 通过特征提取层对目 标图像进行特征提取, 得到目标图像对应的特征 信息, 通过自适应聚类层基于映射信息和特征信 息, 得到特征矩阵, 通过输 出层基于特征矩阵, 得 到目标图像对应的概率矩阵; 根据目标图像对应 的概率矩阵, 得到目标图像中字符的识别结果, 能够准确的识别图像中的文本, 识别速度快, 准 确率高。 权利要求书2页 说明书12页 附图4页 CN 114708581 A 2022.07.05 CN 114708581 A 1.一种图像处 理方法, 其特 征在于, 包括: 获取目标图像, 所述目标图像包括多行文本, 所述多行文本中每行文本包括至少一个 字符; 通过预先训练 的文本识别模型对所述目标图像中的字符进行识别, 所述文本识别模型 包括特征映射层、 特征提取层、 自适应聚类层和输出层, 其中, 通过所述特征映射层对所述 目标图像进行特征映射, 得到所述 目标图像对应的映射信息, 通过所述特征提取层对所述 目标图像进行特征提取, 得到所述 目标图像对应的特征信息, 通过所述自适应聚类层基于 所述映射信息和所述特征信息, 得到特征矩阵, 通过所述输出层基于所述特征矩阵, 得到所 述目标图像对应的概 率矩阵; 根据所述目标图像对应的概 率矩阵, 得到所述目标图像中所述字符的识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述特征映射层包括多个子特征映射层, 所述多个子特 征映射层依次相连; 所述通过所述特征映射层对所述目标图像进行特征映射, 得到所述目标图像对应的映 射信息, 包括: 通过第一子特征映射层对所述目标图像进行特征映射, 得到第一映射信息, 所述第一 映射信息的大小与所述目标图像的大小相同; 通过第二子特征映射层对所述第一映射信息进行特征映射, 得到第二映射信息, 所述 第二映射信息的大小为所述第一映射信息的大小的二分之一; 通过第三子特征映射层对所述第二映射信息进行特征映射, 得到第三映射信息, 所述 第三映射信息的大小和所述第二映射信息的大小相同; 通过第四子特征映射层对所述第三映射信息进行特征映射, 得到第 四映射信息, 所述 第四映射信息的大小为所述第三映射信息的大小的二分之一, 所述第四映射信息为所述目 标图像对应的映射信息 。 3.根据权利要求1所述的方法, 其特征在于, 所述自适应聚类层包括编码器、 第一卷积 层和第二卷积层; 所述通过所述自适应聚类层基于所述映射信息和所述特 征信息, 得到特 征矩阵, 包括: 通过所述编码器 基于所述映射信息和缩放后的所述特 征信息, 得到第一向量; 通过所述第一卷积层对所述第一向量进行特征变换, 得到第二向量, 所述第二向量包 括多个特 征点; 通过所述第 二卷积层对所述第 二向量中多个特征点中每个特征点进行分类, 确定所述 特征点的类别, 所述特 征点的类别为所述特 征点在所述多行文本中的目标 行; 根据所述特 征点的类别、 所述映射信息和所述缩放后的特 征信息, 得到特 征矩阵。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述特征点的类别、 所述映射信 息和所述缩放后的特 征信息, 得到特 征矩阵, 包括: 将所述多个特征点中类别相同的目标特征点划分为一个分组, 每个分组之间通过预设 字符隔开; 在所述缩放后的特征信 息中确定每个分组内目标特征点的位置, 并根据 所述目标特征 点的位置在所述映射信息中确定所述目标 特征点的向量; 根据所述目标 特征点的位置和所述目标 特征点的向量组成特 征矩阵。权 利 要 求 书 1/2 页 2 CN 114708581 A 25.根据权利要求4所述的方法, 其特征在于, 所述根据所述目标特征点的位置在所述映 射信息中确定所述目标 特征点的向量, 包括: 在每个分组内根据所述目标 特征点的位置进行排序; 根据排序后的所述目标特征点的位置, 在所述映射信息中确定所述目标特征点的向 量。 6.根据权利要求1所述的方法, 其特征在于, 所述通过所述输出层基于所述特征矩阵, 得到所述目标图像对应的概 率矩阵, 包括: 通过所述输出层基于所述特征矩阵和预设字典, 得到所述目标图像对应的概率矩阵, 所述预设字典包括多个字符。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取样本图像以及所述样本图像中的字符; 将所述样本图像输入到构建的文本识别模型中, 得到所述样本图像对应的预设字符; 根据所述预设字符、 所述样本 图像中的字符和预设损 失函数, 更新所述文本识别模型 的网络参数。 8.根据权利要求7所述的方法, 其特征在于, 所述获取样本图像以及所述样本图像 中的 字符, 包括: 获取样本图像, 所述样本图像中包括多行文本; 对所述多行文本 中每行文本包括的字符进行标注, 并确定所述样本图像中每行文本包 括的字符, 同属于一张样本图像中的多行文本之间通过 预设字符隔开。 9.一种图像处 理装置, 其特 征在于, 包括: 获取单元, 用于获取目标图像, 所述目标图像包括多行文本, 所述多行文本 中每行文本 包括至少一个字符; 第一识别单元, 用于通过预先训练的文本识别模型对所述目标图像中的字符进行识 别, 所述文本识别模型包括特征映射层、 特征提取层、 自适应聚类层和输出层, 其中, 通过所 述特征映射层对所述 目标图像进行特征映射, 得到所述 目标图像对应的映射信息, 通过所 述特征提取层对所述 目标图像进行特征提取, 得到所述 目标图像对应的特征信息, 通过所 述自适应聚类层基于所述映射信息和所述特征信息, 得到特征矩阵, 通过所述输出层基于 所述特征矩阵, 得到所述目标图像对应的概 率矩阵; 第二识别单元, 用于根据所述目标图像对应的概率矩阵, 得到所述目标图像中所述字 符的识别结果。 10.一种电子设备, 包括: 处理器; 以及 存储程序的存 储器, 其中, 所述程序包括指令, 所述指令在由所述处理器执行时使所述处理器执行根据权 利要求1‑8中任一项所述的方法。 11.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114708581 A 3

.PDF文档 专利 一种图像处理方法、装置、电子设备和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像处理方法、装置、电子设备和存储介质 第 1 页 专利 一种图像处理方法、装置、电子设备和存储介质 第 2 页 专利 一种图像处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:30:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。