(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210376081.X
(22)申请日 2022.04.11
(71)申请人 深圳市星桐科技有限公司
地址 518027 广东省深圳市福田区华强北
街道福强社区红荔路2001号四川大厦
A座1413
(72)发明人 秦勇
(74)专利代理 机构 北京开阳星知识产权代理有
限公司 1 1710
专利代理师 王艳斌
(51)Int.Cl.
G06V 20/62(2022.01)
G06K 9/62(2022.01)
G06V 30/19(2022.01)
G06V 10/762(2022.01)
(54)发明名称
一种图像处理方法、 装置、 电子设备和存储
介质
(57)摘要
本公开涉及一种图像处理方法、 装置、 电子
设备和存储介质。 获取目标图像, 目标图像包括
多行文本, 多行文本中每行文本包括至少一个字
符; 通过预先训练的文本识别模 型对目标图像中
的字符进行识别, 文本识别模型包括特征映射
层、 特征提取层、 自适应聚类层和输出层, 其中,
通过特征映射层对目标图像进行特征映射, 得到
目标图像对应的映射信息, 通过特征提取层对目
标图像进行特征提取, 得到目标图像对应的特征
信息, 通过自适应聚类层基于映射信息和特征信
息, 得到特征矩阵, 通过输 出层基于特征矩阵, 得
到目标图像对应的概率矩阵; 根据目标图像对应
的概率矩阵, 得到目标图像中字符的识别结果,
能够准确的识别图像中的文本, 识别速度快, 准
确率高。
权利要求书2页 说明书12页 附图4页
CN 114708581 A
2022.07.05
CN 114708581 A
1.一种图像处 理方法, 其特 征在于, 包括:
获取目标图像, 所述目标图像包括多行文本, 所述多行文本中每行文本包括至少一个
字符;
通过预先训练 的文本识别模型对所述目标图像中的字符进行识别, 所述文本识别模型
包括特征映射层、 特征提取层、 自适应聚类层和输出层, 其中, 通过所述特征映射层对所述
目标图像进行特征映射, 得到所述 目标图像对应的映射信息, 通过所述特征提取层对所述
目标图像进行特征提取, 得到所述 目标图像对应的特征信息, 通过所述自适应聚类层基于
所述映射信息和所述特征信息, 得到特征矩阵, 通过所述输出层基于所述特征矩阵, 得到所
述目标图像对应的概 率矩阵;
根据所述目标图像对应的概 率矩阵, 得到所述目标图像中所述字符的识别结果。
2.根据权利要求1所述的方法, 其特征在于, 所述特征映射层包括多个子特征映射层,
所述多个子特 征映射层依次相连;
所述通过所述特征映射层对所述目标图像进行特征映射, 得到所述目标图像对应的映
射信息, 包括:
通过第一子特征映射层对所述目标图像进行特征映射, 得到第一映射信息, 所述第一
映射信息的大小与所述目标图像的大小相同;
通过第二子特征映射层对所述第一映射信息进行特征映射, 得到第二映射信息, 所述
第二映射信息的大小为所述第一映射信息的大小的二分之一;
通过第三子特征映射层对所述第二映射信息进行特征映射, 得到第三映射信息, 所述
第三映射信息的大小和所述第二映射信息的大小相同;
通过第四子特征映射层对所述第三映射信息进行特征映射, 得到第 四映射信息, 所述
第四映射信息的大小为所述第三映射信息的大小的二分之一, 所述第四映射信息为所述目
标图像对应的映射信息 。
3.根据权利要求1所述的方法, 其特征在于, 所述自适应聚类层包括编码器、 第一卷积
层和第二卷积层;
所述通过所述自适应聚类层基于所述映射信息和所述特 征信息, 得到特 征矩阵, 包括:
通过所述编码器 基于所述映射信息和缩放后的所述特 征信息, 得到第一向量;
通过所述第一卷积层对所述第一向量进行特征变换, 得到第二向量, 所述第二向量包
括多个特 征点;
通过所述第 二卷积层对所述第 二向量中多个特征点中每个特征点进行分类, 确定所述
特征点的类别, 所述特 征点的类别为所述特 征点在所述多行文本中的目标 行;
根据所述特 征点的类别、 所述映射信息和所述缩放后的特 征信息, 得到特 征矩阵。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述特征点的类别、 所述映射信
息和所述缩放后的特 征信息, 得到特 征矩阵, 包括:
将所述多个特征点中类别相同的目标特征点划分为一个分组, 每个分组之间通过预设
字符隔开;
在所述缩放后的特征信 息中确定每个分组内目标特征点的位置, 并根据 所述目标特征
点的位置在所述映射信息中确定所述目标 特征点的向量;
根据所述目标 特征点的位置和所述目标 特征点的向量组成特 征矩阵。权 利 要 求 书 1/2 页
2
CN 114708581 A
25.根据权利要求4所述的方法, 其特征在于, 所述根据所述目标特征点的位置在所述映
射信息中确定所述目标 特征点的向量, 包括:
在每个分组内根据所述目标 特征点的位置进行排序;
根据排序后的所述目标特征点的位置, 在所述映射信息中确定所述目标特征点的向
量。
6.根据权利要求1所述的方法, 其特征在于, 所述通过所述输出层基于所述特征矩阵,
得到所述目标图像对应的概 率矩阵, 包括:
通过所述输出层基于所述特征矩阵和预设字典, 得到所述目标图像对应的概率矩阵,
所述预设字典包括多个字符。
7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
获取样本图像以及所述样本图像中的字符;
将所述样本图像输入到构建的文本识别模型中, 得到所述样本图像对应的预设字符;
根据所述预设字符、 所述样本 图像中的字符和预设损 失函数, 更新所述文本识别模型
的网络参数。
8.根据权利要求7所述的方法, 其特征在于, 所述获取样本图像以及所述样本图像 中的
字符, 包括:
获取样本图像, 所述样本图像中包括多行文本;
对所述多行文本 中每行文本包括的字符进行标注, 并确定所述样本图像中每行文本包
括的字符, 同属于一张样本图像中的多行文本之间通过 预设字符隔开。
9.一种图像处 理装置, 其特 征在于, 包括:
获取单元, 用于获取目标图像, 所述目标图像包括多行文本, 所述多行文本 中每行文本
包括至少一个字符;
第一识别单元, 用于通过预先训练的文本识别模型对所述目标图像中的字符进行识
别, 所述文本识别模型包括特征映射层、 特征提取层、 自适应聚类层和输出层, 其中, 通过所
述特征映射层对所述 目标图像进行特征映射, 得到所述 目标图像对应的映射信息, 通过所
述特征提取层对所述 目标图像进行特征提取, 得到所述 目标图像对应的特征信息, 通过所
述自适应聚类层基于所述映射信息和所述特征信息, 得到特征矩阵, 通过所述输出层基于
所述特征矩阵, 得到所述目标图像对应的概 率矩阵;
第二识别单元, 用于根据所述目标图像对应的概率矩阵, 得到所述目标图像中所述字
符的识别结果。
10.一种电子设备, 包括:
处理器; 以及
存储程序的存 储器,
其中, 所述程序包括指令, 所述指令在由所述处理器执行时使所述处理器执行根据权
利要求1‑8中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于
使所述计算机执 行根据权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114708581 A
3
专利 一种图像处理方法、装置、电子设备和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:30:54上传分享