说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210134995.5 (22)申请日 2022.02.14 (71)申请人 北京爱奇艺科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 鸿城拓展大厦1 1层1101 (72)发明人 赵瑞书  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 30/10(2022.01) (54)发明名称 文本处理方法、 装置、 电子设备和存 储介质 (57)摘要 本发明实施例提供了一种文本处理方法、 装 置、 电子设备和存储介质, 涉及图像处理技术领 域。 该方法包括: 对当前视频的视频帧序列进行 文字检测, 确定多个文本行; 根据文本行的位置 信息, 对文本行进行初始分类, 获得第一集合和 第二集合, 第一集合被识别为台词文本, 第二集 合被识别为非台词文本; 根据文本行的字体特征 信息和预设聚类网络, 对文本行进行聚类得到多 个聚类结果, 同一聚类结果中的文本行具有相同 的字体; 根据多个聚类结果, 对文本行进行二次 分类, 确定当前视频最终的台词文本。 该方法通 过字体特征信息对初分类的文本行进行二次过 滤, 能够过滤掉台词文本中误检测的非台词文本 和召回漏识别的台词文本, 提升 了准确性。 权利要求书3页 说明书13页 附图7页 CN 114596522 A 2022.06.07 CN 114596522 A 1.一种文本处 理方法, 其特 征在于, 包括: 对当前视频的视频帧序列进行文字检测, 确定所述视频帧序列中的多个文本行; 根据所述多个文本行的位置信息, 对所述当前视频的文本行进行初始分类, 获得第一 集合和第二集合, 其中, 所述第一集合中的文本行被识别为台词文本, 所述第二集合中的文 本行被识别为非台词文本; 根据所述多个文本行对应的字体特征信 息和预构建的聚类网络, 对所述当前视频的文 本行进行聚类, 得到多个聚类结果, 同一聚类结果中的文本行 具有相同的字体; 根据所述多个聚类结果, 对所述第一集合和所述第二集合中的文本行进行调整, 以对 所述当前视频的文本行进行二次分类, 确定所述当前视频最终的台词文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述预构建的聚类网络根据如下过程获 得: 获取训练样本集, 所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图 像; 根据预构建的字体特征提取模型, 获取所述训练样本集中每一训练样本的字体特征信 息; 根据所述每一训练样本的字体特 征信息, 训练得到所述聚类网络 。 3.根据权利要求1所述的方法, 其特征在于, 根据所述多个聚类结果, 对所述第一集合 和所述第二 集合中的文本行进行调整, 包括: 针对每一聚类结果, 根据 所述第一集合和所述第 二集合, 确定所述聚类结果的标识; 其 中, 所述聚类结果的标识包括台词标识和非台词标识; 根据所述聚类结果的标识, 对所述第一 集合和所述第二 集合中的文本行进行调整。 4.根据权利要求3所述的方法, 其特征在于, 根据所述第一集合和所述第二集合, 确定 所述聚类结果的标识, 包括: 对于每一聚类结果, 确定所述聚类结果中属于第一 集合的文本行 所占的第一比例; 在所述第一比例大于预设的第一阈值的情况下, 确定所述聚类结果的标识为台词标 识; 在所述第一比例小于或等于所述预设的第 一阈值的情况下, 确定所述 聚类结果的标识 为非台词标识。 5.根据权利要求3或4所述的方法, 其特征在于, 根据所述多个聚类结果, 对所述第一集 合和所述第二 集合中的文本行进行调整, 以对所述当前视频的文本行进行二次分类包括: 对于标识为台词标识的聚类结果, 确定所述 聚类结果中属于第 二集合的第 一待识别文 本行, 根据所述第一待识别文本行的位置信息, 对 所述第一待识别文本行进行二次分类, 以 确定所述第一待识别文本行是否为台词文本; 若是, 则将所述第一待识别文本行 由所述第 二集合迁移至所述第一 集合; 对于标识为非台词标识的聚类结果, 确定所述聚类结果中属于第 一集合的第 二待识别 文本行; 确定所述第二待识别文本行为非台词文本, 并将所述第二待识别文本行 由所述第 二集合迁移至所述第一 集合。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述多个文本行的位置信息, 对 所述当前视频的文本行进行初始分类包括:权 利 要 求 书 1/3 页 2 CN 114596522 A 2根据所述多个文本行的位置信 息, 确定在所述当前视频的视频帧上每一像素点出现文 本行的频次; 将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域; 根据所述文本行的位置信息, 确定所述文本行对应的文本区域的宽度信息和高度信 息; 根据所述文本行对应的文本区域的宽度信 息和高度信 息, 计算所述文本区域与所述台 词区域的面积交并比; 根据所述文本行对应的文本区域的高度信 息, 计算所述文本区域与 所述台词区域的高 度交并比; 根据所述文本行对应的文本区域的宽度信 息, 去计算所述文本区域与 所述台词区域的 宽度交并比; 在所述文本行的面积交并比大于预设的第三阈值、 高度交并比大于预设的第 四阈值、 宽度交并比大于预设的第五阈值的情况 下, 确定所述文本行为台词文本; 在所述文本行的面积交并比大于预设的第三阈值、 高度交并比大于预设的第 四阈值、 宽度交并比不大于预设的第 五阈值但所述文本行在宽度方向上落于所述台词区域的范围 内的情况 下, 确定所述文本行为台词文本 。 7.根据权利要求6所述的方法, 其特征在于, 根据所述第一待识别文本行的位置信息, 对所述待识别文本行进行二次分类包括: 将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设 的第七阈值, 其中, 所述预设的第六阈值小于所述预设的第三阈值, 所述预设的第七阈值小 于所述预设的第四阈值; 在所述文本行的面积交并比大于预设的第六阈值、 高度交并比大于预设的第七阈值、 宽度交并比大于预设的第五阈值的情况 下, 确定所述文本行为台词文本; 在所述文本行的面积交并比大于预设的第六阈值、 高度交并比大于预设的第七阈值、 宽度交并比不大于预设的第 五阈值但所述文本行在宽度方向上落于所述台词区域的范围 内的情况 下, 确定所述文本行为台词文本 。 8.一种文本处 理装置, 其特 征在于, 包括: 文字检测模块, 用于对当前视频的视频帧序列进行文字检测, 确定所述视频帧序列中 的多个文本行; 识别模块, 用于根据所述多个文本行的位置信息, 对所述当前视频的文本行进行初始 分类, 获得第一集合和第二集合, 其中, 所述第一集合中的文本行被识别为台词文本, 所述 第二集合中的文本行被识别为非台词文本; 聚类模块, 用于根据所述多个文本行对应的字体特征信息和预构建的聚类网络, 对所 述当前视频的文本行进行聚类, 得到多个聚类结果, 同一聚类结果中的文本行具有相同的 字体; 更新模块, 用于根据所述多个聚类结果, 对所述第一集合和所述第二集合中的文本行 进行调整, 以对所述当前视频的文本行进行二次分类, 确定所述当前视频最终的台词文本 。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信;权 利 要 求 书 2/3 页 3 CN 114596522 A 3

.PDF文档 专利 文本处理方法、装置、电子设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、电子设备和存储介质 第 1 页 专利 文本处理方法、装置、电子设备和存储介质 第 2 页 专利 文本处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:36:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。