说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210134995.5 (22)申请日 2022.02.14 (71)申请人 北京爱奇艺科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 鸿城拓展大厦1 1层1101 (72)发明人 赵瑞书 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 30/10(2022.01) (54)发明名称 文本处理方法、 装置、 电子设备和存 储介质 (57)摘要 本发明实施例提供了一种文本处理方法、 装 置、 电子设备和存储介质, 涉及图像处理技术领 域。 该方法包括: 对当前视频的视频帧序列进行 文字检测, 确定多个文本行; 根据文本行的位置 信息, 对文本行进行初始分类, 获得第一集合和 第二集合, 第一集合被识别为台词文本, 第二集 合被识别为非台词文本; 根据文本行的字体特征 信息和预设聚类网络, 对文本行进行聚类得到多 个聚类结果, 同一聚类结果中的文本行具有相同 的字体; 根据多个聚类结果, 对文本行进行二次 分类, 确定当前视频最终的台词文本。 该方法通 过字体特征信息对初分类的文本行进行二次过 滤, 能够过滤掉台词文本中误检测的非台词文本 和召回漏识别的台词文本, 提升 了准确性。 权利要求书3页 说明书13页 附图7页 CN 114596522 A 2022.06.07 CN 114596522 A 1.一种文本处 理方法, 其特 征在于, 包括: 对当前视频的视频帧序列进行文字检测, 确定所述视频帧序列中的多个文本行; 根据所述多个文本行的位置信息, 对所述当前视频的文本行进行初始分类, 获得第一 集合和第二集合, 其中, 所述第一集合中的文本行被识别为台词文本, 所述第二集合中的文 本行被识别为非台词文本; 根据所述多个文本行对应的字体特征信 息和预构建的聚类网络, 对所述当前视频的文 本行进行聚类, 得到多个聚类结果, 同一聚类结果中的文本行 具有相同的字体; 根据所述多个聚类结果, 对所述第一集合和所述第二集合中的文本行进行调整, 以对 所述当前视频的文本行进行二次分类, 确定所述当前视频最终的台词文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述预构建的聚类网络根据如下过程获 得: 获取训练样本集, 所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图 像; 根据预构建的字体特征提取模型, 获取所述训练样本集中每一训练样本的字体特征信 息; 根据所述每一训练样本的字体特 征信息, 训练得到所述聚类网络 。 3.根据权利要求1所述的方法, 其特征在于, 根据所述多个聚类结果, 对所述第一集合 和所述第二 集合中的文本行进行调整, 包括: 针对每一聚类结果, 根据 所述第一集合和所述第 二集合, 确定所述聚类结果的标识; 其 中, 所述聚类结果的标识包括台词标识和非台词标识; 根据所述聚类结果的标识, 对所述第一 集合和所述第二 集合中的文本行进行调整。 4.根据权利要求3所述的方法, 其特征在于, 根据所述第一集合和所述第二集合, 确定 所述聚类结果的标识, 包括: 对于每一聚类结果, 确定所述聚类结果中属于第一 集合的文本行 所占的第一比例; 在所述第一比例大于预设的第一阈值的情况下, 确定所述聚类结果的标识为台词标 识; 在所述第一比例小于或等于所述预设的第 一阈值的情况下, 确定所述 聚类结果的标识 为非台词标识。 5.根据权利要求3或4所述的方法, 其特征在于, 根据所述多个聚类结果, 对所述第一集 合和所述第二 集合中的文本行进行调整, 以对所述当前视频的文本行进行二次分类包括: 对于标识为台词标识的聚类结果, 确定所述 聚类结果中属于第 二集合的第 一待识别文 本行, 根据所述第一待识别文本行的位置信息, 对 所述第一待识别文本行进行二次分类, 以 确定所述第一待识别文本行是否为台词文本; 若是, 则将所述第一待识别文本行 由所述第 二集合迁移至所述第一 集合; 对于标识为非台词标识的聚类结果, 确定所述聚类结果中属于第 一集合的第 二待识别 文本行; 确定所述第二待识别文本行为非台词文本, 并将所述第二待识别文本行 由所述第 二集合迁移至所述第一 集合。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述多个文本行的位置信息, 对 所述当前视频的文本行进行初始分类包括:权 利 要 求 书 1/3 页 2 CN 114596522 A 2根据所述多个文本行的位置信 息, 确定在所述当前视频的视频帧上每一像素点出现文 本行的频次; 将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域; 根据所述文本行的位置信息, 确定所述文本行对应的文本区域的宽度信息和高度信 息; 根据所述文本行对应的文本区域的宽度信 息和高度信 息, 计算所述文本区域与所述台 词区域的面积交并比; 根据所述文本行对应的文本区域的高度信 息, 计算所述文本区域与 所述台词区域的高 度交并比; 根据所述文本行对应的文本区域的宽度信 息, 去计算所述文本区域与 所述台词区域的 宽度交并比; 在所述文本行的面积交并比大于预设的第三阈值、 高度交并比大于预设的第 四阈值、 宽度交并比大于预设的第五阈值的情况 下, 确定所述文本行为台词文本; 在所述文本行的面积交并比大于预设的第三阈值、 高度交并比大于预设的第 四阈值、 宽度交并比不大于预设的第 五阈值但所述文本行在宽度方向上落于所述台词区域的范围 内的情况 下, 确定所述文本行为台词文本 。 7.根据权利要求6所述的方法, 其特征在于, 根据所述第一待识别文本行的位置信息, 对所述待识别文本行进行二次分类包括: 将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设 的第七阈值, 其中, 所述预设的第六阈值小于所述预设的第三阈值, 所述预设的第七阈值小 于所述预设的第四阈值; 在所述文本行的面积交并比大于预设的第六阈值、 高度交并比大于预设的第七阈值、 宽度交并比大于预设的第五阈值的情况 下, 确定所述文本行为台词文本; 在所述文本行的面积交并比大于预设的第六阈值、 高度交并比大于预设的第七阈值、 宽度交并比不大于预设的第 五阈值但所述文本行在宽度方向上落于所述台词区域的范围 内的情况 下, 确定所述文本行为台词文本 。 8.一种文本处 理装置, 其特 征在于, 包括: 文字检测模块, 用于对当前视频的视频帧序列进行文字检测, 确定所述视频帧序列中 的多个文本行; 识别模块, 用于根据所述多个文本行的位置信息, 对所述当前视频的文本行进行初始 分类, 获得第一集合和第二集合, 其中, 所述第一集合中的文本行被识别为台词文本, 所述 第二集合中的文本行被识别为非台词文本; 聚类模块, 用于根据所述多个文本行对应的字体特征信息和预构建的聚类网络, 对所 述当前视频的文本行进行聚类, 得到多个聚类结果, 同一聚类结果中的文本行具有相同的 字体; 更新模块, 用于根据所述多个聚类结果, 对所述第一集合和所述第二集合中的文本行 进行调整, 以对所述当前视频的文本行进行二次分类, 确定所述当前视频最终的台词文本 。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信;权 利 要 求 书 2/3 页 3 CN 114596522 A 3
专利 文本处理方法、装置、电子设备和存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:36:52
上传分享
举报
下载
原文档
(1.4 MB)
分享
友情链接
TTAF 180.2—2023 小程序个人信息保护规范 第2部分:个人信息收集行为.pdf
DB11-T 2049-2022 政务大数据安全技术框架 北京市.pdf
TC260 网络安全标准实践指南 Windows 7操作系统安全加固指引.pdf
GB-T 17901.1-2020 信息技术 安全技术 密钥管理 第1部分:框架.pdf
GB-T 29999-2013 铜矿山酸性废水综合处理规范.pdf
GB-T 42961-2023 植被生态质量的气候变化影响评价方法.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
GB-T 38629-2020 信息安全技术 签名验签服务器技术规范.pdf
DB23-T 2979—2021 大豆对大豆拟茎点种腐病抗病性鉴定技术规程 黑龙江省.pdf
GB-T 26933-2011 钢制通用集装箱封闭槽型顶板.pdf
DB3401-T 272—2022 城区菜市场建设与管理规范 合肥市.pdf
NB-T 10419-2020 空气源热泵烤烟房.pdf
GB-T 8487-2010 港口装卸术语.pdf
ISO IEC 5392 2024 Information technology — Artificial intelligence — Referenc.pdf
德勤中国 数字化时代下的网络安全战略框架 .pdf
GB-T 29832.1-2013 系统与软件可靠性 第1部分:指标体系.pdf
GB 17625.1-2022 电磁兼容 限值 第1部分:谐波电流发射限值 设备每相输入电流≤16A.pdf
奇安信 2020网络安全投融资趋势报告.pdf
GB-T 44014-2024 应急避难场所 标志.pdf
GB-T 30278-2013 信息安全技术 政务计算机终端核心配置规范.pdf
1
/
3
24
评价文档
赞助2.5元 点击下载(1.4 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。