(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210251066.2
(22)申请日 2022.03.15
(71)申请人 北京中量质子网络信息科技有限公
司
地址 100000 北京市朝阳区望京东园七区
19号楼7层701号A室
(72)发明人 刘凯
(74)专利代理 机构 北京汉本专利代理事务所
(普通合伙) 11923
专利代理师 张咏梅 李婷
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/762(2022.01)
G06K 9/62(2022.01)
G06F 16/71(2019.01)
(54)发明名称
程序化创意视频片段去重方法、 系统、 设备
及存储介质
(57)摘要
本发明公开了程序化创意视频片段去重方
法、 系统、 设备及存储介质, 涉及计算机技术领
域, 所述方法包括: 将新入库的视频根据关键帧
调用已训练的模 型进行特征抽取获取视频特征;
根据视频特征倒排索引查询候选重复视频id, 根
据与视频特征的匹配个数打分并排序, 得到高分
段多个候选重复视频id; 正排查询特征索引, 读
取并召回与高分段多个候选重复视频id分别对
应的候选重复视频正排信息; 根据候选重复视频
正排信息计算关键帧类别重合数、 关键帧按时序
重合数和视频向量的余弦相似度; 进而判断新入
库的视频是否是重复视频。 本发 明提供的程序化
创意视频片段去重方法、 系统、 设备及存储介质
能够快速, 准确识别出创意视频片段是否与已有
视频重复。
权利要求书3页 说明书9页 附图3页
CN 114612834 A
2022.06.10
CN 114612834 A
1.一种程序化创意视频片段去重方法, 其特 征在于, 包括:
步骤s1: 将新入库的视频根据关键帧调用已训练的模型进行 特征抽取获取视频 特征;
步骤s2: 根据视频特征倒排索引查询候选重复视频id, 根据与视频特征的匹配个数打
分并排序, 得到高分段多个候选 重复视频id;
步骤s3: 根据高分段多个候选重复视频id正排查询特征索引, 读取并召回与高分段多
个候选重复视频id分别对应的候选 重复视频正 排信息;
步骤s4: 根据召回的候选重复视频正排信息计算关键帧类别重合数、 关键帧按时序重
合数和视频向量的余弦相似度;
步骤s5: 根据关键帧类别重合数、 关键帧按时序重合数和视频向量的余弦相似度判断
新入库的视频 是否是重复视频, 如果是, 则报告; 否则, 将新入库的视频存 储到去重 视频库。
2.根据权利要求1所述的创意视频片段去重方法, 其特征在于, 已训练的模型的包括
resnet50模型和kmeans聚类模型;
步骤s1之前, 还 包括: 训练resnet5 0模型和kmeans聚类模型;
训练resnet5 0模型和kmeans聚类模型 具体包括:
步骤a1: 从原 始视频库中获取视频样本和视频分类标签;
步骤a2: 将视频样本按照预设时间段 取关键帧;
步骤a3: 将关键帧和与关键帧对应的视频分类标签作为resnet50模型的输入, 训练
resnet50模型;
步骤a4: 加载训练的resnet50模型, 输入关键帧提取图像特征, 对图像特征做层次
kmeans聚类; 得到关键帧聚类 类别;
步骤a5: 根据关键帧聚类 类别, 得到 视频的聚类 类别组合并将其作为视频 特征。
3.根据权利要求1所述的创意视频片段去重方法, 其特 征在于, 步骤s3具体包括:
步骤s3‑1: 根据高分段多个候选重复视频id查询正排索引一级索引, 得到与视频id对
应的文件名;
步骤s3‑2: 根据高分段多个候选重复视频id和与视频id对应的文件名; 查找到视频所
在的文件数据块 id;
步骤s3‑3: 根据文件数据块id计算数据块的文件偏移, 根据数据块的文件偏移在数据
块中查找、 读取并召回与高分段多个候选 重复视频id分别对应的候选 重复视频正 排信息。
4.根据权利要求1所述的创意视频片段去重方法, 其特 征在于,
计算关键帧按时序重合数, 具体为计算候选重复视频和新入库的视频的关键帧类别的
最长公共子序列长度;
计算视频向量的余弦相似度, 具体为计算候选重复视频和新入库的视频的特征向量之
间的相似度;
步骤s5具体为: 若关键帧类别重合数低于第 一阈值或关键帧按时序重合数低于第二阈
值或视频向量的余弦相似度低于第三阈值, 则判断新入库的视频与原始视频库不重复, 将
新入库的视频存储到去重视频库; 否则, 根据视频向量的余弦相似度 做分值排序, 根据分值
排序判断新入库的视频与原始视频库是否重复, 如果是, 则报告; 否则, 判断新入库的视频
与原始视频库不重复, 将新入库的视频存 储到去重 视频库。
5.一种程序化创意视频片段去重系统, 其特 征在于, 包括:权 利 要 求 书 1/3 页
2
CN 114612834 A
2特征抽取模块、 模型训练模块和重复视频判断模块;
所述重复视频判断模块包括: 第一 查询单元、 第二查询单元、 计算单 元和判断单 元;
所述特征抽取模块, 用于将新入库的视频根据关键帧调用模型训练模块已训练 的模型
进行特征抽取获取视频 特征;
所述第一查询单元, 用于根据视频特征倒排索引查询候选重复视频id, 根据与视频特
征的匹配 个数打分并排序, 得到高分段多个候选 重复视频id;
第二查询单元, 用于据高分段多个候选重复视频id正排查询特征索引, 读取并召回与
高分段多个候选 重复视频id分别对应的候选 重复视频正 排信息;
计算单元, 用于根据召回的候选重复视频正排信息计算关键帧类别重合数、 关键帧按
时序重合数和视频向量的余弦相似度;
判断单元, 用于根据关键帧类别重合数、 关键帧按时序重合数和视频向量的余弦相似
度判断新入库的视频是否是重复视频, 如果是, 则报告, 否则, 将新入库的视频存储到去重
视频库。
6.根据权利要求5所述的程序化创意视频片段去重系统, 其特征在于, 模型训练模块用
于, 从原始视频库中获取视频样本和视频分类标签; 将视频样本按照预设时间段取关键帧;
将关键帧和与 关键帧对应的视频分类标签作为resnet50模型的输入, 训练resnet50模型;
加载训练的resnet50模 型, 输入关键帧提取图像特征, 对图像特征做层次kmeans聚类; 得到
关键帧聚类 类别; 根据关键帧聚类 类别, 得到 视频的聚类 类别组合并将其作为视频 特征。
7.根据权利要求5所述的程序化创意视频片段去重系统, 其特 征在于,
所述第二查询单元, 具体用于: 根据高分段多个候选重复视频id查询正排索引一级索
引, 得到与视频id对应的文件名; 根据高分段多个候选重复视频id和与视频id对应的文件
名; 查找到视频所在的文件 数据块id; 根据文件数据块id计算数据块的文件偏移, 根据数据
块的文件偏移在数据块中查找、 读取并召回与高分段多个候选重复视频id分别对应的候选
重复视频正 排信息。
8.根据权利要求5所述的程序化创意视频片段去重系统, 其特 征在于,
所述计算单 元, 具体用于计算关键帧类别重合数;
计算关键帧按时序重合数, 具体为计算候选重复视频和新入库的视频的关键帧类别的
最长公共子序列长度;
计算视频向量的余弦相似度, 具体为计算候选重复视频和新入库的视频的特征向量之
间的相似度;
所述判断单元, 具体用于若关键帧类别重合数低于第 一阈值或关键帧按时序重合数低
于第二阈值或视频向量的余弦相似度低于第三阈值, 则判断新入库的视频与原始视频库不
重复, 将新入库的视频存储到去重视频库; 否则, 根据视频向量的余弦相似度做分值排序,
根据分值排序判断新入库的视频与原始视频库是否重复, 如果是, 则报告; 否则, 判断新入
库的视频与原 始视频库不重复, 将新入库的视频存 储到去重 视频库。
9.一种设备, 其特 征在于, 包括: 处 理器;
存储器, 用于存 储可执行指令;
所述处理器用于从所述存储器中读取所述可执行指令, 并执行所述可执行指令, 以实
现权利要求1 ‑4中任一项所述的程序化创意视频片段去重方法。权 利 要 求 书 2/3 页
3
CN 114612834 A
3
专利 程序化创意视频片段去重方法、系统、设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:37:30上传分享