(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210270414.0
(22)申请日 2022.03.18
(71)申请人 北京奇艺世纪科技有限公司
地址 100080 北京市海淀区海淀北一 街2号
10层、 11层
(72)发明人 毕泊
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 吕俊秀
(51)Int.Cl.
G06F 16/75(2019.01)
G06F 16/78(2019.01)
G06K 9/62(2022.01)
G06V 10/762(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视频标签识别方法、 装置、 电子设备及计算
机可读介质
(57)摘要
本发明实施例提供了一种视频标签识别方
法、 装置、 电子设备及计算机 可读介质, 涉及大数
据技术领域。 该方法包括: 获取待识别视频和预
设的多个第一聚类中心, 所述多个第一聚类中心
通过对多个目标视频的目标特征向量进行聚类
得到; 获取所述待识别视频的目标特征向量, 根
据所述待识别视频的目标特征向量, 确定所述待
识别视频与每一所述第一聚类中心之间的相似
度; 从所述多个第一聚类中心中, 确定与所述待
识别视频的相似度最大的目标聚类中心, 将与所
述目标聚类中心对应的标签作为所述待识别视
频的标签。 该方法能够准确识别出不同时长视频
的标签, 可以对视频进行自动标记, 节省了 人力,
有效降低了成本 。
权利要求书3页 说明书14页 附图2页
CN 114637889 A
2022.06.17
CN 114637889 A
1.一种视频 标签识别方法, 其特 征在于, 包括:
获取待识别视频和所述待识别视频的目标特征向量, 以及获取预设的多个第 一聚类中
心, 所述多个第一聚类中心通过对多个目标视频的目标特征向量进行聚类得到, 每一所述
第一聚类中心具有对应的标签;
根据所述待识别视频的目标特征向量, 确定所述待识别 视频与每一所述第 一聚类中心
之间的相似度;
从所述多个第一聚类中心中, 确定与所述待识别视频的相似度最大的目标聚类中心,
将与所述目标聚类中心对应的标签作为所述待识别视频的标签。
2.根据权利要求1所述的方法, 其特征在于, 通过对多个目标视频的目标特征向量进行
聚类得到所述多个第一聚类中心的过程包括:
对所述多个目标视频进行采样, 得到多个采样视频;
根据预设的聚类规则, 对所述多个采样视频的目标特征向量进行聚类操作, 得到多个
第二聚类中心;
对所述多个目标视频中除所述采样视频外的剩余目标视频进行采样, 得到多个新的采
样视频, 根据所述多个新的采样视频的目标特征向量, 对所述多个第二聚类中心进行迭代
更新, 直至达到预设的停止条件, 将最后一次更新后的第二聚类中心作为所述第一聚类中
心。
3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括:
在得到所述多个第一聚类中心后, 针对每一第一聚类中心, 根据所述第一聚类中心所
在的簇内的目标视频的标签, 确定所述第一聚类中心的标签。
4.根据权利要求1所述的方法, 其特征在于, 获取每一目标视频的目标特征向量的过程
包括: 利用预构建的3D卷积神经网络模型, 获取所有目标视频的初始特征向量, 其中, 不同
时长的目标视频的初始特征向量的维度不同; 根据预设的加权聚合规则, 对每一 目标视频
的初始特征向量进行加权聚合处理, 得到每一 目标视频的目标特征向量; 每一目标视频 的
目标特征向量的维度相同;
获取所述待识别视频的目标特征向量包括: 利用所述预构建的3D卷积神经网络模型,
获取所述待识别视频 的初始特征向量, 根据所述加权聚合规则, 对所述待识别视频 的初始
特征向量进行加权聚合处理, 得到所述待识别视频 的目标特征向量, 所述待识别视频的目
标特征向量与每一目标视频的目标 特征向量的维度相同。
5.根据权利要求4所述的方法, 其特征在于, 所述利用预构建的3D卷积神经网络模型,
提取每一 目标视频的初始特征向量包括: 针对每一 目标视频, 根据预设的切分规则对所述
目标视频进 行分段处理, 得到多个子样本; 所有目标视频切分后得到的子样 本的时长相同;
针对每一子样本, 将所述子样本输入预构建的3D卷积神经网络模型, 将所述预构建的3D卷
积神经网络模型的输出作为所述子样本的初始特征向量, 所述子样本的初始特征向量为W*
C维的特征向量, W和C分别为大于1的整数; 拼接所述多个子样本的初始特征向量W*C, 得到
所述目标视频的初始特征向量, 所述目标视频的初始特征向量为H*W*C维的特征向量, 其
中, H表示所述目标视频切分后得到的子样本的数量;
根据预设的加权聚合规则, 对每一目标视频的初始特征向量进行加权聚合处理, 得到
每一目标视频的目标特征向量包括: 根据所有目标视频的初始特征向量H*W*C, 计算各个通权 利 要 求 书 1/3 页
2
CN 114637889 A
2道的通道特征图的聚合值的方差, 所述通道为所述初始特征向量的C维, 所述通道特征图为
所述初始特征向量中H维和W 维构成的二 维矩阵; 按照由大到小的顺序对所述通道特征图的
聚合值的方差进行排序, 选取前N个方差对应的通道作为目标通道, N为大于或等于1的整
数; 根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特
征图激活值之和, 确定每一所述 目标通道的通道特征图的归一化权重; 根据所述 目标通道
的通道特征图的归一化权重和所述目标视频的初始特征向量, 确定所述目标通道的通道特
征图的加权和; 拼接N个所述目标通道的通道特征图的加权和, 得到所述目标视频的目标特
征向量;
利用预构建的3D卷积神经网络模型, 获取所述待识别视频的初始特征向量包括: 根据
预设的切分规则对所述待识别视频进行分段处理, 得到多个子样本; 所述待检测视频切分
后得到的多个子样本的时长相同; 针对每一子样本, 将所述子样本输入预构建的3D卷积神
经网络模型, 将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向
量, 所述子样 本的初始特征向量为W*C维的特征向量, W和C 分别为大于1的整 数; 拼接所述多
个子样本的初始特征向量W*C, 得到所述目标视频的初始特征向量, 所述目标视频的初始特
征向量为K*W*C维的特征向量, 其中, K表示所述待识别视频对应的子样本的数量;
根据所述加权聚合规则, 对所述待识别视频的初始特征向量进行加权聚合处理, 得到
所述待识别视频的目标特征向量包括: 根据所述初始特征向量K*W*C以及预确定的N个目标
通道的通道特征图的归一化权重, 确定所述N个目标通道的通道特征图的加权和; 拼接N个
所述目标通道的通道特 征图的加权和, 得到所述待识别视频的目标 特征向量。
6.根据权利要求5所述的方法, 其特征在于, 所述初始特征向量包括初始画面特征向量
和初始音频 特征向量;
获取每一目标视频或待识别 视频的初始特征向量的过程包括: 针对每一目标视频或待
识别视频, 获取每一子目标视频或子待识别视频的初始画面特征向量和初始音频特征向
量; 拼接所述多个子目标视频的初始画面特征向量和初始音频特征向量, 获得所述 目标视
频的初始画 面特征向量和初始音频特征向量, 或拼接所述多个子待识别视频的初始画面特
征向量和初始音频特征向量, 获得所述待识别视频的初始画 面特征向量和初始音频特征向
量;
获取每一目标视频或待识别 视频的目标特征向量的过程包括: 根据预设的加权聚合规
则, 对每一 目标视频或待识别视频的初始画面特征向量进行加权聚合处理, 得到每一 目标
视频或待识别视频的目标画面特征向量; 根据预设的加权聚合规则, 对每一 目标视频或待
识别视频的初始音频特征向量进 行加权聚合处理, 得到每一目标视频或待识别视频的目标
音频特征向量, 其中所述待识别视频的目标画 面特征向量与每一目标视频的目标画 面特征
向量的维度相同, 所述待识别视频的目标音频特征向量与每一目标视频的目标音频特征向
量的维度相同; 融合每一目标视频或待识别视频的目标画面特征向量和目标音频特征向
量, 得到每一目标视频或待识别视频的目标音视频 特征向量;
对多个目标视频的目标特征向量进行聚类得到第 一聚类中心的过程包括: 对多个目标
视频的目标音视频 特征向量进行聚类操作, 得到所述多个第一聚类中心;
根据所述待识别视频的目标特征向量, 确定所述待识别 视频与每一所述第 一聚类中心
之间的相似度包括: 根据所述待识别视频的目标音视频特征向量, 确定所述待识别视频与权 利 要 求 书 2/3 页
3
CN 114637889 A
3
专利 视频标签识别方法、装置、电子设备及计算机可读介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:37:44上传分享