专利 视频标签识别方法、装置、电子设备及计算机可读介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210270414.0 (22)申请日 2022.03.18 (71)申请人北京奇艺世纪科技有限公司地址 100080 北京市海淀区海淀北一街2号 10层、 11层 (72)发明人毕泊　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师吕俊秀 (51)Int.Cl. G06F 16/75(2019.01) G06F 16/78(2019.01) G06K 9/62(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视频标签识别方法、装置、电子设备及计算机可读介质 (57)摘要本发明实施例提供了一种视频标签识别方法、装置、电子设备及计算机可读介质，涉及大数据技术领域。该方法包括：获取待识别视频和预设的多个第一聚类中心，所述多个第一聚类中心通过对多个目标视频的目标特征向量进行聚类得到；获取所述待识别视频的目标特征向量，根据所述待识别视频的目标特征向量，确定所述待识别视频与每一所述第一聚类中心之间的相似度；从所述多个第一聚类中心中，确定与所述待识别视频的相似度最大的目标聚类中心，将与所述目标聚类中心对应的标签作为所述待识别视频的标签。该方法能够准确识别出不同时长视频的标签，可以对视频进行自动标记，节省了人力，有效降低了成本。权利要求书3页说明书14页附图2页 CN 114637889 A 2022.06.17 CN 114637889 A 1.一种视频标签识别方法，其特征在于，包括：获取待识别视频和所述待识别视频的目标特征向量，以及获取预设的多个第一聚类中心，所述多个第一聚类中心通过对多个目标视频的目标特征向量进行聚类得到，每一所述第一聚类中心具有对应的标签；根据所述待识别视频的目标特征向量，确定所述待识别视频与每一所述第一聚类中心之间的相似度；从所述多个第一聚类中心中，确定与所述待识别视频的相似度最大的目标聚类中心，将与所述目标聚类中心对应的标签作为所述待识别视频的标签。 2.根据权利要求1所述的方法，其特征在于，通过对多个目标视频的目标特征向量进行聚类得到所述多个第一聚类中心的过程包括：对所述多个目标视频进行采样，得到多个采样视频；根据预设的聚类规则，对所述多个采样视频的目标特征向量进行聚类操作，得到多个第二聚类中心；对所述多个目标视频中除所述采样视频外的剩余目标视频进行采样，得到多个新的采样视频，根据所述多个新的采样视频的目标特征向量，对所述多个第二聚类中心进行迭代更新，直至达到预设的停止条件，将最后一次更新后的第二聚类中心作为所述第一聚类中心。 3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在得到所述多个第一聚类中心后，针对每一第一聚类中心，根据所述第一聚类中心所在的簇内的目标视频的标签，确定所述第一聚类中心的标签。 4.根据权利要求1所述的方法，其特征在于，获取每一目标视频的目标特征向量的过程包括：利用预构建的3D卷积神经网络模型，获取所有目标视频的初始特征向量，其中，不同时长的目标视频的初始特征向量的维度不同；根据预设的加权聚合规则，对每一目标视频的初始特征向量进行加权聚合处理，得到每一目标视频的目标特征向量；每一目标视频的目标特征向量的维度相同；获取所述待识别视频的目标特征向量包括：利用所述预构建的3D卷积神经网络模型，获取所述待识别视频的初始特征向量，根据所述加权聚合规则，对所述待识别视频的初始特征向量进行加权聚合处理，得到所述待识别视频的目标特征向量，所述待识别视频的目标特征向量与每一目标视频的目标特征向量的维度相同。 5.根据权利要求4所述的方法，其特征在于，所述利用预构建的3D卷积神经网络模型，提取每一目标视频的初始特征向量包括：针对每一目标视频，根据预设的切分规则对所述目标视频进行分段处理，得到多个子样本；所有目标视频切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W* C维的特征向量， W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述目标视频的初始特征向量，所述目标视频的初始特征向量为H*W*C维的特征向量，其中， H表示所述目标视频切分后得到的子样本的数量；根据预设的加权聚合规则，对每一目标视频的初始特征向量进行加权聚合处理，得到每一目标视频的目标特征向量包括：根据所有目标视频的初始特征向量H*W*C，计算各个通权　利　要　求　书 1/3 页 2 CN 114637889 A 2道的通道特征图的聚合值的方差，所述通道为所述初始特征向量的C维，所述通道特征图为所述初始特征向量中H维和W 维构成的二维矩阵；按照由大到小的顺序对所述通道特征图的聚合值的方差进行排序，选取前N个方差对应的通道作为目标通道， N为大于或等于1的整数；根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特征图激活值之和，确定每一所述目标通道的通道特征图的归一化权重；根据所述目标通道的通道特征图的归一化权重和所述目标视频的初始特征向量，确定所述目标通道的通道特征图的加权和；拼接N个所述目标通道的通道特征图的加权和，得到所述目标视频的目标特征向量；利用预构建的3D卷积神经网络模型，获取所述待识别视频的初始特征向量包括：根据预设的切分规则对所述待识别视频进行分段处理，得到多个子样本；所述待检测视频切分后得到的多个子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量， W和C 分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述目标视频的初始特征向量，所述目标视频的初始特征向量为K*W*C维的特征向量，其中， K表示所述待识别视频对应的子样本的数量；根据所述加权聚合规则，对所述待识别视频的初始特征向量进行加权聚合处理，得到所述待识别视频的目标特征向量包括：根据所述初始特征向量K*W*C以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N个目标通道的通道特征图的加权和；拼接N个所述目标通道的通道特征图的加权和，得到所述待识别视频的目标特征向量。 6.根据权利要求5所述的方法，其特征在于，所述初始特征向量包括初始画面特征向量和初始音频特征向量；获取每一目标视频或待识别视频的初始特征向量的过程包括：针对每一目标视频或待识别视频，获取每一子目标视频或子待识别视频的初始画面特征向量和初始音频特征向量；拼接所述多个子目标视频的初始画面特征向量和初始音频特征向量，获得所述目标视频的初始画面特征向量和初始音频特征向量，或拼接所述多个子待识别视频的初始画面特征向量和初始音频特征向量，获得所述待识别视频的初始画面特征向量和初始音频特征向量；获取每一目标视频或待识别视频的目标特征向量的过程包括：根据预设的加权聚合规则，对每一目标视频或待识别视频的初始画面特征向量进行加权聚合处理，得到每一目标视频或待识别视频的目标画面特征向量；根据预设的加权聚合规则，对每一目标视频或待识别视频的初始音频特征向量进行加权聚合处理，得到每一目标视频或待识别视频的目标音频特征向量，其中所述待识别视频的目标画面特征向量与每一目标视频的目标画面特征向量的维度相同，所述待识别视频的目标音频特征向量与每一目标视频的目标音频特征向量的维度相同；融合每一目标视频或待识别视频的目标画面特征向量和目标音频特征向量，得到每一目标视频或待识别视频的目标音视频特征向量；对多个目标视频的目标特征向量进行聚类得到第一聚类中心的过程包括：对多个目标视频的目标音视频特征向量进行聚类操作，得到所述多个第一聚类中心；根据所述待识别视频的目标特征向量，确定所述待识别视频与每一所述第一聚类中心之间的相似度包括：根据所述待识别视频的目标音视频特征向量，确定所述待识别视频与权　利　要　求　书 2/3 页 3 CN 114637889 A 3

专利 视频标签识别方法、装置、电子设备及计算机可读介质

专利视频标签识别方法、装置、电子设备及计算机可读介质