说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210572911.6 (22)申请日 2022.05.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 崔东林 刘慧慧  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 10/75(2022.01) G06F 16/951(2019.01) G06F 16/75(2019.01) (54)发明名称 数据处理方法、 装置、 电子设备和存 储介质 (57)摘要 本申请公开了数据处理方法、 装置、 电子设 备和存储介质, 涉及数据处理领域, 进一步涉及 智能推荐领域。 具体实现方案为: 获取待填充特 征的视频数据集; 其中, 视频数据集之中每条视 频资源包含N个特征, 且视频数据集中的视频资 源来源于多个不同的站点; N为正整数; 对视频数 据集中的视频资源进行相似度聚类处理, 获得至 少一个聚类簇; 确定视频数据集之中来源于同一 站点的视频资源在每个特征上的分布 直方图; 根 据视频数据集之中来源于同一站点的视频资源 在每个特征上的分布直方图, 对每个聚类簇之中 缺失特征值的视频资源进行特征值填充。 本申请 充分利用已有的视频资源进行特征填充, 成本低 且不影响填充效果, 可提高视频资源的特征覆盖 率。 权利要求书3页 说明书11页 附图6页 CN 114882317 A 2022.08.09 CN 114882317 A 1.一种数据处 理方法, 包括: 获取待填充特征的视频数据集; 其中, 所述视频数据集之中每条视频资源包含N个特 征, 且所述视频 数据集中的视频资源来源于多个不同的站点; 所述 N为正整数; 对所述视频 数据集中的视频资源进行相似度聚类处 理, 获得至少一个聚类簇; 确定所述视频 数据集之中来源于同一站点的视频资源在每 个特征上的分布直方图; 根据所述视频数据集之中来源于同一站点的视频资源在每个特征上的分布直方图, 对 每个所述聚类簇之中缺失特 征值的视频资源进行 特征值填充。 2.如权利要求1所述的方法, 其中, 所述确定所述视频数据集之中来源于同一站点的视 频资源在每 个特征上的分布直方图, 包括: 确定与所述至少一个特 征对应的多个区间范围; 根据所述视频数据集之中来源于同一站点的视频资源的每个特征值, 统计所述视频数 据集之中来源于同一站点的视频资源分布在每 个所述区间范围的数量; 根据所述分布在每个所述区间范围的数量, 确定所述视频数据集之中来源于同一站点 的视频资源在每 个特征上的分布直方图。 3.如权利要求1所述的方法, 其中, 所述根据 所述视频数据集之中来源于同一站点的视 频资源在每个特征上的分布直方图, 对每个所述聚类簇之中缺失特征值的视频资源进 行特 征值填充, 包括: 对于第i个特征, 响应于同一个聚类簇中来源于相同站点的所有视频资源均不存在所 述第i个特征的特征值, 从所述同一个聚类簇中确定出存在所述第i个特征的特征值的目标 站点; 其中, 所述 i为小于或等于所述 N的正整数; 根据所述视频数据集之中来源于同一站点的视频资源在每个特征上的分布直方图, 确 定所述目标站点的视频资源在所述第i个特 征上的分布直方图; 根据来源于所述目标站点的视频资源的所述第 i个特征的特征值和所述目标站点的视 频资源在所述第i个特征上 的分布直方图, 对所述来源于相同站点的所有视频资源的所述 第i个特征进行特征值填充。 4.如权利要求3所述的方法, 其中, 所述根据来源于所述目标站点的视频资源的所述第 i个特征的特征值和所述目标站 点的视频资源在所述第i个特征上的分布直方图, 对所述来 源于相同站点的所有视频资源的所述第i个特 征进行特征值填充, 包括: 根据来源于所述目标站点的视频资源的所述第i个特征的特征值, 计算所述目标站点 的所述第i个特 征的特征平均值; 根据所述目标站点的所述第 i个特征的特征平均值和所述目标站点的视频资源在所述 第i个特征上的分布直方图, 在所述相同站点的视频资源在所述第i个特征上的分布直方图 进行映射, 获得目标填充值; 根据所述目标填充值, 对所述来源于相同站点的所有视频资源的所述第i个特征进行 特征值填充。 5.如权利要求4所述的方法, 其中, 所述根据所述目标站点的所述第i个特征的特征平 均值和所述 目标站点的视频资源在所述第i个特征上 的分布直方图, 在所述相同站点的视 频资源在所述第i个特 征上的分布直方图进行映射, 获得目标填充值, 包括: 根据所述目标站点的所述第 i个特征的特征平均值和所述目标站点的视频资源在所述权 利 要 求 书 1/3 页 2 CN 114882317 A 2第i个特征上的分布直方图, 确定所述特 征平均值所落入的第一目标区间范围; 根据所述目标站点的视频资源在所述第i个特征上的分布直方图, 确定所述目标站点 中所述第i个特征的特征值小于或等于目标值的第一资源占比; 其中, 所述目标值为所述第 一目标区间范围之中的上限值; 从所述相同站点的视频资源在所述第i个特征上的分布直方图中, 确定出与所述第一 资源占比具有相似资源占比的第二目标区间范围; 根据所述第二目标区间范围, 获得目标填充值。 6.如权利要求3所述的方法, 还 包括: 响应于同一个聚类簇中来源于相同站点的部分视频资源存在所述第i个特征的特征 值, 根据所述至少部 分视频资源的所述第i个特征的特征值, 对所述同一个聚类簇之中与所 述至少部分视频资源来源于相同站点的其 他视频资源的所述第i个特 征进行特征值填充。 7.如权利要求1至6中任一项所述的方法, 其中, 所述对所述视频数据集中的视频资源 进行相似度聚类处 理, 获得至少一个聚类簇, 包括: 对所述视频数据集之中每条视频资源进行处理, 以获得所述每条视频资源的视频指纹 信息; 基于所述每条视频资源的视频指纹信 息, 对所述视频数据集中的视频资源进行相似度 聚类处理, 获得至少一个聚类簇 。 8.一种数据处 理装置, 包括: 获取模块, 用于获取待填充特征的视频数据集; 其中, 所述视频数据集之中每条视频资 源包含N个特征, 且所述视频 数据集中的视频资源来源于多个不同的站点; 所述 N为正整数; 聚类模块, 用于对所述视频数据集中的视频资源进行相似度聚类处理, 获得至少一个 聚类簇; 确定模块, 用于确定所述视频数据集之中来源于同一站点的视频资源在每个特征上的 分布直方图; 第一填充模块, 用于根据所述视频数据集之中来源于同一站点的视频资源在每个特征 上的分布直方图, 对每 个所述聚类簇之中缺失特 征值的视频资源进行 特征值填充。 9.如权利要求8所述的装置, 其中, 所述确定模块具体用于: 确定与所述至少一个特 征对应的多个区间范围; 根据所述视频数据集之中来源于同一站点的视频资源的每个特征值, 统计所述视频数 据集之中来源于同一站点的视频资源分布在每 个所述区间范围的数量; 根据所述分布在每个所述区间范围的数量, 确定所述视频数据集之中来源于同一站点 的视频资源在每 个特征上的分布直方图。 10.如权利要求8所述的装置, 其中, 所述第一 填充模块具体用于: 对于第i个特征, 响应于同一个聚类簇中来源于相同站点的所有视频资源均不存在所 述第i个特征的特征值, 从所述同一个聚类簇中确定出存在所述第i个特征的特征值的目标 站点; 其中, 所述 i为小于或等于所述 N的正整数; 根据所述视频数据集之中来源于同一站点的视频资源在每个特征上的分布直方图, 确 定所述目标站点的视频资源在所述第i个特 征上的分布直方图; 根据来源于所述目标站点的视频资源的所述第 i个特征的特征值和所述目标站点的视权 利 要 求 书 2/3 页 3 CN 114882317 A 3

.PDF文档 专利 数据处理方法、装置、电子设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、电子设备和存储介质 第 1 页 专利 数据处理方法、装置、电子设备和存储介质 第 2 页 专利 数据处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:36:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。