(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210183949.4
(22)申请日 2022.02.25
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 吕继根 王维煜
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
代理人 鄢功军
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
(54)发明名称
实体分类的方法、 装置、 设备以及存 储介质
(57)摘要
本公开提供了一种实体分类的方法、 装置、
设备、 存储介质以及程序产品, 涉及人工智 能技
术领域, 尤其涉及知识图谱等技术领域。 具体实
现方案为: 根据多个实体中每个实体的属性, 确
定每个实体的分块标识; 获取预分块结果, 其中,
预分块结果是对多个实体进行预分块操作得到
的; 根据预分块结果, 在多个实体的分块标识中
确定目标分块标识; 对目标分块标识进行拆分,
得到多个分块子标识; 分别针对多个 分块子标识
中的每个分块子标识, 对与每个分块子标识对应
的实体进行聚类操作, 得到聚类结果; 以及根据
聚类结果, 对 多个实体进行分类 。
权利要求书3页 说明书10页 附图8页
CN 114359610 A
2022.04.15
CN 114359610 A
1.一种实体分类的方法, 包括:
根据多个实体中每 个实体的属性, 确定所述每 个实体的分块标识;
获取预分块结果, 其中, 所述预分块结果是对所述多个实体进行 预分块操作得到的;
根据所述预分块结果, 在所述多个实体的分块标识中确定目标分块标识;
对所述目标分块标识进行拆分, 得到多个分块子标识;
分别针对所述多个分块子标识中的每个分块子标识, 对与所述每个分块子标识对应的
实体进行聚类操作, 得到聚类结果; 以及
根据聚类结果, 对所述多个实体进行分类。
2.根据权利要求1所述的方法, 其中, 所述预分块操作包括:
针对所述多个实体中的每 个实体, 根据所述实体的属性, 生成分块标识; 以及
将所述多个实体中具有相同分块标识的实体划分为一个实体分块, 得到多个实体分
块;
确定所述多个实体分块中实体数量大于第 一分块容量的目标实体分块, 并确定与 所述
目标实体分块对应的目标分块标识作为所述预分块结果。
3.根据权利要求2所述的方法, 其中, 所述根据预分块结果, 在所述多个实体的分块标
识中确定目标分块标识, 包括:
针对所述每个实体的分块标识, 在所述预分块结果包含所述实体的分块标识的情况
下, 确定所述分块标识作为所述目标分块标识。
4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述对所述目标分块标识进行拆分,
得到多个分块子标识, 包括:
针对每个所述目标分块标识,
根据与所述目标分块标识所对应的实体数量和第二分块 容量, 确定拆分参数; 以及
根据与所述目标分块标识对应的实体标识和拆分参数, 确定所述多个分块子标识。
5.根据权利要求4所述的方法, 其中, 所述聚类结果包括多个目标实体集合; 所述对与
所述每个分块子标识对应的实体进行聚类操作, 得到聚类结果, 包括:
确定与所述每 个分块子标识对应的实体作为待处 理实体集 合;
从所述待处 理实体集 合中确定中心实体;
计算所述待处 理实体集 合中每个实体与所述中心实体之间的第一相似度;
确定所述待处理实体集合中第 一相似度大于相似度阈值的实体作为目标实体集合; 以
及
确定所述待处理实体集合中第一相似度小于或等于相似度阈值的实体作为新的待处
理实体集 合, 并针对所述 新的待处 理实体集 合, 返回确定中心实体的操作。
6.根据权利要求5所述的方法, 其中, 所述根据聚类结果, 对所述多个实体进行分类包
括:
针对所述多个目标实体集 合中与所述多个分块子标识对应的多个对应目标实体集 合,
计算所述多个对应目标实体集 合的中心实体两 两之间的第二相似度; 以及
根据所述第二相似度, 合并所述多个对应目标实体集 合。
7.一种实体分类的装置, 包括:
第一确定模块, 用于根据多个实体中每 个实体的属性, 确定所述每 个实体的分块标识;权 利 要 求 书 1/3 页
2
CN 114359610 A
2获取模块, 用于获取预分块结果, 其中, 所述预分块结果是对所述多个实体进行预分块
操作得到的;
第二确定模块, 用于根据所述预分块结果, 在所述多个实体的分块标识中确定目标分
块标识;
拆分模块, 用于对所述目标分块标识进行拆分, 得到多个分块子标识;
聚类模块, 用于分别针对所述多个分块子标识中的每个分块子标识, 对与所述每个分
块子标识对应的实体进行聚类操作, 得到聚类结果; 以及
分类模块, 用于根据聚类结果, 对所述多个实体进行分类。
8.根据权利要求7 所述的装置, 还 包括:
生成模块, 用于针对所述多个实体中的每个实体, 根据所述实体的属性, 生成分块标
识; 以及
划分模块, 用于将所述多个实体中具有相同分块标识 的实体划分为一个实体分块, 得
到多个实体分块;
第三确定模块, 用于确定所述多个实体分块中实体数量大于第 一分块容量的目标实体
分块, 并确定与所述目标实体分块对应的目标分块标识作为所述预分块结果。
9.根据权利要求8所述的装置, 其中, 所述第二确定模块包括:
目标分块标识确定子模块, 用于针对所述每个实体的分块标识, 在所述预分块结果包
含所述实体的分块标识的情况 下, 确定所述分块标识作为所述目标分块标识。
10.根据权利要求7 ‑9中任一项所述的装置, 其中, 所述拆分模块包括:
参数确定子模块, 用于针对每个所述目标分块标识, 根据与所述目标分块标识所对应
的实体数量和第二分块 容量, 确定拆分参数; 以及
标识确定子模块, 用于根据与所述目标分块标识对应的实体标识和拆分参数, 确定所
述多个分块子标识。
11.根据权利要求10所述的装置, 其中, 所述聚类结果包括多个目标实体集合; 所述聚
类模块包括:
第一集合确定子模块, 用于确定与 所述每个分块子标识对应的实体作为待处理实体集
合;
中心确定 子模块, 用于从所述待处 理实体集 合中确定中心实体;
第一计算子模块, 用于计算所述待处理实体集合中每个实体与 所述中心实体之间的第
一相似度;
第二集合确定子模块, 用于确定所述待处理实体集合中第 一相似度大于相似度阈值的
实体作为目标实体集 合; 以及
第三集合确定子模块, 用于确定所述待处理实体集合中第 一相似度小于或等于相似度
阈值的实体作为新的待处理实体集合, 并针对所述新的待处理实体集合, 返回确定中心实
体的操作。
12.根据权利要求1 1所述的装置, 其中, 所述分类模块包括:
第二计算子模块, 用于针对所述多个目标实体集合中与 所述多个分块子标识对应的多
个对应目标实体集合, 计算所述多个对应目标实体集合的中心实体两两之间的第二相似
度; 以及权 利 要 求 书 2/3 页
3
CN 114359610 A
3
专利 实体分类的方法、装置、设备以及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:36:40上传分享