(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210553500.2
(22)申请日 2022.05.20
(71)申请人 中国科学院计算 技术研究所
地址 100080 北京市海淀区中关村科 学院
南路6号
(72)发明人 刘静 郝沁汾 叶笑春 范东睿
(74)专利代理 机构 北京律诚同业知识产权代理
有限公司 1 1006
专利代理师 祁建国 陈思远
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于异构图神经网络的高阶关系知识蒸馏
方法及系统
(57)摘要
本发明提出一种基于异构图神经网络的高
阶关系知识蒸馏方法和系统, 所述方法主要包括
一阶节点级知识蒸馏和二阶关系级知识蒸馏两
部分, 有效解决了数据标签不精确和异构高阶关
系语义建模困难这两个问题。 具体来说, 该方法
通过进行节 点级知识蒸馏, 对预训练异构教师模
型的单个节 点语义进行编码; 通过进行关系级知
识蒸馏, 对 预训练异构教师模型的不同类型节点
之间的语义 关系进行建模。 通过整合节点级知识
蒸馏和系级知识蒸馏,这种高阶关系知识蒸馏方
法成为一种实用且通用的训练方法, 适用于任意
的异构图神经网络, 不仅提升了异构学生模型的
性能和泛化能力, 而且保证了对异构图神经网络
的节点级和关系级知识提取。
权利要求书4页 说明书11页 附图2页
CN 115115862 A
2022.09.27
CN 115115862 A
1.一种基于异构图神经网络的高阶关系知识蒸馏方法, 其特 征在于, 包括:
步骤S1、 分别获取待蒸馏知识的异构图神经网络模型, 作为教师模型, 获取待接受知识
的异构图神经网络模型, 作为学生模型, 获取该教师模型和该学生模型 的输出层的模型预
测值和中间图卷积层异构节点嵌入表示;
步骤S2、 基于该教师模型和该学生模型的模型预测值, 通过节点级知识蒸馏提取该教
师模型的一阶节点级软 标签知识;
步骤S3、 基于该教师模型和该学生模型的中间图卷积层嵌入表示, 通过关系级知识蒸
馏提取该教师模型的二阶关系级异构语义知识;
步骤S4、 整合该一阶节点级软标签知识和该二阶关系级异构语义知识, 得到高阶关系
知识, 基于该高阶关系知识训练该 学生模型, 使用训练完成的学生模型用于指定任务。
2.如权利要求1所述的基于异构图神经网络的高阶关系知识蒸馏方法, 其特征在于, 该
步骤S1包括:
获取异构数据集D, 其包括n个训练集样本, 每个样本的特征维度是d维; 构建相同配置
的教师模 型T和学生模 型S, 各包含5层: 输入层、 第一层卷积层、 第二层卷积层、 MLP线性变换
层和Softmax输出层; 教师和学生神经网络参数分别为Wt和Ws, 卷积层采用的激活函数RELU
为f(x)=max(x, 0);
该教师模型和该 学生模型的中间图卷积层异构节点嵌入表示包括:
输入的样本特征为h0, 卷积层的表达为h, 则ht=RELU(Wt*h0), hs=RELU(Ws*h0); MLP线性
变换层的输出表达为z, 则教师和学生模型的线性变换层的输出表达分别是zt和zs;
该教师模型和该学生模型的模型预测值包括: Softmax输出层的表达为p, 则pt=
Softmax(zt), ps=Softmax(zs)。
3.如权利要求2所述的基于异构图神经网络的高阶关系知识蒸馏方法, 其特征在于, 该
步骤S2包括:
采用教师和学生模型预测值pt, ps, 使用节点级知识蒸馏方法将教师模型中的软标签知
识转移到学生模型中, 得到一阶节点级 蒸馏损失LNKD作为该一阶节点级软 标签知识:
LNKD=(1‑α )LCE+α LKD
其中
分别是基本的交叉熵损失和蒸馏
损失, α 是平衡交叉熵损失和蒸馏损失的超参数, D( ·)是KL度量函数; 另外
是带有温度系数τ缩放的sfotmax概 率输出。
4.如权利要求3所述的基于异构图神经网络的高阶关系知识蒸馏方法, 其特征在于, 该
步骤S3包括:
采用教师和学生中间卷积层嵌入表示ht, hs, 使用关系级知识蒸馏方法将教师模型中的
高阶语义关系知识转移到学生模型中;
教师和学生网络模型的相关矩阵MetaCor r为:
权 利 要 求 书 1/4 页
2
CN 115115862 A
2其中
k是相应异构数据集D对应的异构节点类
型总数, i, j表示 不同类型的节点;
为高斯核函数;
对中间层嵌入进行非线性变换, 然后应用一个共享的注意向量q得到学生模型的注意
值
其中Ws是教师模型的权 重矩阵, bs是偏差向量;
对注意值进行归一 化处理, 通过softmax函数 得到最终的注意系数
得到二阶关系级知识蒸馏损失LRKD, 作为二阶关系级异构语义知识;
其中D是均方误差 。
5.如权利要求4所述的基于异构图神经网络的高阶关系知识蒸馏方法, 其特征在于, 该
步骤S4包括:
整合LNKD和LRKD, 得到最终的高阶关系知识蒸馏方案总体损失L作为 高阶关系知识, 以对
学生模型进行端到端的训练;
L=LNKD+β LRKD
其中β 为LNKD和LRKD的超参数。
6.如权利要求2到4所述的任意一种基于异构图神经网络的高阶关系知识蒸馏方法, 其
特征在于, 该训练集样本包含电影名称、 导演、 演员、 电影类别, 且该指 定任务包括将待分类
的电影名称和/或导演和/或演员输入至该 学生模型, 得到其所属的电影 类别。
7.一种基于异构图神经网络的高阶关系知识蒸馏系统, 其特 征在于, 包括:
模型获取模块, 用于分别获取待蒸馏知识的异构图神经网络模型, 作为教师模型, 获取
待接受知识的异构图神经网络模型, 作为学生模型, 获取该教师模型和该学生模型 的输出
层的模型 预测值和中间图卷积层异构节点嵌入表示;
第一知识提取模块, 用于根据该教师模型和该学生模型的模型预测值, 通过节点级知
识蒸馏提取 该教师模型的一阶节点级软 标签知识;
第二知识提取模块, 用于基于该教师模型和该学生模型的中间图卷积层嵌入表示, 通
过关系级知识蒸馏提取 该教师模型的二阶关系级异构语义知识;
训练模块, 用于整合该一阶节点级软标签知识和该二阶关系级异构语义知识, 得到高
阶关系知识, 基于该高阶关系知识训练该学生模型, 使用训练完成的学生模型用于指定任
务;
该模型获取模块, 用于:
获取异构数据集D, 其包括n个训练集样本, 每个样本的特征维度是d维; 构建相同配置
的教师模 型T和学生模 型S, 各包含5层: 输入层、 第一层卷积层、 第二层卷积层、 MLP线性变换权 利 要 求 书 2/4 页
3
CN 115115862 A
3
专利 基于异构图神经网络的高阶关系知识蒸馏方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:35:51上传分享