说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221026183 3.8 (22)申请日 2022.03.16 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 许剑清  (74)专利代理 机构 深圳市隆天联鼎知识产权代 理有限公司 4 4232 专利代理师 徐明霞 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 40/16(2022.01) G06K 9/62(2022.01) G06V 10/762(2022.01)G06V 10/82(2022.01) (54)发明名称 模型训练方法、 人脸识别方法及装置 (57)摘要 本申请的实施例揭示了一种模 型训练方法、 人脸识别方法及装置。 该模型训练方法包括对初 始教师模型进行训练, 得到训练完成的教师模 型; 根据教师模 型对初始助理模 型进行第一知识 蒸馏训练, 得到训练完成的助理模型; 其中, 初始 助理模型的参数量小于初始教师模 型的参数量; 根据教师模型以及助理模型对初始学生模型进 行第二知识蒸馏训练, 得到训练完成的学生模 型; 其中, 初始学生模型的参数量小于初始助理 模型的参数量。 本申请以联合 教师模型以及助理 模型的方式可以得到准确性更高的学生模型。 权利要求书2页 说明书19页 附图8页 CN 114611672 A 2022.06.10 CN 114611672 A 1.一种模型训练方法, 其特 征在于, 所述方法包括: 对初始教师模型进行训练, 得到训练完成的教师模型; 根据所述教师模型对初始助理模型进行第一知识蒸馏训练, 得到训练完成的助理模 型; 其中, 所述初始助理模型的参数量小于所述初始教师模型的参数量; 根据所述教师模型以及所述助理模型对初始学生模型进行第 二知识蒸馏训练, 得到训 练完成的学生模型; 其中, 所述初始学生模型的参数量小于所述初始助理模型的参数量。 2.根据权利要求1所述的方法, 其特征在于, 所述教师模型中包含多个聚类中心向量, 不同的聚类中心向量对应不同的训练数据类别; 在所述根据所述教师模型以及所述助理模 型对初始学生模型进行第二知识蒸馏训练之前, 所述方法还 包括: 将训练数据输入未初始化学生模型中, 得到所述未初始化学生模型输出的特征提取结 果; 根据所述特征提取结果以及所述多个聚类中心向量, 得到未初始化学生模型预测结 果; 根据所述未初始化学生模型预测结果与所述训练数据的样本标签之间的差异对所述 未初始化学生模型的模型参数进行调整, 得到初始学生模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述特征提取结果以及所述多个 聚类中心向量, 得到未初始化学生模型 预测结果, 包括: 分别计算所述特 征提取结果与每 个所述聚类中心向量之间的相似度; 根据所述相似度确定所述特征提取结果对应的训练数据 所属的训练数据类别, 将所述 训练数据类别作为所述未初始化学生模型 预测结果。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述教师模型对初始助理模型进 行第一知识蒸馏训练, 得到训练完成的助理模型, 包括: 将训练数据分别输入所述初始助理模型以及所述教师模型中, 得到所述初始助理模型 输出的助理模型 预测结果和所述教师模型输出的教师模型 预测结果; 根据所述助理模型 预测结果和所述教师模型 预测结果计算第一知识蒸馏损失信息; 根据所述第 一知识蒸馏损失信 息对所述初始助理模型的模型参数进行调整, 以得到所 述助理模型。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述助理模型预测结果与所述教 师模型预测结果计算第一知识蒸馏损失信息, 包括: 计算所述助理模型预测结果与所述教师模型预测结果之间的误差, 得到结果损失信 息; 计算所述助理模型预测结果与所述训练数据对应的样本标签之间的误差, 得到标签损 失信息; 根据所述结果损失信息以及所述标签损失信息, 计算得到所述第一知识蒸馏损失信 息。 6.根据权利要求1所述的方法, 其特征在于, 所述根据所述教师模型以及所述助理模型 对初始学生模型进行第二知识蒸馏训练, 得到训练完成的学生模型, 包括: 将训练数据分别输入所述初始学生模型、 所述助理模型以及所述教师模型中, 得到所 述初始学生模型输出的初始学生模型预测结果、 所述助理模型输出的助理模型预测结果和权 利 要 求 书 1/2 页 2 CN 114611672 A 2所述教师模型输出的教师模型 预测结果; 根据所述初始学生模型预测结果、 所述助理模型预测结果和所述教师模型预测结果计 算第二知识蒸馏损失信息; 根据所述第 二知识蒸馏损失信 息对所述初始学生模型的模型参数进行调整, 以得到所 述学生模型。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述初始学生模型预测结果、 所 述助理模型 预测结果和所述教师模型 预测结果计算第二知识蒸馏损失信息, 包括: 计算所述初始学生模型预测结果与 所述助理模型预测结果之间的误差, 得到助理模型 损失信息; 计算所述初始学生模型预测结果与 所述教师模型预测结果之间的误差, 得到教师模型 损失信息; 根据所述助理模型损失信 息以及所述教师模型损失信 息, 得到所述第 二知识蒸馏损失 信息。 8.一种人脸识别方法, 其特 征在于, 所述方法包括: 采集待识别人脸图像; 将所述待识别人脸图像输入至人脸识别模型; 其中, 所述人脸识别 模型根据权利要求1 至7中任一项所述的模型训练方法训练得到, 所述人脸识别模型对应所述模型训练方法中 的学生模型; 获取所述人脸识别模型输出的人脸识别结果。 9.一种模型训练装置, 其特 征在于, 所述装置包括: 教师模型训练模块, 配置为对初始教师模型进行训练, 得到训练完成的教师模型; 助理模型训练模块, 配置为根据所述教师模型对初始助理模型进行第一知识蒸馏训 练, 得到训练完成的助理模 型; 其中, 所述初始助理模型的参数量小于所述初始教师模型的 参数量; 学生模型训练模块, 配置为根据所述教师模型以及所述助理模型对初始学生模型进行 第二知识蒸馏训练, 得到训练完成的学生模型; 其中, 所述初始学生模型的参数量小于所述 初始助理模型的参数量。 10.一种人脸识别装置, 其特 征在于, 所述装置包括: 图像采集模块, 配置为采集待识别人脸图像; 识别模块, 配置为将所述待识别人脸图像输入至人脸识别模型; 其中, 所述人脸识别模 型根据权利要求 1至7中任一项 所述的模型训练方法训练得到, 所述人脸识别模 型对应所述 模型训练方法中的学生模型; 结果获取模块, 配置为获取 所述人脸识别模型输出的人脸识别结果。权 利 要 求 书 2/2 页 3 CN 114611672 A 3

.PDF文档 专利 模型训练方法、人脸识别方法及装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、人脸识别方法及装置 第 1 页 专利 模型训练方法、人脸识别方法及装置 第 2 页 专利 模型训练方法、人脸识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:37:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。