(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210865417.9
(22)申请日 2022.07.22
(65)同一申请的已公布的文献号
申请公布号 CN 115082300 A
(43)申请公布日 2022.09.20
(73)专利权人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 刘斌 张雅琪
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 张博
(51)Int.Cl.
G06T 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/44(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(56)对比文件
CN 111669647 A,2020.09.15
CN 111508048 A,2020.08.07
CN 113194348 A,2021.07.3 0
CN 114429658 A,202 2.05.03
CN 113689527 A,2021.1 1.23
US 2022222832 A1,202 2.07.14
US 2022207649 A1,202 2.06.30
年福东等.基于关键点表示的语音驱动说话
人脸视频生成. 《模式识别与人工智能》 .2021,
KARRAS T, et al. .Audio-Driven Facial
Animation by Joint End-to- End Learn ing of
Pose and Emoti on. 《ACM Transacti ons on
Graphics》 .2017,
审查员 张敏
(54)发明名称
图像生成模型的训练方法、 图像生成方法及
装置
(57)摘要
本发明提供了图像生成模型的训练方法、 图
像生成方法及装置, 用于人工智能和图像处理领
域。 训练方法包括: 利用 样本源视频信息与样本
目标图像信息训练初始关键点转换器, 得到候选
关键点转换器; 利用特征嵌入器处理样本第一关
键点集合与样本目标图像信息, 得到样本风格特
征向量; 将样本第二关键点集合、 样本风格特征
向量和样本第一视频帧集合输入至初始图像生
成器, 生成样本目标视频帧; 利用 样本目标视频
帧更新样 本第一视频帧集合, 得到样本第二视频
帧集合; 利用新的样本目标视频帧迭代地生成其
他的样本目标视频帧, 得到样本目标视频帧序
列; 利用鉴别器处理样本目标视频帧序列, 得到
图像生成模型。 图像生成模型生成的视频提升跨
身份的泛化能力。
权利要求书4页 说明书21页 附图9页
CN 115082300 B
2022.12.30
CN 115082300 B
1.一种图像生成模型的训练方法, 其特 征在于, 包括:
利用样本源视频信 息与样本目标图像信 息训练初始关键点转换器, 得到训练后的候选
关键点转换器, 其中, 所述初始关键点转换器输出样本第一关键点集合, 所述候选 关键点转
换器输出样本第二关键点 集合;
利用特征嵌入器处理所述样本第 一关键点集合与 所述样本目标图像信 息, 得到样本风
格特征向量;
将所述样本第 二关键点集合、 所述样本风格特征向量和样本第 一视频帧集合输入至初
始图像生成器, 生成重建后的样本目标视频帧;
利用所述样本目标视频帧更新所述样本第 一视频帧集合, 得到更新后的样本第 二视频
帧集合;
将所述样本第 二关键点集合、 所述样本风格特征向量和更新后的样本第 二视频帧集合
输入至所述初始图像生成器, 生成新的样本目标视频帧, 以便利用所述新的样本目标视频
帧更新所述样本第二视频帧集合, 以及利用所述样本第二关键点集合、 所述样本风格特征
向量和更新后的样本第二视频帧集合, 迭代地生成其他的样本目标视频帧, 直至所述样本
目标视频帧的数量与样本第二视频帧的数量相同, 得到样本目标视频帧序列; 以及
利用鉴别器处理所述样本目标视频帧序列, 以便迭代地调整所述候选关键点转换器、
所述特征嵌入器和所述初始图像生成器各自的权重参数, 得到训练后的图像生成模型, 其
中, 所述图像生成模型包括训练后的目标关键点转换器、 目标特征嵌入器和目标图像生成
器。
2.根据权利要求1所述的训练方法, 其特征在于, 所述样本第一视频帧集合包括R个空
视频帧, 所述初始图像生成器包括第一编码层、 第二编码层和风格特 征融合层;
将所述样本第 二关键点集合、 所述样本风格特征向量和样本第 一视频帧集合输入至初
始图像生成器, 生成重建后的样本目标视频帧包括:
将所述样本第二关键点 集合输入至所述第一编码层, 得到样本第一编码信息;
将R个所述空视频帧输入至所述第二编码层, 得到样本第二编码信息; 以及
将所述样本第 一编码信 息与所述样本第 二编码信 息的级联操作 结果, 以及所述样本风
格特征向量输入至所述 风格特征融合层, 输出 所述样本目标视频帧。
3.根据权利要求2所述的训练方法, 其特征在于, 所述风格特征融合层包括顺序连接的
第一残差 子层、 第一归一 化子层和第一卷积采样子层;
将所述样本第 一编码信 息与所述样本第 二编码信 息的级联操作 结果, 以及所述样本风
格特征向量输入至所述 风格特征融合层, 输出 所述样本目标视频帧包括:
将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述第一
残差子层, 输出第一编码特 征;
将所述第一编码特征与所述样本风格特征向量输入至所述第 一归一化子层, 输出第 一
归一化编码特 征; 以及
利用所述第一卷积采样子层处理所述第一归一化编码特征, 得到所述样本目标视频
帧。
4.根据权利要求2所述的训练方法, 其特征在于, 所述风格特征融合层包括顺序连接的
L个风格融合模型块, 以及与所述L个风格融合模型块中, 排序末位的风格融合模型块连接权 利 要 求 书 1/4 页
2
CN 115082300 B
2的第一卷积采样子层, 所述风格融合模型块包括第一残差子层和第一归一化子层, 所述样
本风格特 征向量包括 顺序排列的L个;
将所述样本第 一编码信 息与所述样本第 二编码信 息的级联操作 结果, 以及所述样本风
格特征向量输入至所述 风格特征融合层, 输出 所述样本目标视频帧包括:
将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述顺序
连接的L个风格融合模型块中的第一个风格融合模型块的第一残差子层, 输出第一编码特
征;
按照L个所述样本风格特征向量的排列顺序与 所述风格模型融合模型连接顺序的对应
关系, 将每个所述风格融合模型块各自的第一残差子层输出 的第一编码特征, 以及与每个
所述风格融合模型块对应的样本风格特征向量, 输入至每个所述风格融合模型块各自的第
一归一化子层, 以便每 个所述第一归一 化子层各自输出归一 化第一编码特 征;
其中, L个所述第一归一化子层中, 除了排序末位的第 L第一归一化子层 之外, 每个所述
第一归一化子层各自输出第一归一化编 码特征, 输入至与每个所述第一归一化子层连接的
下一个第一残差 子层; 以及
将第L第一归一化子层输出的第一归一化编码特征输入至所述第一卷积采样子层, 输
出所述样本目标视频帧。
5.根据权利要求1所述的训练方法, 其特征在于, 所述样本第一视频帧集合包括R个空
视频帧, 所述样本源视频帧的数量包括 N个;
利用所述样本目标视频帧更新所述样本第 一视频帧集合, 得到更新后的样本第 二视频
帧集合包括: 利用重建后的样本目标视频帧替换所述样本第一视频帧集合中R个空视频帧
中的一个, 得到更新后的样本第二视频帧集 合;
利用所述新的样本目标视频帧更新所述样本第 二视频帧集合包括: 按照所述样本第 二
视频帧集合中的视频帧的时间属性, 利用所述初始图像生成器迭代输出的新的第二样本目
标视频帧, 迭代更新所述样 本第二视频帧集合, 得到更新后的新的样本第二视频帧集合, 直
至所述初始图像生成器迭代输出第N ‑1个新的第二样本目标视频帧;
其中, 所述样本目标视频帧序列包括所述重建后的样本目标视频帧, 以及所述初始图
像生成器迭代输出的N ‑1个第二样本目标视频帧。
6.根据权利要求1所述的训练方法, 其特征在于, 所述样本目标图像信息包括多个, 所
述特征嵌入器包括L个顺序连接的第一卷积子层, L个顺序连接的特征调制模型块, 以及连
接在每个特征调制模型块输出端的风格特征生成模型块, 所述特征调制模 型块包括第二卷
积子层和SFT子层;
利用特征嵌入器处理所述样本第 一关键点集合与 所述样本目标图像信 息, 得到样本风
格特征向量包括:
将多个所述样本目标图像信息进行拼接, 得到样本风格信息;
将所述样本风格信息输入至L个顺序连接的所述特征调制模型块, 以及将所述样本第
一关键点集合输入至L个顺序连接的所述第一卷积子层, 以便每个所述第一卷积子层各自
输出的第一图像特征, 和每个所述第二卷积子层各自输出 的第二图像特征, 输入至连接在
所述第二卷积子层输出端的SFT子层, 得到每 个所述SFT子层各自输出的调制特 征;
按照所述特征调制模型块的排列顺序, 将每个所述SFT子层各自输出的调制特征输入权 利 要 求 书 2/4 页
3
CN 115082300 B
3
专利 图像生成模型的训练方法、图像生成方法及装置
文档预览
中文文档
35 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:42上传分享