专利 视频生成方法、装置、设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210997751.X (22)申请日 2022.08.19 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人梁嘉兴　郭子淳　张铭　曹彬　 (74)专利代理机构北京品源专利代理有限公司 11332 专利代理师高艳红 (51)Int.Cl. G06T 13/20(2011.01) G06T 13/40(2011.01) G06T 17/00(2006.01) G06V 40/20(2022.01) H04N 5/265(2006.01)H04N 5/278(2006.01) H04N 5/76(2006.01) (54)发明名称视频生成方法、装置、设备以及存储介质 (57)摘要本公开提供了视频生成方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及数字人技术、以及视频处理技术等领域。具体实现方案为：获取预设脚本信息，其中，预设脚本信息中包含数字人的动作信息和台词信息，根据动作信息控制预设数字人展示相应的动作，以及根据台词信息控制预设数字人口述相应的台词，并在控制预设数字人的过程中进行视频录制，以生成数字人视频。本公开可提高包含数字人的视频的制作效率，缩短制作周期。权利要求书3页说明书11页附图6页 CN 115393477 A 2022.11.25 CN 115393477 A 1.一种视频生成方法，包括：获取预设脚本信息，其中，所述预设脚本信息中包含数字人的动作信息和台词信息；根据所述动作信息控制预设数字人展示相应的动作，以及根据所述台词信息控制所述预设数字人口述相应的台词，并在控制所述预设数字人的过程中进行视频录制，以生成数字人视频。 2.根据权利要求1所述的方法，在生成数字人视频之后，还包括：利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，以生成目标视频。 3.根据权利要求2所述的方法，还包括：在视频录制过程中，记录所述预设数字人口述每句台词的起始时间戳和结束时间戳，以生成字幕文件；其中，所述利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，以生成目标视频，包括：利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，得到无字幕视频；根据所述字幕文件在所述无字幕视频中添加字幕信息，以生成目标视频。 4.根据权利要求1所述的方法，还包括：在三维图像处理引擎的运行环境中展示所述预设数字人；其中，所述根据所述动作信息控制预设数字人展示相应的动作，以及根据所述台词信息控制所述预设数字人口述相应的台词，包括：在所述运行环境中，根据所述动作信息控制预设数字人展示相应的动作，以及根据所述台词信息控制所述预设数字人口述相应的台词。 5.根据权利要求4所述的方法，在三维图像处理引擎的运行环境中展示所述预设数字人之后，还包括：响应于用户的物料输入操作，确定目标物料名称；基于预设映射关系，确定所述目标物料名称对应的目标物料资源，其中，所述预设映射关系中包括物料名称和物料资源的对应关系；将所述目标物料资源关联至所述预设数字人上，并在所述运行环境中展示关联结果。 6.根据权利要求1所述的方法，在所述获取预设脚本信息之前，还包括：响应于用户的录制参数设置操作，对相应的录制参数进行设置，其中，所述录制参数包括码率和/或所述预设数字人的语速。 7.根据权利要求2所述的方法，其中，利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，包括：获取预设配置信息，其中，所述预设配置信息中包括预设素材资源的插入时间和/或插入位置；利用预设视频模板，按照所述插入时间和/或所述插入位置，对预设素材资源和所述数字人视频进行融合处理。 8.根据权利要求2 ‑7任一所述的方法，其中，所述预设素材资源包括背景图、插图和待插入视频中的至少一项。权　利　要　求　书 1/3 页 2 CN 115393477 A 29.一种视频生成装置，包括：脚本信息获取模块，用于获取预设脚本信息，其中，所述预设脚本信息中包含数字人的动作信息和台词信息；视频录制模块，用于根据所述动作信息控制预设数字人展示相应的动作，以及根据所述台词信息控制所述预设数字人口述相应的台词，并在控制所述预设数字人的过程中进行视频录制，以生成数字人视频。 10.根据权利要求9所述的装置，还包括：视频融合模块，用于在生成数字人视频之后，利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，以生成目标视频。 11.根据权利要求10所述的装置，还包括：字幕文件生成模块，用于在视频录制过程中，记录所述预设数字人口述每句台词的起始时间戳和结束时间戳，以生成字幕文件；其中，所述视频融合模块，包括：视频融合单元，用于利用预设视频模板，对预设素材资源和所述数字人视频进行融合处理，得到无字幕视频；字幕添加单元，用于根据所述字幕文件在所述无字幕视频中添加字幕信息，以生成目标视频。 12.根据权利要求9所述的装置，还包括：数字人展示模块，用于在三维图像处理引擎的运行环境中展示所述预设数字人；其中，视频录制模块包括：数字人控制单元，用于在所述运行环境中，根据所述动作信息控制预设数字人展示相应的动作，以及根据所述台词信息控制所述预设数字人口述相应的台词；视频录制单元，用于在控制所述预设数字人的过程中进行视频录制，以生成数字人视频。 13.根据权利要求12所述的装置，还包括：物料确定模块，用于在三维图像处理引擎的运行环境中展示所述预设数字人之后，响应于用户的物料输入操作，确定目标物料名称；物料资源确定模块，用于基于预设映射关系，确定所述目标物料名称对应的目标物料资源，其中，所述预设映射关系中包括物料名称和物料资源的对应关系；物料关联模块，用于将所述目标物料资源关联至所述预设数字人上，并在所述运行环境中展示关联结果。 14.根据权利要求9所述的装置，还包括：录制参数设置模块，用于在所述获取预设脚本信息之前，响应于用户的录制参数设置操作，对相应的录制参数进行设置，其中，所述录制参数包括码率和/或所述预设数字人的语速。 15.根据权利要求10所述的装置，其中，所述视频融合模块包括：配置信息获取单元，用于获取预设配置信息，其中，所述预设配置信息中包括预设素材资源的插入时间和/或插入位置；素材插入单元，用于按照所述插入时间和/或所述插入位置，将所述预设素材资源插入权　利　要　求　书 2/3 页 3 CN 115393477 A 3

专利 视频生成方法、装置、设备以及存储介质

专利视频生成方法、装置、设备以及存储介质