专利 一种AI演播室系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211000551.9 (22)申请日 2022.08.19 (71)申请人河北元识科技有限公司地址 050000 河北省石家庄市高新区中山东路856号科技中心 2号楼5层591 (72)发明人李宁　 (74)专利代理机构石家庄科途知识产权代理事务所(普通合伙) 13141 专利代理师檀文礼 (51)Int.Cl. H04N 5/222(2006.01) G10L 13/02(2013.01) G06T 19/20(2011.01) G06T 17/00(2006.01) G06F 16/36(2019.01)G06F 16/33(2019.01) G06F 3/04815(2022.01) (54)发明名称一种AI演播室系统 (57)摘要本发明公开了一种A I演播室系统，该系统包括：服务端，接收使用者上传的第三方实时数据流；服务端，将第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在至少一个显示端对第三方实时数据流中的视频流数据进行显示；服务端，还对第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过通讯端口广播至至少一个显示端，以在至少一个显示端对基于第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示。该方案，通过采用虚拟数字人技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，降低了虚拟视频内容的制作难度和制作成本。权利要求书2页说明书10页附图9页 CN 115442495 A 2022.12.06 CN 115442495 A 1.一种AI演播室系统，其特征在于，包括：服务端；所述服务端，具有第三方数据接口和通讯端口；其中，所述服务端，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；所述第三方实时数据流，包括：视频流数据和文本数据；所述服务端，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在所述至少一个显示端对所述第三方实时数据流中的视频流数据进行显示；所述服务端，还被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过所述通讯端口广播至所述至少一个显示端，以在所述至少一个显示端对基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示；其中，通过在所述至少一个显示端，对所述第三方实时数据流中的视频流数据的显示、以及基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体的显示，实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示。 2.根据权利要求1所述的AI演播室系统，其特征在于，所述服务端，包括：接收单元、处理单元和广播单元；其中，所述接收单元，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；所述处理单元，被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理；所述广播单元，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端；以及，所述广播单元，还被配置为通过所述通讯端口，将基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人数据和智能媒体数据，广播至预先建立通讯连接的所述至少一个显示端。 3.根据权利要求1或2所述的AI演播室系统，其特征在于，所述第三方实时数据流中的文本数据的输入形式，包括：语音形式和文本形式中的至少一种形式；所述服务端，对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理，包括：在所述第三方实时数据流中的文本数据的输入形式为语音形式的情况下，接收使用者上传的语音数据，再将所述语音数据转换为文本数据，作为所述第三方实时数据流中的文本数据；采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，并生成虚拟数字人的行为数据，以利用所述虚拟数字人的行为数据，驱动显示端的虚拟AI角色模型按设定的AI演播场景进行显示；采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，返回查询结果，以在显示端以图、文、声、像中的至少一种展示形式展现所述查询结果。 4.根据权利要求3所述的AI演播室系统，其特征在于，其中，所述设定的AI演播场景，包权　利　要　求　书 1/2 页 2 CN 115442495 A 2括：虚拟实时演播场景、 AI智能问答场景、视频内容生成场景中的任一场景。 5.根据权利要求3所述的AI演播室系统，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，包括：确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的统计模型，基于所述文本内容按时间顺序产生语音参数，再将所述语音参数转化为波形，得到由所述文本内容转化而来的语音内容，作为语音数据。 6.根据权利要求3所述的AI演播室系统，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行情感判定，包括：确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的情感分析模型，对所述文本内容进行情感分析，以确定所述文本内容所表达的情感是正向情感还是负向情感，作为情感数据。 7.根据权利要求3所述的AI演播室系统，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，生成虚拟数字人的行为数据，包括：将所述第三方实时数据流中的文本数据，进行语音合成得到语音数据，进行情感判定得到情感数据，进而，利用预先设置的虚拟数字人驱动模块，基于所述语音数据和情感数据中的至少之一，生成AI虚拟角色模型的肢体行为、口型、表情中的至少之一，作为虚拟数字人的行为数据。 8.根据权利要求7所述的AI演播室系统，其特征在于，其中，在所述虚拟数字人的行为数据中，无语音时AI虚拟角色模型的口型进入等待状态，有语音时AI虚拟角色模型的口型进入讲话状态，有正向情感和/或负向情感时AI虚拟角色模型的肢体行为和表情进入对应的肢体行为状态和表情状态。 9.根据权利要求3所述的AI演播室系统，其特征在于，所述服务端，采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，包括：利用自然语言处理技术预先配置知识图谱，对所述第三方实时数据流中的文本数据进行语义解析和语义转化后，得到关键词；利用所述关键词查询所述知识图谱，以得到查询结果。权　利　要　求　书 2/2 页 3 CN 115442495 A 3

专利 一种AI演播室系统

专利一种AI演播室系统