(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211000551.9
(22)申请日 2022.08.19
(71)申请人 河北元识科技有限公司
地址 050000 河北省石家庄市高新区中山
东路856号科技中心 2号楼5层591
(72)发明人 李宁
(74)专利代理 机构 石家庄科途知识产权代理事
务所(普通 合伙) 13141
专利代理师 檀文礼
(51)Int.Cl.
H04N 5/222(2006.01)
G10L 13/02(2013.01)
G06T 19/20(2011.01)
G06T 17/00(2006.01)
G06F 16/36(2019.01)G06F 16/33(2019.01)
G06F 3/04815(2022.01)
(54)发明名称
一种AI演播室系统
(57)摘要
本发明公开了一种A I演播室系统, 该系统包
括: 服务端, 接收使用者上传的第三方实时数据
流; 服务端, 将第三方实时数据流中的视频流数
据, 广播至预先建立通讯连接的至少一个显示
端, 以在至少一个显示端对第三方 实时数据流中
的视频流数据进行显示; 服务端, 还对第三方实
时数据流中的文本数据, 采用虚拟数字人技术和
知识图谱技术进行处理后, 再通过通讯端口广播
至至少一个显示端, 以在至少一个显示端对基于
第三方实时数据流中的文本数据进行处理得到
的虚拟数字人和智 能媒体进行显示。 该方案, 通
过采用虚拟数字人技术和知识图谱技术, 构建三
维虚拟场景和三维虚拟AI形象角色, 降低了虚拟
视频内容的制作难度和制作成本 。
权利要求书2页 说明书10页 附图9页
CN 115442495 A
2022.12.06
CN 115442495 A
1.一种AI演播室系统, 其特征在于, 包括: 服务端; 所述服务端, 具有第 三方数据接口和
通讯端口; 其中,
所述服务端, 被配置为通过所述第三方数据接口, 接收使用者上传的第三方实时数据
流; 所述第三方实时数据流, 包括: 视频流数据和文本数据;
所述服务端, 被配置为通过所述通讯端口, 将所述第 三方实时数据流中的视频流数据,
广播至预先建立通讯连接的至少一个显示端, 以在所述至少一个显示端对 所述第三方实时
数据流中的视频流数据进行显示;
所述服务端, 还被配置为对所述第三方实时数据流中的文本数据, 采用虚拟数字人技
术和知识图谱技术进行处理后, 再通过所述通讯端口广播至所述至少一个显示端, 以在所
述至少一个显示端对基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字
人和智能媒体进行显示;
其中, 通过在所述至少一个显示端, 对所述第 三方实时数据流中的视频流数据的显示、
以及基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体的
显示, 实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示。
2.根据权利要求1所述的AI演播室系统, 其特征在于, 所述服务端, 包括: 接收单元、 处
理单元和广播单 元; 其中,
所述接收单元, 被配置为通过所述第三方数据接口, 接收使用者上传的第三方实时数
据流;
所述处理单元, 被配置为对所述第三方实时数据流中的文本数据, 采用虚拟数字人技
术和知识图谱技 术进行处 理;
所述广播单元, 被配置为通过所述通讯端口, 将所述第三方实时数据流中的视频流数
据, 广播至预 先建立通讯连接的至少一个显示端; 以及,
所述广播单元, 还被配置为通过所述通讯端口, 将基于所述第三方实时数据流中的文
本数据进 行处理得到的虚拟数字人数据和智能媒体数据, 广播至预先建立通讯连接的所述
至少一个显示端。
3.根据权利要求1或2所述的AI演播室系统, 其特征在于, 所述第三方实时数据流中的
文本数据的输入形式, 包括: 语音形式和文本形式 中的至少一种形式;
所述服务端, 对所述第三方实时数据流中的文本数据, 采用虚拟数字人技术和知识图
谱技术进行处 理, 包括:
在所述第三方实时数据流中的文本数据的输入形式为语音形式的情况下, 接收使用者
上传的语音数据, 再将所述语音数据转换为文本数据, 作为所述第三方实时数据流中的文
本数据;
采用虚拟数字人技术, 将所述第 三方实时数据流中的文本数据, 进行语音合成, 进行情
感判定, 并生成虚拟数字人的行为数据, 以利用所述虚拟数字人的行为数据, 驱动显示端的
虚拟AI角色模型按设定的AI演播场景进行显示;
采用知识图谱技术, 对所述第 三方实时数据流中的文本数据进行语义识别和知识图谱
数据库查询, 返回查询结果, 以在显示端以图、 文、 声、 像中的至少一种展示形式展现所述查
询结果。
4.根据权利 要求3所述的AI演播室系统, 其特征在于, 其中, 所述设定的AI演播场景, 包权 利 要 求 书 1/2 页
2
CN 115442495 A
2括: 虚拟实时演播场景、 AI智能问答场景、 视频内容 生成场景中的任一场景。
5.根据权利要求3所述的AI演播室系统, 其特征在于, 所述服务端, 采用虚拟数字人技
术, 将所述第三方实时数据流中的文本数据, 进行语音合成, 包括:
确定所述第三方实时数据流中的文本数据中的文本内容, 按预先训练得到的统计模
型, 基于所述文本内容按时间顺序产生语音参数, 再将所述语音参数转化为波 形, 得到由所
述文本内容 转化而来的语音内容, 作为语音数据。
6.根据权利要求3所述的AI演播室系统, 其特征在于, 所述服务端, 采用虚拟数字人技
术, 将所述第三方实时数据流中的文本数据, 进行情感判定, 包括:
确定所述第 三方实时数据流中的文本数据中的文本内容, 按预先训练得到的情感分析
模型, 对所述文本内容进行情感分析, 以确定所述文本内容所表达的情感是正向情感还是
负向情感, 作为情感数据。
7.根据权利要求3所述的AI演播室系统, 其特征在于, 所述服务端, 采用虚拟数字人技
术, 将所述第三方实时数据流中的文本数据, 进行语音合成, 进行情感判定, 生成虚拟数字
人的行为数据, 包括:
将所述第三方实时数据流中的文本数据, 进行语音合成得到语音数据, 进行情感判定
得到情感数据, 进而, 利用预先设置的虚拟数字人驱动模块, 基于所述语音数据和情感数据
中的至少之一, 生成AI虚拟角色模型的肢体行为、 口型、 表情中的至少之一, 作为虚拟数字
人的行为数据。
8.根据权利要求7所述的AI演播室系统, 其特征在于, 其中, 在所述虚拟数字人的行为
数据中, 无语音时AI虚拟角色模型的口型进入等待状态, 有语音时AI虚拟角色模型的口型
进入讲话状态, 有正向情感和/或负向情感时AI虚拟角色模型的肢体行为和表情进入对应
的肢体行为状态和表情状态。
9.根据权利要求3所述的AI演播室系统, 其特征在于, 所述服务端, 采用知识图谱技术,
对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询, 包括:
利用自然语言处理技术预先配置知识图谱, 对所述第 三方实时数据流中的文本数据进
行语义解析和语义转化后, 得到 关键词; 利用所述关键词查询所述知识图谱, 以得到查询结
果。权 利 要 求 书 2/2 页
3
CN 115442495 A
3
专利 一种AI演播室系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:44:09上传分享