(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210766715.2
(22)申请日 2022.07.01
(71)申请人 北京富通智康科技有限公司
地址 100193 北京市海淀区马连洼北路138
号院1号楼3层316 -16
(72)发明人 李瑞瑞 吴介桅 赵伟
(51)Int.Cl.
G06F 16/9032(2019.01)
G06T 7/00(2017.01)
G06T 7/11(2017.01)
G06V 10/26(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 30/18(2022.01)G06V 30/19(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种使用图像描述技术的智能对话机器人
方法及系统
(57)摘要
本发明公开了一种使用图像描述技术的智
能对话机器人方法及系统, 其特征在于, 包括:
S1: 获取图像和对应的描述句, 将图像划分不同
领域并编号; S2: 提取混淆矩阵; S3: 构建图像描
述模型; S4: 创建意图库; S5: 用户输入信息, 智能
对话机器人获取信息并判断类别; S6: 判断用户
与智能对话机器人是否存在会话记录; S7: 将图
片输入图像描 述模型, 获取图像描述; S8: 根据文
字与图像描述进行意图识别, 并联系会话记录确
定用户意图; S9: 根据用户意图在意图库中查找
响应; S10: 将所述响应返回给用户。 通过上述方
式, 能够使得智 能对话机器人提供服务时, 不仅
可以接受文字输入, 也可 以接受图像输入, 精确
的提取图像描述, 并做出对应的回答。
权利要求书3页 说明书9页 附图5页
CN 114996538 A
2022.09.02
CN 114996538 A
1.一种使用图像描述 技术的智能对话机器人 方法, 其特 征在于, 包括:
S1: 获取从互联网、 合作企业采集的图像以及每张图像对应的描述句, 并对所述图像划
分不同的领域, 形成领域信息并编号;
S2: 获取混淆矩阵提取模型, 用于提取提高图像描述精准度的混淆矩阵;
S3: 构建图像描述模型, 用于对图像进行图像描述;
S4: 创建意图库, 用于存放意 图以及所述意 图对应的响应, 所述响应包括: 图片、 文字、
视频和音频;
S5: 用户输入信息, 智能对话机器人获取所述信息, 并判断所述信息的类别; 若判断结
果为图片, 转S6, 若判断结果 为文字, 转S 8; 所述信息的类别包括: 文字、 图片;
S6: 判断用户与智能对话机器人是否存在会话记录; 若存在, 则确定会话记录意 图, 并
判断会话记录意图所在领域, 将领域信息传递给图像描述模型;
S7: 将所述图片输入所述图像描述模型, 获取 所述图片的图像描述;
S8: 根据所述文字与所述图片描述进行意图识别, 并联系所述会话记录确定用户意图,
其中, 若不存在会话记录, 则将意图识别结果 直接作为用户意图;
S9: 根据所述用户意图在意图库中查找与用户意图对应的响应;
S10: 将所述响应返回给用户。
2.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S1, 包括:
所述划分不同的领域, 按照领域从合作企业或互联网获取的图像, 避免同一领域出现
多个板块, 将获取 的图像传入数据接口, 对数据接口接 收到的图像再次进行更加精准的领
域划分, 形成更加精确的领域信息 。
3.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S2, 包括:
所述混淆矩阵提取模型, 采用了HRNet ‑OCR模型, 用于同时提取所述图像的全局像素特
征和区域像素 特征, 将两者进行 特征融合并输出 特征;
所述HRNet ‑OCR模型, 以High ‑Resolution Network为backbone, 加入一个Object
Contextual Representati on的分支;
所述混淆矩阵, 包括: 整个数据集的混淆矩阵、 不同领域数据集的混淆矩阵;
所述整个数据集的混淆矩阵, 是将整个数据集的图像逐张输入混淆矩阵提取模型, 对
输出的所有特 征进行求平均操作, 得到整个数据集的混淆矩阵并存 储;
所述不同领域数据集的混淆矩阵, 是将不同领域数据集中的图像逐张输入提取混淆矩
阵模型, 对输出的所有特 征进行求平均操作, 分别得到各 领域数据集的混淆矩阵并存 储。
4.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S3, 包括:
S31: 创建图像描述所用的单词表;
S32: 定义图像 类别, 以图像分割的形式对图像进行分割并标注, 得到图像标注文件;
S33: 对所述描述句进行 标注, 得到向量标注文件;
S34: 以图像编号为索引组合图像标注文件和向量标注文件形成数据集, 通过随机抽样
将数据集分成训练集与测试集;权 利 要 求 书 1/3 页
2
CN 114996538 A
2S35: 所述图像经过backbone提取特征, 将特征进行 图像分割, 并将图像分割结果与所
述图像标注文件进行比对, 利用交叉熵的方式计算得到图像分割损失函数;
S36: 对混淆矩阵加权, 使用加权后的混淆矩阵对所述图像分割结果进行因果干预;
S37: 因果干预的结果利用Top ‑Down LSTM和Language LSTM, 预测得到m个图像描述, 其
中, m≥1; 将m个图像描述与所述向量标注文件进行比对, 利用交叉熵计算得到图像描述损
失函数; 其中, 若m>1, 取l oss最小的图形描述 来计算得到图像描述损失函数;
S38: 使用训练集对所述图像描述模型进行训练; 使用测试集测试所述图像描述模型效
果, 得到测试集上损失函数值 最低的模型权 重作为图像描述模型参数。
5.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S31, 包括:
所述单词表, 是根据统计所述描述句, 记录描述句中的所有单词, 由1到k对每个单词进
行编号得到, 其中, 一个单词对应一个 类别。
6.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S32, 包括:
所述定义图像 类别, 是将所述图像根据不同领域分为 n类, 其中, n 为大于0的正整数;
所述以图像分割的形式对图像进行标注, 是将所述图像设置高宽分别为h和w像素, 通
道数为n+1的图像分割文件, 并用横纵坐标
表示所述图像的每一个像素点,
当该像素点属于第
类时, 则该像素点通道
取值为1, 否则取值为0, 其中,
, 由此得到
图像标注文件;
其中, 若该通道取值为1表示该像素属于上述n类的其中一类; 该通道取值为0则表示该
像素不属于上述 n类。
7.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S33, 包括:
所述向量标注文件, 以大小为j的向量的形式展现, 其中, j是所述描述句中最长描述句
的单词数量;
所述向量, 是通过所述描述句查询单词表得到; 从左往右取出描述句中的单词, 查询取
出的单词在单词表中的类别, 将类别号 填入向量对应位置, 单词数不满j的部分用0补齐。
8.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S35, 包括:
所述Backbone, 采用High ‑Resolution Network,用于同时提取所述图像的全局像素特
征和区域像素 特征。
9.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所
述S36, 包括:
所述对混淆矩阵加权, 是利用公式:
,
其中,
表示加权后的混淆矩阵,
表示整个 数据集上的混淆矩阵,
表示
其在第i个领域的数据集上混淆矩阵, a和
为权重参数, 其中, 参数需要满足
;
所述因果干预, 是将图像分割结果, 包括: 区域像素特征、 全局像素特征, 将两者进行特权 利 要 求 书 2/3 页
3
CN 114996538 A
3
专利 一种使用图像描述技术的智能对话机器人方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:48上传分享