说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210766715.2 (22)申请日 2022.07.01 (71)申请人 北京富通智康科技有限公司 地址 100193 北京市海淀区马连洼北路138 号院1号楼3层316 -16 (72)发明人 李瑞瑞 吴介桅 赵伟  (51)Int.Cl. G06F 16/9032(2019.01) G06T 7/00(2017.01) G06T 7/11(2017.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 30/18(2022.01)G06V 30/19(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种使用图像描述技术的智能对话机器人 方法及系统 (57)摘要 本发明公开了一种使用图像描述技术的智 能对话机器人方法及系统, 其特征在于, 包括: S1: 获取图像和对应的描述句, 将图像划分不同 领域并编号; S2: 提取混淆矩阵; S3: 构建图像描 述模型; S4: 创建意图库; S5: 用户输入信息, 智能 对话机器人获取信息并判断类别; S6: 判断用户 与智能对话机器人是否存在会话记录; S7: 将图 片输入图像描 述模型, 获取图像描述; S8: 根据文 字与图像描述进行意图识别, 并联系会话记录确 定用户意图; S9: 根据用户意图在意图库中查找 响应; S10: 将所述响应返回给用户。 通过上述方 式, 能够使得智 能对话机器人提供服务时, 不仅 可以接受文字输入, 也可 以接受图像输入, 精确 的提取图像描述, 并做出对应的回答。 权利要求书3页 说明书9页 附图5页 CN 114996538 A 2022.09.02 CN 114996538 A 1.一种使用图像描述 技术的智能对话机器人 方法, 其特 征在于, 包括: S1: 获取从互联网、 合作企业采集的图像以及每张图像对应的描述句, 并对所述图像划 分不同的领域, 形成领域信息并编号; S2: 获取混淆矩阵提取模型, 用于提取提高图像描述精准度的混淆矩阵; S3: 构建图像描述模型, 用于对图像进行图像描述; S4: 创建意图库, 用于存放意 图以及所述意 图对应的响应, 所述响应包括: 图片、 文字、 视频和音频; S5: 用户输入信息, 智能对话机器人获取所述信息, 并判断所述信息的类别; 若判断结 果为图片, 转S6, 若判断结果 为文字, 转S 8; 所述信息的类别包括: 文字、 图片; S6: 判断用户与智能对话机器人是否存在会话记录; 若存在, 则确定会话记录意 图, 并 判断会话记录意图所在领域, 将领域信息传递给图像描述模型; S7: 将所述图片输入所述图像描述模型, 获取 所述图片的图像描述; S8: 根据所述文字与所述图片描述进行意图识别, 并联系所述会话记录确定用户意图, 其中, 若不存在会话记录, 则将意图识别结果 直接作为用户意图; S9: 根据所述用户意图在意图库中查找与用户意图对应的响应; S10: 将所述响应返回给用户。 2.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S1, 包括: 所述划分不同的领域, 按照领域从合作企业或互联网获取的图像, 避免同一领域出现 多个板块, 将获取 的图像传入数据接口, 对数据接口接 收到的图像再次进行更加精准的领 域划分, 形成更加精确的领域信息 。 3.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S2, 包括: 所述混淆矩阵提取模型, 采用了HRNet ‑OCR模型, 用于同时提取所述图像的全局像素特 征和区域像素 特征, 将两者进行 特征融合并输出 特征; 所述HRNet ‑OCR模型, 以High ‑Resolution  Network为backbone, 加入一个Object   Contextual Representati on的分支; 所述混淆矩阵, 包括: 整个数据集的混淆矩阵、 不同领域数据集的混淆矩阵; 所述整个数据集的混淆矩阵, 是将整个数据集的图像逐张输入混淆矩阵提取模型, 对 输出的所有特 征进行求平均操作, 得到整个数据集的混淆矩阵并存 储; 所述不同领域数据集的混淆矩阵, 是将不同领域数据集中的图像逐张输入提取混淆矩 阵模型, 对输出的所有特 征进行求平均操作, 分别得到各 领域数据集的混淆矩阵并存 储。 4.如权利要求1所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S3, 包括: S31: 创建图像描述所用的单词表; S32: 定义图像 类别, 以图像分割的形式对图像进行分割并标注, 得到图像标注文件; S33: 对所述描述句进行 标注, 得到向量标注文件; S34: 以图像编号为索引组合图像标注文件和向量标注文件形成数据集, 通过随机抽样 将数据集分成训练集与测试集;权 利 要 求 书 1/3 页 2 CN 114996538 A 2S35: 所述图像经过backbone提取特征, 将特征进行 图像分割, 并将图像分割结果与所 述图像标注文件进行比对, 利用交叉熵的方式计算得到图像分割损失函数; S36: 对混淆矩阵加权, 使用加权后的混淆矩阵对所述图像分割结果进行因果干预; S37: 因果干预的结果利用Top ‑Down LSTM和Language  LSTM, 预测得到m个图像描述, 其 中, m≥1; 将m个图像描述与所述向量标注文件进行比对, 利用交叉熵计算得到图像描述损 失函数; 其中, 若m>1, 取l oss最小的图形描述 来计算得到图像描述损失函数; S38: 使用训练集对所述图像描述模型进行训练; 使用测试集测试所述图像描述模型效 果, 得到测试集上损失函数值 最低的模型权 重作为图像描述模型参数。 5.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S31, 包括: 所述单词表, 是根据统计所述描述句, 记录描述句中的所有单词, 由1到k对每个单词进 行编号得到, 其中, 一个单词对应一个 类别。 6.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S32, 包括: 所述定义图像 类别, 是将所述图像根据不同领域分为 n类, 其中, n 为大于0的正整数; 所述以图像分割的形式对图像进行标注, 是将所述图像设置高宽分别为h和w像素, 通 道数为n+1的图像分割文件, 并用横纵坐标 表示所述图像的每一个像素点, 当该像素点属于第 类时, 则该像素点通道 取值为1, 否则取值为0, 其中, , 由此得到 图像标注文件; 其中, 若该通道取值为1表示该像素属于上述n类的其中一类; 该通道取值为0则表示该 像素不属于上述 n类。 7.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S33, 包括: 所述向量标注文件, 以大小为j的向量的形式展现, 其中, j是所述描述句中最长描述句 的单词数量; 所述向量, 是通过所述描述句查询单词表得到; 从左往右取出描述句中的单词, 查询取 出的单词在单词表中的类别, 将类别号 填入向量对应位置, 单词数不满j的部分用0补齐。 8.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S35, 包括: 所述Backbone, 采用High ‑Resolution  Network,用于同时提取所述图像的全局像素特 征和区域像素 特征。 9.如权利要求4所述的一种 使用图像描述技术的智能对话机器人方法, 其特征在于, 所 述S36, 包括: 所述对混淆矩阵加权, 是利用公式: , 其中, 表示加权后的混淆矩阵, 表示整个 数据集上的混淆矩阵, 表示 其在第i个领域的数据集上混淆矩阵, a和 为权重参数, 其中, 参数需要满足 ; 所述因果干预, 是将图像分割结果, 包括: 区域像素特征、 全局像素特征, 将两者进行特权 利 要 求 书 2/3 页 3 CN 114996538 A 3

PDF文档 专利 一种使用图像描述技术的智能对话机器人方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种使用图像描述技术的智能对话机器人方法及系统 第 1 页 专利 一种使用图像描述技术的智能对话机器人方法及系统 第 2 页 专利 一种使用图像描述技术的智能对话机器人方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。