说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210289264.8 (22)申请日 2022.03.23 (71)申请人 讯飞智元信息科技有限公司 地址 230088 安徽省合肥市高新区望江西 路666号讯飞大厦8层-10层 (72)发明人 张友国 贾若然 谭昶 吕军 胡少云 冯翔 刘江 姜殿洪 宋薇薇 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 侯珊 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 增加训练数据的方法、 相关设备及可读存储 介质 (57)摘要 本申请公开了一种增加训练数据的方法、 相 关设备及可读存储介质。 本方案中, 利用训练数 据集对第一模型进行训练, 得到第二模型; 确定 第二模型对训练数据集中各训练数据的预测结 果; 确定训练数据集中与预测结果为错误的训练 数据相似的训练数据作为要增加的训练数据, 将 其添加至训练数据集中, 生成新的训练数据集。 由于模型对预测结果为正确的训练数据对应情 形的特征学习的较好, 对预测结果为错误的训练 数据对应情形的特征学习不够, 因此, 在本申请 中从候选数据集中确定与预测结果为错误的数 据相似的候选数据作为要增加的训练数据, 能够 准确覆盖模 型学习较差的情形, 使得深度学习模 型能够快速 达到较好的效果。 权利要求书2页 说明书9页 附图3页 CN 114757263 A 2022.07.15 CN 114757263 A 1.一种增 加训练数据的方法, 其特 征在于, 所述方法包括: 获取训练数据集、 第一模型和候选数据集; 利用所述训练数据集对所述第一模型进行训练, 得到第二模型; 将所述训练数据集中的各训练数据输入所述第 二模型, 得到所述第 二模型对所述训练 数据集中各训练数据的预测结果; 基于所述第 二模型对所述训练数据集中各训练数据的预测结果, 从所述候选数据集中 确定要增 加的训练数据; 所述要增 加的训练数据与预测结果 为错误的训练数据相似; 将所述要增 加的训练数据添加至所述训练数据集中, 生成新的训练数据集。 2.根据权利要求1所述的方法, 所述基于所述第二模型对所述训练数据集中各训练数 据的预测结果, 从所述 候选数据集中确定要增 加的训练数据, 包括: 对所述训练数据集进行聚类, 得到多个类以及每个类的聚类中心和聚类半径; 每个类 对应至少一个训练数据; 从各个类中确定正类, 所述正类对应的训练数据中, 预测结果为正确的训练数据所占 比例满足预设条件; 针对所述候选数据集中的每个候选数据, 计算所述候选数据与每个正类的聚类中心的 距离; 基于所述候选数据与各个正类的聚类中心的距离, 和, 各个正类的聚类半径, 确定所 述候选数据是否与预测结果为错误的训练数据相似; 如果所述候选数据与预测结果为错误 的训练数据相似, 则将所述 候选数据确定为要增 加的训练数据。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述训练数据集进行聚类, 得到多 个类以及每 个类的聚类中心和聚类半径, 包括: 确定所述训练数据集中各训练数据的特 征表示; 基于所述训练数据集中各训练数据的特征表示, 对所述训练数据集进行聚类, 得到多 个类以及每 个类的聚类中心和聚类半径。 4.根据权利要求3所述的方法, 其特征在于, 所述确定所述训练数据集中各训练数据的 特征表示, 包括: 将所述训练数据集中各训练数据输入所述第 二模型, 所述第 二模型输出所述训练数据 集中各训练数据的特 征表示。 5.根据权利要求2所述的方法, 其特征在于, 计算所述候选数据与每个正类的聚类 中心 的距离, 包括: 确定所述 候选数据集中各个候选数据的特 征表示; 计算所述候选数据的特征表示与每个正类的聚类中心的距离, 作为所述候选数据与每 个正类的聚类中心的距离 。 6.根据权利要求5所述的方法, 其特征在于, 所述确定所述候选数据集中各个候选数据 的特征表示, 包括: 将所述候选数据集中各个候选数据输入所述第 二模型, 所述第 二模型输出所述候选数 据集中各个候选数据的特 征表示。 7.根据权利要求2所述的方法, 其特征在于, 所述基于所述候选数据与 各个正类的聚类 中心的距离, 和, 各个正类的聚类 半径, 确定所述候选数据是否与预测结果为错误的训练数 据相似, 包括:权 利 要 求 书 1/2 页 2 CN 114757263 A 2针对每个正类, 判断所述候选数据与所述正类的聚类中心的距离是否小于预设倍数的 所述正类的聚类半径; 如果不存在候选数据与正类的聚类中心的距离小于预设倍数的聚类半径的正类, 则确 定所述候选数据与预测结果 为错误的训练数据相似。 8.一种增 加训练数据的装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取训练数据集、 第一模型和候选数据集; 训练单元, 用于利用所述训练数据集对所述第一模型进行训练, 得到第二模型; 预测结果确定单元, 用于将所述训练数据集中的各训练数据输入所述第二模型, 得到 所述第二模型对所述训练数据集中各训练数据的预测结果; 要增加的训练数据确定单元, 用于基于所述第 二模型对所述训练数据集中各训练数据 的预测结果, 从所述候选数据集中确定要增加的训练数据; 所述要增加的训练数据与预测 结果为错误的训练数据相似; 训练数据增加单元, 用于将所述要增加的训练数据添加至所述训练数据集中, 生成新 的训练数据集。 9.一种增 加训练数据的设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1至7中任一项所述的增加训练数据 的方法的各个步骤。 10.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时, 实现如权利要求1至7中任一项所述的增 加训练数据的方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 114757263 A 3
专利 增加训练数据的方法、相关设备及可读存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:36:35
上传分享
举报
下载
原文档
(692.4 KB)
分享
友情链接
数字安全产业大数据白皮书(2022年).pdf
NY-T 3223-2018 日光温室设计规范.pdf
SN-T 0987.2-2014 出口危险货物中型散装货物包装容器检验规程 第2部分:使用鉴定.pdf
T-CHIDA 203.3—2021 内河湖库环保疏浚污染土分类分级标准.pdf
CY-T 101.8-2014 新闻出版内容资源加工规范 第8部分%3A图书加工.pdf
GB-T 41554-2022 地理空间观测平台及传感器资源元数据.pdf
360 企业个人信息合规思路与实践报告 2021.pdf
DB5101-T 117—2021 医药化工企业安全管理规范 成都市.pdf
医院信息化整体解决方案.pdf
NB-T 10882—2021 梯级水库群安全风险防控导则.pdf
SN-T 2770-2011 国境口岸军团菌荧光PCR检测方法.pdf
GB-T 16902.5-2017 设备用图形符号表示规则 第5部分:图标的设计指南.pdf
360 新一代XDR-面向未来的数字安全防御架构.pdf
GB-T 15919-2010 海洋学术语 海洋生物学.pdf
DB3301-T 0213-2018 城市道路防沉降检查井盖和雨水口技术管理规范 杭州市.pdf
京东 何永成 京东模块化运维体系建设.pdf
T ZJHIA XX-2014 医疗健康数据分类分级规范.pdf
CSA 企业数据安全风险管理指南.pdf
DB50-T 1275.1-2022 生猪智慧养殖数字化应用与管理 第1部分:总则 重庆市.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(692.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。