(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210716213.9
(22)申请日 2022.06.22
(71)申请人 清华大学
地址 100084 北京市海淀区双清路3 0号清
华大学清华园北京 100084-82信箱
(72)发明人 詹仙园 牛浩懿 胡坚明
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 王文君
(51)Int.Cl.
G06F 30/20(2020.01)
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
G06F 119/14(2020.01)
(54)发明名称
针对仿真动力学偏差的决策方法及装置
(57)摘要
本发明实施例提供一种针对仿真动力学偏
差的决策方法及装置, 其中方法包括: 获取待决
策对象的状态数据; 将所述状态数据输入至决策
模型, 获得所述决策模型输 出的决策结果; 其中,
所述决策模型是基于针对仿真动力学偏差的离
线在线混合强化学习构建的, 所述决策模型是基
于混合样 本训练得到的, 所述混合样本包括离线
真实样本和在线仿真样本。 本发 明实施例提供的
针对仿真动力学偏差的决策方法及装置, 通过针
对仿真动力学偏差的离线在 线混合强化学习, 结
合离线真实样本和在线仿真样 本, 缩小动力学偏
差对训练的影 响, 使得仿真得到的决策结果可以
直接应用于真实世界中, 提高了决策的准确度。
权利要求书3页 说明书15页 附图1页
CN 115130295 A
2022.09.30
CN 115130295 A
1.一种针对仿真动力学偏差的决策 方法, 其特 征在于, 包括:
获取待决策对象的状态数据;
将所述状态数据输入至决策模型, 获得 所述决策模型输出的决策 结果;
其中, 所述决策模型是基于针对仿真动力学偏差的离线在线混合强化学习构建的, 所
述决策模型是基于混合样本训练得到的, 所述混合样本包括离线真实样本和在线仿真样
本。
2.根据权利要求1所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述决策模型
包括动作网络和评价网络;
所述决策模型 是基于如下训练步骤获得的:
获取所述混合样本, 所述混合样本包括当前状态、 动作数据、 下一时刻状态和价 值;
基于所述混合样本更新所述决策模型的模型参数;
当前所述混合样本的获取步骤 包括:
将预先获取的所述当前状态输入至所述动作网络, 获得所述动作网络输出的所述动作
数据;
基于所述动作数据获得 所述下一时刻状态;
将状态‑动作对输入至所述评价网络, 所述评价网络基于仿真动力学偏差对所述状态 ‑
动作对进 行价值评价, 获得所述评价网络输出的价值, 所述状态 ‑动作对包括所述当前状态
和所述动作数据。
3.根据权利要求2所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述评价网络
基于仿真动力学偏差对所述状态 ‑动作对进行价 值评价包括:
所述评价网络基于仿真动力学偏差对所述状态 ‑动作对进行区分, 获得区分结果, 所述
区分结果包括真实样本和偏差样本;
所述评价网络基于所述区分结果, 对所述状态 ‑动作对进行价 值修正, 包括:
所述评价网络降低对所述偏差样本的价 值评价;
所述评价网络提高对所述真实样本的价 值评价。
4.根据权利要求3所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述评价网络
对所述状态 ‑动作对进行价 值修正, 包括:
所述评价网络基于价 值正则项对所述状态 ‑动作对进行价 值修正。
5.根据权利要求4所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述评价网络
基于价值正则项对所述状态 ‑动作对进行价 值修正, 包括:
所述评价网络基于预设第一策略评价公式对所述状态 ‑动作对进行价 值修正;
所述预设第一策略评价公式为:
其中,
或
表示待定的状态动作分布, s表示 当前状态, a表示动作数据, (s,a)
表示状态 ‑动作对, β 表示价值正则项的尺度系数,
表示求期望 的运算操作, π表示当前策权 利 要 求 书 1/3 页
2
CN 115130295 A
2略,
表示用于求出
闭式解的正则项, Q表示状态 ‑动作价值函数,
表示贝尔曼估计算
子,
表示用于拟合状态 ‑动作价值函数 的评价网络,
代表离线真实数据集, 所述离线真
实数据集由所述离线真实样本构成,
表示贝尔曼损失函数。
6.根据权利要求4所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述评价网络
基于价值正则项对所述状态 ‑动作对进行价 值修正, 包括:
所述评价网络基于预设第二策略评价公式对所述状态 ‑动作对进行价 值修正;
所述预设第二策略评价公式为:
其中, β 表示价值正则 项的尺度系数, s表示当前状态, a表示动作数据, (s,a)表示状态 ‑
动作对, ω(s,a)表示仿 真动力学偏 差的分布系数, 所述仿 真动力学偏差的分布系数用于描
述所述状态 ‑动作对所对应的动力学偏差分布, exp表示指数函数,
表示求期望的运算操
作, π表示当前策略,
表示用于求出
闭式解的正则项, Q表示状态 ‑动作价值函数,
表
示贝尔曼估计算子,
表示用于拟合状态 ‑动作价值函数的评价 网络,
代表离线真实数据
集, 所述离线真实数据集由所述离线真实样本构成,
表示贝尔曼损失函数。
7.根据权利要求6所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述仿真动力
学偏差的分布系数ω(s,a)的定义 为:
其中, s表示当前状态, a表示动作数据, (s,a)表示状态 ‑动作对,
表示求期望的运算操
作, s′表示下一时刻状态, P表示动力学转移概率, M表示描述真实世界的马尔 可夫过程,
表示描述仿真环境的马尔可夫过程, log表示对数函数, Dsas(s,a,s′)表示数据(s,a,s ′)来
自真实世界的概 率, Dsa(s,a)表示数据(s,a)来自真实世界的概 率。
8.根据权利要求5或6所述的针对仿真动力学偏差的决策方法, 其特征在于, 所述贝尔
曼损失函数
为:
其中, E表示贝尔曼损失函数, Q表示状态 ‑动作价值函数,
表示贝尔曼估计算子,
表示用于拟合状态 ‑动作价值函数的评价网络, f表示每个真实仿 真混合训练批次中真实数
据的占比, s表 示当前状态, a表 示动作数据, s ′表示下一时刻状态, P表 示动力学转移概率, M
表示描述真实世界的马尔可夫过程,
表示描述仿真环境的马尔可夫过程,
表示求期望权 利 要 求 书 2/3 页
3
CN 115130295 A
3
专利 针对仿真动力学偏差的决策方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:36:47上传分享