• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

IJCAI2024: 基于集成网络的离线到在线强化学习

出处: mp.weixin.qq.com 作者: AI

强化学习(Reinforcement Learning, RL)有两种基础的训练范式:在线强化学习(Online RL)和离线强化学习(Offline RL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。 基于此,研究者提出了离线到在线强化学习(Offline-to-online RL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升

查看原文 84 技术 lddgo 分享于 2024-12-06