IJCAI2024: 基于集成网络的离线到在线强化学习

Source : mp.weixin.qq.com Author : AI

强化学习（Reinforcement Learning, RL）有两种基础的训练范式：在线强化学习（Online RL）和离线强化学习（Offline RL）。在线强化学习需要让智能体和环境进行交互，利用收集到的数据同步进行训练，但在环境中进行探索的开销很大；离线强化学习不需要和环境交互，直接利用已有的离线数据进行训练，但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。基于此，研究者提出了离线到在线强化学习（Offline-to-online RL）训练范式，先利用已有的离线数量训练得到离线策略，然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者，一方面通过收集少量的在线数据，能够突破离线数据的限制，更贴近实际场景；另一方面在线阶段的微调是以离线策略为起点，相比于从零开始的在线强化学习，只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题，一个是分布偏移引起的性能下降，就是如果直接将离线策略应用到在线环境进行微调，会在微调初期出现性能的急剧下降；另一个是在线优化效率，由于在线交互的开销很大，需要用尽可能少的交互次数实现尽可能大的性能提升

哔哩哔哩技术

View

254 Technology lddgo Shared on 2024-12-06

English