• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
logo Online Tools

IJCAI2024: 基于集成网络的离线到在线强化学习

Source : mp.weixin.qq.com Author : AI

强化学习(Reinforcement Learning, RL)有两种基础的训练范式:在线强化学习(Online RL)和离线强化学习(Offline RL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。 基于此,研究者提出了离线到在线强化学习(Offline-to-online RL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升

View 18 Technology lddgo Shared on 2024-12-06