最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

Source : mp.weixin.qq.com Author : 字节跳动技术团队

强化学习（RL）对大模型复杂推理能力提升有关键作用，然而，RL 复杂的计算流程以及现有系统局限性，也给训练和部署带来了挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow（开源项目名：veRL），一个灵活且高效的 RL/RLHF 框架。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种RL算法，显著提升训练吞吐量，降低开发和维护复杂度。实验结果表明，HybridFlow 在运行各种 RL(HF) 算法时，吞吐量相较 SOTA 基线提升了 1.5-20 倍。