自DeepSeek R1技术报告🐳开放以来,开源社区涌现了多种「复现」工作。本R1复现笔记旨在以多个开源项目的再复现以及交叉验证为目标,探索R1/R1-zero中强化学习步骤带来的模型效果提升,并尝试展望R1技术在未来模型训练与业务落地上的前景