Author: ninehills
Labels: blog
Created: 2025-01-29T04:48:48Z
Link and comments: #121
随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。 同时我个人尝试的结果也会更新上。
更新时间:2025.1.29
- 论文
- DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。
- Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。
- DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。
- GRPO 开源实现:主要是要支持 reward function。
- trl grpo trainer:TRL 的 GRPOTrainer 实现,目前尚未发版,需要安装 trl 的 main 分支。
- veRL:字节开源的 RL 实现,也支持 GRPO reward function。
- R1 复刻项目、数据集
- open-r1:**【重点】**包括数据合成、SFT、GRPO RL 的代码。
- TinyZero:在简单的类24点问题上复刻 R1 RL 范式。
- SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。
- HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
- simpleRL-reason:【重点】 在 8k MATH 数据集上复刻 R1-Zero 的范式
- open-r1-multimodal:R1 多模态的复刻项目
- open-thoughts:【重点】 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k dataset 和 OpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型
- R1-Distill-SFT:1.68M 条 R1 蒸馏数据集
- grpo_demo.py:【重点】 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。