DeepSeek R1 阅读清单

Author: ninehills
Labels: blog
Created: 2025-01-29T04:48:48Z
Link and comments: #121

随着 DeepSeek R1 的发布，如果想复刻 R1 或者在某个领域实践 RFT（Reinforcement Fine-Tuning），可以看看我整理的清单，会持续更新。同时我个人尝试的结果也会更新上。

更新时间：2025.1.29

论文
- DeepSeek R1：DeepSeek R1 本体论文，写的引人入胜。
- Kimi K1.5：Kimi K1.5 推理模型的思路和 R1 类似，在数据和奖励函数上有更多的细节。
- DeepSeek Math：GRPO 算法的提出，GRPO 相比于 PPO 节约了 Value Model，从而降低了训练的显存要求。
GRPO 开源实现：主要是要支持 reward function。
- trl grpo trainer：TRL 的 GRPOTrainer 实现，目前尚未发版，需要安装 trl 的 main 分支。
- veRL：字节开源的 RL 实现，也支持 GRPO reward function。
R1 复刻项目、数据集
- open-r1：**【重点】**包括数据合成、SFT、GRPO RL 的代码。
- TinyZero：在简单的类24点问题上复刻 R1 RL 范式。
- SkyT1：蒸馏的 QwQ 的数据实现的 o1-like 模型。
- HuatuoGPT-o1：医学领域复刻 o1（开放代码、数据、论文和模型），但是用的还是 reward model，效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
- simpleRL-reason：【重点】 在 8k MATH 数据集上复刻 R1-Zero 的范式
- open-r1-multimodal：R1 多模态的复刻项目
- open-thoughts：【重点】 最成熟的 R1 复刻项目，已经发布了 Bespoke-Stratos-17k dataset 和 OpenThoughts-114k dataset 项目，仅经过 SFT 即可以逼近 R1-distill 模型
- R1-Distill-SFT：1.68M 条 R1 蒸馏数据集
- grpo_demo.py：【重点】 基于 0.5B 模型的 RL demo，可以用来学习怎么训练。

Provide feedback