huggingface 开源的 DeepSeek-R1 复现
复现步骤:
代码结构:
src/open_r1 文件夹:包含用于训练和评估模型以及生成合成数据的脚本。
grpo.py
负责运用 GRPO 算法在特定数据集上训练模型;sft.py
用于执行模型的监督微调(SFT);evaluate.py
对模型进行 R1 基准测试评估;generate.py
借助 Distilabel 从模型生成合成数据 。开发:
vllm *
uv venv openr1 --python 3.11 && source openr1/bin/activate && uv pip install --upgrade pip
uv pip install vllm==0.6.6.post1
# 下载模型
huggingface-cli loginwandb login