README.md 1.2 KB

open-r1

huggingface 开源的 DeepSeek-R1 复现

Develop

复现步骤:

  • 第一步:复现 R1-Distill 模型:从 DeepSeek-R1 中提取高质量语料库,以此复现 R1-Distill 模型。
  • 第二步:复现纯 RL 流程:重现 DeepSeek 创建 R1-Zero 的纯强化学习(RL)流程,这可能需要为数学、推理和代码领域构建新的大规模数据集。
  • 第三步:多阶段训练验证:展示通过多阶段训练,能将基础模型转化为经过 RL 调整的模型。

代码结构:

  • src/open_r1 文件夹:包含用于训练和评估模型以及生成合成数据的脚本。

    • grpo.py负责运用 GRPO 算法在特定数据集上训练模型;
    • sft.py用于执行模型的监督微调(SFT);
    • evaluate.py对模型进行 R1 基准测试评估;
    • generate.py借助 Distilabel 从模型生成合成数据 。

开发:

  • linux
  • CUDA 12.1
  • PyTorch v2.5.1
  • vllm *

    uv venv openr1 --python 3.11 && source openr1/bin/activate && uv pip install --upgrade pip
    
    uv pip install vllm==0.6.6.post1
    
    # 下载模型
    huggingface-cli loginwandb login
    
    

https://github.com/huggingface/open-r1