|
@@ -1,2 +1,42 @@
|
|
|
# open-r1
|
|
|
+huggingface 开源的 DeepSeek-R1 复现
|
|
|
|
|
|
+## Develop
|
|
|
+
|
|
|
+复现步骤:
|
|
|
+
|
|
|
+- 第一步:**复现 R1-Distill 模型**:从 DeepSeek-R1 中提取高质量语料库,以此复现 R1-Distill 模型。
|
|
|
+- 第二步:**复现纯 RL 流程**:重现 DeepSeek 创建 R1-Zero 的纯强化学习(RL)流程,这可能需要为数学、推理和代码领域构建新的大规模数据集。
|
|
|
+- 第三步:**多阶段训练验证**:展示通过多阶段训练,能将基础模型转化为经过 RL 调整的模型。
|
|
|
+
|
|
|
+代码结构:
|
|
|
+
|
|
|
+- **src/open_r1 文件夹**:包含用于训练和评估模型以及生成合成数据的脚本。
|
|
|
+
|
|
|
+- - `grpo.py`负责运用 GRPO 算法在特定数据集上训练模型;
|
|
|
+ - `sft.py`用于执行模型的监督微调(SFT);
|
|
|
+ - `evaluate.py`对模型进行 R1 基准测试评估;
|
|
|
+ - `generate.py`借助 Distilabel 从模型生成合成数据 。
|
|
|
+
|
|
|
+
|
|
|
+开发:
|
|
|
+
|
|
|
+* linux
|
|
|
+* CUDA 12.1
|
|
|
+* PyTorch v2.5.1
|
|
|
+* vllm
|
|
|
+*
|
|
|
+
|
|
|
+```
|
|
|
+uv venv openr1 --python 3.11 && source openr1/bin/activate && uv pip install --upgrade pip
|
|
|
+
|
|
|
+uv pip install vllm==0.6.6.post1
|
|
|
+
|
|
|
+# 下载模型
|
|
|
+huggingface-cli loginwandb login
|
|
|
+
|
|
|
+```
|
|
|
+
|
|
|
+
|
|
|
+
|
|
|
+https://github.com/huggingface/open-r1
|