1 year ago · 0aa7db69d5
--- a/README.md
+++ b/README.md
@@ -1,2 +1,42 @@
 
				 # open-r1
			
 
				+huggingface  开源的 DeepSeek-R1 复现
			
 
				 
			
 
				+## Develop
			
 
				+
			
 
				+复现步骤：
			
 
				+
			
 
				+-   第一步：**复现 R1-Distill 模型**：从 DeepSeek-R1 中提取高质量语料库，以此复现 R1-Distill 模型。
			
 
				+-   第二步：**复现纯 RL 流程**：重现 DeepSeek 创建 R1-Zero 的纯强化学习（RL）流程，这可能需要为数学、推理和代码领域构建新的大规模数据集。
			
 
				+-   第三步：**多阶段训练验证**：展示通过多阶段训练，能将基础模型转化为经过 RL 调整的模型。
			
 
				+
			
 
				+代码结构：
			
 
				+
			
 
				+-   **src/open_r1 文件夹**：包含用于训练和评估模型以及生成合成数据的脚本。
			
 
				+
			
 
				+-   -   `grpo.py`负责运用 GRPO 算法在特定数据集上训练模型；
			
 
				+    -   `sft.py`用于执行模型的监督微调（SFT）；
			
 
				+    -   `evaluate.py`对模型进行 R1 基准测试评估；
			
 
				+    -   `generate.py`借助 Distilabel 从模型生成合成数据 。
			
 
				+
			
 
				+
			
 
				+开发：
			
 
				+
			
 
				+* linux
			
 
				+* CUDA 12.1
			
 
				+* PyTorch v2.5.1
			
 
				+* vllm
			
 
				+*
			
 
				+
			
 
				+```
			
 
				+uv venv openr1 --python 3.11 && source openr1/bin/activate && uv pip install --upgrade pip
			
 
				+
			
 
				+uv pip install vllm==0.6.6.post1
			
 
				+
			
 
				+# 下载模型
			
 
				+huggingface-cli loginwandb login
			
 
				+
			
 
				+```
			
 
				+
			
 
				+
			
 
				+
			
 
				+https://github.com/huggingface/open-r1