2 years ago · 20dfe0d868
--- a/README.md
+++ b/README.md
@@ -1,2 +1,274 @@
 
				 # Qwen-VL
			
 
				 
			
 
				+
			
 
				+我们开源了**Qwen**（通义千问）系列工作，当前开源模型的参数规模为70亿（7B）和140亿（14B）。本次开源包括基础模型**Qwen**，即**Qwen-7B**和**Qwen-14B**，以及对话模型**Qwen-Chat**，即**Qwen-7B-Chat**和**Qwen-14B-Chat**。模型链接在表格中，请点击了解详情。同时，我们公开了我们的**[技术报告](https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf)**，请点击上方论文链接查看。
			
 
				+
			
 
				+当前基础模型已经稳定训练了大规模高质量且多样化的数据，覆盖多语言（当前以中文和英文为主），总量高达3万亿token。在相关基准评测中，Qwen系列模型拿出非常有竞争力的表现，显著超出同规模模型并紧追一系列最强的闭源模型。此外，我们利用SFT和RLHF技术实现对齐，从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力，同时还具备一定的代码生成和简单数学推理的能力。在此基础上，我们针对LLM对接外部系统等方面针对性地做了优化，当前具备较强的工具调用能力，以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。
			
 
				+
			
 
				+在这个项目中，你可以了解到以下内容
			
 
				+
			
 
				+* 快速上手Qwen-Chat教程，玩转大模型推理.
			
 
				+* 量化模型相关细节，包括用法、显存占用、推理性能等。这部分还提供了和非量化模型的对比。
			
 
				+* 微调的教程，帮你实现全参数微调、LoRA以及Q-LoRA。
			
 
				+* 搭建Demo的方法，包括WebUI和CLI Demo
			
 
				+* 更多关于Qwen在工具调用、Code Interpreter、Agent方面的内容
			
 
				+* 长序列理解能力及评测
			
 
				+* 使用协议
			
 
				+* ...
			
 
				+
			
 
				+如果遇到问题，请优先考虑查询[FAQ](FAQ.md)。如仍未解决，随时提出issue（但建议使用英语或提供翻译，有助于帮助更多用户）。如果想帮助我们提升，欢迎提交Pull Requests！
			
 
				+
			
 
				+想和我们一起讨论和聊天的话，赶紧加入我们的微信群和Discord server（入口见文档开头部分）！
			
 
				+<br><br>
			
 
				+
			
 
				+## 新闻
			
 
				+
			
 
				+* 2023年9月25日 🔥 在魔搭社区（ModelScope）和Hugging Face推出**Qwen-14B**和**Qwen-14B-Chat**模型，并开源 [qwen.cpp](https://github.com/QwenLM/qwen.cpp) 和 [Qwen-Agent](https://github.com/QwenLM/Qwen-Agent)。**Qwen-7B**和**Qwen-7B-Chat**的代码和模型也同步得到更新。**请使用最新的代码和模型！**
			
 
				+    - 相比原版Qwen-7B，新版用了更多训练数据（从2.2T增加到2.4T tokens），序列长度从2048扩展至8192。整体中文能力以及代码能力均有所提升。
			
 
				+* 2023年9月12日 支持Qwen-7B和Qwen-7B-Chat的微调，其中包括全参数微调、LoRA以及Q-LoRA。
			
 
				+* 2023年8月21日 发布Qwen-7B-Chat的Int4量化模型，Qwen-7B-Chat-Int4。该模型显存占用低，推理速度相比半精度模型显著提升，在基准评测上效果损失较小。
			
 
				+* 2023年8月3日 在魔搭社区（ModelScope）和Hugging Face同步推出Qwen-7B和Qwen-7B-Chat模型。同时，我们发布了技术备忘录，介绍了相关的训练细节和模型表现。
			
 
				+<br>
			
 
				+
			
 
				+
			
 
				+## 要求
			
 
				+
			
 
				+* python 3.8及以上版本
			
 
				+* pytorch 1.12及以上版本，推荐2.0及以上版本
			
 
				+* 建议使用CUDA 11.4及以上（GPU用户、flash-attention用户等需考虑此选项）
			
 
				+<br>
			
 
				+
			
 
				+## 快速使用
			
 
				+
			
 
				+我们提供简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用Qwen-7B和Qwen-7B-Chat。
			
 
				+
			
 
				+在开始前，请确保你已经配置好环境并安装好相关的代码包。最重要的是，确保你满足上述要求，然后安装相关的依赖库。
			
 
				+
			
 
				+```bash
			
 
				+pip install -r requirements.txt
			
 
				+```
			
 
				+
			
 
				+如果你的显卡支持fp16或bf16精度，我们还推荐安装[flash-attention](https://github.com/Dao-AILab/flash-attention)来提高你的运行效率以及降低显存占用。(**flash-attention只是可选项，不安装也可正常运行该项目**)
			
 
				+
			
 
				+```bash
			
 
				+git clone -b v1.0.8 https://github.com/Dao-AILab/flash-attention
			
 
				+cd flash-attention && pip install .
			
 
				+# 下方安装可选，安装可能比较缓慢。
			
 
				+# pip install csrc/layer_norm
			
 
				+# pip install csrc/rotary
			
 
				+```
			
 
				+
			
 
				+接下来你可以开始使用Transformers或者ModelScope来使用我们的模型。
			
 
				+
			
 
				+#### 🤗 Transformers
			
 
				+
			
 
				+如希望使用Qwen-chat进行推理，所需要写的只是如下所示的数行代码。**请确保你使用的是最新代码，并指定正确的模型名称和路径，如`Qwen/Qwen-7B-Chat`和`Qwen/Qwen-14B-Chat`**
			
 
				+
			
 
				+```python
			
 
				+from transformers import AutoModelForCausalLM, AutoTokenizer
			
 
				+from transformers.generation import GenerationConfig
			
 
				+
			
 
				+# 可选的模型包括: "Qwen/Qwen-7B-Chat", "Qwen/Qwen-14B-Chat"
			
 
				+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
			
 
				+
			
 
				+# 打开bf16精度，A100、H100、RTX3060、RTX3070等显卡建议启用以节省显存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
			
 
				+# 打开fp16精度，V100、P100、T4等显卡建议启用以节省显存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, fp16=True).eval()
			
 
				+# 使用CPU进行推理，需要约32GB内存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="cpu", trust_remote_code=True).eval()
			
 
				+# 默认使用自动模式，根据设备自动选择精度
			
 
				+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True).eval()
			
 
				+
			
 
				+# 可指定不同的生成长度、top_p等相关超参
			
 
				+model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
			
 
				+
			
 
				+# 第一轮对话
			
 
				+response, history = model.chat(tokenizer, "你好", history=None)
			
 
				+print(response)
			
 
				+# 你好！很高兴为你提供帮助。
			
 
				+
			
 
				+# 第二轮对话
			
 
				+response, history = model.chat(tokenizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", history=history)
			
 
				+print(response)
			
 
				+# 这是一个关于一个年轻人奋斗创业最终取得成功的故事。
			
 
				+# 故事的主人公叫李明，他来自一个普通的家庭，父母都是普通的工人。从小，李明就立下了一个目标：要成为一名成功的企业家。
			
 
				+# 为了实现这个目标，李明勤奋学习，考上了大学。在大学期间，他积极参加各种创业比赛，获得了不少奖项。他还利用课余时间去实习，积累了宝贵的经验。
			
 
				+# 毕业后，李明决定开始自己的创业之路。他开始寻找投资机会，但多次都被拒绝了。然而，他并没有放弃。他继续努力，不断改进自己的创业计划，并寻找新的投资机会。
			
 
				+# 最终，李明成功地获得了一笔投资，开始了自己的创业之路。他成立了一家科技公司，专注于开发新型软件。在他的领导下，公司迅速发展起来，成为了一家成功的科技企业。
			
 
				+# 李明的成功并不是偶然的。他勤奋、坚韧、勇于冒险，不断学习和改进自己。他的成功也证明了，只要努力奋斗，任何人都有可能取得成功。
			
 
				+
			
 
				+# 第三轮对话
			
 
				+response, history = model.chat(tokenizer, "给这个故事起一个标题", history=history)
			
 
				+print(response)
			
 
				+# 《奋斗创业：一个年轻人的成功之路》
			
 
				+```
			
 
				+
			
 
				+运行Qwen同样非常简单。
			
 
				+
			
 
				+<details>
			
 
				+  <summary>运行Qwen</summary>
			
 
				+
			
 
				+```python
			
 
				+from transformers import AutoModelForCausalLM, AutoTokenizer
			
 
				+from transformers.generation import GenerationConfig
			
 
				+
			
 
				+# 可选的模型包括: "Qwen/Qwen-7B", "Qwen/Qwen-14B"
			
 
				+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)
			
 
				+
			
 
				+# 打开bf16精度，A100、H100、RTX3060、RTX3070等显卡建议启用以节省显存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B", device_map="auto", trust_remote_code=True, bf16=True).eval()
			
 
				+# 打开fp16精度，V100、P100、T4等显卡建议启用以节省显存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B", device_map="auto", trust_remote_code=True, fp16=True).eval()
			
 
				+# 使用CPU进行推理，需要约32GB内存
			
 
				+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B", device_map="cpu", trust_remote_code=True).eval()
			
 
				+# 默认使用自动模式，根据设备自动选择精度
			
 
				+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B", device_map="auto", trust_remote_code=True).eval()
			
 
				+
			
 
				+# 可指定不同的生成长度、top_p等相关超参
			
 
				+model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)
			
 
				+
			
 
				+inputs = tokenizer('蒙古国的首都是乌兰巴托（Ulaanbaatar）\n冰岛的首都是雷克雅未克（Reykjavik）\n埃塞俄比亚的首都是', return_tensors='pt')
			
 
				+inputs = inputs.to(model.device)
			
 
				+pred = model.generate(**inputs)
			
 
				+print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))
			
 
				+# 蒙古国的首都是乌兰巴托（Ulaanbaatar）\n冰岛的首都是雷克雅未克（Reykjavik）\n埃塞俄比亚的首都是亚的斯亚贝巴（Addis Ababa）...
			
 
				+```
			
 
				+
			
 
				+</details>
			
 
				+
			
 
				+#### 🤖 ModelScope
			
 
				+
			
 
				+魔搭（ModelScope）是开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品。使用ModelScope同样非常简单，代码如下所示：
			
 
				+
			
 
				+```python
			
 
				+from modelscope import AutoModelForCausalLM, AutoTokenizer
			
 
				+from modelscope import GenerationConfig
			
 
				+
			
 
				+# 可选的模型包括: "qwen/Qwen-7B-Chat", "qwen/Qwen-14B-Chat"
			
 
				+tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen-7B-Chat", revision='v1.0.5', trust_remote_code=True)
			
 
				+model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-7B-Chat", revision='v1.0.5', device_map="auto", trust_remote_code=True, fp16=True).eval()
			
 
				+model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-7B-Chat", revision='v1.0.5', trust_remote_code=True) # 可指定不同的生成长度、top_p等相关超参
			
 
				+
			
 
				+response, history = model.chat(tokenizer, "你好", history=None)
			
 
				+print(response)
			
 
				+response, history = model.chat(tokenizer, "浙江的省会在哪里？", history=history) 
			
 
				+print(response)
			
 
				+response, history = model.chat(tokenizer, "它有什么好玩的景点", history=history)
			
 
				+print(response)
			
 
				+```
			
 
				+<br>
			
 
				+
			
 
				+
			
 
				+## Demo
			
 
				+
			
 
				+### Web UI
			
 
				+
			
 
				+我们提供了Web UI的demo供用户使用 (感谢 @wysaid 支持)。在开始前，确保已经安装如下代码库：
			
 
				+
			
 
				+```bash
			
 
				+pip install -r requirements_web_demo.txt
			
 
				+```
			
 
				+
			
 
				+随后运行如下命令，并点击生成链接：
			
 
				+
			
 
				+```bash
			
 
				+python web_demo.py
			
 
				+```
			
 
				+
			
 
				+<p align="center">
			
 
				+    <br>
			
 
				+    <img src="assets/web_demo.gif" width="600" />
			
 
				+    <br>
			
 
				+<p>
			
 
				+
			
 
				+### 交互式Demo
			
 
				+
			
 
				+我们提供了一个简单的交互式Demo示例，请查看`cli_demo.py`。当前模型已经支持流式输出，用户可通过输入文字的方式和Qwen-7B-Chat交互，模型将流式输出返回结果。运行如下命令：
			
 
				+
			
 
				+```bash
			
 
				+python cli_demo.py
			
 
				+```
			
 
				+
			
 
				+<p align="center">
			
 
				+    <br>
			
 
				+    <img src="assets/cli_demo.gif" width="600" />
			
 
				+    <br>
			
 
				+<p>
			
 
				+<br>
			
 
				+
			
 
				+## API
			
 
				+
			
 
				+我们提供了OpenAI API格式的本地API部署方法（感谢@hanpenggit）。在开始之前先安装必要的代码库：
			
 
				+
			
 
				+```bash
			
 
				+pip install fastapi uvicorn openai "pydantic>=2.3.0" sse_starlette
			
 
				+```
			
 
				+
			
 
				+随后即可运行以下命令部署你的本地API：
			
 
				+
			
 
				+```bash
			
 
				+python openai_api.py
			
 
				+```
			
 
				+
			
 
				+你也可以修改参数，比如`-c`来修改模型名称或路径, `--cpu-only`改为CPU部署等等。如果部署出现问题，更新上述代码库往往可以解决大多数问题。
			
 
				+
			
 
				+使用API同样非常简单，示例如下：
			
 
				+
			
 
				+```python
			
 
				+import openai
			
 
				+openai.api_base = "http://localhost:8000/v1"
			
 
				+openai.api_key = "none"
			
 
				+
			
 
				+# 使用流式回复的请求
			
 
				+for chunk in openai.ChatCompletion.create(
			
 
				+    model="Qwen",
			
 
				+    messages=[
			
 
				+        {"role": "user", "content": "你好"}
			
 
				+    ],
			
 
				+    stream=True
			
 
				+    # 流式输出的自定义stopwords功能尚未支持，正在开发中
			
 
				+):
			
 
				+    if hasattr(chunk.choices[0].delta, "content"):
			
 
				+        print(chunk.choices[0].delta.content, end="", flush=True)
			
 
				+
			
 
				+# 不使用流式回复的请求
			
 
				+response = openai.ChatCompletion.create(
			
 
				+    model="Qwen",
			
 
				+    messages=[
			
 
				+        {"role": "user", "content": "你好"}
			
 
				+    ],
			
 
				+    stream=False,
			
 
				+    stop=[] # 在此处添加自定义的stop words 例如ReAct prompting时需要增加： stop=["Observation:"]。
			
 
				+)
			
 
				+print(response.choices[0].message.content)
			
 
				+```
			
 
				+
			
 
				+<p align="center">
			
 
				+    <br>
			
 
				+    <img src="assets/openai_api.gif" width="600" />
			
 
				+    <br>
			
 
				+<p>
			
 
				+
			
 
				+该接口也支持函数调用（Function Calling），但暂时仅限 `stream=False` 时能生效。用法见[函数调用示例](examples/function_call_examples.py)。
			
 
				+<br><br>
			
 
				+
			
 
				+## 部署
			
 
				+
			
 
				+在CPU上运行非常简单，使用方法如下所示：
			
 
				+
			
 
				+```python
			
 
				+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="cpu", trust_remote_code=True).eval()
			
 
				+```
			
 
				+
			
 
				+如果你遇到显存不足的问题而希望使用多张GPU进行推理，可以使用提供的脚本`utils.py`:
			
 
				+
			
 
				+```python
			
 
				+from utils import load_model_on_gpus
			
 
				+model = load_model_on_gpus('Qwen/Qwen-7B-Chat', num_gpus=2)
			
 
				+```
			
 
				+
			
 
				+你即可使用2张GPU进行推理。
			
 
				+<br><br>
			
 
				+
			
 
				+我们同时提供了Qwen-LM和tiktoken的C++实现, 更多细节请查看[qwen.cpp](https://github.com/QwenLM/qwen.cpp).