Browse Source

Update 'README.md'

天问 1 year ago
parent
commit
5d9ca48fa1
1 changed files with 18 additions and 1 deletions
  1. 18 1
      README.md

+ 18 - 1
README.md

@@ -19,6 +19,18 @@ CodeGeeX是一个基于transformers的**大规模预训练编程语言模型**
 
 CodeGeeX模型大小为130亿,包含了40个transformer层,每一个层是隐藏大小为5120的self-attention的blocks,前馈层数量20480。最长支持2048的序列。注意,业界收费的商业化代码补全工具Tabnine的长代码补全是一个收费特性!
 
+CodeGeeX 采用了华为 MindSpore 框架来实现,使用了鹏城实验室“鹏城云脑II”平台中 192 节点昇腾910 AI处理器,在 20 多种编程语言的代码语料库**历时两个月训练而成**。
+
+* 数据集
+
+CodeGeeX的训练语料由两部分组成。
+第一部分是开源代码数据集,The Pile与CodeParrot。The Pile包含GitHub上拥有超过100颗星的一部分开源仓库,我们从中选取了23种编程语言的代码。
+
+第二部分是补充数据,直接从GitHub开源仓库中爬取Python、Java、C++代码。
+
+为了让模型区分不同语言,我们在每个样本的开头加上一个前缀,其形式为[注释符] language: [语言],例如:# language: Python。我们对数据进行了去重和清洗,整个代码语料含有23种编程语言、总计1587亿个标识符(不含填充符)。
+
+
 ## 二、CodeGeeX的使用
 CodeGeeX的代码和模型都是开放获取的,供大家研究使用。目前模型预训练结果已经提供下载申请,只需要大家填写如下内容即可:
 
@@ -27,7 +39,10 @@ CodeGeeX的代码和模型都是开放获取的,供大家研究使用。目前
 此外,官方也提供了VS Code插件供大家使用,目前这个插件也是本周VS Code Trending上榜,获得了很多关注。
 
 CodeGeeX相关资源:
-在线演示地址:https://models.aminer.cn/codegeex/zh-CN/playground
+
+代码生成:https://models.aminer.cn/codegeex/playground
+代码翻译:https://models.aminer.cn/codegeex/codeTranslator
+
 VS Code插件地址:https://marketplace.visualstudio.com/items?itemName=aminer.codegeex
 官方网址:https://models.aminer.cn/codegeex/
 预训练模型申请地址:https://models.aminer.cn/codegeex/download/request
@@ -113,3 +128,5 @@ Free Idea 挑战赛
 大赛正式启动
 
 扫描二维码查看流动详情&我的项目提交
+
+