|
@@ -19,6 +19,18 @@ CodeGeeX是一个基于transformers的**大规模预训练编程语言模型**
|
|
|
|
|
|
CodeGeeX模型大小为130亿,包含了40个transformer层,每一个层是隐藏大小为5120的self-attention的blocks,前馈层数量20480。最长支持2048的序列。注意,业界收费的商业化代码补全工具Tabnine的长代码补全是一个收费特性!
|
|
|
|
|
|
+CodeGeeX 采用了华为 MindSpore 框架来实现,使用了鹏城实验室“鹏城云脑II”平台中 192 节点昇腾910 AI处理器,在 20 多种编程语言的代码语料库**历时两个月训练而成**。
|
|
|
+
|
|
|
+* 数据集
|
|
|
+
|
|
|
+CodeGeeX的训练语料由两部分组成。
|
|
|
+第一部分是开源代码数据集,The Pile与CodeParrot。The Pile包含GitHub上拥有超过100颗星的一部分开源仓库,我们从中选取了23种编程语言的代码。
|
|
|
+
|
|
|
+第二部分是补充数据,直接从GitHub开源仓库中爬取Python、Java、C++代码。
|
|
|
+
|
|
|
+为了让模型区分不同语言,我们在每个样本的开头加上一个前缀,其形式为[注释符] language: [语言],例如:# language: Python。我们对数据进行了去重和清洗,整个代码语料含有23种编程语言、总计1587亿个标识符(不含填充符)。
|
|
|
+
|
|
|
+
|
|
|
## 二、CodeGeeX的使用
|
|
|
CodeGeeX的代码和模型都是开放获取的,供大家研究使用。目前模型预训练结果已经提供下载申请,只需要大家填写如下内容即可:
|
|
|
|
|
@@ -27,7 +39,10 @@ CodeGeeX的代码和模型都是开放获取的,供大家研究使用。目前
|
|
|
此外,官方也提供了VS Code插件供大家使用,目前这个插件也是本周VS Code Trending上榜,获得了很多关注。
|
|
|
|
|
|
CodeGeeX相关资源:
|
|
|
-在线演示地址:https://models.aminer.cn/codegeex/zh-CN/playground
|
|
|
+
|
|
|
+代码生成:https://models.aminer.cn/codegeex/playground
|
|
|
+代码翻译:https://models.aminer.cn/codegeex/codeTranslator
|
|
|
+
|
|
|
VS Code插件地址:https://marketplace.visualstudio.com/items?itemName=aminer.codegeex
|
|
|
官方网址:https://models.aminer.cn/codegeex/
|
|
|
预训练模型申请地址:https://models.aminer.cn/codegeex/download/request
|
|
@@ -113,3 +128,5 @@ Free Idea 挑战赛
|
|
|
大赛正式启动
|
|
|
|
|
|
扫描二维码查看流动详情&我的项目提交
|
|
|
+
|
|
|
+
|