CodeGeeX:清华大学发布的国产代码补全预训练模型

新知榜官方账号

2023-07-10 13:40:36

CodeGeeX简介

CodeGeeX是一个具有130亿个参数的大型多语言代码生成模型,它预先经过20多种编程语言的大型代码库的训练。截至2022年6月22日,CodeGeeX已经在1536个Ascend910AI处理器集群上接受了8500多亿tokens的训练。

该模型的VSCode插件目前一周内被调用25万次左右,并上榜VSCodeWeekly,十分火爆。该模型的特点如下:

  • 多语言代码生成:CodeGeeX在用几种主流编程语言生成可执行程序方面表现良好,包括Python、C++、Java、JavaScript、Go等DEMO
  • 跨语言代码翻译:CodeGeeX支持不同语言之间的代码片段翻译。只需单击一下,CodeGeeX就可以将程序转换为任何预期的语言,并且具有很高的准确性。
  • 可定制编程助手:CodeGeeX在VS代码扩展市场上免费提供。它支持代码完成、解释、总结等功能,为用户提供更好的编码体验。
  • VS代码扩展开源和跨平台:所有代码和模型权重都公开用于研究目的。CodeGeeX支持Ascend和NVIDIA平台。它支持在单个Ascend910、NVIDIAV100或A100中进行推理,应用模型权重。

CodeGeeX的使用

CodeGeeX的代码和模型都是开放获取的,供大家研究使用。目前模型预训练结果已经提供下载申请,只需要大家填写相应的信息即可。

官方也提供了VSCode插件供大家使用,支持代码完成、解释、总结等功能,为用户提供更好的编码体验。

CodeGeeX的国产化支持

CodeGeeX是在“鹏城实验室”中的“鹏城云脑II”中训练的,这个集群使用的是国产昇腾的AI处理器Ascend910AIProcessors。该处理器由华为设计,属于国产硬件生态系统中的重要参与者。而模型的编写框架用的是华为自研深度学习框架MindSpore。而推理端则支持Ascend910,NVIDIAV100或者A100,都是高端AI芯片。该模型由清华大学研究人员发布,多方面采用国产化软硬件系统。从效果上看十分优秀,也对国产的软硬件生态的繁荣有实质的支持。

希望项目可以好好发展,后续也可以收费以确保项目能够占领市场,进而可以继续推动国产化成果的影响力。

本页网址:https://www.xinzhibang.net/article_detail-7429.html

寻求报道,请 点击这里 微信扫码咨询

关键词

CodeGeeX 国产 代码补全

分享至微信: 微信扫码阅读

相关工具

相关文章