开源的自动代码生成器模型PolyCoder在C语言方面优于所有模型

新知榜官方账号

2023-10-18 10:20:10

开源中国文|白开水卡内基梅隆大学的研究人员推出了一个开源的自动代码生成器模型PolyCoder,具有27B参数,基于GPT-2架构,在一台机器上对跨越12种编程语言的249GB代码进行了训练。训练结果表明,在C编程语言中,PolyCoder优于包括Codex在内的所有模型。

研究人员指出,OpenAI的Codex于去年8月发布,可通过微软拥有的GitHub的Copilot工具获得;但它通过黑盒API调用提供对模型输出的“non-freeaccess”,模型的权重和训练数据并不可用。为了解决这一问题,他们推出了PolyCoder。该模型使用来自GitHub的多个存储库的数据进行训练,涵盖12种流行的编程语言:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala和TypeScript。未经过滤的数据集总共有631GB的数据和3890万个文件。此外,为了训练PolyCoder,研究人员选择了GPT-2(因为预算有限)。不过虽然PolyCoder在C语言方面的表现优于所有模型,但Codex在其他语言方面仍然要胜过PolyCoder。

“值得注意的是,PolyCoder在C语言方面优于Codex和所有其他模型。在比较单独的开源模型时,PolyCoder在C、JavaScript、Rust、Scala和TypeScript方面的表现比类似规模的GPT-Neo2.7B更好。在除C语言以外的其他11种语言中,所有其他开源模型,包括我们的,都明显比Codex差(higherperplexity)。”

本页网址:https://www.xinzhibang.net/article_detail-17152.html

寻求报道,请 点击这里 微信扫码咨询

关键词

自动代码生成器 PolyCoder 开源 C语言 模型 训练

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯