GitHub Copilot并不“背诵”别人的代码,但是否存在版权问题?

新知榜官方账号

2023-10-11 03:12:35

背景

GitHub Copilot是微软、OpenAI、GitHub联合出品的自动代码生成AI,它可以分析文档中的字符串、注释、函数名称以及代码本身,从而生成新的匹配代码,包括之前调用的特定函数。尽管Copilot深陷“复制-粘贴门”,但GitHub发表了一篇调查称:我们的AI并不“背诵”别人的代码。

训练和推荐过程

Copilot建立在OpenAI全新的Codex算法之上,其中Codex接受了从GitHub中提取的TB级公开代码以及英语语言示例的训练。GitHub声称Copilot可以做到分析文档中的字符串、注释、函数名称以及代码本身,从而生成新的匹配代码,包括之前调用的特定函数。同时,Copilot支持多种编程语言:Python、JavaScript、TypeScript、Ruby和Go。

经过数个题目的验证,Copilot每次都能通过Leetcode的测试。鉴于几乎是实时的生成速度,博主表示,AI可能比我们更会编写代码。不过网友怀疑Copilot已经在LeetCode数据库上进行过了训练,因为生成的注释和Leetcode给的模板几乎一模一样。

版权问题

GitHubCopilot直接“复制-粘贴”了最有名的“平方根倒数速算法”。Copilot“生成”的这段代码不仅用到了至今都没有人能理解的magicnumber:0x5f3759df,同时还包含了对这段代码的吐槽:whatthef***?。源代码这么看来,Copilot做的只是把训练集中别人写好的代码重新组装了一下而已。

有网友质疑GitHubCopilot是把免费开源的代码清洗之后,摇身一变成了赚钱的工具。而这些代码本应该受到GPL(通用公共许可证)的保护,从而防止它们被用在商业项目中。虽然可能有0.1%的直接引用,但是Copilot生成的代码大部分都会是原创的。

GitHubCopilot可以逐字逐句地引用一组代码,但它很少这样做,而且当它这样做时,多数也都是所有人都会引用的代码,而且大部分是在文件的开头。理想状态下,当一个建议包含从训练集复制的片段时,用户界面应该简单地告诉你它是从哪里引用的。然后,你可以包括适当的署名或决定不使用该代码。而GitHub团队也将努力去做到这一点。

本页网址:https://www.xinzhibang.net/article_detail-16317.html

寻求报道,请 点击这里 微信扫码咨询

关键词

GitHub Copilot 自动代码生成 AI 版权问题 GPL

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯