OpenAI公布GPTBot,披露从整个互联网爬取数据的网络爬虫

新知榜官方账号

2023-08-10 01:22:47

OpenAI公布GPTBot,披露从整个互联网爬取数据的网络爬虫

众所周知,OpenAI从GPT-4开始就已经对技术细节完全保密了,最初只用一份TechReport来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI也从未回应。不难想象,训练GPT-4需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI用了网络爬虫。

很多用户指控OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。刚刚,OpenAI摊牌了:直接公布从整个互联网爬取数据的网络爬虫——GPTBot。这些数据将被用来训练GPT-4、GPT-5等AI模型。不过GPTBot保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。OpenAI表示:「使用GPTBot爬取网络数据是为了改进AI模型的准确性、功能性和安全性。」网站所有者可以根据需要允许和限制GPTBot爬取网站数据。

接下来,我们来看下GPTBot究竟是如何工作的,顺便了解一下屏蔽方法。

首先,GPTBot的用户代理字符串(User-AgentString)如下:

OpenAI-GPTBot/1.0 (+https://www.example.com/bot.html)

使用如下方法可以将GPTBot添加到网站的robots.txt,禁止GPTBot访问网站:

User-agent: OpenAI-GPTBot
Disallow: /

还可以允许GPTBot访问网站特定部分的内容:

User-agent: OpenAI-GPTBot
Disallow: /private/

近期,OpenAI因为未经明确批准而在网站数据上训练GPT-4等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像OpenAI这样的公司也应该遵循训练协议。人们还担心,内容在输入AI系统时会被断章取义。但即使遵循了robots协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。

GPTBot发布之后,这条动态已经在HackerNews上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。一部分人认为,GPTBot的推出展示了使用公开数据研发AI模型的「灰色地带」:「在训练完模型后还爬取数据,这真是太好了。根据推测,这些header不会影响他们已经抓取来训练GPT的任何页面。」「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」鉴于GPTBot会识别自己的身份,因此网站管理员可以通过robots.txt阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。

一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT目前没有注明出处。还有人质疑GPTBot如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。另外一些专家认为,如果AI编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。

相反,一些人认为OpenAI有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果OpenAI将网络数据货币化以获取商业利益,那么就应该分享利润。总之,GPTBot引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循robots.txt是一个很好的步骤,但仍然缺乏透明度。这或许是科技界下一个舆论焦点:随着AI产品的快速发展,「数据」到底该怎么用?

本页网址:https://www.xinzhibang.net/article_detail-9638.html

寻求报道,请 点击这里 微信扫码咨询

关键词

OpenAI GPTBot 网络爬虫

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯