新知榜官方账号
2023-08-10 01:22:47
众所周知,OpenAI从GPT-4开始就已经对技术细节完全保密了,最初只用一份TechReport来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI也从未回应。不难想象,训练GPT-4需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI用了网络爬虫。
很多用户指控OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。刚刚,OpenAI摊牌了:直接公布从整个互联网爬取数据的网络爬虫——GPTBot。这些数据将被用来训练GPT-4、GPT-5等AI模型。不过GPTBot保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。OpenAI表示:「使用GPTBot爬取网络数据是为了改进AI模型的准确性、功能性和安全性。」网站所有者可以根据需要允许和限制GPTBot爬取网站数据。
接下来,我们来看下GPTBot究竟是如何工作的,顺便了解一下屏蔽方法。
首先,GPTBot的用户代理字符串(User-AgentString)如下:
OpenAI-GPTBot/1.0 (+https://www.example.com/bot.html)
使用如下方法可以将GPTBot添加到网站的robots.txt,禁止GPTBot访问网站:
User-agent: OpenAI-GPTBot
Disallow: /
还可以允许GPTBot访问网站特定部分的内容:
User-agent: OpenAI-GPTBot
Disallow: /private/
近期,OpenAI因为未经明确批准而在网站数据上训练GPT-4等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像OpenAI这样的公司也应该遵循训练协议。人们还担心,内容在输入AI系统时会被断章取义。但即使遵循了robots协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。
GPTBot发布之后,这条动态已经在HackerNews上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。一部分人认为,GPTBot的推出展示了使用公开数据研发AI模型的「灰色地带」:「在训练完模型后还爬取数据,这真是太好了。根据推测,这些header不会影响他们已经抓取来训练GPT的任何页面。」「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」鉴于GPTBot会识别自己的身份,因此网站管理员可以通过robots.txt阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。
一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT目前没有注明出处。还有人质疑GPTBot如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。另外一些专家认为,如果AI编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。
相反,一些人认为OpenAI有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果OpenAI将网络数据货币化以获取商业利益,那么就应该分享利润。总之,GPTBot引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循robots.txt是一个很好的步骤,但仍然缺乏透明度。这或许是科技界下一个舆论焦点:随着AI产品的快速发展,「数据」到底该怎么用?
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49