Google将使用互联网上的公开信息训练AI模型,引发隐私担忧

新知榜官方账号

2023-08-06 06:04:34

Google将使用互联网上的公开信息训练AI模型,引发隐私担忧

世上没有绝对的垃圾,只有放错位置的资源。在数字原住民的Z世代的口口相传中,「互联网时代99%的公开信息都是垃圾」的粗略定义早已见怪不怪了,而有趣的是,彼之砒霜,我之蜜糖,以Google为代表的AI巨头却开始盯上了这些互联网上公开的信息。

近日,搜索引擎巨头Google更新了其隐私政策,将使用互联网上的公开信息训练AI模型。隐私政策中写到,Google现可通过收集网络上的公开信息或来自其他公共来源的信息,以帮助训练Google的AI模型并打造实用功能,如Google翻译、Bard和Google云AI,此外,Google将还原本的「语言模型」更改为「AI模型」。

据媒体OSCHINA分析指出,这项政策更新表明,Google现在正在向公众及其用户明确表示,他们在网上公开发布的任何内容都可以用Bard和其未来版本,以及Google开发的任何其他生成人工智能产品。生成式人工智能AIGC系统通常会根据互联网上的海量通用数据进行预先训练,从而大幅提升AI的泛化性、通用性、实用性,而这难免会陷入版权、隐私的纠纷。

对于这个困境,可能暂时没有谁比OpenAI更理解了。就在不久前,人工智能聊天机器人ChatGPT母公司OpenAI被两名美国作家在旧金山联邦法院提起诉讼,声称OpenAI没有获得版权授权,就滥用他们的作品来训练人工智能。被曝光的起诉书显示,OpenAI的训练数据超过30万本书,其中就包括本就饱受争议,版权归属不清晰的「影子图书馆」(大多是以侵犯版权的方式向公众免费提供书籍文献内容的线上网站)。此外就在昨天,OpenAI宣布,将暂时禁用ChatGPT的官方网页浏览模式,而这或许与ChatGPT被曝能够翻阅付费墙,获取隐藏的付费内容有关。

继美国作家版权诉讼事件之后,舆论之下,OpenAI再次深陷版权风波。因此,在OpenAI被诉讼的前车之鉴下,Google未雨绸缪地更新隐私政策,提前给自己套上一个盾倒也合情合理。虽然这一举措有效降低了Google「吃官司」的风险,却也将生成式人工智能使用海量网络数据进行训练的事实赤裸裸地摆在明面上,因此难免引发大众对于隐私权的担忧。

外媒Gizmodo对此也评论认为,这是一种新的、有趣的隐私问题。事实上,即使人们普遍理解网上公开发布的数据信息是开放自由的,对数据信息有可能被他人访问是有一个心理预期的,但是如果网络上海量数据信息被互联网AI巨头当做自家后花园,肆意使用以训练人工智能,相信不少人会凭空产生被侵犯个人领域的「别扭感」,从而对此持着一种较为谨慎的态度。

被这个问题困扰的不止普通用户,埃隆·马斯克近日宣布Twitter将「临时限制」用户每日阅读推文数量:未验证的账户每天只能看到600条推文,对于新的未验证账户,一天只能看到300条。经过验证的账户每天只能阅读6000条帖子。马斯克表示,这是因为有几百个组织(包括一些AI公司)正在抓取Twitter数据,以至于影响了真实用户的体验。只不过,时代列车前行的轰隆声,有时足以淹没乘客充满异议的嘈杂。如果Google这一举措合法合规,且得到AI巨头们的纷纷效仿,或许有一天,我们都会从生成式人工智能中找到自己存在的痕迹。

本页网址:https://www.xinzhibang.net/article_detail-9388.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Google AI模型 隐私政策

分享至微信: 微信扫码阅读

相关工具

相关文章