新知榜官方账号
2023-07-04 06:26:48
近期,一家律师事务所向加州北区联邦法院提起集体诉讼,指控OpenAI和微软使用互联网抓取的信息来训练ChatGPT时,严重侵犯了大量用户的版权和隐私,要求后者赔偿30亿美元。网络安全公司HomeSecurityHeroes公布的一份研究数据显示,有54%的AI应用会跟踪用户数据。AI应用对于数据有着几乎永无止境的渴求,它们像饕餮一般吞噬数据、以训练自家的模型。如何遏制AI应用的开发者违规挖掘用户数据,是一个亟待解决的问题。
AI大模型生成内容的版权风险、AI的伦理道德等话题已经被广泛讨论,但窃取用户隐私这个问题,也足以让外界对大模型提起十二万分的注意。网络安全公司HomeSecurityHeroes公布的一份研究数据,则更具现实意义。在该公司对苹果AppStore的研究中发现,有四分之三的AI相关应用与第三方共享用户数据。而在接受调查的159个应用中发现,64%的应用会跟踪用户的个人数据,其中监控用户数据比例最大的一款AI应用是Brainly(一款数学求解应用)。GoogleAssistant与第三方共享了超过35.71%的用户数据,语言教育应用Duolingo、图像生成应用AIArta和DaVinci,以及AI医疗应用KHealth则分别与第三方共享了多达28.57%的用户数据。根据HomeSecurityHeroes方面的说法,从整体来看,有54%的AI应用会跟踪用户数据。
AI应用对于数据有着几乎永无止境的渴求,它们像饕餮一般吞噬数据、以训练自家的模型。而AI的智能则是以数据为支撑的,机器学习/深度学习技术的底座就是大量数据。以OpenAI的GPT模型为例,从GPT-1到ChatGPT、再到GPT-4,所用的训练数据大体经历了以下变化,小数据规模数据——大规模数据——更大规模、更高质量的数据——大规模的人类标注的高质量数据。传统搭建AI模型的方法主要是聚焦迭代模型,数据也相对固定,通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。但这一模式的缺陷也非常突出,准确率高的模型只能确保“拟合”数据,并不一定意味着实际应用中会有很好的表现,如今也已经被边缘化,目前用更大规模和更高质量的数据来训练AI,则成为了主流。以OpenAI的GPT模型为例,从GPT-1到ChatGPT、再到GPT-4,所用的训练数据大体经历了以下变化,小数据规模数据——大规模数据——更大规模、更高质量的数据——大规模的人类标注的高质量数据。
随着AI大模型概念的走红,AI相关企业如今已然成为了数据交易市场的大买家。也正是因为这一事实,导致了现阶段数据本身的价格水涨船高,掌握数据源头的企业已经开始哄抬物价。以前段时间闹出不小风波的Reddit为例,其所给出第三方抓取5000万次内容需支付12000美元的价格,显然就已经很高。出于对数据的渴求,以及数据本身的价格原因,AI应用的开发者自然就有了强烈的从应用内收集用户数据、并分享给第三方的动力。对于当下的绝大多数AI应用而言,变卖数据或许是它们现阶段所能找到、最具可行性的挣钱方式。而且目前会去下载AI应用的用户,基本都是对AI感兴趣的人群,如何让这一部分用户的价值变得更大,显然开发者没有理由不动心。
肆意挖掘用户隐私现象的泛滥,对于尚且稚嫩的AI生态本身而言有着极大的伤害,因此有识之士也纷纷站出来疾呼。谷歌DeepMind的首席商务官ColinMurdoch就表示,督促AI开发者专注于构建一个“强大而负责任”的社群。只是想要遏制AI应用的开发者违规挖掘用户数据,还得应用商店加强审核才行。
本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49