新知榜官方账号
2023-10-03 01:24:36
人工智能已经是科技行业最为热门的赛道之一,而在AI大模型的相关市场竞争中,除了底层的算法、架构外,“语料”则是一个被反复提及的关键要素。但围绕“语料”这一AI大模型的生产资料,在过去一年间,整合行业也上演了一系列光怪陆离的故事。
训练AI大模型的语料从书籍、报刊、杂志、视频、音频、代码等一系列产物中来,但是由于AI不是人类,他们认识世界的方式与人类不同,所以蕴含在这些作品中的信息还需要经过一道处理工序,才能转化为可以被AI大模型利用的语料,而这就是所谓的“数据标注”了。
数据标注是把各种图片、文本、视频等数据集打上标签,成为计算机可以理解识别的技术。这一工作在2007年之前是由程序员来负责完成,但毕竟有限的程序员群体与AI对于语料的无止境需求极其不匹配,所以这也导致了AI在本世纪第二个十年以前一直都曲高和寡。
直到2007年,计算机科学家李飞飞通过亚马逊众包平台雇佣了167个国家共计5万人,来给10亿张图片筛选、排序、打标签,最终构建了ImageNet数据集。自此之后,大量科技企业发现数据标注并不需要程序员来参与,只要是受过一定教育的普通人即可完成,这也成为了为什么AI在近十年来突飞猛进的原因之一。
数据标注从某种意义上来说,就与流水线上工人干的活没什么区别,而对着电脑屏幕根据给定的规则来给数据打上各式各样的标注这一工作,完全可以称得上是“赛博搬砖”。相关厂商显然不会将自己宝贵的人力资源浪费在这样机械化的工作上,所以数据标注目前基本就是一个以外包为主导的行业,并且通过BPO的形式将数据标注工作交付给外包公司,确实也在一定程度上为AI厂商节约了成本,但从客观上来说,数据标注本身还是很费钱的。
谷歌提出的AI反馈强化学习(RLAIF),用来代替基于人类反馈的强化学习(RLHF)。事实上,RLHF正是ChatGPT等同类产品表现出比Siri等上一代人工智能产品更聪明,表达更接近人类的关键驱动因素之一,它可以借助人类反馈信号来直接优化语言模型,数据标注人员则通过给大模型产出的结果打分,由他们来负责判断大模型生成的文本是否优质(迎合人类偏好)。根据谷歌方面的研究结果显示,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果。具体来说,当被要求直接比较RLAIF与RLHF的结果时,人类对两者的偏好大致相同,同时RLAIF和RLHF都优于传统的监督微调(SFT)基线策略。众所周知,语料是AI大模型的基础,而AI大模型之所以比以往的同类产品表现得更“聪明”,单纯就是因为语料的规模更大。
但要将基础数据转化为AI可识别的语料,无疑是个巨大的工程。如果谷歌提出的RLAIF能够真正实现,数据标注人员可能会失业。但是,AI厂商作为人类社会的一份子,同样也具有社会性,并且AI厂商打造的大模型不仅要有性能,更重要的是还要合规。如今ChatGPT、NewBing在性能上比它们刚亮相时有所衰退的原因,已经不仅仅来自用户的体感,更得到了研究人员的证实。其实这一现象并非是因为技术退步了,反而是技术迭代的结果,因为他们必须要在AI伦理问题上合规。所以现在的情况,就是谷歌提出的RLAIF本质上是剥离了AI大模型训练中的人类参与,但这与“AI对齐”的思路是相悖的。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16