AI大模型终于走到了数据争夺战

新知榜官方账号

2023-09-06 04:44:38

AI大模型终于走到了数据争夺战

随着AI大模型的发展,数据端的建设变得越来越重要。一项研究表明,未来高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量也将在未来几十年内耗尽。因此,数据标注成为了一个抢手货。目前,一些初创公司正在进入这个新领域。数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。如果以上预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI的进展也会随着数据量的耗尽而放缓。

数据标注再次迎来爆发

AI大模型带来了大量需求,中国数据标注行业也迅速发展。有业内人士认为,预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。数据标注的生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

传统数据标注亟待升级

让ChatGPT更具有“人味”的关键——强人工反馈RLHF,带来的是另一种更高要求的数据标注需求。相关分析显示,在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。但传统数据标注模式很难满足RLHF的需求。要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。目前的确已有标注公司开始在内部撰写《人员提升教程》,他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。

本页网址:https://www.xinzhibang.net/article_detail-10933.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI 大模型 数据争夺战

分享至微信: 微信扫码阅读

相关工具

相关文章