用AI生成数据训练AI，最终只会“模型崩溃”

新知榜官方账号

2023-07-05 05:26:39

需求分析能力

需求分析能力是指能够从用户、市场、行业等多方面发现和定义产品的需求，以及将需求转化为可执行的产品方案的能力。

使用AI生成数据训练新的AI，最终只会“模型崩溃”

想要AI使用起来更得心应手，首先得需要经过足量的数据训练。因此有人产生了一个想法，用AI生成数据训练AI岂不是更高效？很遗憾，有研究表明，用AI生成数据训练新的AI，最终会让新的AI模型退化以至崩溃。人尽皆知：过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。然而科幻文学家们的预言中，其实应验的乌鸦嘴不比正面成就少，比如DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。

2023年2月，美国华裔科幻文学家特德·姜发表文章称：ChatGPT等大语言模型，实质是对互联网语料库的有损模糊压缩，如同JPEG格式之于原始高清图片。按特德·姜的观点，用大语言模型生成的文本来训练新的模型，如同反复以JPEG格式存储同一图像，每次都会丢失更多的信息，最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多，信息网络本身就变得越发模糊、难以获取有效真实信息。

2023年6月中，牛津、剑桥、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者发布的论文预印本《递归之诅咒：用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言：用AI生成数据训练新的AI，最终会让新的AI模型退化以至崩溃。

“模型崩溃”分为早期与晚期两种。在早期时，被喂生成数据的AI模型会开始失去原初数据分布的信息；在晚期，被喂生成数据的AI模型会吐出完全不符合现实、不相关原初底层数据的结果。而且与症状类似的“灾难性遗忘”不同，“模型崩溃”的AI一直保有对之前学习过的原初底层数据的记忆，但极其固执，错误会千篇一律且难以矫正，模型将持续甚至强化将错误结果认为是正确的结论。

这些研究者们发现，在训练新的神经网络AI模型时，使用大语言模型生成的内容作为训练数据集，会导致训练出的模型出现不可逆转的缺陷，即使模型最初的基础架构原始数据来自真实世界的实际数据。按论文所述，不管受训的新模型功能是以文字生成文字还是以图片生成图片，只要使用其他模型生成的内容来训练，这个过程是不可避免的，即使模型处在近乎理想状态的长时间学习条件亦如此。

这就如同用莫扎特作品来训练AI，结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品训练新的模型，如此反复五六次后，最终模型的音乐作品既不会有莫扎特的风格也不会有莫扎特的灵光。

使用AI生成数据训练新的AI，最终只会让新的AI模型退化以至崩溃。

本页网址：https://www.xinzhibang.net/article_detail-5652.html

寻求报道，请

关键词

分享至微信：

相关工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

Bing新必应

微软推出的新版结合了ChatGPT功能的必应

360智脑

360搜索最新推出的AI对话聊天机器人

ColossalChat

Colossal-AI推出的免费开源版ChatGPT聊天机器人替代品

Replika

AI对话陪伴工具

产品周报276期

产品周报276期本期产品周报主要报道了Google发布AI大模型Gemini和腾讯NOW直播宣布停止运营的消息。这些消息对于产品经理和市场人员来说都具有重要意义，需要关注和深入了解。Google发布AI大模型Gemini近日，Google发布了一款名为Gemini的AI大模型，该模型在自然语言处理、

分类标签 GoogleAIGemini

12-09 08:07

回顾GPT大模型2023

回顾GPT大模型2023在2023年，GPT大模型成为了人工智能领域的明星。五大顶级公司都对2024年的AI产品发展进行了预测，其中连诗路AI产品备受关注。在市场上，AI产品的需求也越来越大。作为一名专业产品经理，我们需要关注市场需求并不断更新自己的产品。未来的AI产品将会越来越普及，我们需要不断地

分类标签 GPT大模型AI产品连诗路顶级公司市场

12-09 08:06

竞速AI大模型，飞书打得过钉钉吗？

竞速AI大模型，飞书打得过钉钉吗？2023年11月29日，DoNews发布评论《竞速AI大模型，飞书打得过钉钉吗？》。该文章探讨了飞书与钉钉在竞速AI大模型领域的竞争关系。作为国内两大主流企业通讯工具，飞书和钉钉一直以来都在追求更好的用户体验和更强大的功能。随着人工智能技术的不断发展，AI大模型已经

分类标签竞速AI大模型飞书钉钉

12-01 08:05

AI伴侣：当孤独遇到算法

AI伴侣：当孤独遇到算法在电影《她》中，主人公Theodore沉浸在与妻子离异后的郁闷期，后来在一次偶然机会中其认识了“Samantha”（人工智能系统）。很快，他们坠入爱河。随着甜蜜期的褪去，Samantha开始问自己：“这份爱是按照算法程序写好的吗?”而实际上，作为AI操作系统的Samantha

分类标签 AI伴侣虚拟伴侣聊天机器人

11-27 02:24

AI原生时代，大模型创业有“捷径”深渡Cross关注

AI原生时代，大模型创业有“捷径”深渡Cross关注近年来，随着人工智能技术的飞速发展，大模型成为了人们关注的热点。在AI原生时代，大模型创业成为了许多创业者的选择。然而，大模型创业面临着巨大的挑战，如何实现商业化应用成为了创业者们需要解决的重要问题。深渡Cross作为一家专注于大模型创业的公司，成

分类标签 AI原生时代大模型创业深渡Cross

11-16 08:03

谷歌人工智能聊天机器人LaMDA被指具有灵魂引争议

据《华尔街日报》6月13日消息，谷歌一位软件工程师表示，有“开放式对话黑科技”之称的谷歌人工智能聊天机器人LaMDA已经有了人一样的感知力，甚至具有了人的“灵魂”。随后，谷歌暂停了他的职务，并否认了他的说法。当事人称，因为违反公司的保密协议，现在他快被解雇了。LaMDA，为啥被叫做“黑科技”？LaM

分类标签谷歌人工智能聊天机器人LaMDA灵魂伦理问题

11-04 02:30

10款最佳聊天机器人工具

10款最佳聊天机器人工具本文介绍了10款最佳聊天机器人工具，它们能够帮助您跨社交媒体平台、不同站点和应用程序与客户互动和沟通。1. FlowXOFlowXO是一款自动化软件，用于构建聊天机器人，帮助您虚拟欢迎电子商务网站的新访问者、收集用户详细信息、回答简单的问题或链接到任何文章，并且允许您在实时聊

分类标签聊天机器人人工智能自动化软件

11-04 02:29

AI辅助编程初创公司Kite宣布停止开发

AI辅助编程初创公司Kite宣布停止开发当地时间11月16日，AI辅助编程初创公司Kite宣布将停止开发Kite，且不再支持Kite软件。从2014年至2021年，Kite创始人AdamSmith对公司这七年的失败原因进行了总结。失败原因第一，企业未能实现AI辅助编程的愿景。Smith认为进入市场早

分类标签 KiteAI辅助编程失败原因

10-20 10:14

头部企业AI大模型应用收集分析

头部企业AI大模型应用收集分析随着人工智能的不断发展和应用，越来越多的企业开始关注AI大模型的应用。本文将从产品经理和市场的角度，全面重写这篇文章，对头部企业AI大模型应用的收集和分析进行详细介绍。一、背景随着信息时代的到来，企业面临着海量数据的挑战。如何从这些数据中提取有用信息，已经成为企业发展的

分类标签企业AI大模型应用收集分析

10-20 06:02

AI引领RFM模型革命性突破

AI引领RFM模型革命性突破近年来，随着人工智能技术的快速发展，越来越多的企业开始将其应用于客户管理中。其中，AI在RFM模型中的应用，带来了革命性的突破，提高了客户管理的效率。什么是RFM模型？RFM模型是一种客户价值分析模型，通过对客户消费行为的分析，将客户分为不同的等级，以便企业更好地了解客户

分类标签 AIRFM模型客户管理策略

10-18 05:02

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway