大模型的下半场:Agent、多模态、通用机器人

新知榜官方账号

2023-09-30 22:02:50

大模型的上半场

全球开卷中国所有的人,不管是CEO还是产品经理,都有一种极度的焦虑感,觉得大模型要颠覆自己公司,或者颠覆自己的职业。我们快速回忆一下大模型发展的时间线:2020年6月,GPT-3的出现是转折点。因为在GPT-3之前,所有的人工智能的技术都是专用系统或者专用任务的,模型不通用。当时,GPT-3是第一个让我们觉得它是有可能做成通用人工智能的一个系统。我可能是中国最早一批关注到GPT-3的人。

2023年3月,GPT-4发布,它让我们看到了AGI的火花。GPT-4演示了多模态,但今天我们也看到ChatGPT没有在多模态上做出很多事情。但之后发布的AutoGPT,激发了大家对Agent落地的热情。因为它可以变成一个自主规划,自主推理,自主执行任务的一个系统。2023年7月,出现了另外一个系统RT-2。很多人觉得它跟大模型没有什么关系,但我认为这个非常大的一个革命,它让我们看到了大语言模型的跨模态知识迁移以及通用机器人的可能。

在ChatGPT之前,我们都觉得Google是AI的王者。但是ChatGPT之后,你就感觉Google怎么这么不能打,完全连自信心都没有了。之后,我6月份又去谷歌聊天,发现他们重新找到了信心,而且很多产品有了规划。从竞争上,Meta的人才非常厉害,但过去几年,扎克伯格陷入在元宇宙的深坑,当ChatGPT发布后,立马AllinLlama,成为开源大模型的扛把子。

大模型的下半场

Agent

大模型的下半场,要动真格了,所以接下来我分3个部分来讲:Agent;多模态;通用机器人。Agent,强调的是具有自主想法,自主规划去完成一个任务。我们可以理解成自动驾驶。前面提到ChatGPT最终要产生各行各业的应用的话,一定是要通过Agent或者Copilot的方式去落地。比如,在场景里面落地,每一个场景都有独特的东西,这个时候,你这个Agent需要有很强的对环境的动态的适配能力。如果不能自动适配,每一个环境,每一个场景都要去做定制,商业模式都是很糟糕的。

多模态

刚才多次提到幻觉,这种多模态的可学习的Agent能够对环境自动适配,这可能是解决幻觉的一种方式。多模态是一种Grounding(基础训练),让语言构建的虚拟世界和物理世界连接起来,也是接地气的有效途径,可以降低大语言模型的幻觉。大语言模型不只是一个语言模型,更是一个认知模型。有了好的认知模型,只要加入少量数据就能有多模态能力(比如视觉、听觉、动作)。

通用机器人

2023年7月,谷歌DeepMind宣布推出RT-2:全球第一个控制机器人的视觉-语言-动作(VLA)模型,机器人也能直接像ChatGPT一样操纵。比如,你说把草莓放在跟它相似的水果盆子里,它就知道放在哪个盆子里,它知道苹果和草莓是两回事。这是一个革命性的东西,它代表了一种大语言模型的知识迁移的能力,从互联网上学到的知识,可以迁移到一个非常具象的机器人的动作里。

巨头共识内卷之下,创业公司还能怎么玩?

我觉得纯粹的做模型,在中国会很艰难的,不管你的模型多厉害,多少人用,其本身商业模式还是比较艰难的,可能也没有什么壁垒。如果能有自己的应用场景和模型,并形成数据飞轮效应,那是最好的壁垒。所以,要问自己一个思考问题:我为什么要拥有自己的大模型?如果你找不到这样的理由,你做模型就是在浪费钱,因为开源的模型可能比你投很多钱做模型训练要好。但是如果你能找到一个理由,确实需要有自己的模型,这个是很有价值的。

AI公司可以服务SMB或者PC。ToPC可以避免传统ToB的项目制,也可以避免跟ToC互联网巨头竞争停止增长的流量。但ToC需要客单价足够平民化(年千元或万元级别),产品体验足够闭环简单,真正为用户提升效率或创收。

最后的话

大模型上半场,大家都很慌,每天学这个、学那个,没有一个主心的灵魂。下半场,很多人需要找到自己的一个灵魂,比如你到底要做什么?你最后希望建立什么样的壁垒?你希望建立什么样的商业模式?

本页网址:https://www.xinzhibang.net/article_detail-14574.html

寻求报道,请 点击这里 微信扫码咨询

关键词

大模型 Agent 多模态 通用机器人 李志飞 AI新视野

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯