多模态大战:OpenAI的Gobi将与谷歌的Gemini展开竞争

新知榜官方账号

2023-09-20 01:25:10

导读

多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。随着今年秋天的临近,谷歌和OpenAI的多模态模型之战,也进入到白热化阶段。

就在上周,谷歌已经对一些外部公司开放了多模态大模型Gemini的功能。而OpenAI,当然不会坐以待毙。他们正在争分夺秒地把多模态功能整合进GPT-4里,争取推出功能与Gemini类似的多模态大模型,一举击杀谷歌。

传说中的多模态功能,在今年3月OpenAI那场震惊全世界的GPT-4发布会上,已经被展示过。老板GregBrockman亲自上线演示,但随后,多模态仿佛昙花一现,再也没人见过产品化的实体功能。

所以,谷歌和OpenAI的多模态大战,终于要来了吗?对战谷歌,OpenAI抢发多模态大模型。

OpenAI的Gobi将与谷歌的Gemini展开竞争

面对传闻中谷歌要击杀自己的这款大杀器,OpenAI当然不会无动于衷。据外媒TheInformation爆料,一款名为Gobi的全新多模态大模型,已经在紧锣密鼓地筹备了。OpenAI计划,在Gemini发布之前就推出多模态LLM,彻底击败谷歌。

在3月份推出GPT-4多模态功能的预览后,OpenAI已经向一家名为BeMyEyes的公司推出了这项功能,但并没有向其他公司提供。从名字就可以看出来,这家公司在研发让盲人或视力不佳人群看得更清楚的技术。最近,OpenAI打算更广泛地推出名为GPT-Vision的功能。

OpenAI为什么花了这么长时间?最主要的原因,是他们担心新的视觉功能会被不法分子利用,比如通过自动破解验证码来冒充人类,或者通过面部识别来追踪人类。不过,对于这些法律上的安全风险,OpenAI的工程师们似乎已经解决了。同样,一位谷歌发言人也表示:谷歌已经采取了一些措施,防止Gemini被滥用。

Gobi能成为GPT-5吗?在GPT-Vision之后,OpenAI有可能会推出更强大的多模态大模型,代号为Gobi。跟GPT-4不同,Gobi从一开始就是按多模态模型构建的。

现在,我们还无法知晓。Gobi训练到哪一步了,也没有确切消息。在9月初,DeepMind联合创始人、现InflectionAI的CEO Mustafa Suleyman,在采访时曾放出一枚重磅炸弹——据他猜测,OpenAI正在秘密训练GPT-5。Suleyman认为,Sam Altman最近说过他们没有训练GPT-5,可能没有说实话。而在这边,根据试用过Gemini的人士,Gemini产生的幻觉,会比现有的模型都更少。

谷歌的Gemini

另一边,谷歌也在开始邀请部分外部开发者加急测试,即将推出的下一代多模态大模型Gemini。上周,TheInformation独家报道称,Gemini可能很快准备好进行测试发布,并会集成到像GoogleCloudVertexAI等服务中。

在今年的谷歌I/O开发者大会上,劈柴曾公开介绍Gemini,是一个多模态模型、高效集成工具、API。为了合力干大事,谷歌还将谷歌大脑,与DeepMind实验室进行了合并。据称,至少有20多位高管参与了Gemini的研发,DeepMind的创始人Demis Hassabis领导,谷歌创始人Sergey Brin参与研发。还有谷歌DeepMind组成的数百名员工,其中包括前谷歌大脑主管Jeff Dean等等。

一位测试过的人士说,Gemini至少在一个方面比GPT-4有优势:除了网络上的公开信息外,该模型还利用了大量谷歌消费产品(搜索、Youtube)的专有数据。因此,Gemini在理解用户对特定查询的意图时应该特别准确,而且它产生的错误答案,即幻觉,似乎更少。据此前SemiAnalysis分析师的爆料,谷歌的下一代大模型Gemini,已经开始在新的TPUv5Pod上进行训练,算力高达~1e26FLOPS,比训练GPT-4的算力还要大5倍。另外,Gemini的训练数据库包含Youtube上936亿分钟的视频字幕,总数据集规模约为GPT-4的两倍。据称,谷歌下一代大模型也是由多种规模组成,可能使用了MoE架构,以及投机采样技术。通过小模型提前生成token并传递给大模型进行评估,以提高模型的总体推理速度。

谷歌内部还讨论了,使用Gemini来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。谷歌云开发者平台GoogleCloudVertexAI也将得到Gemini加持,大小版本都有,这样开发人员就可以付费购买小模型在个人设备上运行。现在,谷歌已经在全力备战,就等着Gemini开启逆袭之路。

OpenAI的新模型

OpenAI曾公布GPT-4API全面可用,并且在接下来几个月要推出新模型。最近,网友纷纷收到了gpt-3.5-turbo-instruct新模型发布的邮件,以代替旧模型text-davinci-003。据介绍,gpt-3.5-turbo-instruct是一个InstructGPT风格的模型,其训练方式与text-davinci-003类似。使用方法和以前的Prompt-Completion类似,根据提示词的指令补全。就价格来说,gpt-3.5-turbo4K保持一致。有网友已经开始用上了最新模型,去玩1800Elo左右的国际象棋。而他此前还发现GPT根本做不到这一点,但现在看来这只是RLHF聊天模型的问题,纯Completion模型就成功了。

结语

谷歌和OpenAI的多模态大战,可以说是AI版的iPhone和Android对决。一个是称霸AI领域多年的硅谷巨头,一个是风头无两的顶流AI初创公司,二者差距有多大,所有人都在屏息等待。

本页网址:https://www.xinzhibang.net/article_detail-12494.html

寻求报道,请 点击这里 微信扫码咨询

关键词

OpenAI Gobi 谷歌 Gemini 多模态模型 人工智能

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯