AI语言能力排行榜出炉：阿里巴巴全球第二，中国BAT三席

新知榜官方账号

2023-07-01 08:56:50

背景

咨询机构Gartner发布《云AI开发者服务关键能力报告》，对全球云服务商的AI能力做了排行。语言AI这一项，第一名毫不意外是谷歌。第二名比较惊喜，是阿里巴巴。这是榜单发布以来，中国公司在该领域第一次进入全球前三。全球前十中，中国的BAT占了三席，成绩可谓是瞩目。

阿里巴巴在语音和语义领域的技术积累

阿里云上的AI能力，主要包括：阿里在语音识别、自然语言生成/语音合成、语言理解/处理、文本分析这几项关键能力都获得了最高分。阿里云所依托的，是达摩院在语音AI领域的深厚积累。

达摩院在语音AI领域最早以语音识别技术起家，技术能力涵盖语音识别声学模型和基础框架、说话人区分、语音合成声学模型和声码器、口语语言处理、联合优化的声学前端等。2019年，阿里语音AI曾被MIT评选为当年度的“十大突破技术”，这背后的技术能力，就来自于达摩院。

阿里的语音AI能在没有语种信息的前提下，大幅提升中英文混说场景下的识别性能。例如，借鉴混合专家系统（Mixture of Experts）的思想，在端到端语音识别模型中，对中文和英文分别设计了一个子网络，最后通过门控模块对每个子网络的输出进行加权，从而使模型在中文、英文、中英文混说场景下都能取得比较好的效果。此外，达摩院还打造了一套端到端方言自由说语音识别系统，可以识别14种常用方言，并且保证纯中文相对于单语模型的识别性能基本不降。

除了语音AI技术之外，阿里在语义层面同样形成了一套强大的技术体系。达摩院的阿里的大规模预训练语言模型体系，拥有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力。通过与具体任务、应用场景的结合，逐层孵化“中模型”、“小模型”。在大模型体系基础上，达摩院语言技术实验室先后孵化了一系列“中模型”，包括：通用预训练模型StructBERT、生成式预训练模型PALM、多语言预训练模型VECO、超大中文预训练模型PLUG、多模态预训练模型mPLUG、结构化预训练模型StructuralLM、预训练对话模型SPACE、表格预训练模型STAR 等。这些模型各有专长，例如StructBERT可以让机器更好地掌握人类的语法、理解自然的语言；多语言预训练模型VECO能够识别多种语言，曾拿下国际权威多语言榜单XTREME排名第一；多模态预训练模型mPLUG在视觉问答（VQA）任务上首次超过人类结果；对话预训练模型SPACE在10多个对话国际榜单和数据集上取得SOTA。基于AliceMind技术，达摩院先后斩获了35个冠军，在某些领域的水平已经非常接近人类对语言理解的程度了。

语音语义技术的历史进程和未来应用

语音技术最早可以追溯到1952年，贝尔实验室的Davis等人研制出了世界上第一个能识别10个英文数字发音的实验系统Audry，从此拉开了语音识别发展的序幕。语义技术更是可以追溯到1947年，当时英美科学家联手提出了利用计算机进行语言自动翻译的设想，机器翻译的诞生也正意味着打开了语义发展的大门。各界的纷纷投入，也让工业界诞生了众多“史诗级”的产品，例如苹果在2011年发布的Siri，以及后来亚马逊、谷歌、微软等推出的Alexa、GoogleAssistant、Cortana等。

近几年Transformer、Bert等技术的爆发，极大地推动了语音语义技术的发展。未来任何硬件终端都可以集成语言AI技术，这样的应用空间是巨大的，这也正是国内外学者、科技巨头纷纷发力于此的原因。语音语义已然是普通人“唾手可用”的技术。例如，达摩院的机器翻译技术每天为国内200万中小商家翻译上亿文字，让不懂英语和小语种的商家也能把国货卖到全世界。另外，去年年中，北京首都机场和大兴机场均开通了语音购票的服务，只需要乘客张张嘴说出目的地，便可以在1.6秒内快速完成选站。未来，语音语义技术将逐渐向人类逼近，带来更多的应用和变革。

本页网址：https://www.xinzhibang.net/article_detail-3758.html

寻求报道，请

关键词

分享至微信：

相关工具

Illustroke

AI SVG矢量插画生成工具

Magician

Figma插件，AI生成图标、图片和UX文案

MasterGo AI

国产产品设计工具MasterGo推出的智能UI设计助手

IconifyAI

AI App图标生成器

图宇宙

高品质AI智能设计平台

Khroma

AI调色盘生成工具

人工智能企业出门问问拟在港交所主板上市

人工智能企业出门问问拟在港交所主板上市近日，出门问问更新招股书，继续推进在港交所主板上市的进程，中金公司和招银国际担任联席保荐人。公开资料显示，出门问问成立于2012年，是国内较早一批人工智能代表企业之一，也是Google的战略合作伙伴并得到了Google的投资，亦有SIG海纳亚洲、红杉中国、歌尔股

分类标签出门问问人工智能企业港交所主板上市

12-06 16:12

视频翻译工具MyHeyGen的安装和使用教程

近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如我之前提到的heygen和rask的网

分类标签视频翻译MyHeyGen安装教程

12-06 04:14

视频翻译工具介绍与使用方法

视频翻译工具介绍与使用方法近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如我之前提到的

分类标签视频翻译同声传译免费工具

12-03 22:19

视频翻译工具MyHeyGen的安装和使用方法

视频翻译工具MyHeyGen的安装和使用方法近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品

分类标签视频翻译MyHeyGen免费工具

12-03 16:27

阿里云启用全新LOGO，彰显国际化扩张雄心

阿里云于8月9日宣布放弃原有“云”字LOGO，启用全新的动态LOGO，以推动其国际化。这是阿里云自2009年成立以来第二次更新LOGO，此前的LOGO已经使用了近六年。新LOGO看起来像是两个中括号中间加一个横杠，较之前的“云”字显然简洁多了。据悉，新LOGO有多层含义。来自程序员日常写代码所用的键

分类标签阿里云LOGO国际化

12-03 08:40

视频翻译工具MyHeyGen的安装使用教程

视频翻译工具MyHeyGen的安装使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，

分类标签视频翻译MyHeyGen安装使用

12-03 02:27

大模型PK：阿里云与百度的“全家桶”谁更胜一筹？

大模型PK：阿里云与百度的“全家桶”谁更胜一筹？随着云计算的快速发展，阿里云和百度云成为了国内云计算领域的两大巨头，它们都提供了丰富的云计算产品和服务。本文将对比阿里云和百度云的“全家桶”产品，分析它们的优缺点，帮助您选择更适合的云计算服务。阿里云的“全家桶”阿里云的“全家桶”包括计算、存储、网络、

分类标签阿里云百度全家桶

11-26 08:00

阿里云版Salesforce发布，我的看法

阿里云版Salesforce发布，我的看法2023年11月14日，阿里云宣布推出阿里云版Salesforce，这是一条重磅消息。从产品经理和市场的角度出发，我对此有以下看法：一、市场前景广阔阿里云版Salesforce将结合阿里云强大的云计算和数据分析能力，为企业提供全面的客户关系管理解决方案。随着

分类标签阿里云版SalesforceToB2023

11-16 08:02

八款AI智能软件推荐

聊天机器人ChatGPTChatGPT是一款聊天机器人，不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。Al写作助手NotionNotion是一款强大的Al写作助手，能根据输入的关键词，推荐相关的文章素材，可以帮助我们提高文章

分类标签 AI智能软件自媒体写作助手

11-14 16:30

阿里云新LOGO设计解读

阿里云新LOGO设计解读阿里云集团旗下的阿里云换新LOGO了！新的LOGO比旧LOGO好看太多啦！本文详细解读了阿里云新LOGO的设计理念和含义。阿里云的新LOGO是从计算出发，代表着计算和数据的流动。作为现代社会基础设施的计算和数据，是随时随地在运行的，因此LOGO也是动态的。代码是无国界的通用语

分类标签阿里云LOGO设计品牌形象

11-08 16:29

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway