谷歌I/O 2018:AI主旋律,TPU3.0、GoogleDuplex、AndroidP精彩亮相

新知榜官方账号

2023-09-19 00:31:03

谷歌I/O 2018:AI主旋律,TPU3.0、GoogleDuplex、AndroidP精彩亮相

2018年5月8日,一年一度的谷歌I/O开发者大会在美国加州山景城开幕。2016年谷歌从移动优先到人工智能优先(AI-first),两年来我们从谷歌I/O看到了谷歌如何践行这一战略。在今日刚刚结束的Keynote中,机器学习依旧是整个大会的主旋律:谷歌发布了TPU3.0、GoogleDuplex,以及基于AI核心的新一代安卓操作系统AndroidP,也介绍了自己在News、Map、Lens等众多产品中对AI与机器学习模型的应用。本文带你一览谷歌I/O2018首日keynote的核心亮点。

深度学习医疗

在今天的Keynote中,谷歌CEO桑德尔·皮查伊等人介绍了谷歌一年来的多方面AI研究成果,例如深度学习医疗、TPU3.0、GoogleDuplex等,也展示了AI如何全方位地融入了谷歌每一条产品线,从安卓到GoogleLens和Waymo。在本文中,机器之心对Keynote的核心内容进行了整理。深度学习医疗大会刚开始,昨天谷歌所有的AI研究合并出的GoogleAI发布了一篇博客,介绍谷歌在医疗领域的研究:联合斯坦福医学院、加州大学旧金山分校、芝加哥大学医学中心,谷歌今天在NaturePartnerJournals:DigitalMedicine上发布了一篇论文《ScalableandAccurateDeepLearningwithElectronicHealthRecords》。在此研究中,谷歌使用深度学习模型根据去识别的电子病历做出大量与病人相关的预测。重要的是,谷歌能够使用原始数据,不需要人工提取、清洁、转换病历中的相关变量。在预测之前,深度学习模型读取早期到现在所有的数据点,然后学习对预测输出有帮助的数据。由于数据点数量巨大,谷歌基于循环神经网络与前馈网络开发出了一种新型的深度学习建模方法。病人病历中的数据以时间线的形式展示至于预测准确率(标准:1.00为完美得分),如果病人就医时间较长,论文提出的模型预测得分为0.86,而传统的logistic回归模型得分为0.76。这一预测准确率已经相当惊人。

音频-视觉语音分离模型

而后,皮查伊介绍了谷歌博客不久前介绍的新型音频-视觉语音分离模型。在论文《LookingtoListenattheCocktailParty》中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。据介绍,这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比),它还将分离的干净语音轨道与视频中的可见说话者相关联。在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。

GoogleDuplex

谷歌CEO桑德尔·皮查伊在Keynote中展示了语言交互的重要性,并正式介绍了一种进行自然语言对话的新技术GoogleDuplex。这种技术旨在完成预约等特定任务,并使系统尽可能自然流畅地实现对话,使用户能像与人对话那样便捷。这种自然的对话非常难以处理,因为用户可能会使用更加不正式或较长的句子,且语速和语调也会相应地增加。此外,在交互式对话中,同样的自然语句可能会根据语境有不同的意思,因为人类之间的自然对话总是根据语境尽可能省略一些语言。为了解决这些问题,Duplex基于循环神经网络和TensorFlowExtended(TFX)在匿名电话会话数据集上进行训练。这种循环网络使用谷歌自动语音识别(ASR)技术的输出作为输入,包括语音的特征、会话历史和其它会话参数。谷歌会为每一个任务独立地训练一个理解模型,但所有任务都能利用共享的语料库。此外,谷歌还会使用TFX中的超参数优化方法优化模型的性能。在Duplex系统的语音生成部分,谷歌结合了拼接式的TTS系统和合成式的TTS系统来控制语音语调,即结合了Tacotron和WaveNet。由于这样的系统引入了「嗯、额」等停顿语,系统生成的语音会显得更加的自然。

AndroidP

安卓以及闪现的DeepMind即将在今年9月迎来自己10岁生日的安卓也在I/O上宣布了新一代操作系统。继承AndroidOreo工作的新版安卓系统被命名为AndroidP。「本次发布有三个主题,分别是智能(Intelligence)、简洁(Simplicity)与数字健康(DigitalWellbeing)。AndroidP是我们『AI位于操作系统核心』愿景的第一步,而AI也是『智能』主题的奠基石。」谷歌工程副总裁DaveBurke如是展开了他的演讲。智能部分里首先介绍了两个功能,AdaptiveBattery自适应电池管理系统和AdaptiveBrightness自适应亮度调节系统。其中,AdaptiveBattery通过卷积神经网络来预测用户接下来会使用的应用程序,通过适应用户的使用模式将电池仅用于你接下来可能需要的应用程序中,这减少了30%的后台CPU唤醒。而AdaptiveBrightness则不再单纯根据照明情况调节亮度,而是加上了用户喜好和所处环境因素。超过一半的测试用户减少了他们手动调节亮度条的频率。除了将AI融入操作系统的优化之外,Android还试图降低非机器学习背景的开发者使用相关技能的门槛:包括图片标注、文字识别、智能回复等一系列AI相关的API将以MLKit的形式开放给开发者。而且,谷歌非常大方地同时对iOS系统开放了这一API集。

其他亮点

在今天的Keynote中,还有其他一些亮点,例如TPU3.0、音频-视觉语音分离模型等。此外,谷歌还展示了其自动驾驶汽车初创公司Waymo的一些成果。

本页网址:https://www.xinzhibang.net/article_detail-12297.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌I/O 人工智能 TPU3.0 GoogleDuplex AndroidP

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯