谷歌I/O 2018：AI主旋律，TPU3.0、GoogleDuplex、AndroidP精彩亮相

新知榜官方账号

2023-09-19 00:31:03

谷歌I/O 2018：AI主旋律，TPU3.0、GoogleDuplex、AndroidP精彩亮相

2018年5月8日，一年一度的谷歌I/O开发者大会在美国加州山景城开幕。2016年谷歌从移动优先到人工智能优先（AI-first），两年来我们从谷歌I/O看到了谷歌如何践行这一战略。在今日刚刚结束的Keynote中，机器学习依旧是整个大会的主旋律：谷歌发布了TPU3.0、GoogleDuplex，以及基于AI核心的新一代安卓操作系统AndroidP，也介绍了自己在News、Map、Lens等众多产品中对AI与机器学习模型的应用。本文带你一览谷歌I/O2018首日keynote的核心亮点。

深度学习医疗

在今天的Keynote中，谷歌CEO桑德尔·皮查伊等人介绍了谷歌一年来的多方面AI研究成果，例如深度学习医疗、TPU3.0、GoogleDuplex等，也展示了AI如何全方位地融入了谷歌每一条产品线，从安卓到GoogleLens和Waymo。在本文中，机器之心对Keynote的核心内容进行了整理。深度学习医疗大会刚开始，昨天谷歌所有的AI研究合并出的GoogleAI发布了一篇博客，介绍谷歌在医疗领域的研究：联合斯坦福医学院、加州大学旧金山分校、芝加哥大学医学中心，谷歌今天在NaturePartnerJournals:DigitalMedicine上发布了一篇论文《ScalableandAccurateDeepLearningwithElectronicHealthRecords》。在此研究中，谷歌使用深度学习模型根据去识别的电子病历做出大量与病人相关的预测。重要的是，谷歌能够使用原始数据，不需要人工提取、清洁、转换病历中的相关变量。在预测之前，深度学习模型读取早期到现在所有的数据点，然后学习对预测输出有帮助的数据。由于数据点数量巨大，谷歌基于循环神经网络与前馈网络开发出了一种新型的深度学习建模方法。病人病历中的数据以时间线的形式展示至于预测准确率（标准：1.00为完美得分），如果病人就医时间较长，论文提出的模型预测得分为0.86，而传统的logistic回归模型得分为0.76。这一预测准确率已经相当惊人。

音频-视觉语音分离模型

而后，皮查伊介绍了谷歌博客不久前介绍的新型音频-视觉语音分离模型。在论文《LookingtoListenattheCocktailParty》中，谷歌提出了一种深度学习音频-视觉模型，用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。这种方法用途广泛，从视频中的语音增强和识别、视频会议，到改进助听器，不一而足，尤其适用于有多个说话人的情景。据介绍，这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲，人的嘴的运动应当与该人说话时产生的声音相关联，这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量（与仅仅使用音频的语音分离相比），它还将分离的干净语音轨道与视频中的可见说话者相关联。在谷歌提出的方法中，输入是具有一个或多个说话人的视频，其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道，其中每个语音轨道来自视频中检测到的每一个人。

GoogleDuplex

谷歌CEO桑德尔·皮查伊在Keynote中展示了语言交互的重要性，并正式介绍了一种进行自然语言对话的新技术GoogleDuplex。这种技术旨在完成预约等特定任务，并使系统尽可能自然流畅地实现对话，使用户能像与人对话那样便捷。这种自然的对话非常难以处理，因为用户可能会使用更加不正式或较长的句子，且语速和语调也会相应地增加。此外，在交互式对话中，同样的自然语句可能会根据语境有不同的意思，因为人类之间的自然对话总是根据语境尽可能省略一些语言。为了解决这些问题，Duplex基于循环神经网络和TensorFlowExtended（TFX）在匿名电话会话数据集上进行训练。这种循环网络使用谷歌自动语音识别（ASR）技术的输出作为输入，包括语音的特征、会话历史和其它会话参数。谷歌会为每一个任务独立地训练一个理解模型，但所有任务都能利用共享的语料库。此外，谷歌还会使用TFX中的超参数优化方法优化模型的性能。在Duplex系统的语音生成部分，谷歌结合了拼接式的TTS系统和合成式的TTS系统来控制语音语调，即结合了Tacotron和WaveNet。由于这样的系统引入了「嗯、额」等停顿语，系统生成的语音会显得更加的自然。

AndroidP

安卓以及闪现的DeepMind即将在今年9月迎来自己10岁生日的安卓也在I/O上宣布了新一代操作系统。继承AndroidOreo工作的新版安卓系统被命名为AndroidP。「本次发布有三个主题，分别是智能（Intelligence）、简洁（Simplicity）与数字健康（DigitalWellbeing）。AndroidP是我们『AI位于操作系统核心』愿景的第一步，而AI也是『智能』主题的奠基石。」谷歌工程副总裁DaveBurke如是展开了他的演讲。智能部分里首先介绍了两个功能，AdaptiveBattery自适应电池管理系统和AdaptiveBrightness自适应亮度调节系统。其中，AdaptiveBattery通过卷积神经网络来预测用户接下来会使用的应用程序，通过适应用户的使用模式将电池仅用于你接下来可能需要的应用程序中，这减少了30%的后台CPU唤醒。而AdaptiveBrightness则不再单纯根据照明情况调节亮度，而是加上了用户喜好和所处环境因素。超过一半的测试用户减少了他们手动调节亮度条的频率。除了将AI融入操作系统的优化之外，Android还试图降低非机器学习背景的开发者使用相关技能的门槛：包括图片标注、文字识别、智能回复等一系列AI相关的API将以MLKit的形式开放给开发者。而且，谷歌非常大方地同时对iOS系统开放了这一API集。

其他亮点

在今天的Keynote中，还有其他一些亮点，例如TPU3.0、音频-视觉语音分离模型等。此外，谷歌还展示了其自动驾驶汽车初创公司Waymo的一些成果。

本页网址：https://www.xinzhibang.net/article_detail-12297.html

寻求报道，请

关键词

谷歌I/O 人工智能 TPU3.0 GoogleDuplex AndroidP

分享至微信：

相关工具

Elai.io

AI文本到视频生成工具

Hour One

人工智能文字到视频生成

BgRem

无水印AI视频背景移除

DreamFace

让图片动起来的AI工具

绘影字幕

一键智能在线自动为视频加字幕

AVCLabs

AI自动移除视频背景

轻医美轻空间：医疗美容新趋势

轻医美轻空间：医疗美容新趋势"美是恒久命题而美的呈现方式，却并非一成不变"——ByJUSEN"轻医美轻空间"星辰为径，落入斑斓心河"Beauty is an eternal proposition. The presentation of beauty is not static."——By JUS

分类标签轻医美医疗美容空间设计

12-05 02:28

人生最大的敌人是自己，最大的失败是自馁，最大的愚蠢是自欺

人生最大的敌人是自己，最大的失败是自馁，最大的愚蠢是自欺精挑细淘，早安九条：1、OpenAI......

分类标签 OpenAI特斯拉马云荣耀闲鱼南京SensorTowerAdobe

11-24 22:57

全球股指周四普涨，欧佩克+推迟政策会议

周四，隔夜股市主要股指普涨，美股因感恩节休市，周五提前3小时于北京时间25日凌晨2点休市。商品市场国际油价周四跌约1%，市场预计欧佩克+明年可能不会进一步减产，此前该联盟推迟了原定于周末举行的政策会议。两名欧佩克+消息人士表示，欧佩克+和非洲石油生产国正就2024年产量水平接近达成妥协。此外，美国

分类标签全球股指欧佩克+政策会议

11-24 22:56

划重点:

划重点：本文是一篇笔记总结，主要针对重点内容进行梳理和总结，旨在帮助读者更好地理解和掌握相关知识。什么是划重点？划重点是一种快速记录和总结重点内容的方法，适用于各种学习和工作场景。通过划重点，我们可以更快地抓住重点，更好地理解和掌握相关知识。划重点的方法：1. 仔细阅读原文，抓住重点。2. 用不同颜

分类标签划重点重点笔记总结

11-24 22:55

Adobe收购AI初创公司Rephrase.ai，进一步强化数字媒体和营销领域市场地位

11月23日，Adobe向界面新闻确认，已收购AI初创公司Rephrase.ai。Rephrase.ai是一家通过AI技术将文本转换为虚拟形象视频的公司。此举将进一步提升Adobe在视频处理领域的技术实力，并探索新的人才和科技。根据天眼查数据显示，Rephrase.ai是一家专注于AI视频处理技术的

分类标签 AdobeRephrase.aiAI技术数字媒体营销视频制作

11-24 22:54

Adobe成功收购AI初创公司Rephrase.ai，加速AI视频创作领域的布局

Adobe成功收购AI初创公司Rephrase.ai，加速AI视频创作领域的布局在科技风暴中，Adobe再度掀起轩然大波。据界面新闻11月23日报道，Adobe正式收购了印度初创公司Rephrase.ai，一家致力于通过AI技术将文本转换为虚拟形象视频的公司。这一动作被认为是Adobe在AI领域的首

分类标签 AdobeRephrase.aiAI技术视频创作市场营销客户沟通

11-24 22:53

Adobe收购初创公司Rephrase.AI，AI生成视频大潮逐渐升温

Adobe收购初创公司Rephrase.AI，AI生成视频大潮逐渐升温11月23日，Adobe向界面新闻确认，已收购AI初创公司Rephrase.ai，后者主要通过AI技术将文本转换为虚拟形象视频。对于收购的原因，该公司向界面新闻回应称，“我们一直在寻找能够与Adobe战略相契合，并能够为我们的利益

分类标签 AdobeRephrase.AIAI视频生成式AI音视频技术

11-24 22:52

语音生成软件：人工智能的惊人进步

人工智能的惊人进步：语音生成软件随着人工智能的不断发展，语音生成软件成为近期受到广泛关注的领域之一。生成式人工智能（AIGC）是一种基于输入的数据形成文本、图像或声音的技术，它的进步使软件能够以惊人的精度重现人的声音。在这一领域中，ChatGPT等聊天机器人和DALL-E等文本转图像生成器也得到了迅

分类标签语音生成软件人工智能声音

11-06 18:38

AI图样的应用及局限性

AI图样的应用及局限性AI图样是目前较为热门的技术之一，它主要基于深度学习技术，通过对已经存在的图样进行训练，然后通过对待处理的图片进行匹配，从而快速生成相应的内容。同时，AI图样也可以应用于语音处理领域，如AI配音等。首先，AI图样是一种非常方便的技术，能够快速帮助我们生成所需内容。与传统的图像处

分类标签 AI图样深度学习图像处理

11-06 18:37

Adobe XD 更新：新增语音命令功能

Adobe XD 新增语音命令功能今年的设计圈注定变得有点不一样。自从 Adobe XD 宣布免费以后，不少设计师尤其是 UI/UX 设计师都十分关注且不断尝试。当中，这位 Adobe 全家桶里的界面设计担当，国内 Adobe Live 也为 XD 邀请了不少设计师交流使用感。不知不觉，连双 12

分类标签 AdobeXDUI设计原型设计

11-06 18:36