谷歌大手笔投资的Runway正式发布Gen2，360智脑通过中国信通院可信AIGC大语言模型功能评估，阿里达摩院开源Video-LLaMA，AI生成二维码—将快速应用于广告市场

新知榜官方账号

2023-07-05 20:55:01

谷歌大手笔投资的Runway正式发布Gen2，文字生成视频成真，内附见智实测

今天，真正的文本一键生成视频出现了。StableDiffusion和《瞬息全宇宙》背后技术公司Runway，出品的texttovideo的AI视频编辑工具Gen2，今日开放用户使用。Gen2，也在内测阶段就被网友称赞“视频界的Midjourney”。见智今天使用runway的app版本做了一个猫的视频；Prompt：Agoldengradientcatisjumpinginthegrass，同时又给了一张小猫咪的图作为模板。目前来看runway已经能够按照指令生成相应的视频，但是精细程度和对prompt的理解程度相对图片生成平台Midjourney还是明显要弱一些的。但是随着用户大规模的使用改进，相信Runway的Gen2很快可以风靡小视频创作领域。见智点评：随着多模态模型的发展，从文字-图片-视频之间的相互生成将改变整个用户生态。对于产业界来说，只成为素材生产者还远远不够，能够将生成素材进一步便捷让用户生成最终形态应用将是AI应用发展更重要的一步。

360智脑通过中国信通院可信AIGC大语言模型功能评估，为国内首家

360智脑的360GPT-S2-V8型号产品获得了中国信息通信研究院“可信AIGC大语言模型基础能力”评估报告，报告显示必选项目评估内容均通过。据悉，360智脑是国内首个通过中国信通院该项权威评估的大模型产品。见智点评：360智脑成为首家通过中国信通院权威认证，一方面说明了通用大模型的基础能力得到认可，重要的是数据集的安全性有了国家的背书，更有助于之后大范围的商用应用推广。同时关注明天的360智脑发布会。

阿里达摩院开源Video-LLaMA，帮大语言模型加上“眼睛”、“耳朵”

阿里达摩院的研究人员提出了Video-LLaMA，一个具有综合视听能力大模型。Video-LLaMA能够感知和理解视频中的视频和音频信号，并能理解用户输入的指令，完成一系列基于音视频的复杂任务，例如音/视频描述，写作，问答等。目前论文，代码，交互demo都已开放。另外，在Video-LLaMA的项目主页中，该研究团队还提供了中文版本的模型，让中文用户的体验更丝滑。见智点评：阿里达摩院让Video-LLaMA开源，进一步推动国内多模态大模型的发展进程。视听综合大模型非常适用于办公、学习领域的应用。另外，Video-LLaMA大模型对于静态图像也有比较强的理解能力，能够完成图片描述和问答。

AI生成二维码—将快速应用于广告市场

摆脱单调的黑白，使用ControlNet的AI生成的二维码将更具特色和商业价值。具体来看一个应用显示：识别二维码推荐的是QRBTF-就是一款能够制作漂亮有趣二维码的免费开源在线工具。见智点评：ControlNet是基于Stable_Diffusion进行AI生成的一种训练方式，它的特点是计算方法更高效，因为训练不需要在原始编码器上进行，所以更节省GPU内存，训练速度也更快。最值得关注的是，ControlNet这种有控制的生成AI图像更能够得到我们想要的图片结果，同时操作方式简单能够在PC端运行。从应用层面来看，我们看到这种创意形AI生成的二维码更能够具有品牌专属特性且方便进行品牌或者网站等任何产品的推广应用。在不久的将来，这将在广告中越来越普遍。

本页网址：https://www.xinzhibang.net/article_detail-5998.html

寻求报道，请

关键词

谷歌 Runway 360智脑中国信通院 AIGC 阿里达摩院 Video-LLaMA AI 二维码广告市场

分享至微信：

相关工具

Wonder Studio

AI自动为CG角色制作动画、打光并将其合成到真人场景中

AVCLabs

AI自动移除视频背景

Gencraft

AI艺术画视频生成工具

幻舟AI

一站式AI影视创作平台

Synthesia

AI视频生成平台

万兴播爆

万兴科技推出的AI数字人口播视频营销工具

人工智能生成内容（AIGC）的发展、应用、技术原理和优势与挑战

发展历程AIGC指的是利用人工智能算法，如机器学习和深度学习，来自动创作新的内容。从最初的文本自动生成软件到现在能够创作复杂艺术作品的系统，AIGC技术经历了快速的发展。这一过程中，技术如GPT-3、DALL-E等的问世，标志着AIGC领域的重要里程碑。应用领域AIGC的应用领域广泛。在文学、艺术、

分类标签人工智能生成内容AIGC

12-09 22:11

使用TensorFlow.js进行语音识别-语音命令

迁移学习语音识别如何工作？从历史上看，图像分类是普及深度神经网络的问题，尤其是视觉类型的神经网络——卷积神经网络（CNN）。今天，迁移学习用于其他类型的机器学习任务，如NLP和语音识别。我们不会详细介绍什么是CNN以及它们是如何工作的。然而，我们可以说CNN在2012年打破了ImageNet大规模

分类标签 TensorFlow.js语音识别迁移学习卷积神经网络预训练模型语音命令

12-03 16:14

谷歌大脑团队2017年度总结

谷歌大脑团队2017年度总结作为谷歌AI帝国的重要部分，谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了2016年的工作总结。在接下来的一年中，他们在制造智能机器的长期研究中不断取得进步，并与来自Google和Alphabet的其他团队合作，利用研究成果来为人类造福。

分类标签谷歌大脑团队人工智能机器学习

12-03 16:13

英语哑音字母发音规律

英语哑音字母发音规律学习英语哑音字母的发音规律，掌握规律可以少走弯路。哑音字母b：字母b在m之后或t之前且mb,bt处于单词的末尾时(注意：member中的b发音，因为mb不在词尾)，b往往不发音。如：(1)bomb炸弹；climb爬；comb梳子；lamb羊羔；limb手足thumb拇指。(2)d

分类标签英语哑音字母发音规律

11-30 16:15

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？在Avanto和Essenza这种机型上，操作盘是如下图所示款式。那么在这些机型上如何设置达到播放音乐的功能呢？首先把上方图中橙色框选中的（3）开关掰到CV处，否则即便后续设置好了也无法听到声音。注意：有些时候在培训初装机的现场遇到无

分类标签西门子AvantoEssenza音乐播放设置

11-30 16:14

谷歌推出基于RNN-T的全神经元设备端语音识别器解决识别延迟难题

在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语

分类标签谷歌RNN-T语音识别延迟问题全神经元设备端

11-30 16:13

精准可控的AI动画制作流程

精准可控的AI动画制作流程今天给大家介绍一下被低估的AI视频制作工具Runway。这支视频大概花了半个小时，由Midjourney生成底图，然后用Runwaymotionbrush精准控制动画，从而完成创作。我花1分钟介绍一下这个工作流程。首先打开Midjourney，生成好看的底图。然后开局部重绘

分类标签 AI视频制作工具Runway动画制作

11-23 22:14

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频11月21日，Runway的Gen-2视频生成模型正式上线“运动笔刷”（MotionBrush）功能。顾名思义，它可以让一切你需求的对象元素活动起来。刷哪里，哪里就会自己动！只需对着下图的小船随手一刷，就能让被选中的目标滑行起来！

分类标签 AI视频创作工具Runway运动笔刷

11-23 22:12

视频变声的方法和工具

视频变声的方法和工具在制作视频时，有时候我们可能需要给视频添加一些特殊的音效来增加趣味性或创造特定的效果。其中，变声是一个常见的音效处理方式，可以改变视频中人物或配音的声音。使用音频编辑软件我们可以使用各种音频编辑软件来进行视频变声，例如Audacity。在软件中，我们可以使用各种效果器，实现不同的

分类标签视频变声音效处理音频编辑软件

11-13 16:20

拍乐云音频变声接口实现教程

背景介绍在泛娱乐社交和互动游戏场景中，用户已不再满足于高清的音质体验和实时的互动效果，他们还想要增加趣味性和沉浸感，让声音变得好玩有趣。拍乐云Pano上线了音频变声接口，开发者可以通过PanoSDK设置不同的变声效果，如大叔音、小姐姐音、萝莉音、山谷音、惊悚音、困兽音等，增强语聊乐趣。实现步骤1.

分类标签拍乐云音频变声PanoSDK

11-13 16:19