首页 > 行业观察 > 优酷如何利用多模态技术最大限度地挖掘视频信息

优酷如何利用多模态技术最大限度地挖掘视频信息

新知榜官方账号

2023-10-13 22:06:33

优酷如何利用多模态技术最大限度地挖掘视频信息

作为4G、5G时代最丰富的信息承载媒介,视频可以传达出的信息量远远超过声音、图像等单一渠道,浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。对于视频公司来说,如何将AI技术与海量视频资源结合,将成为一个潜力巨大的研发方向,带来的价值不可估量。

在国内AI领域,多模态技术的研发历史虽然不久,但其带来的价值早已得到了充分验证。本文中,来自优酷算法中心负责人王晓博将为我们解析,优酷是如何利用多模态技术,最大限度地挖掘视频信息,创造更大的价值。

优酷作为一家超过12年的视频网站,其最大的数字资产便是存量数亿的视频,这不仅包括平台购买的版权OGC视频,更多的是用户上传的UGC视频。视频作为4G、5G时代信息最便捷的载体,给用户带来极大便利的同时也给各个互联网厂商带去了更大的挑战,富媒体信息的存储、计算以及分发对比单一的文字信息要困难很多。

优酷在多媒体信息处理方面积累了多年,为了更好的支持视频内容理解及智能生产的需要,我们在2018年从算法中心抽调核心骨干力量组建认知实验室,主要聚焦在计算机视觉、视频结构分析与智能生成、智能影像处理以及视频质量四个方向。

本文将从优酷这一企业级应用的视角来介绍多模态内容理解在我们实际线上系统中的应用,文章结构如下:首先介绍简要多模态分析技术,然后结合优酷给出若干主要应用场景,接下来对多模态技术中一些难点做些剖析,最后是对未来的展望。

多模态分析技术简介

模态是个专有名词,在计算机信息处理的场景下,专指人接受信息的方式,包括视频、图像、文字、语音等不同的手段。多模态学习按照其所研究的问题大致分为如下几个方向:

  • 表达学习:实际用途很广,主要将多个模态的信息转换为实值的向量,多用于召回、相关性计算以及预估特征
  • 模态映射:影视剧中的剧情详细描述如何能与视频切片对应起来,在跨模态检索中应用较多
  • 模态对齐:将图像中的实体与文字中的实体对应起来,这在视频语义检索中十分有用
  • 协同学习:每个模态的标注任务都很挑战且成本高企,相对而言,文字模态的标注成本是比较低的,而如何能够在缺乏标注信息的模态数据上利用其它模态的数据进行训练对于节省成本共享信息非常有帮助

典型应用场景问题及挑战

视频搜索信息检索的技术发展已经走过了几十年,而视频内容检索在企业里之前一直停留在关键字层面,主要检索的信息来源是视频的标题和描述,与文章、网页的检索架构区别不大,其原因除了技术上的挑战外,还有用户的需求通过关键字检索基本能够满足。

视频推荐系统由于其基于统计机器学习算法的局限性,不可避免的出现头部过热甚至明显违背常识的推荐结果,推荐理由和交互式推荐都是缓解这一现象的有效方法。而运营的经验知识与数据算法间的有机结合将是国内视频网站推荐系统的重要演化方向。

视频媒资库对于视频业务的新价值。视频的全自动生成是一件很有挑战的事情,而内容的剪辑创作是机器目前比较难于胜任的工作,但是素材的搜索和推荐却是提效视频创作的有效手段。

对未来的展望

多模态搜索推荐会成为视频信息获取的重要趋势,而向单一的文字模态做降维仅仅是开始,探索更为通用的端到端检索模型仍是需要解决的难题。

基于多模态内容分析解构技术的智能媒资库逐渐会成为视频网站、电视台、甚至企业内部平台的标配,这将会是一个很大的toB市场空间。

多模态内容理解作为一项逐渐走出学术象牙塔的技术,未来会在视频业务中扮演着越来越重要的角色。

本页网址:https://www.xinzhibang.net/article_detail-16680.html

寻求报道,请 点击这里 微信扫码咨询

关键词

优酷 多模态技术 视频信息

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯

ChatGPT,Midjourney,文心一言,文心一格,bing新必应,Stable diffusion,文心一格,稿定设计,墨刀AI,mastergo,Adobe Firefly

短视频知识人物影响力榜

查看更多

新知榜独家 {{faTime.effecttime}}发布

总榜

人物 领域 粉丝数 影响力指数

{{item.manIndex}}

{{item.nickname}} {{item.field}}

{{item.fs}}

{{item.effect}}