新知榜官方账号
2023-10-13 22:06:33
作为4G、5G时代最丰富的信息承载媒介,视频可以传达出的信息量远远超过声音、图像等单一渠道,浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。对于视频公司来说,如何将AI技术与海量视频资源结合,将成为一个潜力巨大的研发方向,带来的价值不可估量。
在国内AI领域,多模态技术的研发历史虽然不久,但其带来的价值早已得到了充分验证。本文中,来自优酷算法中心负责人王晓博将为我们解析,优酷是如何利用多模态技术,最大限度地挖掘视频信息,创造更大的价值。
优酷作为一家超过12年的视频网站,其最大的数字资产便是存量数亿的视频,这不仅包括平台购买的版权OGC视频,更多的是用户上传的UGC视频。视频作为4G、5G时代信息最便捷的载体,给用户带来极大便利的同时也给各个互联网厂商带去了更大的挑战,富媒体信息的存储、计算以及分发对比单一的文字信息要困难很多。
优酷在多媒体信息处理方面积累了多年,为了更好的支持视频内容理解及智能生产的需要,我们在2018年从算法中心抽调核心骨干力量组建认知实验室,主要聚焦在计算机视觉、视频结构分析与智能生成、智能影像处理以及视频质量四个方向。
本文将从优酷这一企业级应用的视角来介绍多模态内容理解在我们实际线上系统中的应用,文章结构如下:首先介绍简要多模态分析技术,然后结合优酷给出若干主要应用场景,接下来对多模态技术中一些难点做些剖析,最后是对未来的展望。
模态是个专有名词,在计算机信息处理的场景下,专指人接受信息的方式,包括视频、图像、文字、语音等不同的手段。多模态学习按照其所研究的问题大致分为如下几个方向:
视频搜索信息检索的技术发展已经走过了几十年,而视频内容检索在企业里之前一直停留在关键字层面,主要检索的信息来源是视频的标题和描述,与文章、网页的检索架构区别不大,其原因除了技术上的挑战外,还有用户的需求通过关键字检索基本能够满足。
视频推荐系统由于其基于统计机器学习算法的局限性,不可避免的出现头部过热甚至明显违背常识的推荐结果,推荐理由和交互式推荐都是缓解这一现象的有效方法。而运营的经验知识与数据算法间的有机结合将是国内视频网站推荐系统的重要演化方向。
视频媒资库对于视频业务的新价值。视频的全自动生成是一件很有挑战的事情,而内容的剪辑创作是机器目前比较难于胜任的工作,但是素材的搜索和推荐却是提效视频创作的有效手段。
多模态搜索推荐会成为视频信息获取的重要趋势,而向单一的文字模态做降维仅仅是开始,探索更为通用的端到端检索模型仍是需要解决的难题。
基于多模态内容分析解构技术的智能媒资库逐渐会成为视频网站、电视台、甚至企业内部平台的标配,这将会是一个很大的toB市场空间。
多模态内容理解作为一项逐渐走出学术象牙塔的技术,未来会在视频业务中扮演着越来越重要的角色。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16