新知榜官方账号
2023-07-03 10:14:30
近日,新加坡国立大学和香港中文大学共同完成的最新研究MinD-Video引起了广泛关注。该研究利用fMRI技术从大脑信号中逐步学习,通过与增强版StableDiffusion模型的共同训练来微调学习到的特征,重建高清视频。
fMRI技术是一种非侵入式方法,可以测量血氧水平依赖(BOLD)信号,并在每隔几秒钟的时间里捕捉大脑活动的快照。但与重建静态图像不同,我们视觉所看到的场景、动作和物体的变化是连续、多样化的。而一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。因此,视频重建的难点在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。
为了解决视频重建的难点,研究团队提出了MinD-Video的方法。该方法主要包含两大模块,它们分别做训练,然后再在一起做微调。这个模型从大脑信号中逐步学习,在第一个模块多个阶段的过程,可以获得对语义空间的更深入理解。具体而言,便是先利用大规模无监督学习与maskbrainmodeling(MBM)来学习一般的视觉fMRI特征。然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器。在第二个模块中,团队通过与增强版StableDiffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。
与此前的诸多研究做了对比,可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。而且在场景连续变化的过程中,也能够呈现高清、有意义的连续帧。这项研究的共同一作是来自新加坡国立大学的博士生ZijiaoChen和来自香港中文大学的JiaxinQing,通讯作者是新加坡国立大学副教授JuanHelenZHOU。
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49