新知榜官方账号
2023-10-03 16:58:27
OpenAI实验了一种名为视频预训练(VideoPretraining,VPT)的方法,仅使用少量由约聘人员标注的资料,再经过以模仿学习及增强学习法二次微调,就在大量未标注的游戏视频上训练神经网络,使它学会玩《Minecraft》这个知名电玩。
传统的AI模型训练需要大量标注的资料集,因此耗时费力。而OpenAI使用了视频预训练方法,仅使用少量标注的资料集,就能训练出具有高难度技能的AI模型。
OpenAI一开始先搜集约聘人员的一小笔(2,000小时)的录像资料,包括图片及他们的按钮、鼠标动作。然后,通过半监督式模仿学习方法,称为图片预训练(videopretraining,VPT),训练反向动态模型(inversedynamicsmodel,IDM),这模型已可以预测视频中玩家的每一动作。接着,研究人员利用这IDM来标签7万小时的《Minecraft》网络视频资料集,希望创建一个行为复制(behavioralcloning,BC)模型。最终,研究人员成功创建出一个VPT基础模型,这个模型能够执行多种复杂技能,像是游泳、猎捕动物、进食,甚至学会了《Minecraft》里玩家常见利用方块在大楼之间跳来跳去的动作。
OpenAI使用两种方法微调VPT基础模型。首先,通过行为复制(behavioralcloning)方法,研究人员以约聘人员玩《Minecraft》盖房子的新视频来训练VPT基础模型,视频只有10分钟。经过微调,VPT基础模型技能可因此再深化,能使用木柴,还能使用石材,甚至从其他村庄取得物资。其次,OpenAI用增强式学习来进行第2次模型微调。OpenAI利用增强学习方法,训练VPT基础模型搜集钻石鹤嘴锄,若使用Minecraft原生接口,又是难上加上的任务。经过微调,VPT模型不但学会打造钻石鹤嘴锄,而且能搜集所有必要材料。OpenAI研究人员结论,以公开网络视频这种没有标签的资料来训练AI的探索行为是可能的。
OpenAI还认为少量样本训练方式也可以用于其他领域,如计算机使用,因为两者是开放式结局,接口也相似(都是键盘、鼠标)。OpenAI还公开了约聘人员的资料、《Minecraft》环境、模型程序代码及模型权重等资料,并与游戏平台MineRLNeurIPS合作,邀请玩家加入协助微调其VPT模型。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16