首页 > 行业观察 > OpenAI通过视频预训练方法训练AI模型学会玩《Minecraft》

OpenAI通过视频预训练方法训练AI模型学会玩《Minecraft》

新知榜官方账号

2023-10-03 16:58:27

OpenAI实验了一种名为视频预训练(VideoPretraining,VPT)的方法,仅使用少量由约聘人员标注的资料,再经过以模仿学习及增强学习法二次微调,就在大量未标注的游戏视频上训练神经网络,使它学会玩《Minecraft》这个知名电玩。

传统的AI模型训练需要大量标注的资料集,因此耗时费力。而OpenAI使用了视频预训练方法,仅使用少量标注的资料集,就能训练出具有高难度技能的AI模型。

OpenAI一开始先搜集约聘人员的一小笔(2,000小时)的录像资料,包括图片及他们的按钮、鼠标动作。然后,通过半监督式模仿学习方法,称为图片预训练(videopretraining,VPT),训练反向动态模型(inversedynamicsmodel,IDM),这模型已可以预测视频中玩家的每一动作。接着,研究人员利用这IDM来标签7万小时的《Minecraft》网络视频资料集,希望创建一个行为复制(behavioralcloning,BC)模型。最终,研究人员成功创建出一个VPT基础模型,这个模型能够执行多种复杂技能,像是游泳、猎捕动物、进食,甚至学会了《Minecraft》里玩家常见利用方块在大楼之间跳来跳去的动作。

OpenAI使用两种方法微调VPT基础模型。首先,通过行为复制(behavioralcloning)方法,研究人员以约聘人员玩《Minecraft》盖房子的新视频来训练VPT基础模型,视频只有10分钟。经过微调,VPT基础模型技能可因此再深化,能使用木柴,还能使用石材,甚至从其他村庄取得物资。其次,OpenAI用增强式学习来进行第2次模型微调。OpenAI利用增强学习方法,训练VPT基础模型搜集钻石鹤嘴锄,若使用Minecraft原生接口,又是难上加上的任务。经过微调,VPT模型不但学会打造钻石鹤嘴锄,而且能搜集所有必要材料。OpenAI研究人员结论,以公开网络视频这种没有标签的资料来训练AI的探索行为是可能的。

OpenAI还认为少量样本训练方式也可以用于其他领域,如计算机使用,因为两者是开放式结局,接口也相似(都是键盘、鼠标)。OpenAI还公开了约聘人员的资料、《Minecraft》环境、模型程序代码及模型权重等资料,并与游戏平台MineRLNeurIPS合作,邀请玩家加入协助微调其VPT模型。

本页网址:https://www.xinzhibang.net/article_detail-15167.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯

ChatGPT,Midjourney,文心一言,文心一格,bing新必应,Stable diffusion,文心一格,稿定设计,墨刀AI,mastergo,Adobe Firefly

短视频知识人物影响力榜

查看更多

新知榜独家 {{faTime.effecttime}}发布

总榜

人物 领域 粉丝数 影响力指数

{{item.manIndex}}

{{item.nickname}} {{item.field}}

{{item.fs}}

{{item.effect}}