發(fā)布時(shí)間:2024-06-09 20:20:08 瀏覽量:380次
《我的世界》里,玩家不一定都是人類,現(xiàn)在 AI 也會(huì)玩了。
《我的世界》是全球知名度最高的開(kāi)放世界游戲。小朋友只需觀看十分鐘的教學(xué)視頻,就能學(xué)會(huì)在游戲中尋找稀有的鉆石,但這卻是 AI 此前無(wú)法企及的高度。
今天 OpenAI 的研究團(tuán)隊(duì)宣布他們開(kāi)發(fā)了一種能玩《我的世界》的智能體,其中使用《我的世界》游戲大量未標(biāo)記視頻數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),僅使用少量標(biāo)記數(shù)據(jù)。
論文地址:點(diǎn)擊咨詢
我們先來(lái)看下效果,模型建造一個(gè)簡(jiǎn)陋的木制避難所:
制作石鎬
VPT 方法
互聯(lián)網(wǎng)包含大量可供我們學(xué)習(xí)的公開(kāi)視頻,例如游戲玩家演示游戲玩法,《我的世界》玩家建造一個(gè)錯(cuò)綜復(fù)雜的房子。然而這些視頻只提供了事情發(fā)生的記錄,而不是確切的實(shí)現(xiàn)方式,即沒(méi)有說(shuō)明鼠標(biāo)移動(dòng)和按鍵的確切順序。
相比于 OpenAI 的大型語(yǔ)言模型,要在視頻游戲等更通用領(lǐng)域構(gòu)建大型基礎(chǔ)模型(foundation model),缺乏動(dòng)作標(biāo)簽帶來(lái)了新的挑戰(zhàn)。
為了利用互聯(lián)網(wǎng)上可用的大量未標(biāo)記視頻數(shù)據(jù),該研究提出了一種新穎但簡(jiǎn)單的半監(jiān)督模仿學(xué)習(xí)方法:視頻預(yù)訓(xùn)練(VPT)。
該研究首先從游戲商家那里收集了一個(gè)小型數(shù)據(jù)集,其中不僅記錄了玩游戲的視頻,還記錄了玩家采取的行動(dòng),即按鍵和鼠標(biāo)的移動(dòng)。利用這些數(shù)據(jù),該研究訓(xùn)練了一個(gè)逆動(dòng)力學(xué)模型 (IDM),以預(yù)測(cè)視頻中每個(gè)步驟所采取的動(dòng)作。重要的是,IDM 可以使用過(guò)去和未來(lái)的信息來(lái)猜測(cè)每一步動(dòng)作。與僅給定過(guò)去視頻幀預(yù)測(cè)動(dòng)作的行為克隆任務(wù)相比,這種任務(wù)要容易得多,需要的數(shù)據(jù)也要少得多。然后該研究使用經(jīng)過(guò)訓(xùn)練的 IDM 來(lái)標(biāo)記更大的在線視頻數(shù)據(jù)集,并通過(guò)行為克隆來(lái)學(xué)習(xí)行動(dòng)。
VPT 零樣本結(jié)果
該研究選擇《我的世界》這個(gè)游戲中驗(yàn)證了所提方法,因?yàn)樗?(1) 是世界上最流行的視頻游戲之一,擁有大量可免費(fèi)獲得的視頻數(shù)據(jù),并且 (2) 是開(kāi)放式的,可以提供各種各樣的行為動(dòng)作,類似于現(xiàn)實(shí)世界的應(yīng)用程序(如計(jì)算機(jī)使用)。與之前的工作在《我的世界》中使用簡(jiǎn)化動(dòng)作空間不同,OpenAI 的新模型使用更普遍適用、難度也更大的原生人機(jī)界面:鼠標(biāo)和鍵盤使用 20Hz 幀率。
該研究的行為克隆模型(VPT 基礎(chǔ)模型)使用 70000 小時(shí)的 IDM 標(biāo)記在線視頻進(jìn)行訓(xùn)練,在《我的世界》中完成了強(qiáng)化學(xué)習(xí)幾乎不可能實(shí)現(xiàn)的任務(wù)。新模型學(xué)會(huì)了砍樹(shù)收集原木,將原木制作成木板,然后將木板制作成箱子;這個(gè)行為序列對(duì)于《我的世界》高級(jí)玩家在約 50 秒內(nèi)執(zhí)行 1000 個(gè)連續(xù)的游戲動(dòng)作。
《我的世界》制作箱子過(guò)程中每一步所需的動(dòng)作數(shù)目和時(shí)間。
此外,該模型還可以執(zhí)行人類在游戲中經(jīng)常執(zhí)行的其他復(fù)雜技能,例如游泳、狩獵動(dòng)物、食用食物以及一些《我的世界》專用技能。
游泳。
狩獵。
食用食物。
VPT 讓智能體通過(guò)觀看互聯(lián)網(wǎng)上的大量視頻就可以進(jìn)行學(xué)習(xí)鋪平了道路。與只會(huì)產(chǎn)生表征先驗(yàn)的生成視頻建?;?qū)Ρ确椒ㄏ啾?,VPT 提供了在更多領(lǐng)域可以直接學(xué)習(xí)大規(guī)模行為先驗(yàn)的可能性,而不僅僅是語(yǔ)言。
此外,該研究還開(kāi)源了數(shù)據(jù)、《我的世界》所需環(huán)境、模型代碼、模型權(quán)重,他們希望這些開(kāi)源有助于未來(lái) VPT 的研究。
原文鏈接:點(diǎn)擊咨詢
熱門資訊
1. 動(dòng)畫(huà)制作VS影視特效!到底有什么不同?
想了解動(dòng)畫(huà)制作和影視特效的區(qū)別嗎?本文將帶您深入探討動(dòng)畫(huà)制作和影視特效之間的關(guān)系,幫助你更好地理解這兩者的差異。
2. 快影、剪映、快剪輯三款軟件對(duì)比評(píng)測(cè),哪款更適合小白?
想知道快影、剪映、快剪輯這三款軟件哪個(gè)更適合小白?看看這篇對(duì)比評(píng)測(cè),帶你了解這三款軟件的功能和特點(diǎn),快速選擇適合自己的視頻剪輯軟件。
3. 剪映專業(yè)版時(shí)間軌道軌道調(diào)整技巧
剪映專業(yè)版新增全局預(yù)覽縮放功能,可以輕松放大或縮小時(shí)間軌道。學(xué)習(xí)如何使用時(shí)間線縮放功能,提升剪輯效率。
4. 豆瓣8.3《鐵皮鼓》|電影符號(hào)學(xué)背后的視覺(jué)盛宴、社會(huì)隱喻主題
文|悅兒(叮咚,好電影來(lái)了!)《鐵皮鼓》是施隆多夫最具代表性的作品,影片于... 分析影片的社會(huì)隱喻主題;以及對(duì)于普通觀眾來(lái)說(shuō),它又帶給我們哪些現(xiàn)實(shí)啟發(fā)...
5. 從宏觀蒙太奇思維、中觀敘事結(jié)構(gòu)、微觀剪輯手法解讀《花樣年華》
中觀層面完成敘事結(jié)構(gòu)、以及微觀層面的剪輯手法,3個(gè)層次來(lái)解讀下電影《花樣年華》的蒙太奇魅力。一、 宏觀層面:運(yùn)用蒙太奇思維構(gòu)建電影劇本雛形。蒙...
6. 15種電影剪輯/轉(zhuǎn)場(chǎng)藝術(shù),賦予影片絕妙魅力
15種電影剪輯/轉(zhuǎn)場(chǎng)手法,讓影片更吸引眼球!回顧電影中豐富多樣的專場(chǎng)技巧,比如瞬間從一個(gè)場(chǎng)景中變換到空中... 現(xiàn)在是測(cè)試技術(shù)的時(shí)候了!以下是一些常見(jiàn)剪輯手法,讓你觀影過(guò)程更加華麗動(dòng)人!
本文介紹了十款強(qiáng)大的PR視頻剪輯插件,幫助提升視頻剪輯效率,提高創(chuàng)作品質(zhì),并降低創(chuàng)作難度。
8. 零基礎(chǔ)怎么學(xué)習(xí)視頻剪輯?新手視頻剪輯教程
1、每個(gè)切點(diǎn)需要理由和動(dòng)機(jī) 很剪輯師認(rèn)為,賦予每一個(gè)切點(diǎn)動(dòng)機(jī)是非常困難的。很多...
9. 淺析電影的三種隱喻形式——白日夢(mèng)、鏡子、窺視窗
電影創(chuàng)作者可以通過(guò)表意、造型、畫(huà)面展示等元素對(duì)隱身性的含義進(jìn)行隱喻,打... 電影和夢(mèng)境都具有普遍性的象征意義,夢(mèng)境中的元素能夠代表人內(nèi)心的欲望,...
10. 干貨丨真正厲害的剪輯師都喜歡用這九大“技巧轉(zhuǎn)場(chǎng)”
想學(xué)習(xí)剪輯技術(shù)轉(zhuǎn)場(chǎng)的方法嗎?了解這九種技巧轉(zhuǎn)場(chǎng)方法,提升影片藝術(shù)感染力,讓你的視頻作品更加生動(dòng)有趣!
最新文章
同學(xué)您好!