發(fā)布時(shí)間:2024-03-08 19:07:34 瀏覽量:120次
AI 科技評(píng)論按:OpenAI 于今日發(fā)布了 Neural MMO,它是一個(gè)為強(qiáng)化學(xué)習(xí)智能體創(chuàng)建的大型多智能體游戲環(huán)境。該平臺(tái)支持在一個(gè)持久、開(kāi)放的任務(wù)中使用大規(guī)模且數(shù)量可變的智能體。將更多的智能體和物種囊括到環(huán)境中可以更好地執(zhí)行探索任務(wù),促進(jìn)多種生態(tài)位的形成,從而增強(qiáng)系統(tǒng)整體的能力。
近年來(lái),多智能體環(huán)境已經(jīng)成為深度強(qiáng)化學(xué)習(xí)的一個(gè)有效的研究平臺(tái)。雖然該領(lǐng)域目前已經(jīng)取得了一定的研究進(jìn)展,但是多智能體強(qiáng)化學(xué)習(xí)仍存在兩大主要挑戰(zhàn):當(dāng)前的強(qiáng)化學(xué)習(xí)環(huán)境要么足夠復(fù)雜但是限制條件太多,普適性不強(qiáng);要么限制條件很少但是過(guò)于簡(jiǎn)單。因而我們需要?jiǎng)?chuàng)建具有高復(fù)雜度上限的開(kāi)放式任務(wù),其中,持久性和大的種群規(guī)模等屬性是需要討論的關(guān)鍵因素。但同時(shí),我們還需要更多的基準(zhǔn)測(cè)試環(huán)境,來(lái)量化對(duì)于持久性和大的種群規(guī)模這些屬性的學(xué)習(xí)進(jìn)展。大型多人在線游戲(MMO)類型的游戲模擬了一個(gè)規(guī)模龐大的生態(tài)系統(tǒng),其中數(shù)量不斷變化的玩家在持久、廣闊的環(huán)境下對(duì)戰(zhàn)。
為了應(yīng)對(duì)這些挑戰(zhàn),OpenAI 開(kāi)發(fā)了 Neural MMO,它滿足以下的標(biāo)準(zhǔn):
(1)持久性:在不對(duì)環(huán)境進(jìn)行重置的情況下,智能體可以在其它智能體也正在學(xué)習(xí)的情況下同時(shí)進(jìn)行學(xué)習(xí)。策略必須考慮到長(zhǎng)遠(yuǎn)的規(guī)劃,并適應(yīng)其他智能體可能發(fā)生快速變化的行為。
(2)規(guī)模:該環(huán)境支持大規(guī)模且數(shù)量可變的實(shí)體。本實(shí)驗(yàn)考慮了在 100 個(gè)并發(fā)服務(wù)器中,每個(gè)服務(wù)器中的 128 個(gè)并發(fā)的智能體長(zhǎng)達(dá) 100M 的生命周期。
(3)效率:計(jì)算的準(zhǔn)入門(mén)檻很低。我們可以在一塊桌面級(jí) CPU 上訓(xùn)練有效的策略。
(4)擴(kuò)展性:與現(xiàn)有的大型多人在線游戲類似,我們?cè)O(shè)計(jì)的 Neural MMO 旨在更新新的內(nèi)容。它目前的核心功能包括程序化的基于拼接地塊的地形生成,尋找食物和水資源的系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。在未來(lái),該系統(tǒng)有機(jī)會(huì)進(jìn)行開(kāi)源驅(qū)動(dòng)的擴(kuò)展。
玩家(智能體)可以加入到任何可用的服務(wù)器(環(huán)境)中,每個(gè)服務(wù)器都會(huì)包含一個(gè)可配置大小的自動(dòng)生成的基于地塊的游戲地圖。一些諸如上面放有食物的森林地塊和草地地塊是可以穿越的;其他的諸如水、實(shí)心巖石的地塊則無(wú)法穿越。
智能體在沿著環(huán)境邊緣隨機(jī)分布的位置誕生。為了維持生存的狀態(tài),他們需要獲取食物和水,同時(shí)還要避免與其他智能體進(jìn)行戰(zhàn)斗受到的傷害。通過(guò)踩在森林地塊上或站在水地塊的旁邊,智能體可以分別給自己補(bǔ)充一部分食物和水供應(yīng)。然而,森林地塊中的食物供應(yīng)有限,食物會(huì)隨著時(shí)間的推移緩慢地再生。這意味著智能體必須為爭(zhēng)奪食品塊而戰(zhàn),并同時(shí)定期從無(wú)限的水形地塊中補(bǔ)充水源。玩家可以使用三種戰(zhàn)斗風(fēng)格進(jìn)行戰(zhàn)斗,分別為近戰(zhàn)、遠(yuǎn)程攻擊及法術(shù)攻擊。
輸入:智能體觀察以其當(dāng)前位置為中心的方形農(nóng)作物地塊。輸入包括地塊的地形類型和當(dāng)前智能體選中的屬性(生命值、食物、水和位置)。
輸出:智能體為下一個(gè)游戲時(shí)鐘刻度(時(shí)間步)輸出動(dòng)作選項(xiàng)。該動(dòng)作由一次移動(dòng)和一次攻擊組成。
該平臺(tái)提供了一個(gè)程序化的環(huán)境生成器以及「值函數(shù)、地圖地塊的訪問(wèn)分布、在學(xué)習(xí)到的策略中智能體與智能體之間的依賴關(guān)系」的可視化工具。用以對(duì)比的基線模型是在 100 個(gè)世界中訓(xùn)練出來(lái)的策略梯度方法。
OpenAI 研究人員使用原始的策略梯度算法、僅對(duì)價(jià)值函數(shù)基線和獎(jiǎng)勵(lì)折扣進(jìn)行了強(qiáng)化,訓(xùn)練了一個(gè)小型的、全連接的架構(gòu)作為一個(gè)簡(jiǎn)單的基線。智能體實(shí)現(xiàn)最優(yōu)化以獲得獎(jiǎng)勵(lì)僅僅是為了維持自身的生命周期(軌跡長(zhǎng)度),而不是為了實(shí)現(xiàn)特定的目標(biāo):他們得每獲得 1 個(gè)獎(jiǎng)勵(lì),生命周期就會(huì)延長(zhǎng)一個(gè)時(shí)鐘刻度。同時(shí),他們通過(guò)計(jì)算出所有玩家獲得獎(jiǎng)勵(lì)的最大值,將長(zhǎng)度可變的觀測(cè)結(jié)果(例如周圍玩家的列表)轉(zhuǎn)換為一個(gè)定長(zhǎng)的向量(OpenAI Five 也采用了這個(gè)技巧)。本項(xiàng)目發(fā)布的源代碼包含了基于 PyTorch 和 Ray 的完整的分布式訓(xùn)練實(shí)現(xiàn)。
訓(xùn)練時(shí)的最大種群規(guī)模在(16,32,64,128)的范圍內(nèi)變化。為了提高效率,每組中的 16 個(gè)智能體會(huì)共享策略。在測(cè)試時(shí),我們會(huì)合并在成對(duì)的實(shí)驗(yàn)中學(xué)到的種群,并評(píng)估固定規(guī)模的種群的生命周期。由于戰(zhàn)斗策略更加難于直接對(duì)比,我們僅僅評(píng)估覓食行為。在大規(guī)模種群上訓(xùn)練出來(lái)的智能體往往表現(xiàn)得更好。
OpenAI 研究人員從大量種群中均勻采樣得到智能體的策略,發(fā)現(xiàn)不同種群中的智能體會(huì)共享網(wǎng)絡(luò)架構(gòu),但只有同一種群中的智能體才會(huì)共享權(quán)重。初步的實(shí)驗(yàn)結(jié)果表明,隨著多智能體交互的增多,智能體的能力也會(huì)攀升。提高共存玩家數(shù)量的上限可以擴(kuò)大探索范圍,而增加種群的數(shù)量則會(huì)擴(kuò)大生態(tài)位的形成結(jié)構(gòu)——也就是說(shuō),擴(kuò)大了種群在地圖上的不同區(qū)域擴(kuò)散和覓食的趨勢(shì)。
對(duì)于大型多智能體在線游戲來(lái)說(shuō),并沒(méi)有跨服務(wù)器評(píng)估玩家相對(duì)戰(zhàn)斗力的標(biāo)準(zhǔn)方法。然而,大型多智能體在線游戲的服務(wù)器有時(shí)會(huì)出現(xiàn)合并的情況,此時(shí)多個(gè)服務(wù)器上的玩家數(shù)據(jù)會(huì)被放入同一個(gè)服務(wù)器。通過(guò)合并在不同服務(wù)器中訓(xùn)練的玩家數(shù)據(jù),OpenAI 研究人員實(shí)現(xiàn)了「錦標(biāo)賽」式的模型評(píng)估,這讓他們能夠直接比較智能體在不同實(shí)驗(yàn)環(huán)境下學(xué)習(xí)到的策略。另外,通過(guò)改變測(cè)試時(shí)的環(huán)境規(guī)模,他們發(fā)現(xiàn)在較大的環(huán)境中訓(xùn)練的智能體一致地比在較小的環(huán)境中訓(xùn)練的智能體表現(xiàn)更好。
種群數(shù)量的增加擴(kuò)大了搜索范圍:智能體分散開(kāi)來(lái)從而避免對(duì)戰(zhàn)。最后幾幀顯示的是學(xué)習(xí)到的價(jià)值函數(shù)的重疊情況。要想查看更多的圖標(biāo)信息,請(qǐng)參閱:「Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents」(
https://arxiv.org/pdf/1903.00784.pdf)。
在自然界中,動(dòng)物之間的競(jìng)爭(zhēng)可以激勵(lì)它們分散開(kāi)來(lái)以避免沖突。研究人員觀察到,智能體在地圖上的覆蓋率隨共存智能體數(shù)量的增加而增加。智能體之所以會(huì)學(xué)著去探索,只是因?yàn)槠渌悄荏w的存在為它們提供了這樣做的自然動(dòng)機(jī)。
物種數(shù)量(種群數(shù)量)的增加擴(kuò)大了生態(tài)位(種群在自然生態(tài)系統(tǒng)中,在時(shí)間、空間上所占據(jù)的位置及其與相關(guān)種群之間的功能關(guān)系和作用)的形成??梢暬牡貓D漸漸覆蓋了游戲的地圖,不同的顏色對(duì)應(yīng)不同的物種。對(duì)單個(gè)種群的訓(xùn)練往往會(huì)促使系統(tǒng)產(chǎn)生一個(gè)深入的探索路徑。而訓(xùn)練八個(gè)種群則會(huì)導(dǎo)致產(chǎn)生很多較淺的探索路徑:種群會(huì)分散以避免物種之間的競(jìng)爭(zhēng)。
給定一個(gè)足夠大的資源豐富的環(huán)境,他們發(fā)現(xiàn)當(dāng)智能體的種群數(shù)量增加時(shí),不同種群會(huì)分散地遍布在地圖上以避免與其他種群的競(jìng)爭(zhēng)。由于實(shí)體無(wú)法在競(jìng)爭(zhēng)中勝過(guò)同一個(gè)種群中的其它智能體(即與之共享權(quán)重的智能體),它們傾向于尋找地圖上包含足夠多用于維持種群規(guī)模的資源的區(qū)域。DeepMind 在共生多智能體研究中也獨(dú)立觀察到了類似的效果(
https://arxiv.org/abs/1812.07019)。
每個(gè)方形地圖顯示了位于方塊中心的智能體對(duì)其周圍智能體的響應(yīng)。我們展示出了初始化階段和訓(xùn)練早期的覓食地圖,以及額外的對(duì)應(yīng)于不同的覓食和戰(zhàn)斗形式的依賴關(guān)系圖。
OpenAI 研究人員通過(guò)將智能體固定在假設(shè)的地圖地塊的中心,來(lái)可視化智能體與智能體之間的依賴關(guān)系。針對(duì)對(duì)該智能體可見(jiàn)的每個(gè)位置,我們的實(shí)驗(yàn)顯示了,假如在該位置有第二個(gè)智能體,價(jià)值函數(shù)將會(huì)變成什么。同時(shí),他們發(fā)現(xiàn),在覓食和戰(zhàn)斗環(huán)境中,智能體學(xué)習(xí)的策略會(huì)依賴于其他智能體的策略。經(jīng)過(guò)了僅僅幾分鐘的訓(xùn)練后,智能體就能學(xué)會(huì)「正中靶心」的正確回避路線,從而開(kāi)始更有效地覓食。當(dāng)智能體學(xué)習(xí)環(huán)境中的戰(zhàn)斗機(jī)制時(shí),它們會(huì)開(kāi)始適當(dāng)?shù)卦u(píng)估有效的接近范圍和角度。
OpenAI 的 Neural MMO 解決了之前基于游戲的環(huán)境的兩個(gè)主要局限性,但仍有許多問(wèn)題尚未解決。Neural MMO 在環(huán)境復(fù)雜性和種群規(guī)模之間找到了一個(gè)中間地帶。同時(shí),他們?cè)谠O(shè)計(jì)這個(gè)環(huán)境時(shí)還考慮到了開(kāi)源擴(kuò)展,并計(jì)劃將其作為創(chuàng)建研究社區(qū)的基礎(chǔ)。
強(qiáng)化學(xué)習(xí)是一種試錯(cuò)學(xué)習(xí)方式:最開(kāi)始的時(shí)候不清楚環(huán)境的工作方式,不清楚執(zhí)行什么樣的動(dòng)作是對(duì)的,什么樣的動(dòng)作是錯(cuò)的。因而智能體需要從不斷嘗試的經(jīng)驗(yàn)中發(fā)現(xiàn)一個(gè)好的決策,從而在這個(gè)過(guò)程中獲取更多的獎(jiǎng)勵(lì)。
因此,對(duì)于強(qiáng)化學(xué)習(xí)研究來(lái)說(shuō),需要在探索(未知領(lǐng)域)和利用(現(xiàn)有知識(shí))之間找到平衡。實(shí)際上,探索和利用是一對(duì)相對(duì)來(lái)說(shuō)較為矛盾的概念,利用是做出當(dāng)前信息下的最佳決策,探索則是嘗試不同的行為繼而收集更多的信息、期望得到更好的決策。最好的長(zhǎng)期戰(zhàn)略通常包含一些犧牲短期利益舉措。通過(guò)搜集更多或者說(shuō)足夠多的信息使得個(gè)體能夠達(dá)到宏觀上的最佳策略。
實(shí)際上,OpenAI 擴(kuò)大種群規(guī)模和種群數(shù)量,使智能體趨向于分散,也正是希望能夠擴(kuò)大探索的范圍,找到能夠使智能體能力更強(qiáng)、種群更穩(wěn)定的決策方式。從單個(gè)服務(wù)器上看,這種做法背后隱藏著最大熵的思想;而從整體來(lái)看,他們依托于 OpenAI 強(qiáng)大的計(jì)算資源,將探索任務(wù)用分而治之的方式分配到各個(gè)服務(wù)器上分別進(jìn)行決策,最后再進(jìn)行合并。
via https://blog.openai.com/neural-mmo/
更多有關(guān)強(qiáng)化學(xué)習(xí)的學(xué)術(shù)和論文話題,歡迎點(diǎn)擊閱讀原文加入 AI 研習(xí)社強(qiáng)化學(xué)習(xí)論文套理論小組~
熱門(mén)資訊
探討游戲引擎的文章,介紹了10款游戲引擎及其代表作品,涵蓋了RAGE Engine、Naughty Dog Game Engine、The Dead Engine、Cry Engine、Avalanche Engine、Anvil Engine、IW Engine、Frostbite Engine、Creation引擎、Unreal Engine等引擎。借此分析引出了游戲設(shè)計(jì)領(lǐng)域和數(shù)字藝術(shù)教育的重要性,歡迎點(diǎn)擊咨詢報(bào)名。
2. 手機(jī)游戲如何開(kāi)發(fā)(如何制作傳奇手游,都需要準(zhǔn)備些什么?)
?如何制作傳奇手游,都需要準(zhǔn)備些什么?提到傳奇手游相信大家都不陌生,他是許多80、90后的回憶;從起初的端游到現(xiàn)在的手游,說(shuō)明時(shí)代在進(jìn)步游戲在更新,更趨于方便化移動(dòng)化。而如果我們想要制作一款傳奇手游的
3. B站視頻剪輯軟件「必剪」:免費(fèi)、炫酷特效,小白必備工具
B站視頻剪輯軟件「必剪」,完全免費(fèi)、一鍵制作炫酷特效,適合新手小白??靵?lái)試試!
4. Steam值得入手的武俠游戲盤(pán)點(diǎn),各具特色的快意江湖
游戲中玩家將面臨武俠人生的掙扎抉擇,戰(zhàn)或降?殺或放?每個(gè)抉定都將觸發(fā)更多愛(ài)恨糾葛的精彩奇遇?!短烀嬗肪哂卸嗑€劇情多結(jié)局,不限主線發(fā)展,高自由...
5. Bigtime加密游戲經(jīng)濟(jì)體系揭秘,不同玩家角色的經(jīng)濟(jì)活動(dòng)
Bigtime加密游戲經(jīng)濟(jì)模型分析,探討游戲經(jīng)濟(jì)特點(diǎn),幫助玩家更全面了解這款GameFi產(chǎn)品。
6. 3D動(dòng)漫建模全過(guò)程,不是一般人能學(xué)的會(huì)的,會(huì)的多不是人?
步驟01:面部,頸部,身體在一起這次我不準(zhǔn)備設(shè)計(jì)圖片,我從雕刻進(jìn)入。這一次,它將是一種純粹關(guān)注建模而非整體繪畫(huà)的形式。像往常一樣,我從Sphere創(chuàng)建它...
7. 3D動(dòng)畫(huà)軟件你知道幾個(gè)?3ds Max、Blender、Maya、Houdini大比拼
當(dāng)提到3D動(dòng)畫(huà)軟件或動(dòng)畫(huà)工具時(shí),指的是數(shù)字內(nèi)容創(chuàng)建工具。它是用于造型、建模以及繪制3D美術(shù)動(dòng)畫(huà)的軟件程序。但是,在3D動(dòng)畫(huà)軟件中還包含了其他類型的...
8. 如何自己開(kāi)發(fā)一款游戲(游戲開(kāi)發(fā)入門(mén)必看:五大獨(dú)立游戲開(kāi)發(fā)技巧)
?游戲開(kāi)發(fā)入門(mén)必看:五大獨(dú)立游戲開(kāi)發(fā)技巧無(wú)論您是剛剛起步開(kāi)發(fā)自己的第一款游戲,還是已經(jīng)制作了幾款游戲,本篇文章中的5大獨(dú)立游戲開(kāi)發(fā)技巧都可以幫助您更好地設(shè)計(jì)下一款游戲。無(wú)論你對(duì)游戲有著什么樣的概念,都
9. 3D打印技巧揭秘!Cura設(shè)置讓你的模型更堅(jiān)固
想讓你的3D打印模型更堅(jiān)固?不妨嘗試一下Cura參數(shù)設(shè)置和設(shè)計(jì)技巧,讓你輕松掌握!
10. 開(kāi)發(fā)三昧游戲叫什么(三昧動(dòng)漫)
?三昧動(dòng)漫對(duì)于著名ARPG游戲《巫師》系列,最近CD Projekt 的高層回應(yīng)并不會(huì)推出《巫師4》。因?yàn)椤段讕煛废盗性诓邉澋臅r(shí)候一直定位在“三部曲”的故事框架,所以在游戲的出品上不可能出現(xiàn)《巫師4》
最新文章
同學(xué)您好!