激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Agent-Pro: 玩游戲不再一枝獨(dú)秀的LLM Agent

發(fā)布時(shí)間:2024-04-19 16:00:30 瀏覽量:212次

Agent-Pro: 玩游戲不再一枝獨(dú)秀的LLM Agent

圖1 Agent-Pro示意圖

如上圖1所示,Agent-Pro以LLM作為基座模型,通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。

  • Dynamic belief:Agent-Pro動(dòng)態(tài)地生成自我信念(Self-Belief)和對外部世界的信念(World-Belief)。每次決策都基于這些信念,并動(dòng)態(tài)地更新這些信念。

  • World Modeling & Behavior Policy: Agent-Pro內(nèi)部包括一個(gè)對任務(wù)世界的建模以及對自己行為策略的描述。在持續(xù)環(huán)境交互和探索中,Agent-Pro不斷優(yōu)化這個(gè)游戲世界模型和行為策略。

  • Policy-level Reflection and Optimization: 通過對歷史行動(dòng)軌跡、信念和每局游戲結(jié)果進(jìn)行策略級(jí)的反思,Agent-Pro“微調(diào)”其不正確的信念,優(yōu)化一個(gè)更好的prompt實(shí)現(xiàn)來對游戲世界和行為策略進(jìn)行建模。

研究者在多人德州撲克和21 點(diǎn)這兩個(gè)廣為流行的博弈游戲中進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,受益于持續(xù)優(yōu)化的世界模型和行為策略,Agent-Pro的游戲水平不斷提升,涌現(xiàn)出很多類似人類的高階技巧: 虛張聲勢,欺詐,主動(dòng)放棄等。這為多種現(xiàn)實(shí)世界的很多場景提供了可行解決路徑。

論文題目:

Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization

論文鏈接:

點(diǎn)擊咨詢

代碼鏈接:

點(diǎn)擊咨詢

Agent-Pro是如何學(xué)習(xí)和進(jìn)化

1.1

熱門課程推薦

熱門資訊

請綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定