發(fā)布時間:2023-11-06 11:37:15 瀏覽量:100次
請大模型當(dāng)專家,遇事就討論一下
北大前沿計算研究中心 投稿
|
北京大學(xué)董豪團(tuán)隊具身導(dǎo)航最新成果來了:
無需額外建圖和訓(xùn)練,只需說出導(dǎo)航指令,如:
Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen
我們就能控制機(jī)器人靈活移動。
在此,機(jī)器人靠的是主動與大模型構(gòu)成的“專家團(tuán)隊”溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導(dǎo)航關(guān)鍵任務(wù)。
目前項目主頁和論文都已上線,代碼即將推出:
視覺語言導(dǎo)航涉及到一系列子任務(wù),包括指令分析,視覺感知,完成估計和決策測試。
這些關(guān)鍵任務(wù)需要不同領(lǐng)域知識,它們環(huán)環(huán)相扣決定機(jī)器人的導(dǎo)航能力。
受到現(xiàn)實中專家討論行為的啟發(fā),北大董豪團(tuán)隊提出DiscussNav導(dǎo)航系統(tǒng)。
作者首先以提示方式賦予LLM(大語言模型)和MLM(多模態(tài)大模型)專家角色和特定任務(wù),激活它們的領(lǐng)域知識和能力,由此構(gòu)建具備不同特長的視覺導(dǎo)航專家團(tuán)隊。
然后,作者設(shè)計了討論問題語料庫和討論機(jī)制,遵循該機(jī)制,由LLM驅(qū)動的導(dǎo)航機(jī)器人可以主動發(fā)起一系列與視覺導(dǎo)航專家的討論。
在每一步移動前,導(dǎo)航機(jī)器人都會與專家討論來理解人類指令中要求的動作和提及的物體標(biāo)志。
進(jìn)而依據(jù)這些物體標(biāo)志的類型有傾向性地對周圍環(huán)境進(jìn)行感知,指令完成情況估計,由此做出初步的移動決策。
在決策過程中,導(dǎo)航機(jī)器人會根據(jù)Chain-of-Thought(思維鏈)同時生成N個獨立的預(yù)測結(jié)果,當(dāng)這些預(yù)測結(jié)果之間不一致時,機(jī)器人會向決策測試專家求助,篩選出最終的移動決策。
從這個過程我們可以看到,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個方法通過與大模型專家交互指導(dǎo)機(jī)器人根據(jù)人類指令移動,直接解決了機(jī)器人導(dǎo)航訓(xùn)練數(shù)據(jù)稀缺的問題。
更進(jìn)一步,正是由于這個特點,它也實現(xiàn)了零樣本能力,只要遵循以上討論流程,就能follow多樣的導(dǎo)航指令。
以下是DiscussNav在經(jīng)典的視覺語言導(dǎo)航數(shù)據(jù)集Room2Room上的表現(xiàn)。
可以看到,它顯著高于所有零樣本方法,甚至超過兩個經(jīng)過訓(xùn)練的方法。
作者進(jìn)一步在Turtlebot4移動機(jī)器人上開展真實室內(nèi)場景導(dǎo)航實驗。
憑借專家角色扮演和討論激發(fā)出的大模型強(qiáng)大的語言和視覺泛化能力,DiscussNav在真實世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過預(yù)訓(xùn)練微調(diào)的方法, 展現(xiàn)出良好的sim-to-real遷移能力。
通過實驗,作者進(jìn)一步發(fā)現(xiàn),DiscussNav產(chǎn)生了4個強(qiáng)大的能力:
1、識別開放世界物體,比如“白色桌子上的機(jī)械手臂”,“椅子上的泰迪熊”。
2、識別細(xì)粒度的導(dǎo)航標(biāo)志物體,比如“廚房柜臺上的植物”,“桌上的紙箱”。
3、糾正其它專家在討論中回復(fù)的錯誤信息,比如標(biāo)志提取專家在從導(dǎo)航動作序列提取導(dǎo)航標(biāo)志前會檢查并糾正被錯誤分解的動作序列。
4、排除不一致的移動決策,比如決策測試專家們可以根據(jù)當(dāng)前環(huán)境信息從DiscussNav預(yù)測的多個不一致的移動決策中選擇最合理的一個作為最終移動決定。
通訊作者董豪在之前的報告中提出,深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學(xué)習(xí)到的先驗知識是未來具身智能研究的發(fā)展方向。
目前受限于數(shù)據(jù)規(guī)模和探索真實環(huán)境的高昂成本,具身智能研究仍將重點關(guān)注仿真平臺實驗和仿真數(shù)據(jù)訓(xùn)練。
近期大模型的進(jìn)展為具身智能提供新方向,合理發(fā)掘和利用大模型中存在的語言常識和物理世界先驗將推動具身智能發(fā)展。
論文地址:
https://arxiv.org/abs/2309.11382
參考鏈接:
https://zsdonghao.github.io/
https://sites.google.com/view/discussnav
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
最新文章
同學(xué)您好!