當前位置：首頁 >人工智能 >北大具身智能新成果：無需訓練，聽指令就能靈活走位

北大具身智能新成果：無需訓練，聽指令就能靈活走位

發(fā)布時間：2023-11-06 11:37:15 瀏覽量：101次

請大模型當專家，遇事就討論一下

北大前沿計算研究中心投稿

|

北京大學董豪團隊具身導航最新成果來了：

無需額外建圖和訓練，只需說出導航指令，如：

Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我們就能控制機器人靈活移動。

在此，機器人靠的是主動與大模型構(gòu)成的“專家團隊”溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導航關(guān)鍵任務。

目前項目主頁和論文都已上線，代碼即將推出：

機器人如何根據(jù)人類指令導航？

視覺語言導航涉及到一系列子任務，包括指令分析，視覺感知，完成估計和決策測試。

這些關(guān)鍵任務需要不同領(lǐng)域知識，它們環(huán)環(huán)相扣決定機器人的導航能力。

受到現(xiàn)實中專家討論行為的啟發(fā)，北大董豪團隊提出DiscussNav導航系統(tǒng)。

作者首先以提示方式賦予LLM（大語言模型）和MLM（多模態(tài)大模型）專家角色和特定任務，激活它們的領(lǐng)域知識和能力，由此構(gòu)建具備不同特長的視覺導航專家團隊。

然后，作者設計了討論問題語料庫和討論機制，遵循該機制，由LLM驅(qū)動的導航機器人可以主動發(fā)起一系列與視覺導航專家的討論。

在每一步移動前，導航機器人都會與專家討論來理解人類指令中要求的動作和提及的物體標志。

進而依據(jù)這些物體標志的類型有傾向性地對周圍環(huán)境進行感知，指令完成情況估計，由此做出初步的移動決策。

在決策過程中，導航機器人會根據(jù)Chain-of-Thought（思維鏈）同時生成N個獨立的預測結(jié)果，當這些預測結(jié)果之間不一致時，機器人會向決策測試專家求助，篩選出最終的移動決策。

從這個過程我們可以看到，相比傳統(tǒng)方法需要進行額外的預訓練，這個方法通過與大模型專家交互指導機器人根據(jù)人類指令移動，直接解決了機器人導航訓練數(shù)據(jù)稀缺的問題。

更進一步，正是由于這個特點，它也實現(xiàn)了零樣本能力，只要遵循以上討論流程，就能follow多樣的導航指令。

以下是DiscussNav在經(jīng)典的視覺語言導航數(shù)據(jù)集Room2Room上的表現(xiàn)。

可以看到，它顯著高于所有零樣本方法，甚至超過兩個經(jīng)過訓練的方法。

作者進一步在Turtlebot4移動機器人上開展真實室內(nèi)場景導航實驗。

憑借專家角色扮演和討論激發(fā)出的大模型強大的語言和視覺泛化能力，DiscussNav在真實世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過預訓練微調(diào)的方法，展現(xiàn)出良好的sim-to-real遷移能力。

通過實驗，作者進一步發(fā)現(xiàn)，DiscussNav產(chǎn)生了4個強大的能力：

1、識別開放世界物體，比如“白色桌子上的機械手臂”，“椅子上的泰迪熊”。

2、識別細粒度的導航標志物體，比如“廚房柜臺上的植物”，“桌上的紙箱”。

3、糾正其它專家在討論中回復的錯誤信息，比如標志提取專家在從導航動作序列提取導航標志前會檢查并糾正被錯誤分解的動作序列。

4、排除不一致的移動決策，比如決策測試專家們可以根據(jù)當前環(huán)境信息從DiscussNav預測的多個不一致的移動決策中選擇最合理的一個作為最終移動決定。

“仿真和大模型先驗是Free Lunch”

通訊作者董豪在之前的報告中提出，深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學習到的先驗知識是未來具身智能研究的發(fā)展方向。

目前受限于數(shù)據(jù)規(guī)模和探索真實環(huán)境的高昂成本，具身智能研究仍將重點關(guān)注仿真平臺實驗和仿真數(shù)據(jù)訓練。

近期大模型的進展為具身智能提供新方向，合理發(fā)掘和利用大模型中存在的語言常識和物理世界先驗將推動具身智能發(fā)展。

論文地址：
https://arxiv.org/abs/2309.11382
參考鏈接：
https://zsdonghao.github.io/
https://sites.google.com/view/discussnav

上一篇北師大未來設計學院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇 ChatGPT王炸升級！更強版GPT-4上線，API定價打骨折，發(fā)布現(xiàn)場掌聲沒停過

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大具身智能新成果：無需訓練，聽指令就能靈活走位

機器人如何根據(jù)人類指令導航？

“仿真和大模型先驗是Free Lunch”

請綁定手機號