當(dāng)前位置：首頁(yè) >人工智能 >北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能

北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能

發(fā)布時(shí)間：2023-11-28 14:54:20 瀏覽量：123次

論機(jī)器人想在杭州當(dāng)志愿者有多拼

北大把投稿扔向凹非寺

|

亞運(yùn)會(huì)導(dǎo)游，原來背后離不開北大學(xué)生團(tuán)隊(duì)！

且看這個(gè)智能導(dǎo)游，它可不是一般人：

外觀看上去像一輛小車，四個(gè)輪子在地面上快速靈活移動(dòng)。

北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能

上面安裝了機(jī)械臂，配有攝像頭及語(yǔ)音等交互設(shè)施，使其能夠?qū)χ車h(huán)境和需要執(zhí)行的任務(wù)進(jìn)行識(shí)別與理解。

據(jù)悉，這名導(dǎo)游機(jī)器人系統(tǒng)由北大計(jì)算機(jī)學(xué)院HMI團(tuán)隊(duì)研發(fā)，它結(jié)合了多模態(tài)大模型和具身智能。

在亞運(yùn)會(huì)期間，它為視障人士提供引領(lǐng)和導(dǎo)航等幫助，并可解析視障人士的需求并完成相應(yīng)任務(wù)，如幫助他們撿拾掉落的物品等。

具身智能，搭載多模態(tài)大模型那種

那么，這位具身智能導(dǎo)游是怎么煉成的？

在研究員仉尚航的指導(dǎo)和支持下，北大學(xué)生們形成了一種創(chuàng)新路徑，即設(shè)計(jì)感知生成一體化的多模態(tài)大模型，以實(shí)現(xiàn)對(duì)各種視覺場(chǎng)景的精準(zhǔn)感知與理解，并生成準(zhǔn)確豐富的語(yǔ)言描述。

之所以這樣設(shè)計(jì)，是因?yàn)檫@個(gè)導(dǎo)游最初就設(shè)計(jì)定位為服務(wù)殘障人士、老年人、少數(shù)民族等——當(dāng)前的技術(shù)落點(diǎn)，還沒有完全解決他們的需求。

“少數(shù)民族的觀眾可能面臨語(yǔ)言障礙，而殘疾人士可能需要更多的輔助工具或特別的服務(wù)，以便更好地享受比賽。”團(tuán)隊(duì)成員、北大學(xué)生莊棨寧表示，多模態(tài)大模型是課題組的重點(diǎn)研究方向，于是一個(gè)把多模態(tài)大模型和具身智能結(jié)合起來，研發(fā)一個(gè)專門服務(wù)殘障人士觀賽的AI系統(tǒng)的想法，誕生了。

于是，多模態(tài)愛心助手亮相亞運(yùn)會(huì)。

多模態(tài)愛心助手所搭載的系統(tǒng)，基于團(tuán)隊(duì)自研的感知生成一體化通用多模態(tài)大模型。

該系統(tǒng)集成了大模型的泛化感知能力和涌現(xiàn)能力。

同時(shí)，在愛心助手身上，多模態(tài)大模型和具身智能結(jié)合了起來，為機(jī)器人賦予更加智能的大腦，使其可以將人類復(fù)雜需求轉(zhuǎn)化為具體行動(dòng)指令。

它能做的事情，體現(xiàn)出一體化處理能力，包括：

場(chǎng)景感知，能夠識(shí)別圖像中的特定目標(biāo)或特征；
場(chǎng)景解析，能夠?yàn)閳D像生成描述性文本；
行為決策與規(guī)劃，具備基于圖像和文本信息進(jìn)行決策和規(guī)劃的能力。

考慮到機(jī)器人會(huì)面對(duì)不同場(chǎng)景，需要具備快速適應(yīng)新場(chǎng)景的泛化能力，團(tuán)隊(duì)設(shè)計(jì)了基于端云協(xié)作的大小模型協(xié)同高效微調(diào)，提升模型的泛化性，使其可以持續(xù)適應(yīng)不同的場(chǎng)景。

舉個(gè)例子。

如果有運(yùn)動(dòng)員用戶說“我渴了”，機(jī)器人聽到這句話后，完成轉(zhuǎn)身拿水——遞到用戶手中，過程看似簡(jiǎn)單，實(shí)際上涉及了一系列子任務(wù)：

首先捕捉“我渴了”這句語(yǔ)音信號(hào)，然后通過語(yǔ)音識(shí)別技術(shù)，轉(zhuǎn)換為文字；
理解“我渴了”這句話的含義，即用戶現(xiàn)在需要水；
通過良好的感知能力，利用CV技術(shù)，識(shí)別、定位瓶裝水；
規(guī)劃來到瓶裝水面前的路線，涉及路徑規(guī)劃算法；
控制自身動(dòng)作，根據(jù)路徑規(guī)劃，來到水面前；
準(zhǔn)確抓住瓶裝水，涉及視覺檢測(cè)、機(jī)器人控制系統(tǒng)和抓取的相關(guān)技術(shù)；
規(guī)劃返回路徑，并控制自身動(dòng)作，將水送到說話者的手中。

上述的每一個(gè)子任務(wù)，都需要大量的研究和工程實(shí)踐。

不僅如此，機(jī)器人還需要能夠處理在訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過的新情況，也就是說，模型需要具有強(qiáng)大的泛化能力，能夠在新的、未知的環(huán)境中有效地工作。

為了提升機(jī)器人在開放環(huán)境下的持續(xù)性泛化能力，團(tuán)隊(duì)構(gòu)建了一個(gè)端云協(xié)作的持續(xù)學(xué)習(xí)系統(tǒng)。

這一系統(tǒng)的設(shè)計(jì)旨在兼顧終端計(jì)算的個(gè)性化、隱私保護(hù)和低通信成本等優(yōu)勢(shì)，同時(shí)也充分利用云端計(jì)算的大規(guī)模計(jì)算資源、大量標(biāo)注數(shù)據(jù)以及卓越的泛化能力。

還研發(fā)亞運(yùn)會(huì)賽事解說AI系統(tǒng)

據(jù)悉，杭州亞運(yùn)會(huì)的多模態(tài)多語(yǔ)種視頻解說系統(tǒng)，也出自這個(gè)團(tuán)隊(duì)之手。

基于多模態(tài)大模型，團(tuán)隊(duì)通過自研的X-Accessory一體化大模型工具鏈，設(shè)計(jì)了多模態(tài)多語(yǔ)種視頻解說系統(tǒng)，在亞運(yùn)會(huì)期間用于乒乓球、跆拳道、跳水、體操等賽事。

這個(gè)解說系統(tǒng)的特點(diǎn)在于，不僅能夠理解和分析正在進(jìn)行的比賽，生成實(shí)時(shí)的解說內(nèi)容，還可以根據(jù)觀眾的喜好提供個(gè)性化的解說服務(wù)，包括將解說內(nèi)容翻譯成多種語(yǔ)言，包括維吾爾語(yǔ)、阿拉伯語(yǔ)等。

除了應(yīng)用在本次亞運(yùn)會(huì)，團(tuán)隊(duì)在大模型方面還有許多其他成果。

“多模態(tài)大模型是我們組研究的核心，目前也取得了一定的成果?！北本┐髮W(xué)計(jì)算機(jī)學(xué)院博士后王冠群介紹，“除了這次自研的感知生成一體化通用多模態(tài)大模型、大小模型協(xié)同訓(xùn)練與部署，我們還關(guān)注多模態(tài)生成式大模型Agent設(shè)計(jì)、大模型記憶機(jī)制設(shè)計(jì)、面向多場(chǎng)景的智能醫(yī)療多模態(tài)大模型集群、通用大模型適配器等?！?/p>

就拿團(tuán)隊(duì)進(jìn)行的多模態(tài)生成式大模型Agent設(shè)計(jì)來說。

單模態(tài)模型無法有效地結(jié)合視覺、聽覺和文本等多種模態(tài)信息，這種局限性在復(fù)雜的實(shí)際場(chǎng)景，如虛擬助手、機(jī)器人交互和智慧城市中，可能導(dǎo)致效果并不理想。

因此，團(tuán)隊(duì)開發(fā)了一種多模態(tài)生成式大模型Agent，將各種模態(tài)的優(yōu)點(diǎn)結(jié)合起來，例如視覺的細(xì)節(jié)捕捉能力、聽覺的時(shí)序特性和文本的結(jié)構(gòu)化知識(shí)。

這樣的綜合性設(shè)計(jì)，將有助于推動(dòng)生成式模型向更加實(shí)用和高效的方向發(fā)展，滿足未來多種復(fù)雜應(yīng)用場(chǎng)景的需求。

在更復(fù)雜的應(yīng)用場(chǎng)景，團(tuán)隊(duì)還研究過面向多場(chǎng)景的智能醫(yī)療多模態(tài)大模型集群。

他們?cè)O(shè)計(jì)和實(shí)現(xiàn)了一組智能醫(yī)療多模態(tài)大模型集群，包括面向患者的個(gè)性化醫(yī)療知識(shí)問答多模態(tài)時(shí)序大模型、面向醫(yī)生的臨床影像報(bào)告生成多模態(tài)大模型和面向?qū)г\場(chǎng)景的檢索增強(qiáng)大語(yǔ)言模型。

這樣一來，能使大模型技術(shù)適配臨床場(chǎng)景，滿足患者-醫(yī)生-醫(yī)院多方訴求，解決行業(yè)痛點(diǎn)，推動(dòng)大模型在醫(yī)療領(lǐng)域的落地應(yīng)用。

△杭州亞運(yùn)會(huì)期間科研團(tuán)隊(duì)合影（第一排左起：張雨澤、莊棨寧、謝愛麗、仉尚航、張融宇、羅峪霖、王振宇；第二排左起：侯沂、戴鴻銘、王昊、李忱軒、張啟哲、劉家銘、王冠群）

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團(tuán)隊(duì)出品

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡(jiǎn)單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡(jiǎn)單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國(guó)內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能

具身智能，搭載多模態(tài)大模型那種

還研發(fā)亞運(yùn)會(huì)賽事解說AI系統(tǒng)

△杭州亞運(yùn)會(huì)期間科研團(tuán)隊(duì)合影（第一排左起：張雨澤、莊棨寧、謝愛麗、仉尚航、張融宇、羅峪霖、王振宇；第二排左起：侯沂、戴鴻銘、王昊、李忱軒、張啟哲、劉家銘、王冠群）

請(qǐng)綁定手機(jī)號(hào)

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能

具身智能，搭載多模態(tài)大模型那種

還研發(fā)亞運(yùn)會(huì)賽事解說AI系統(tǒng)

請(qǐng)綁定手機(jī)號(hào)

北大機(jī)器人當(dāng)上亞運(yùn)志愿者，全靠學(xué)生把多模態(tài)大模型結(jié)合具身智能