發(fā)布時間:2023-11-28 14:54:20 瀏覽量:122次
論機(jī)器人想在杭州當(dāng)志愿者有多拼
北大 把投稿扔向 凹非寺
|
亞運(yùn)會導(dǎo)游,原來背后離不開北大學(xué)生團(tuán)隊!
且看這個智能導(dǎo)游,它可不是一般人:
外觀看上去像一輛小車,四個輪子在地面上快速靈活移動。
上面安裝了機(jī)械臂,配有攝像頭及語音等交互設(shè)施,使其能夠?qū)χ車h(huán)境和需要執(zhí)行的任務(wù)進(jìn)行識別與理解。
據(jù)悉,這名導(dǎo)游機(jī)器人系統(tǒng)由北大計算機(jī)學(xué)院HMI團(tuán)隊研發(fā),它結(jié)合了多模態(tài)大模型和具身智能。
在亞運(yùn)會期間,它為視障人士提供引領(lǐng)和導(dǎo)航等幫助,并可解析視障人士的需求并完成相應(yīng)任務(wù),如幫助他們撿拾掉落的物品等。
那么,這位具身智能導(dǎo)游是怎么煉成的?
在研究員仉尚航的指導(dǎo)和支持下,北大學(xué)生們形成了一種創(chuàng)新路徑,即設(shè)計感知生成一體化的多模態(tài)大模型,以實現(xiàn)對各種視覺場景的精準(zhǔn)感知與理解,并生成準(zhǔn)確豐富的語言描述。
之所以這樣設(shè)計,是因為這個導(dǎo)游最初就設(shè)計定位為服務(wù)殘障人士、老年人、少數(shù)民族等——當(dāng)前的技術(shù)落點,還沒有完全解決他們的需求。
“少數(shù)民族的觀眾可能面臨語言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務(wù),以便更好地享受比賽。”團(tuán)隊成員、北大學(xué)生莊棨寧表示,多模態(tài)大模型是課題組的重點研究方向,于是一個把多模態(tài)大模型和具身智能結(jié)合起來,研發(fā)一個專門服務(wù)殘障人士觀賽的AI系統(tǒng)的想法,誕生了。
于是,多模態(tài)愛心助手亮相亞運(yùn)會。
多模態(tài)愛心助手所搭載的系統(tǒng),基于團(tuán)隊自研的感知生成一體化通用多模態(tài)大模型。
該系統(tǒng)集成了大模型的泛化感知能力和涌現(xiàn)能力。
同時,在愛心助手身上,多模態(tài)大模型和具身智能結(jié)合了起來,為機(jī)器人賦予更加智能的大腦,使其可以將人類復(fù)雜需求轉(zhuǎn)化為具體行動指令。
它能做的事情,體現(xiàn)出一體化處理能力,包括:
考慮到機(jī)器人會面對不同場景,需要具備快速適應(yīng)新場景的泛化能力,團(tuán)隊設(shè)計了基于端云協(xié)作的大小模型協(xié)同高效微調(diào),提升模型的泛化性,使其可以持續(xù)適應(yīng)不同的場景。
舉個例子。
如果有運(yùn)動員用戶說“我渴了”,機(jī)器人聽到這句話后,完成轉(zhuǎn)身拿水——遞到用戶手中,過程看似簡單,實際上涉及了一系列子任務(wù):
上述的每一個子任務(wù),都需要大量的研究和工程實踐。
不僅如此,機(jī)器人還需要能夠處理在訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過的新情況,也就是說,模型需要具有強(qiáng)大的泛化能力,能夠在新的、未知的環(huán)境中有效地工作。
為了提升機(jī)器人在開放環(huán)境下的持續(xù)性泛化能力,團(tuán)隊構(gòu)建了一個端云協(xié)作的持續(xù)學(xué)習(xí)系統(tǒng)。
這一系統(tǒng)的設(shè)計旨在兼顧終端計算的個性化、隱私保護(hù)和低通信成本等優(yōu)勢,同時也充分利用云端計算的大規(guī)模計算資源、大量標(biāo)注數(shù)據(jù)以及卓越的泛化能力。
據(jù)悉,杭州亞運(yùn)會的多模態(tài)多語種視頻解說系統(tǒng),也出自這個團(tuán)隊之手。
基于多模態(tài)大模型,團(tuán)隊通過自研的X-Accessory一體化大模型工具鏈,設(shè)計了多模態(tài)多語種視頻解說系統(tǒng),在亞運(yùn)會期間用于乒乓球、跆拳道、跳水、體操等賽事。
這個解說系統(tǒng)的特點在于,不僅能夠理解和分析正在進(jìn)行的比賽,生成實時的解說內(nèi)容,還可以根據(jù)觀眾的喜好提供個性化的解說服務(wù),包括將解說內(nèi)容翻譯成多種語言,包括維吾爾語、阿拉伯語等。
除了應(yīng)用在本次亞運(yùn)會,團(tuán)隊在大模型方面還有許多其他成果。
“多模態(tài)大模型是我們組研究的核心,目前也取得了一定的成果?!北本┐髮W(xué)計算機(jī)學(xué)院博士后王冠群介紹,“除了這次自研的感知生成一體化通用多模態(tài)大模型、大小模型協(xié)同訓(xùn)練與部署,我們還關(guān)注多模態(tài)生成式大模型Agent設(shè)計、大模型記憶機(jī)制設(shè)計、面向多場景的智能醫(yī)療多模態(tài)大模型集群、通用大模型適配器等?!?/p>
就拿團(tuán)隊進(jìn)行的多模態(tài)生成式大模型Agent設(shè)計來說。
單模態(tài)模型無法有效地結(jié)合視覺、聽覺和文本等多種模態(tài)信息,這種局限性在復(fù)雜的實際場景,如虛擬助手、機(jī)器人交互和智慧城市中,可能導(dǎo)致效果并不理想。
因此,團(tuán)隊開發(fā)了一種多模態(tài)生成式大模型Agent,將各種模態(tài)的優(yōu)點結(jié)合起來,例如視覺的細(xì)節(jié)捕捉能力、聽覺的時序特性和文本的結(jié)構(gòu)化知識。
這樣的綜合性設(shè)計,將有助于推動生成式模型向更加實用和高效的方向發(fā)展,滿足未來多種復(fù)雜應(yīng)用場景的需求。
在更復(fù)雜的應(yīng)用場景,團(tuán)隊還研究過面向多場景的智能醫(yī)療多模態(tài)大模型集群。
他們設(shè)計和實現(xiàn)了一組智能醫(yī)療多模態(tài)大模型集群,包括面向患者的個性化醫(yī)療知識問答多模態(tài)時序大模型、面向醫(yī)生的臨床影像報告生成多模態(tài)大模型和面向?qū)г\場景的檢索增強(qiáng)大語言模型。
這樣一來,能使大模型技術(shù)適配臨床場景,滿足患者-醫(yī)生-醫(yī)院多方訴求,解決行業(yè)痛點,推動大模型在醫(yī)療領(lǐng)域的落地應(yīng)用。
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
最新文章
同學(xué)您好!