當(dāng)前位置：首頁 >人工智能 >北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用

北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用

發(fā)布時間：2023-11-29 15:08:24 瀏覽量：119次

3天訓(xùn)完130億參數(shù)通用VLM

一個北大投稿發(fā)送至凹非寺

|

訓(xùn)完130億參數(shù)通用視覺語言大模型，只需3天！

北大和中山大學(xué)團(tuán)隊又出招了——在最新研究中，研究團(tuán)隊提出了一種構(gòu)建統(tǒng)一的圖片和視頻表征的框架。

利用這種框架，可以大大減少VLM（視覺語言大模型）在訓(xùn)練和推理過程中的開銷。

北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用

具體而言，團(tuán)隊按照提出的新框架，訓(xùn)練了一個新的VLM：Chat-UniVi。

Chat-UniVi能在混合圖片和視頻數(shù)據(jù)的情況下進(jìn)行訓(xùn)練，并同時處理圖片任務(wù)和視頻理解任務(wù)。

以此為基礎(chǔ)，Chat-UniVi在圖片及視頻上的17個基準(zhǔn)上，都表現(xiàn)得還不錯。

現(xiàn)在，項目已經(jīng)在GitHub和抱抱臉上開源。

更多關(guān)于新方法和Chat-UniVi的詳細(xì)信息，我們一起進(jìn)一步來看看～

Chat-UniVi是什么？

了解基礎(chǔ)信息后，我們詳細(xì)地聊聊Chat-UniVi究竟是什么——

簡單來說，Chat-UniVi是一個統(tǒng)一的多模態(tài)大型語言模型，可以同時理解圖像和視頻。

目前VLM運(yùn)用的方法，偏圖片理解的，往往使用大量視覺tokens來獲得更精細(xì)的空間分辨率。

偏視頻理解的方法，則常常選擇犧牲每幀的空間分辨率，以輸入更多幀來構(gòu)建更精細(xì)的時間理解能力。

與它們不同，Chat-UniVi采用動態(tài)視覺token來統(tǒng)一表示圖像和視頻，動態(tài)token合并方法是無參數(shù)的，不需要額外訓(xùn)練。

而動態(tài)token的來源，是漸進(jìn)地聚類視覺token。

為了獲取這些動態(tài)的視覺token，研究人員基于最近鄰的密度峰聚類算法，逐步對視覺token進(jìn)行分組和合并。

其中，圖片可以通過不同大小的視覺token進(jìn)行建模。

舉個：

圖中的羊就需要相對更多的視覺token進(jìn)行細(xì)粒度表示；但背景里的雪山，一個視覺token就可以充分搞定建模。

至于視頻，處理視頻時，同樣采用最近鄰的密度峰聚類算法，以獲取事件的幀集合。

Chat-UniVi會把它劃分為多個關(guān)鍵事件，然后在事件內(nèi)部拓展視覺token。

當(dāng)然了，如果使用這種方法，更長的視頻就會被分配到更多的視覺token，因此如果身處可變長度視頻的情境下，這種方式比現(xiàn)有方式更有優(yōu)勢。

總而言之，這種圖片和視頻的統(tǒng)一表示，一邊減少了視覺token的數(shù)量，一邊又保持了模型的表達(dá)能力。

同時又由于視覺token數(shù)量的減少，利用這種方式訓(xùn)練模型和進(jìn)行推理的成本，會大幅度降低——練一個具有130億參數(shù)的VLM，只需要3天。

多提一嘴，為了進(jìn)一步提升模型性能，團(tuán)隊還為LLM提供了一個多尺度表征。

多尺度表征的上層特征表示高級語義概念，而下層特征則強(qiáng)調(diào)了視覺細(xì)節(jié)的表示。

說到這，我們可以總結(jié)出Chat-UniVi的2大特點(diǎn)：

第一，因為獨(dú)特的建模方法，Chat-UniVi的訓(xùn)練數(shù)據(jù)集可以是圖片與視頻的混合版，并且無需任何修改，就可以直接應(yīng)用在圖片和視頻任務(wù)上。

第二，多尺度表征能幫助Chat-UniVi對圖片和視頻進(jìn)行更到位、更全面的理解。

這也導(dǎo)致了Chat-UniVi的任務(wù)適應(yīng)性更強(qiáng)，包括使用高層次特征進(jìn)行語義理解，以及利用低層次特征生成詳細(xì)描述。

分兩階段訓(xùn)練

Chat-UniVi的訓(xùn)練分為兩個階段。

第一步是多模態(tài)預(yù)訓(xùn)練。

在這個階段，研究人員凍結(jié)了LLM和視覺編碼器，同時只對投影矩陣進(jìn)行訓(xùn)練。

這種訓(xùn)練策略使得模型能夠有效地捕獲視覺信息，而不會對LLM的性能造成任何明顯的損害。

第二步是聯(lián)合指令微調(diào)。

在第二階段，團(tuán)隊對整個模型進(jìn)行了全參數(shù)微調(diào)，使用了一個包含圖片和視頻的混合數(shù)據(jù)集。

通過在混合數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練，Chat-UniVi實現(xiàn)了對大量指令的卓越理解，并生成了更自然、更可靠的輸出。

訓(xùn)練過程中，團(tuán)隊進(jìn)行了如下實驗：

圖片理解實驗

Chat-UniVi在使用更少的視覺標(biāo)記的同時，性能表現(xiàn)也很不錯。

7B參數(shù)的Chat-UniVi模型能達(dá)到13B大小LLaVA模型的性能水平。這證明了該方法的有效性。

視頻理解實驗

作為一個統(tǒng)一的VLM，Chat-UniVi超越了專門針對視頻設(shè)計的方法，如VideoChat和Video-ChatGPT。

圖片問答實驗

Chat-UniVi在ScienceQA數(shù)據(jù)集上性能表現(xiàn)良好，其性能優(yōu)于專門針對科學(xué)問答進(jìn)行優(yōu)化的LLaMA-SciTune模型。

視頻問答實驗

在所有數(shù)據(jù)集上，Chat-UniVi均表現(xiàn)優(yōu)于最先進(jìn)的方法，如VideoChat和Video-ChatGPT等。

幻覺實驗

在幻覺評估方面，Chat-UniVi表現(xiàn)優(yōu)于最近提出的最先進(jìn)方法。

值得注意的是，作為一個7B模型，Chat-UniVi在性能上超越了13B參數(shù)大小的MiniGPT-4。

研究人員將這一成功歸功于多尺度表征，這使得模型能夠同時感知高級語義概念和低級視覺外觀。

人工評測實驗

同時，研究人員還進(jìn)行了人工評估實驗。

他們發(fā)現(xiàn)，基于Flamingo的方法在理解視頻的能力上存在局限性。這種限制歸因于它們使用Q-Former從不同長度的視頻中提取固定數(shù)量的視覺標(biāo)記，這阻礙了它們在建模時間理解方面的有效性。

相比之下，作為一個統(tǒng)一的模型，Chat-UniVi不僅優(yōu)于基于Flamingo構(gòu)建的方法，而且超越了專門為圖片和視頻設(shè)計的模型。

可視化

Chat-UniVi所采用的動態(tài)視覺token巧妙地概括了對象和背景。

這使得Chat-UniVi能夠以有限數(shù)量的視覺token，同時建模圖片理解所需的細(xì)粒度空間分辨率和視頻理解所需的細(xì)粒度時間分辨率。

團(tuán)隊介紹

論文一作是北大信息工程學(xué)院博三學(xué)生金鵬。

通訊作者袁粒，北大信息工程學(xué)院助理教授、博士生導(dǎo)師。

其研究方向為多模態(tài)深度學(xué)習(xí)和AI4S，其中AI4S方向主要研究深度學(xué)習(xí)解決化學(xué)生物中的重大問題。

此前網(wǎng)絡(luò)大火的ChatExcel、ChatLaw等垂直領(lǐng)域大模型項目都出自袁粒團(tuán)隊。

arXiv：https://arxiv.org/pdf/2311.08046.pdf
Demo：https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub：https://github.com/PKU-YuanGroup/Chat-UniVi
抱抱臉：https://huggingface.co/Chat-UniVi

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇多樂士x「山塘·浮生集」：色彩為筆空間為籍續(xù)寫姑蘇文脈

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
8. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
9. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用

Chat-UniVi是什么？

分兩階段訓(xùn)練

圖片理解實驗

視頻理解實驗

圖片問答實驗

視頻問答實驗

幻覺實驗

人工評測實驗

可視化

團(tuán)隊介紹

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用

Chat-UniVi是什么？

分兩階段訓(xùn)練

圖片理解實驗

視頻理解實驗

圖片問答實驗

視頻問答實驗

幻覺實驗

人工評測實驗

可視化

團(tuán)隊介紹

請綁定手機(jī)號

北大最新多模態(tài)大模型開源：混合數(shù)據(jù)集訓(xùn)練，圖像視頻任務(wù)直接用