激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

發(fā)布時(shí)間:2023-11-29 15:08:24 瀏覽量:116次

3天訓(xùn)完130億參數(shù)通用VLM

一個(gè)北大投稿 發(fā)送至 凹非寺

|  

訓(xùn)完130億參數(shù)通用視覺語言大模型,只需3天!

北大和中山大學(xué)團(tuán)隊(duì)又出招了——在最新研究中,研究團(tuán)隊(duì)提出了一種構(gòu)建統(tǒng)一的圖片和視頻表征的框架。

利用這種框架,可以大大減少VLM(視覺語言大模型)在訓(xùn)練和推理過程中的開銷。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

具體而言,團(tuán)隊(duì)按照提出的新框架,訓(xùn)練了一個(gè)新的VLM:Chat-UniVi。

Chat-UniVi能在混合圖片和視頻數(shù)據(jù)的情況下進(jìn)行訓(xùn)練,并同時(shí)處理圖片任務(wù)和視頻理解任務(wù)。

以此為基礎(chǔ),Chat-UniVi在圖片及視頻上的17個(gè)基準(zhǔn)上,都表現(xiàn)得還不錯(cuò)。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

現(xiàn)在,項(xiàng)目已經(jīng)在GitHub和抱抱臉上開源。

更多關(guān)于新方法和Chat-UniVi的詳細(xì)信息,我們一起進(jìn)一步來看看~

Chat-UniVi是什么?

了解基礎(chǔ)信息后,我們詳細(xì)地聊聊Chat-UniVi究竟是什么——

簡單來說,Chat-UniVi是一個(gè)統(tǒng)一的多模態(tài)大型語言模型,可以同時(shí)理解圖像和視頻。

目前VLM運(yùn)用的方法,偏圖片理解的,往往使用大量視覺tokens來獲得更精細(xì)的空間分辨率。

偏視頻理解的方法,則常常選擇犧牲每幀的空間分辨率,以輸入更多幀來構(gòu)建更精細(xì)的時(shí)間理解能力。

與它們不同,Chat-UniVi采用動態(tài)視覺token來統(tǒng)一表示圖像和視頻,動態(tài)token合并方法是無參數(shù)的,不需要額外訓(xùn)練。

而動態(tài)token的來源,是漸進(jìn)地聚類視覺token。

為了獲取這些動態(tài)的視覺token,研究人員基于最近鄰的密度峰聚類算法,逐步對視覺token進(jìn)行分組和合并。

其中,圖片可以通過不同大小的視覺token進(jìn)行建模。

舉個(gè):

圖中的羊就需要相對更多的視覺token進(jìn)行細(xì)粒度表示;但背景里的雪山,一個(gè)視覺token就可以充分搞定建模。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

至于視頻,處理視頻時(shí),同樣采用最近鄰的密度峰聚類算法,以獲取事件的幀集合。

Chat-UniVi會把它劃分為多個(gè)關(guān)鍵事件,然后在事件內(nèi)部拓展視覺token。

當(dāng)然了,如果使用這種方法,更長的視頻就會被分配到更多的視覺token,因此如果身處可變長度視頻的情境下,這種方式比現(xiàn)有方式更有優(yōu)勢。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

總而言之,這種圖片和視頻的統(tǒng)一表示,一邊減少了視覺token的數(shù)量,一邊又保持了模型的表達(dá)能力。

同時(shí)又由于視覺token數(shù)量的減少,利用這種方式訓(xùn)練模型和進(jìn)行推理的成本,會大幅度降低——練一個(gè)具有130億參數(shù)的VLM,只需要3天。

多提一嘴,為了進(jìn)一步提升模型性能,團(tuán)隊(duì)還為LLM提供了一個(gè)多尺度表征。

多尺度表征的上層特征表示高級語義概念,而下層特征則強(qiáng)調(diào)了視覺細(xì)節(jié)的表示。

說到這,我們可以總結(jié)出Chat-UniVi的2大特點(diǎn)

第一,因?yàn)楠?dú)特的建模方法,Chat-UniVi的訓(xùn)練數(shù)據(jù)集可以是圖片與視頻的混合版,并且無需任何修改,就可以直接應(yīng)用在圖片和視頻任務(wù)上。

第二,多尺度表征能幫助Chat-UniVi對圖片和視頻進(jìn)行更到位、更全面的理解。

這也導(dǎo)致了Chat-UniVi的任務(wù)適應(yīng)性更強(qiáng),包括使用高層次特征進(jìn)行語義理解,以及利用低層次特征生成詳細(xì)描述。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

分兩階段訓(xùn)練

Chat-UniVi的訓(xùn)練分為兩個(gè)階段。

第一步是多模態(tài)預(yù)訓(xùn)練。

在這個(gè)階段,研究人員凍結(jié)了LLM和視覺編碼器,同時(shí)只對投影矩陣進(jìn)行訓(xùn)練。

這種訓(xùn)練策略使得模型能夠有效地捕獲視覺信息,而不會對LLM的性能造成任何明顯的損害。

第二步是聯(lián)合指令微調(diào)。

在第二階段,團(tuán)隊(duì)對整個(gè)模型進(jìn)行了全參數(shù)微調(diào),使用了一個(gè)包含圖片和視頻的混合數(shù)據(jù)集。

通過在混合數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,Chat-UniVi實(shí)現(xiàn)了對大量指令的卓越理解,并生成了更自然、更可靠的輸出。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

訓(xùn)練過程中,團(tuán)隊(duì)進(jìn)行了如下實(shí)驗(yàn):

圖片理解實(shí)驗(yàn)

Chat-UniVi在使用更少的視覺標(biāo)記的同時(shí),性能表現(xiàn)也很不錯(cuò)。

7B參數(shù)的Chat-UniVi模型能達(dá)到13B大小LLaVA模型的性能水平。這證明了該方法的有效性。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

視頻理解實(shí)驗(yàn)

作為一個(gè)統(tǒng)一的VLM,Chat-UniVi超越了專門針對視頻設(shè)計(jì)的方法,如VideoChat和Video-ChatGPT。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

圖片問答實(shí)驗(yàn)

Chat-UniVi在ScienceQA數(shù)據(jù)集上性能表現(xiàn)良好,其性能優(yōu)于專門針對科學(xué)問答進(jìn)行優(yōu)化的LLaMA-SciTune模型。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

視頻問答實(shí)驗(yàn)

在所有數(shù)據(jù)集上,Chat-UniVi均表現(xiàn)優(yōu)于最先進(jìn)的方法,如VideoChat和Video-ChatGPT等。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

幻覺實(shí)驗(yàn)

在幻覺評估方面,Chat-UniVi表現(xiàn)優(yōu)于最近提出的最先進(jìn)方法。

值得注意的是,作為一個(gè)7B模型,Chat-UniVi在性能上超越了13B參數(shù)大小的MiniGPT-4。

研究人員將這一成功歸功于多尺度表征,這使得模型能夠同時(shí)感知高級語義概念和低級視覺外觀。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

人工評測實(shí)驗(yàn)

同時(shí),研究人員還進(jìn)行了人工評估實(shí)驗(yàn)。

他們發(fā)現(xiàn),基于Flamingo的方法在理解視頻的能力上存在局限性。這種限制歸因于它們使用Q-Former從不同長度的視頻中提取固定數(shù)量的視覺標(biāo)記,這阻礙了它們在建模時(shí)間理解方面的有效性。

相比之下,作為一個(gè)統(tǒng)一的模型,Chat-UniVi不僅優(yōu)于基于Flamingo構(gòu)建的方法,而且超越了專門為圖片和視頻設(shè)計(jì)的模型。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

可視化

Chat-UniVi所采用的動態(tài)視覺token巧妙地概括了對象和背景。

這使得Chat-UniVi能夠以有限數(shù)量的視覺token,同時(shí)建模圖片理解所需的細(xì)粒度空間分辨率和視頻理解所需的細(xì)粒度時(shí)間分辨率。

北大最新多模態(tài)大模型開源:混合數(shù)據(jù)集訓(xùn)練,圖像視頻任務(wù)直接用

團(tuán)隊(duì)介紹

論文一作是北大信息工程學(xué)院博三學(xué)生金鵬。

通訊作者袁粒,北大信息工程學(xué)院助理教授、博士生導(dǎo)師。

其研究方向?yàn)槎嗄B(tài)深度學(xué)習(xí)和AI4S,其中AI4S方向主要研究深度學(xué)習(xí)解決化學(xué)生物中的重大問題。

此前網(wǎng)絡(luò)大火的ChatExcel、ChatLaw等垂直領(lǐng)域大模型項(xiàng)目都出自袁粒團(tuán)隊(duì)。

arXiv:https://arxiv.org/pdf/2311.08046.pdf
Demo:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub:https://github.com/PKU-YuanGroup/Chat-UniVi
抱抱臉:https://huggingface.co/Chat-UniVi

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動,老師會在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定