激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

媒體基礎(chǔ):打開多模態(tài)大模型的新思路

發(fā)布時(shí)間:2023-11-28 14:55:10 瀏覽量:128次

彌合真實(shí)世界與抽象語義之間的鴻溝

我們希望人工智能能夠像人類一樣,從現(xiàn)實(shí)世界的視頻、音頻等媒介中獲得知識和智能。為了實(shí)現(xiàn)這一目標(biāo),我們需要將復(fù)雜而含有噪音的現(xiàn)實(shí)世界,轉(zhuǎn)化為能夠捕獲世界本質(zhì)信息和動態(tài)變化的抽象表示。微軟亞洲研究院正在探索多媒體與人工智能的協(xié)同發(fā)展,從對媒體基礎(chǔ)(Media Foundation)的創(chuàng)新研究中找到新的突破口,這一探索將為多模態(tài)大模型的研究帶來新的思路。

——呂巖,微軟亞洲研究院全球研究合伙人

媒體基礎(chǔ):打開多模態(tài)大模型的新思路

呂巖

自1956年達(dá)特茅斯會議提出“人工智能”一詞,人類足足用了近70年的時(shí)間,才積累了足夠的技術(shù)和資源促成人工智能的爆發(fā)。而當(dāng)我們跨過“臨界點(diǎn)”,大語言模型(LLMs)在自然語言理解、語音識別、圖像生成等方面展現(xiàn)出的一系列巨大進(jìn)步令人目不暇接。隨著ChatGPT、DALL-E等應(yīng)用的出現(xiàn),我們看到人工智能開始展現(xiàn)出更復(fù)雜的能力,比如觀察、學(xué)習(xí)和理解真實(shí)世界,并進(jìn)一步實(shí)現(xiàn)推理和創(chuàng)造。

如今我們對人工智能有了更高的期待。我們不僅希望人工智能能夠進(jìn)行創(chuàng)作,也希望它能如同人類一樣,通過各種渠道從真實(shí)世界中獲取知識、實(shí)現(xiàn)成長。然而人工智能與人類的認(rèn)知能力還有很大的差距:人腦能夠接收和解析物理世界的絕大多數(shù)現(xiàn)象,如視頻、聲音、語言、文字等,并將其抽象為可保存和積累的信息、知識或技能。而能完成通用任務(wù)的多模態(tài)人工智能模型,卻還處在蹣跚學(xué)步的早期階段。

我們希望人工智能能夠從現(xiàn)實(shí)世界的數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。然而如何在復(fù)雜且充滿噪聲的真實(shí)世界和人工智能所處在的抽象語義世界之間架起橋梁呢?是否可以為不同類型媒體信息構(gòu)建與自然語言平行的,另一種可被人工智能學(xué)習(xí)理解的語言?我認(rèn)為這是非常值得探索的方向。我和微軟亞洲研究院的同事們正致力于從神經(jīng)編解碼器(Neural Codec)入手,構(gòu)建一個(gè)全面的媒體基礎(chǔ)(Media Foundation)框架,通過提取真實(shí)世界中不同媒體內(nèi)容的表征,形成可被人工智能理解的語義,從而彌合真實(shí)世界與抽象語義之間的鴻溝,為多模態(tài)人工智能研究開啟一扇新的大門。

打破復(fù)雜真實(shí)世界與抽象語義之間的壁壘

人類之所以能成為無出其右的卓越“學(xué)習(xí)者”,是因?yàn)槿祟惸芡ㄟ^視覺、聽覺、觸覺和語言等多種方式來觀察物理世界并與之互動,從中汲取廣泛的技能和知識,從而不斷提高我們的智能水平。我們希望能將人類的這一特征“復(fù)制”到人工智能身上,使其能夠從豐富的真實(shí)世界數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。

目前絕大多數(shù)人工智能大模型的基座模型都建立在大語言模型之上,通過抽象、緊湊的文本表達(dá)來獲得對世界的認(rèn)知。雖然人們陸續(xù)研發(fā)出針對不同媒體形式的預(yù)訓(xùn)練模型,但它們并不能充分反映真實(shí)世界的動態(tài)變化。來自物理世界的視頻和音頻信號是復(fù)雜且充滿噪聲的,我們需要找到一種有效方法,將其轉(zhuǎn)換為能夠捕獲真實(shí)世界本質(zhì)信息和動態(tài)變化的抽象表示

過去一段時(shí)間,我和微軟亞洲研究院的同事們一直在探索與大語言模型平行的人工智能發(fā)展之路。多媒體研究立足于捕捉、壓縮、解釋、重構(gòu)和生成各種模態(tài)的媒體中的豐富信息,如圖像、視頻、音頻和文本等,并自然而然地將復(fù)雜而嘈雜的真實(shí)世界轉(zhuǎn)化為一種抽象表示。我們希望這種抽象表示具有三方面的特性:富有語義、緊湊的大小和信息的完整保留。如果能在該領(lǐng)域有所突破,是否就可以為視頻、音頻等多媒體信號和抽象且語義化的人工智能模型之間搭建橋梁?

于是我們產(chǎn)生了這樣的想法:建立一個(gè)全面的媒體基礎(chǔ)框架,通過神經(jīng)編解碼器,將不同模態(tài)的媒體信號轉(zhuǎn)換為緊湊且語義化的表征標(biāo)記,從而構(gòu)建真實(shí)世界及其動態(tài)變化的抽象表示

媒體基礎(chǔ):打開多模態(tài)大模型的新思路

神經(jīng)編解碼器構(gòu)建多媒體的抽象表示

我們構(gòu)想的媒體基礎(chǔ)由兩個(gè)組件組成:在線媒體表征標(biāo)記和離線基座模型。其中,在線媒體表征標(biāo)記模型可以動態(tài)地將多媒體信息轉(zhuǎn)換為緊湊抽象的語義表示,以供人工智能觀察現(xiàn)實(shí)世界并與之交互。而離線基座模型可以由現(xiàn)實(shí)世界中提取的媒體表征標(biāo)記來離線構(gòu)建,并通過離線學(xué)習(xí)的知識預(yù)測動態(tài)變化。無論人工智能用來學(xué)習(xí)的是語言文本,還是音頻或視頻,盡可能實(shí)現(xiàn)無損的壓縮都是其智能的源泉。

從本質(zhì)上講,整個(gè)媒體基礎(chǔ)框架可被視為一種更廣泛意義上的神經(jīng)編解碼器。對此我們設(shè)計(jì)了三個(gè)階段的發(fā)展計(jì)劃:首先,訓(xùn)練初始的編碼器和解碼器模型,學(xué)習(xí)每種模態(tài)的媒體表征;其次,為每種模態(tài)構(gòu)建基座模型,并進(jìn)一步優(yōu)化編碼器和解碼器;第三,學(xué)習(xí)包括自然語言在內(nèi)的跨模態(tài)關(guān)聯(lián),并構(gòu)建最終的多模態(tài)基座模型。媒體的動態(tài)表征標(biāo)記與多模態(tài)基座模型一起構(gòu)成了我們的媒體基礎(chǔ),并為我們邁向多模態(tài)人工智能之路提供一種新的思路。

如前所述,抽象的語義表達(dá)更加緊湊和簡潔,而視頻和音頻信號卻復(fù)雜且含有噪聲,我們的媒體基礎(chǔ)框架是否能夠?qū)⒄鎸?shí)世界的動態(tài)變化進(jìn)行高效且盡可能無損的壓縮?至少此前我們所看到的多媒體編解碼器都難以勝任這項(xiàng)工作。因此,我們認(rèn)為當(dāng)務(wù)之急是開發(fā)一個(gè)新的神經(jīng)編解碼器框架,用于高效構(gòu)建視頻、音頻及其動態(tài)變化的抽象表示。

在過去的幾年里,我和同事們一直致力于開發(fā)高效的神經(jīng)音頻/視頻編解碼器,并取得了令人興奮的進(jìn)展。在利用深度學(xué)習(xí)顛覆傳統(tǒng)編解碼器架構(gòu)的同時(shí),我們也實(shí)現(xiàn)了更低的計(jì)算成本及更優(yōu)的性能。我們開發(fā)的神經(jīng)編解碼器的性能不僅超越了傳統(tǒng)的編解碼器,也顯著優(yōu)于現(xiàn)有的其它神經(jīng)編解碼器。

在神經(jīng)音頻編解碼器方面,我們首次實(shí)現(xiàn)了256bps的高質(zhì)量語音信號壓縮,并在256bps的極低比特率下,通過信息瓶頸實(shí)現(xiàn)了解耦的抽象語義表征學(xué)習(xí)。其意義不僅在于多媒體技術(shù)層面——通過這一創(chuàng)新,我們能夠利用捕捉到的音頻表征來實(shí)現(xiàn)各種音頻和語音任務(wù),例如語音轉(zhuǎn)換或語音到語音的翻譯。

此外,我們還開發(fā)了DCVC-DC(Deep Contextual Video Compression-Diverse Contexts) 神經(jīng)視頻編解碼器。它可以將傳統(tǒng)編解碼中通過規(guī)則組合的不同模塊和算法轉(zhuǎn)換為深度學(xué)習(xí)的自動學(xué)習(xí)方式,有效利用不同的上下文來大幅提高視頻壓縮率,這使得它在性能上超越了此前所有的視頻編解碼器。由于構(gòu)建全面、協(xié)同的媒體基礎(chǔ)對神經(jīng)視頻編解碼器帶來了全新的挑戰(zhàn),我們正在對DCVC-DC進(jìn)行深度改造。

探索隱文本語言之外的另一種可能性

我們開發(fā)的神經(jīng)編解碼器,本質(zhì)上是通過從根本上改變對隱空間中的對象、動作、情緒或概念等不同類型信息的建模方式,讓模型達(dá)到更高的壓縮比。這對多模態(tài)大模型的意義在于,通過神經(jīng)編解碼器可以將視覺、語言和聲音等信息轉(zhuǎn)換為隱空間的神經(jīng)表達(dá)——類似于自然語言處理中的抽象而緊湊的語義表征,但這些多媒體表征更符合自然規(guī)律,而且不局限于自然語言順序的簡單描述,能夠支持更廣泛的應(yīng)用。

我們的探索驗(yàn)證了通過視頻和音頻構(gòu)建全新的媒體基礎(chǔ)的可行性,這為開發(fā)人工智能帶來了全新的視角。雖然自然語言已被證明是構(gòu)建人工智能的有效方法,但如果我們總是試圖將復(fù)雜的多媒體信號轉(zhuǎn)化成文本語言或與之相關(guān)聯(lián),不僅過于繁瑣,還會限制人工智能的全面發(fā)展。相比之下,構(gòu)建基于神經(jīng)編解碼器的媒體基礎(chǔ)的思路可能更加有效。

當(dāng)然,通過媒體基礎(chǔ)和自然語言模型實(shí)現(xiàn)多模態(tài)大模型的方式雖然不同,但對于人工智能發(fā)展來說都有不可替代的價(jià)值。我們不妨將人工智能學(xué)習(xí)的多媒體表征看作是與自然語言并行的另一種“語言”。這樣,大型多模態(tài)模型也可以被視為“大型多媒體語言模型”。我相信,神經(jīng)編解碼器的發(fā)展將成為媒體基礎(chǔ)演進(jìn)的巨大推動力,其包含的媒體基座模型與大語言模型將共同構(gòu)建未來的多模態(tài)大模型,真正實(shí)現(xiàn)我們所期待的全方位、協(xié)同的多模態(tài)媒體基礎(chǔ)與融合,從而更好地釋放人工智能的潛力。

目前,我們?nèi)栽谂μ剿魃窠?jīng)編解碼器在隱空間中對多媒體信息的更多建模方法,全面、協(xié)同、融合的媒體基礎(chǔ)作為我們的設(shè)想和判斷,任何一個(gè)切入點(diǎn)都充滿了無窮的可能。如果我們的這一設(shè)想能夠?yàn)槿斯ぶ悄艿倪M(jìn)步帶來一些激發(fā)靈感的星星之火,那對我們來說已經(jīng)足以感到欣慰和自豪了!


相關(guān)論文:

[1]Disentangled Feature Learning for Real-Time Neural Speech Coding,https://ieeexplore.ieee.org/abstract/document/10094723

[2]Neural Video Compression with Diverse Contexts,https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Neural_Video_Compression_With_Diverse_Contexts_CVPR_2023_paper.pdf


本文作者:
呂巖,微軟亞洲研究院全球研究合伙人、多媒體計(jì)算方向負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊(duì)從事多媒體通信、計(jì)算機(jī)視覺、語音增強(qiáng)、多模態(tài)信息融合、用戶界面虛擬化及云計(jì)算等方向的關(guān)鍵技術(shù)研究。

自 2004 年加入微軟亞洲研究院以來,呂巖和團(tuán)隊(duì)的多項(xiàng)科研成果和原型系統(tǒng)已轉(zhuǎn)化至 Windows、Office、Teams、Xbox等關(guān)鍵產(chǎn)品中。近年來,呂巖致力于推動基于神經(jīng)網(wǎng)絡(luò)的端到端多媒體處理與通信框架和多模態(tài)智能交互系統(tǒng)的研究突破。呂巖在多媒體領(lǐng)域發(fā)表學(xué)術(shù)論文 100 余篇,獲得美國專利授權(quán) 30 余項(xiàng),有多項(xiàng)技術(shù)被 MPEG-4、H.264、H.265 和 AOM AV-1 等國際標(biāo)準(zhǔn)和工業(yè)標(biāo)準(zhǔn)所采用,曾獲國家技術(shù)發(fā)明二等獎(jiǎng)。

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動,老師會在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定