發(fā)布時(shí)間:2024-03-28 12:44:37 瀏覽量:143次
潮新聞客戶端 記者 張?jiān)粕?/p>
“一切來得太快,我們目前還在觀望。”Rokid CEO祝銘明(musa)說,Sora帶來的沖擊波到底有多大,他們也在時(shí)刻關(guān)注。
2月16日凌晨,OpenAI正式發(fā)布他們的文本生成視頻大模型Sora,其逼真的視覺效果讓其在一夜之間“刷屏”,再次重現(xiàn)了一年前用ChatGPT轟動(dòng)全世界的場景。
Sora生成視頻截圖
相比之前的文生視頻軟件Pika、runway、SVD等,Sora一出場就驚艷世界。目前OpenAI還沒有發(fā)布Sora的公開使用版本,但已經(jīng)發(fā)布的40多個(gè)演示視頻中,包含有細(xì)節(jié)拉滿的場景、復(fù)雜的攝像機(jī)以及多個(gè)充滿情感的角色。OpenAI宣稱,Sora可以理解物體在物理世界中如何存在,并準(zhǔn)確地解釋道具并生成引人注目的角色來表達(dá)充滿活力的情感。
Sora最主要有三個(gè)優(yōu)點(diǎn):第一,“60s超長視頻”,之前文本生成視頻大模型一直無法真正突破AI視頻的4秒連貫性瓶頸,而Sora直接做到了60秒連貫視頻。第二,單視頻既能有多角度鏡頭也能一鏡到底,可以很好地展現(xiàn)場景中的光影關(guān)系、各個(gè)物體間的物理遮擋、碰撞關(guān)系,并且鏡頭絲滑可變。第三,Sora所合成的內(nèi)容與物理世界規(guī)律保持一致,即不會出現(xiàn)違反世界客觀規(guī)律的視覺信息。OpenAI并未單純將Sora視為視頻模型,而是作為“世界模擬器”。它能像人一樣,理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)“汽車撞毀坦克”這樣的情況。這就是“世界模型”的強(qiáng)大之處。
總的來說,Sora是一個(gè)在不同時(shí)長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),也就是一種“擴(kuò)散型Transformer”。
Sora背后是建模世界底層模型的大突破
Sora背后的工作原理到底是什么?
浙江大學(xué)計(jì)算機(jī)學(xué)院黨委書記和人工智能研究所所長吳飛對潮新聞?dòng)浾弑硎荆琒ora實(shí)現(xiàn)了內(nèi)容合成從文本領(lǐng)域、到圖像領(lǐng)域、再到視頻領(lǐng)域的跨越,其背后的原理為“對合成內(nèi)容中最小單元進(jìn)行上下文關(guān)聯(lián)有意義組合”。比如,若干單詞在上下文維度上有意義組合可合成一篇文章、一批視覺子塊在空間布局維度上有意義組合可合成一幅圖像、一系列視覺子塊在時(shí)空耦合上有意義拼接可合成一段視頻。為了實(shí)現(xiàn)這一目的,自注意力機(jī)制(self-attention)、擴(kuò)散模型(diffusion model)和變換神經(jīng)網(wǎng)絡(luò)(transformer)等被組合在一起使用。雖然這次Sora的技術(shù)原理尚未公布,但是一些外部專家猜測其仍是基于這些技術(shù)來訓(xùn)練視頻生成模型。
吳飛教授表示,Sora很難將物理世界中牛頓定律、湍流方程和量子學(xué)定理等規(guī)律一條一條在模型中顯式羅列實(shí)現(xiàn),而是通過對海量數(shù)據(jù)學(xué)習(xí)來隱式表達(dá)客觀規(guī)律,這或許是來自于神經(jīng)網(wǎng)絡(luò)模型的涌現(xiàn)之力。神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)之力指量變產(chǎn)生了質(zhì)變,在億萬個(gè)非線性映射函數(shù)組合之下,神經(jīng)網(wǎng)絡(luò)可生成意想不到的結(jié)果,即合成世界上先前從未出現(xiàn)過的內(nèi)容,這正是這一輪人工智能在“數(shù)據(jù)、模型、算力”三駕馬車推動(dòng)下發(fā)展的應(yīng)有之義。
浙江大學(xué)計(jì)算機(jī)學(xué)院CAD&CG國家重點(diǎn)實(shí)驗(yàn)室副主任、博士生導(dǎo)師陳為在接受潮新聞?dòng)浾卟稍L時(shí)表示,Sora是“文生長視頻”功能上的突破,視頻越長越難保證視頻內(nèi)容的合理性。Sora對AGI世界建模問題的研究有重要推動(dòng)作用。Sora不止可以完成文生視頻,更重要的是它可以被看作(但還不是) 建模世界底層物理規(guī)律的模型。因?yàn)槠淠苌煞鲜澜邕\(yùn)行規(guī)律的視頻,所以可以認(rèn)為其通過“閱讀”大量視頻,學(xué)會了預(yù)測下一個(gè)時(shí)刻的世界會是什么樣子(在特定場景的視覺意義上),它學(xué)會了一些世界運(yùn)行的底層物理規(guī)律。但目前來看,Sora的這個(gè)能力還是嚴(yán)重不足的,會產(chǎn)生大量不符合物理規(guī)律的視覺內(nèi)容,比如漂浮的椅子、籃球穿過籃框、狼的數(shù)量忽多忽少等。
Sora今年底或?qū)a(chǎn)生小時(shí)級文生視頻
突飛猛進(jìn)的人工智能,也讓人類對文生視頻的未來產(chǎn)生了好奇。陳為教授認(rèn)為,Sora今年底或?qū)a(chǎn)生小時(shí)級的文生視頻?!拔纳曨l從秒級到分鐘級的視頻生成很難,但從分鐘級到小時(shí)級的挑戰(zhàn)可能相對要容易,因?yàn)樯尚r(shí)級的文本對大語言模型已經(jīng)不是難事,我預(yù)測大概率今年底或明年達(dá)到小時(shí)級的合理文本內(nèi)容。”他表示,小時(shí)級別的視頻一定是人機(jī)協(xié)同創(chuàng)作的結(jié)果,否則視頻中的矛盾點(diǎn)會多如牛毛。
吳飛教授也注意到,這次OpenAI公布的Sora合成視頻所對應(yīng)的提示詞寫得很精彩,具有生動(dòng)的細(xì)節(jié)感,因此善于提出問題、設(shè)計(jì)內(nèi)容以及使用工具都是我們每個(gè)人在從信息化時(shí)代邁向數(shù)智化時(shí)代需要不斷加強(qiáng)的能力,“行之力則知愈進(jìn),知之深則行愈達(dá)”!
未來的文生視頻模型一定是多模態(tài)的
“文生視頻領(lǐng)域的中外差距又拉大了?!标悶檎J(rèn)為,中國學(xué)術(shù)界或產(chǎn)業(yè)界有能力實(shí)現(xiàn)文生圖,在此基礎(chǔ)上可以產(chǎn)生秒級 (10秒以內(nèi)) 視頻,但難以做到視頻前后語義一致性,或只能局限于特定場景,這與之前的國際前沿是差不多的。但與Sora相比,差距甚大?!斑@種差距本質(zhì)上是我們在大語言模型(LLM)和多模態(tài)大模型上的差距的直接映射,因?yàn)镾ora背后的技術(shù)在本質(zhì)上與LLM技術(shù)類似:LLM是大量讀書,Sora是大量讀圖(視頻),且通過學(xué)習(xí)大量“視文對”樣本來實(shí)現(xiàn)視文對產(chǎn),進(jìn)而實(shí)現(xiàn)文生視頻?!按_實(shí),我們又落后了!”
當(dāng)然,Sora作為世界模型也存在一些問題,例如通過大量“讀圖”學(xué)習(xí)世界運(yùn)行的規(guī)律固然是合理的,但類比“人”,僅“睜眼看世界”是學(xué)不會牛頓定律等物理學(xué)可以演繹的世界規(guī)律的。世界模型一定是多模態(tài)的,Sora最終很可能面臨如何與“牛頓定律”等符號型知識對齊并進(jìn)行泛化性演繹的挑戰(zhàn)。
國內(nèi)外科技圈沸騰了
Sora橫空出世,學(xué)術(shù)圈炸開鍋了,各路大佬也紛紛開麥。
日前,360創(chuàng)始人周鴻祎發(fā)微博稱,Sora的誕生意味著AGI的實(shí)現(xiàn)可能從10年縮短至兩年左右。他表示:“有了大模型技術(shù)作為基礎(chǔ),再加上人類知識的引導(dǎo),可以創(chuàng)造各個(gè)領(lǐng)域的超級工具?!?/p>
出門問問創(chuàng)始人李志飛在微信朋友圈稱:“LLM(大語言模型)ChatGPT是虛擬思維世界的模擬器,以LLM為基礎(chǔ)的視頻生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模了,到底什么是現(xiàn)實(shí)?”
Lepton AI公司創(chuàng)始人賈揚(yáng)清認(rèn)為,Sora的問世可能會給對作OpenAI的公司帶來一波被大廠收購的機(jī)會,他稱這類收購為“FOMO”,中文意思是“害怕錯(cuò)過機(jī)會而導(dǎo)致的收購”。賈揚(yáng)清預(yù)測,大模型市場長期仍將呈現(xiàn)整寡頭的格局,開源大模型仍然需要一段時(shí)間才能追趕上。他同時(shí)表示,Sora這類文生視頻大模型的出現(xiàn)無疑將會推動(dòng)AI基礎(chǔ)設(shè)施的需求猛增。
紐約大學(xué)助理教授謝賽寧(經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)ResNeXt的一作)直言,Sora將改寫整個(gè)視頻生成領(lǐng)域。謝賽寧分析,Sora應(yīng)該是建立在DiT這個(gè)擴(kuò)散Transformer之上的。簡而言之,DiT是一個(gè)帶有Transformer主干的擴(kuò)散模型,它=[VAE 編碼器 + ViT + DDPM + VAE 解碼器]。謝賽寧猜測,在這上面,Sora應(yīng)該沒有整太多花哨的額外東西。關(guān)于視頻壓縮網(wǎng)絡(luò),Sora可能采用的就是VAE架構(gòu)(深度生成模型),區(qū)別就是經(jīng)過原始視頻數(shù)據(jù)訓(xùn)練。而由于VAE是一個(gè)筐,所以DiT從技術(shù)上來說是一個(gè)混合模型。他還有猜測,Sora可能有大約30億個(gè)參數(shù)。
LLM(大語言模型)圖據(jù)視覺中國
OpenAI估值達(dá)800億美元
在Sora引發(fā)全球關(guān)注的同時(shí),OpenAI的估值也再次拉高,成為全球第三高估值的科技初創(chuàng)公司。
隨著最新要約收購?fù)瓿桑琌penAI的估值正式達(dá)到800億美元,僅次于字節(jié)跳動(dòng)和Space X。
這筆交易由風(fēng)投公司Thrive Capital牽頭,外部投資者可以從一些員工手中購買股份,2023年年初時(shí)OpenAI就完成過類似交易,使其當(dāng)時(shí)的估值達(dá)到290億美元。
而在Sora發(fā)布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分鐘最大token數(shù)量),較上一次實(shí)現(xiàn)2倍提升。
“轉(zhuǎn)載請注明出處”
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
2. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
7. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!