當(dāng)前位置：首頁 >人工智能 >一段文字生成60秒視頻，虛擬和現(xiàn)實(shí)融為一體，Sora沖擊波震蕩國內(nèi)學(xué)術(shù)圈

一段文字生成60秒視頻，虛擬和現(xiàn)實(shí)融為一體，Sora沖擊波震蕩國內(nèi)學(xué)術(shù)圈

發(fā)布時(shí)間：2024-03-28 12:44:37 瀏覽量：143次

潮新聞客戶端記者張?jiān)粕?/p>

“一切來得太快，我們目前還在觀望。”Rokid CEO祝銘明（musa）說，Sora帶來的沖擊波到底有多大，他們也在時(shí)刻關(guān)注。

2月16日凌晨，OpenAI正式發(fā)布他們的文本生成視頻大模型Sora，其逼真的視覺效果讓其在一夜之間“刷屏”，再次重現(xiàn)了一年前用ChatGPT轟動(dòng)全世界的場景。

Sora生成視頻截圖

相比之前的文生視頻軟件Pika、runway、SVD等，Sora一出場就驚艷世界。目前OpenAI還沒有發(fā)布Sora的公開使用版本，但已經(jīng)發(fā)布的40多個(gè)演示視頻中，包含有細(xì)節(jié)拉滿的場景、復(fù)雜的攝像機(jī)以及多個(gè)充滿情感的角色。OpenAI宣稱，Sora可以理解物體在物理世界中如何存在，并準(zhǔn)確地解釋道具并生成引人注目的角色來表達(dá)充滿活力的情感。

Sora最主要有三個(gè)優(yōu)點(diǎn)：第一，“60s超長視頻”，之前文本生成視頻大模型一直無法真正突破AI視頻的4秒連貫性瓶頸，而Sora直接做到了60秒連貫視頻。第二，單視頻既能有多角度鏡頭也能一鏡到底，可以很好地展現(xiàn)場景中的光影關(guān)系、各個(gè)物體間的物理遮擋、碰撞關(guān)系，并且鏡頭絲滑可變。第三，Sora所合成的內(nèi)容與物理世界規(guī)律保持一致，即不會出現(xiàn)違反世界客觀規(guī)律的視覺信息。OpenAI并未單純將Sora視為視頻模型，而是作為“世界模擬器”。它能像人一樣，理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會出現(xiàn)“汽車撞毀坦克”這樣的情況。這就是“世界模型”的強(qiáng)大之處。

總的來說，Sora是一個(gè)在不同時(shí)長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型，同時(shí)采用了Transformer架構(gòu)，也就是一種“擴(kuò)散型Transformer”。

Sora背后是建模世界底層模型的大突破

Sora背后的工作原理到底是什么？

浙江大學(xué)計(jì)算機(jī)學(xué)院黨委書記和人工智能研究所所長吳飛對潮新聞?dòng)浾弑硎荆琒ora實(shí)現(xiàn)了內(nèi)容合成從文本領(lǐng)域、到圖像領(lǐng)域、再到視頻領(lǐng)域的跨越，其背后的原理為“對合成內(nèi)容中最小單元進(jìn)行上下文關(guān)聯(lián)有意義組合”。比如，若干單詞在上下文維度上有意義組合可合成一篇文章、一批視覺子塊在空間布局維度上有意義組合可合成一幅圖像、一系列視覺子塊在時(shí)空耦合上有意義拼接可合成一段視頻。為了實(shí)現(xiàn)這一目的，自注意力機(jī)制（self-attention）、擴(kuò)散模型（diffusion model）和變換神經(jīng)網(wǎng)絡(luò)（transformer）等被組合在一起使用。雖然這次Sora的技術(shù)原理尚未公布，但是一些外部專家猜測其仍是基于這些技術(shù)來訓(xùn)練視頻生成模型。

吳飛教授表示，Sora很難將物理世界中牛頓定律、湍流方程和量子學(xué)定理等規(guī)律一條一條在模型中顯式羅列實(shí)現(xiàn)，而是通過對海量數(shù)據(jù)學(xué)習(xí)來隱式表達(dá)客觀規(guī)律，這或許是來自于神經(jīng)網(wǎng)絡(luò)模型的涌現(xiàn)之力。神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)之力指量變產(chǎn)生了質(zhì)變，在億萬個(gè)非線性映射函數(shù)組合之下，神經(jīng)網(wǎng)絡(luò)可生成意想不到的結(jié)果，即合成世界上先前從未出現(xiàn)過的內(nèi)容，這正是這一輪人工智能在“數(shù)據(jù)、模型、算力”三駕馬車推動(dòng)下發(fā)展的應(yīng)有之義。

浙江大學(xué)計(jì)算機(jī)學(xué)院CAD&CG國家重點(diǎn)實(shí)驗(yàn)室副主任、博士生導(dǎo)師陳為在接受潮新聞?dòng)浾卟稍L時(shí)表示，Sora是“文生長視頻”功能上的突破，視頻越長越難保證視頻內(nèi)容的合理性。Sora對AGI世界建模問題的研究有重要推動(dòng)作用。Sora不止可以完成文生視頻，更重要的是它可以被看作（但還不是) 建模世界底層物理規(guī)律的模型。因?yàn)槠淠苌煞鲜澜邕\(yùn)行規(guī)律的視頻，所以可以認(rèn)為其通過“閱讀”大量視頻，學(xué)會了預(yù)測下一個(gè)時(shí)刻的世界會是什么樣子（在特定場景的視覺意義上），它學(xué)會了一些世界運(yùn)行的底層物理規(guī)律。但目前來看，Sora的這個(gè)能力還是嚴(yán)重不足的，會產(chǎn)生大量不符合物理規(guī)律的視覺內(nèi)容，比如漂浮的椅子、籃球穿過籃框、狼的數(shù)量忽多忽少等。

Sora今年底或?qū)a(chǎn)生小時(shí)級文生視頻

突飛猛進(jìn)的人工智能，也讓人類對文生視頻的未來產(chǎn)生了好奇。陳為教授認(rèn)為，Sora今年底或?qū)a(chǎn)生小時(shí)級的文生視頻?！拔纳曨l從秒級到分鐘級的視頻生成很難，但從分鐘級到小時(shí)級的挑戰(zhàn)可能相對要容易，因?yàn)樯尚r(shí)級的文本對大語言模型已經(jīng)不是難事，我預(yù)測大概率今年底或明年達(dá)到小時(shí)級的合理文本內(nèi)容。”他表示，小時(shí)級別的視頻一定是人機(jī)協(xié)同創(chuàng)作的結(jié)果，否則視頻中的矛盾點(diǎn)會多如牛毛。

吳飛教授也注意到，這次OpenAI公布的Sora合成視頻所對應(yīng)的提示詞寫得很精彩，具有生動(dòng)的細(xì)節(jié)感，因此善于提出問題、設(shè)計(jì)內(nèi)容以及使用工具都是我們每個(gè)人在從信息化時(shí)代邁向數(shù)智化時(shí)代需要不斷加強(qiáng)的能力，“行之力則知愈進(jìn)，知之深則行愈達(dá)”！

未來的文生視頻模型一定是多模態(tài)的

“文生視頻領(lǐng)域的中外差距又拉大了?！标悶檎J(rèn)為，中國學(xué)術(shù)界或產(chǎn)業(yè)界有能力實(shí)現(xiàn)文生圖，在此基礎(chǔ)上可以產(chǎn)生秒級 (10秒以內(nèi)) 視頻，但難以做到視頻前后語義一致性，或只能局限于特定場景，這與之前的國際前沿是差不多的。但與Sora相比，差距甚大?！斑@種差距本質(zhì)上是我們在大語言模型（LLM）和多模態(tài)大模型上的差距的直接映射，因?yàn)镾ora背后的技術(shù)在本質(zhì)上與LLM技術(shù)類似：LLM是大量讀書，Sora是大量讀圖（視頻），且通過學(xué)習(xí)大量“視文對”樣本來實(shí)現(xiàn)視文對產(chǎn)，進(jìn)而實(shí)現(xiàn)文生視頻?！按_實(shí)，我們又落后了！”

當(dāng)然，Sora作為世界模型也存在一些問題，例如通過大量“讀圖”學(xué)習(xí)世界運(yùn)行的規(guī)律固然是合理的，但類比“人”，僅“睜眼看世界”是學(xué)不會牛頓定律等物理學(xué)可以演繹的世界規(guī)律的。世界模型一定是多模態(tài)的，Sora最終很可能面臨如何與“牛頓定律”等符號型知識對齊并進(jìn)行泛化性演繹的挑戰(zhàn)。

國內(nèi)外科技圈沸騰了

Sora橫空出世，學(xué)術(shù)圈炸開鍋了，各路大佬也紛紛開麥。

日前，360創(chuàng)始人周鴻祎發(fā)微博稱，Sora的誕生意味著AGI的實(shí)現(xiàn)可能從10年縮短至兩年左右。他表示：“有了大模型技術(shù)作為基礎(chǔ)，再加上人類知識的引導(dǎo)，可以創(chuàng)造各個(gè)領(lǐng)域的超級工具?！?/p>

出門問問創(chuàng)始人李志飛在微信朋友圈稱：“LLM（大語言模型）ChatGPT是虛擬思維世界的模擬器，以LLM為基礎(chǔ)的視頻生成模型Sora是物理世界的模擬器，物理和虛擬世界都被建模了，到底什么是現(xiàn)實(shí)？”

Lepton AI公司創(chuàng)始人賈揚(yáng)清認(rèn)為，Sora的問世可能會給對作OpenAI的公司帶來一波被大廠收購的機(jī)會，他稱這類收購為“FOMO”，中文意思是“害怕錯(cuò)過機(jī)會而導(dǎo)致的收購”。賈揚(yáng)清預(yù)測，大模型市場長期仍將呈現(xiàn)整寡頭的格局，開源大模型仍然需要一段時(shí)間才能追趕上。他同時(shí)表示，Sora這類文生視頻大模型的出現(xiàn)無疑將會推動(dòng)AI基礎(chǔ)設(shè)施的需求猛增。

紐約大學(xué)助理教授謝賽寧（經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)ResNeXt的一作）直言，Sora將改寫整個(gè)視頻生成領(lǐng)域。謝賽寧分析，Sora應(yīng)該是建立在DiT這個(gè)擴(kuò)散Transformer之上的。簡而言之，DiT是一個(gè)帶有Transformer主干的擴(kuò)散模型，它=[VAE 編碼器 + ViT + DDPM + VAE 解碼器]。謝賽寧猜測，在這上面，Sora應(yīng)該沒有整太多花哨的額外東西。關(guān)于視頻壓縮網(wǎng)絡(luò)，Sora可能采用的就是VAE架構(gòu)（深度生成模型），區(qū)別就是經(jīng)過原始視頻數(shù)據(jù)訓(xùn)練。而由于VAE是一個(gè)筐，所以DiT從技術(shù)上來說是一個(gè)混合模型。他還有猜測，Sora可能有大約30億個(gè)參數(shù)。

LLM（大語言模型）圖據(jù)視覺中國

OpenAI估值達(dá)800億美元

在Sora引發(fā)全球關(guān)注的同時(shí)，OpenAI的估值也再次拉高，成為全球第三高估值的科技初創(chuàng)公司。

隨著最新要約收購?fù)瓿桑琌penAI的估值正式達(dá)到800億美元，僅次于字節(jié)跳動(dòng)和Space X。

這筆交易由風(fēng)投公司Thrive Capital牽頭，外部投資者可以從一些員工手中購買股份，2023年年初時(shí)OpenAI就完成過類似交易，使其當(dāng)時(shí)的估值達(dá)到290億美元。

而在Sora發(fā)布后，GPT-4 Turbo也大幅降低速率限制，提高TPM（每分鐘最大token數(shù)量），較上一次實(shí)現(xiàn)2倍提升。

“轉(zhuǎn)載請注明出處”

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 Sora模型解密，AI如何讓視頻制作翻天覆地?!

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
7. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
9. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

一段文字生成60秒視頻，虛擬和現(xiàn)實(shí)融為一體，Sora沖擊波震蕩國內(nèi)學(xué)術(shù)圈

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

一段文字生成60秒視頻，虛擬和現(xiàn)實(shí)融為一體，Sora沖擊波震蕩國內(nèi)學(xué)術(shù)圈

請綁定手機(jī)號

一段文字生成60秒視頻，虛擬和現(xiàn)實(shí)融為一體，Sora沖擊波震蕩國內(nèi)學(xué)術(shù)圈