發(fā)布時間:2024-03-28 09:47:33 瀏覽量:200次
最近,OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora,瞬間占據(jù)了各大新聞頭條。
就連一向和 OpenAI 不對付的馬斯克也甘心承認(rèn) Sora 的強大,并借此盛贊「在未來的幾年里,人類借助 AI 的力量,將創(chuàng)造出卓越的作品?!?/p>
Sora 的強大之處在于能夠根據(jù)文本描述,生成長達 60 秒連貫流暢的的視頻,其中包含細(xì)膩復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動。
對比其他只能生成短至個位數(shù)長度的視頻,Sora 的一分鐘時長無疑起到了掀桌的效果。
更為重要的是,無論是在視頻的真實性、長度、穩(wěn)定性、一致性、分辨率還是對文本的理解方面,Sora 均展現(xiàn)出了目前最佳的水平。讓我們先來欣賞一下官方發(fā)布的演示視頻片段。
Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
在這段視頻中,無人機視角下的一對情侶穿梭于繁華的城市街道,美麗的櫻花花瓣伴隨著雪花在空中翩翩起舞。
當(dāng)其他工具還在努力保持單鏡頭穩(wěn)定時,Sora 已經(jīng)絲滑實現(xiàn)多鏡頭的無縫切換,且鏡頭切換的連貫性和對象的一致性效果都遙遙領(lǐng)先,真降維打擊。
▲源自 @gabor
在過去,要拍攝這樣一段視頻可能需要耗費大量時間和精力進行劇本創(chuàng)作、分鏡頭設(shè)計等一系列繁瑣的工作。而現(xiàn)在,僅需一段簡單的文本描述,Sora 就能徹底生成這樣的大場面,相關(guān)從業(yè)者或許已經(jīng)開始瑟瑟發(fā)抖了。
網(wǎng)友 @debarghya_das 用 OpenAI Sora 剪輯、David Attenborough 在 Eleven Labs 上的聲音以及 iMovie 上 Youtube 上的一些自然音樂樣本,在 15 分鐘內(nèi)制作了這個 20 多秒的預(yù)告片。
OpenAI 也發(fā)布了一份關(guān)于 Sora 詳細(xì)的技術(shù)報告,介紹了其背后的技術(shù)原理和應(yīng)用。
那么,Sora 是如何實現(xiàn)這一突破的呢?受到 LLM 成功實踐經(jīng)驗的啟發(fā),OpenAI 引入了視覺塊嵌入代碼(patches),這是一種高度可擴展且有效的視覺數(shù)據(jù)表現(xiàn)形式,能夠極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。
在高維度空間中,OpenAI 首先將視頻數(shù)據(jù)壓縮至一個低維潛在空間,然后再將其分解為時空嵌入,從而將視頻轉(zhuǎn)化為一系列編碼塊。
接下來,OpenAI 訓(xùn)練了一個專門用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入,輸出的潛在表示在時間和空間上都經(jīng)過了壓縮。Sora 正是在這個壓縮后的潛在空間中進行訓(xùn)練,并在該空間內(nèi)生成視頻。
此外,OpenAI 還訓(xùn)練了一個解碼器模型,能夠?qū)⑦@些潛在表征還原為像素級的視頻圖像。
通過對壓縮后的視頻輸入進行處理,研究人員能夠提取出一系列的時空 patchs,這些 patchs 在模型中扮演著類似于 Transformer Tokens 的角色。
采用基于 patchs 的表現(xiàn)形式,Sora 能夠適應(yīng)不同分辨率、持續(xù)時間及寬高比的視頻和圖像,在生成新視頻內(nèi)容時,可以通過將這些隨機初始化的 patchs 按照需要的大小排列成網(wǎng)格,來控制最終視頻的大小和形式。
盡管上述原理聽起來頗為復(fù)雜,但實際上 OpenAI 所用到的這項新技術(shù)——視覺塊嵌入代碼(簡稱視覺塊)——就好比是將一堆雜亂無章的積木整理好放入一個小盒子中。如此一來,即便面對眾多積木,只要找到了這個小盒子就能輕松找到所需積木。
由于視頻數(shù)據(jù)被轉(zhuǎn)化為了一個個小方塊的形式,當(dāng) OpenAI 向 Sora 提供一個新的視頻任務(wù)時,他們首先會從該視頻中提取出一些包含時間和空間信息的小方塊。隨后將這些小方塊交給 Sora 讓其根據(jù)這些信息生成新的視頻。
這樣就可以像拼拼圖一樣,把視頻重新組合起來。這樣做的好處是,計算機可以更快地學(xué)習(xí)和處理各種不同類型的圖片和視頻。
隨著 Sora 的訓(xùn)練越來越深入,OpenAI 的研究人員還發(fā)現(xiàn)隨著訓(xùn)練計算量的增加,樣本質(zhì)量得到了顯著提高。OpenAI 發(fā)現(xiàn)直接在數(shù)據(jù)的原始尺寸上進行訓(xùn)練具有諸多優(yōu)勢:
此外,Sora 還具有以下特性:
訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有文字標(biāo)題的視頻。OpenAI 將在 DALL·E 3 中引入的重新標(biāo)注技術(shù)應(yīng)用到視頻上。
類似于 DALL·E 3,OpenAI 利用 GPT 將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明,然后發(fā)送給視頻模型,從而使得 Sora 能夠生成高質(zhì)量的視頻。
除了可以從文字轉(zhuǎn)化而來,Sora 還能接受圖片或已有視頻的輸入。這項功能讓 Sora 能夠完成各種圖片和視頻編輯任務(wù),比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時間等。
形成「SORA」字樣的逼真云朵圖像。
在一個裝飾華麗的歷史大廳里,一道巨大的海浪正準(zhǔn)備沖擊而來。兩位沖浪者抓住機會,巧妙地駕馭著海浪。
無需任何預(yù)先示例,Sora 就能改變視頻中的風(fēng)格和環(huán)境。甚至兩個風(fēng)格迥異的視頻也能平滑連接起來。
Sora 還能文生圖,研究團隊通過在一個時間范圍僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來創(chuàng)造出各種尺寸的圖像,最大分辨率達到了 2048x2048。
實在的 OpenAI 也坦率地承認(rèn)了 Sora 當(dāng)前存在的局限問題,比如它無法模擬復(fù)雜場景的物理效應(yīng),以及理解某些特定因果關(guān)系。舉例來說,它無法精確模擬像玻璃破碎這樣的基本物理互動。
▲ 相反方向的跑步
不過 OpenAI 堅信,Sora 目前的能力表明,持續(xù)擴展視頻模型是朝著開發(fā)能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的有能力的模擬器的一條充滿希望的途徑。
OpenAI 發(fā)現(xiàn),在大規(guī)模訓(xùn)練下,Sora 展示出了一系列引人注目的涌現(xiàn)能力,能夠在一定程度上模擬真實世界中的人、動物和環(huán)境。
這些能力并非基于對三維空間或物體的特定預(yù)設(shè),而是由大規(guī)模數(shù)據(jù)驅(qū)動產(chǎn)生的。
OpenAI 將 Sora 視為「能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)」,相信其能力「將是實現(xiàn) AGI 的重要里程碑」。
對于 Sora 的到來,英偉達高級科學(xué)家 Jim Fan 表示:
如果你認(rèn)為 OpenAI 的 Sora 就像 DALL·E 那樣,是一個用于創(chuàng)意實驗的工具,那你可能需要重新考慮了。
Sora 實際上是一款基于數(shù)據(jù)的物理模擬引擎,它能夠模擬出真實或虛構(gòu)的世界。這款模擬器通過去噪和梯度計算,學(xué)會了復(fù)雜的圖像渲染、「直觀」的物理行為、長遠(yuǎn)規(guī)劃能力以及語義層面的理解。
而這種模型能力的基礎(chǔ)正是世界通用模型,這是一種人工智能系統(tǒng),它的目標(biāo)是建立一個可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊,用以記憶和建模環(huán)境。
這種模型能夠根據(jù)當(dāng)前的觀測(如圖像、狀態(tài)等)和即將采取的動作,預(yù)測下一個可能的觀測。它通過學(xué)習(xí)世界的規(guī)律和常識,模擬環(huán)境中可能的未來事件。
實際上,世界模型并不是什么新鮮的概念,早在去年 12 月,AI 視頻生成的領(lǐng)頭羊 Runway 就官宣下場打造通用世界模型,目的是創(chuàng)建一種與現(xiàn)有的 LLM 不同,并且能夠更真實模擬現(xiàn)實世界的人工智能系統(tǒng)。
具體來說,世界模型的核心思想是通過記憶歷史經(jīng)驗來學(xué)習(xí)世界的運作方式,進而預(yù)測未來可能發(fā)生的事件。例如,從一段物體下落的錄像中,模型可以根據(jù)當(dāng)前的畫面預(yù)測下一幀的畫面,從而學(xué)習(xí)到物體運動的物理規(guī)律。
圖靈獎得主 Yann LeCun 也曾提出過類似的概念,并批評了基于概率生成自回歸的大模型,如 GPT,認(rèn)為這類模型無法破解幻覺難題。LeCun 和他的團隊甚至預(yù)言,GPT 這類模型在未來五年內(nèi)可能會被淘汰。
世界模型可以被看作是人工智能領(lǐng)域中,試圖創(chuàng)建更接近人類智能水平 AI 的一個研究方向。通過模擬和學(xué)習(xí)真實世界的環(huán)境和事件,世界模型有潛力推動 AI 向更高層次的模擬和預(yù)測能力發(fā)展。
2 月份的時候,知名風(fēng)險投資公司 a16z 的合伙人 Justine Moore 深入分析了 AI 視頻生成領(lǐng)域的現(xiàn)狀。在生成式 AI 逐漸步入大眾視野的兩年間,AI 視頻生成領(lǐng)域迎來了百花齊放,百家爭鳴的繁榮景象。
隨著 OpenAI Sora 的加入,AI 視頻生成領(lǐng)域?qū)⑾破鹛咸炀蘩?,現(xiàn)有的主流平臺如 Runway、Pika 和 Stable Video Diffusion 等都可能會受到波及。
同時,獨立創(chuàng)作者的游戲規(guī)則將會徹底改變,任何人只要有創(chuàng)意和想法,就可以使用 Sora 來生成自己的視頻內(nèi)容。創(chuàng)作門檻的降低,也意味著獨立創(chuàng)作者將會迎來黃金時代。
正如《三體》中所說,「主不在乎」,無論目前的競爭態(tài)勢如何,AI 視頻生成領(lǐng)域都可能會被新的技術(shù)和創(chuàng)新所顛覆。而 Sora 的入局僅僅只是個開始,遠(yuǎn)不是終點。
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!