發(fā)布時(shí)間:2024-03-28 20:41:26 瀏覽量:219次
OpenAI 推出的人工智能功能曾經(jīng)只存在于科幻小說中。
2022年,Openai 發(fā)布了 ChatGPT,展示了先進(jìn)的語言模型如何實(shí)現(xiàn)自然對(duì)話。
隨后,DALL-E 問世,它利用文字提示生成令人驚嘆的合成圖像。
現(xiàn)在,他們又推出了 Text-to-Video 模型 Sora,將技術(shù)向前推進(jìn)了一步。這種全新的擴(kuò)散模式可直接通過文字描述創(chuàng)建逼真的視頻。
Sora 可以實(shí)現(xiàn)文生視頻,圖生視頻,圖+文生視頻,視頻修改,視頻補(bǔ)全等。
從Openai發(fā)布的技術(shù)報(bào)告來看,有以下幾點(diǎn)需要關(guān)注:
雖然 Sora 能根據(jù)文字提示制作出無比逼真的視頻。人工智能對(duì)人物情緒和表情的處理也非常出色。一個(gè)視頻中的不同鏡頭也能保持一致。但也存在一些弱點(diǎn)。
下面來看下技術(shù)報(bào)告(中文譯文):
視頻生成模型作為世界模擬器
我們探索了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模生成模型的訓(xùn)練。具體來說,我們聯(lián)合在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上訓(xùn)練了文本條件擴(kuò)散模型。我們利用了一個(gè)在視頻和圖像潛在編碼的時(shí)空塊上操作的 transformer 架構(gòu)。我們最大的模型 Sora 能夠生成一分鐘的高保真視頻。我們的結(jié)果表明,擴(kuò)展視頻生成模型是朝著構(gòu)建物理世界通用模擬器的有希望的路徑。
本技術(shù)報(bào)告關(guān)注以下兩個(gè)方面:(1) 我們將各 種類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示的方法,以實(shí)現(xiàn)大規(guī)模生成模型的訓(xùn)練,以及 (2) 對(duì) Sora 的能力和局限性進(jìn)行定性評(píng)估。模型和實(shí)現(xiàn)細(xì)節(jié)未包含在本報(bào)告中。 之前的研究已經(jīng)探討了使用各種方法對(duì)視頻數(shù)據(jù)進(jìn)行生成建模,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變壓器和擴(kuò)散模型。這些工作通常側(cè)重于某一類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。Sora 是一種視覺數(shù)據(jù)的通用模型——它能夠生成持續(xù)時(shí)間、寬高比和分辨率多樣化的視頻和圖像,最長可達(dá)一分鐘的高清視頻。
將視覺數(shù)據(jù)轉(zhuǎn)換成 patch
我們受到大型語言模型的啟發(fā),這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練而獲得了通用能力。LLM 范式的成功部分得益于優(yōu)雅地統(tǒng)一了文本的多種模態(tài)——代碼、數(shù)學(xué)和各種自然語言的標(biāo)記。在這項(xiàng)工作中,我們考慮了生成視覺數(shù)據(jù)模型如何繼承這些好處。而 LLMs具有文本標(biāo)記,Sora 具有視覺 patch。patch 已被證明是視覺數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn),patch 是一種高度可擴(kuò)展且有效的表示方法,適用于訓(xùn)練不同類型的視頻和圖像的生成模型。
在高層次上,我們首先將視頻壓縮成低維潛在空間,然后將表示分解成時(shí)空補(bǔ)丁,從而將視頻轉(zhuǎn)換為補(bǔ)丁。
視頻壓縮網(wǎng)絡(luò)
我們訓(xùn)練了一個(gè)降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間內(nèi)進(jìn)行訓(xùn)練,隨后也在其中生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛變量映射回像素空間。
時(shí)空潛在補(bǔ)丁
給定一個(gè)壓縮的輸入視頻,我們提取一系列時(shí)空補(bǔ)丁,這些補(bǔ)丁充當(dāng) transformer 的token。這個(gè)方案也適用于圖像,因?yàn)閳D像只是單幀的視頻。我們基于補(bǔ)丁的表示使得 Sora 能夠在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推理時(shí),我們可以通過在大小適當(dāng)?shù)木W(wǎng)格中排列隨機(jī)初始化的補(bǔ)丁來控制生成視頻的大小。
將 transformer 擴(kuò)展到視頻生成
Sora 是一個(gè)擴(kuò)散模型;給定輸入的初始噪聲(以及文本提示等條件信息),它被訓(xùn)練為預(yù)測(cè)原始的“干凈”補(bǔ)丁。重要的是,Sora 是一個(gè)擴(kuò)散 transformer。transformer 在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能,包括語言建模、計(jì)算機(jī)視覺以及圖像生成。
在這項(xiàng)工作中,我們發(fā)現(xiàn)擴(kuò)散變壓器在視頻模型中也能有效地?cái)U(kuò)展。在下面,下面,我們展示了在訓(xùn)練過程中,使用固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算量的增加,樣本質(zhì)量顯著提高。
可變持續(xù)時(shí)間、分辨率、寬高比
過去的圖像和視頻生成方法通常將視頻調(diào)整為標(biāo)準(zhǔn)大小,例如,4秒鐘的視頻,分辨率為256x256。我們發(fā)現(xiàn),與其這樣處理,訓(xùn)練原始大小的數(shù)據(jù)提供了幾個(gè)好處。
采樣靈活性
Sora 可以采樣寬屏 1920x1080p 視頻、豎屏 1080x1920 視頻以及介于兩者之間的所有內(nèi)容。這使得 Sora 可以直接以原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在生成全分辨率之前,快速原型化低分辨率的內(nèi)容——而且只需使用同一個(gè)模型。
改進(jìn)的構(gòu)圖和組合
我們通過實(shí)驗(yàn)發(fā)現(xiàn),在其原始寬高比的視頻上進(jìn)行訓(xùn)練可以提高構(gòu)圖和畫面設(shè)計(jì)的質(zhì)量。我們將 Sora 與我們的模型的一個(gè)版本進(jìn)行了比較,這個(gè)版本模型將所有訓(xùn)練視頻裁剪為正方形,這在訓(xùn)練生成模型時(shí)是常見做法。在正方形裁剪上訓(xùn)練的模型(左側(cè))有時(shí)會(huì)生成主體僅部分可見的視頻。相比之下,來自 Sora 的視頻(右側(cè))有了改進(jìn)的畫面設(shè)計(jì)。
語言理解
訓(xùn)練文本到視頻的生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。我們將在 DALL·E 3 中引入的重新標(biāo)題技術(shù)應(yīng)用到視頻上。我們首先訓(xùn)練一個(gè)高度描述性的標(biāo)題生成模型,然后使用它為我們訓(xùn)練集中的所有視頻產(chǎn)生文本標(biāo)題。我們發(fā)現(xiàn),在高度描述性的視頻標(biāo)題上進(jìn)行訓(xùn)練可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。與 DALL·E 3 類似,我們還利用 GPT 將簡(jiǎn)短的用戶提示轉(zhuǎn)化為更長的詳細(xì)標(biāo)題,然后發(fā)送給視頻模型。這使得 Sora 能夠生成高質(zhì)量的視頻,這些視頻能夠準(zhǔn)確地遵循用戶的提示。
使用圖像和視頻作為 Prompt
我們?cè)谏鲜鏊薪Y(jié)果和我們的登陸頁面上展示的都是文本到視頻的樣本。但是 Sora 也可以使用其他輸入來提示,例如預(yù)先存在的圖像或視頻。這種能力使得 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù)——?jiǎng)?chuàng)建完美循環(huán)的視頻,給靜態(tài)圖像添加動(dòng)畫,將視頻向前或向后延伸等等。
把 DALL·E 圖像變成動(dòng)畫
Sora 能夠生成基于 DALL·E 2 和 DALL·E 3 圖像的視頻,只需提供圖像和提示作為輸入。下面我們展示了基于這些圖像生成的示例視頻。
延長生成的視頻
Sora 還能夠延長視頻,無論是向前還是向后延長。下面是四個(gè)視頻,它們都是從一個(gè)生成的視頻片段開始向時(shí)間的后方延長。因此,這四個(gè)視頻的開頭各不相同,但最終都會(huì)導(dǎo)向相同的結(jié)尾。
我們也可以用這個(gè)方法擴(kuò)展一個(gè)視頻的頭和尾讓它首尾相連成一個(gè)無限循環(huán)的視頻。
視頻到視頻編輯
擴(kuò)散模型已經(jīng)為從文本提示編輯圖像和視頻提供了大量方法。下面我們將其中一種方法 SDEdit,應(yīng)用到 Sora 上。這種技術(shù)使得 Sora 能夠在零樣本情況下轉(zhuǎn)換輸入視頻的風(fēng)格和環(huán)境。
連接視頻
我們還可以使用 Sora 逐漸插值兩個(gè)輸入視頻之間,從而在完全不同的主題和場(chǎng)景構(gòu)圖的視頻之間創(chuàng)建無縫的過渡。在下面的示例中,中間的視頻在左側(cè)和右側(cè)對(duì)應(yīng)視頻之間進(jìn)行插值。
圖像生成能力
Sora 也能夠生成圖像。我們通過將高斯噪聲的補(bǔ)丁以一個(gè)幀的時(shí)間范圍排列成空間網(wǎng)格來實(shí)現(xiàn)這一點(diǎn)。該模型可以生成不同尺寸的圖像,分辨 率高達(dá) 2048x2048。
涌現(xiàn)出模擬的能力
我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練時(shí),視頻模型表現(xiàn)出許多有趣的新興能力。這些能力使得 Sora 能夠模擬來自物理世界的一些人、動(dòng)物和環(huán)境的方面。這些屬性是在沒有任何明確的歸納偏見的情況下出現(xiàn)的,比如對(duì) 3D、物體等——它們純粹是規(guī)模現(xiàn)象。
3D 一致性。Sora 可以生成具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持一致的移動(dòng)。
長程連貫性和物體持久性
對(duì)于視頻生成系統(tǒng)來說,一個(gè)重要挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間一致性。我們發(fā)現(xiàn),Sora 通常能夠有效地模擬短期和長期依賴關(guān)系,盡管并非總是如此。例如,我們的模型可以在人、動(dòng)物和物體被遮擋或離開畫面時(shí)仍然保持其持久性。同樣地,它可以在一個(gè)樣本中生成同一個(gè)角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。
與世界進(jìn)行交互。有時(shí) Sora 可以模擬一些簡(jiǎn)單方式影響世界狀態(tài)的動(dòng)作。例如,一個(gè)畫家可以在畫布上留下持續(xù)一段時(shí)間的新筆觸,或者一個(gè)人可以吃掉一個(gè)漢堡并留下咬痕。
模擬數(shù)字世界
Sora 還能模擬人工過程—一個(gè)例子是視頻游戲。Sora 可以同時(shí)使用基本策略控制 Minecraft中的玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。這些能力可以通過提示 Sora 提到“Minecraft”的標(biāo)題來零樣本激發(fā)。
這些能力表明,持續(xù)擴(kuò)展視頻模型是發(fā)展高能力的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動(dòng)物和人的有前景的途徑。
討論
目前,Sora 作為模擬器表現(xiàn)出了許多限制。例如,它并不能準(zhǔn)確地模擬許多基本交互的物理特性,比如玻璃破碎。其他交互,比如吃食物,并不總是產(chǎn)生正確的物體狀態(tài)變化。我們?cè)谖覀兊牡顷戫撁嫔狭信e了模型的其他常見失敗模式——例如,在長時(shí)間樣本中發(fā)展的不一致性或?qū)ο蟮耐蝗怀霈F(xiàn)。
我們相信,Sora 目前的能力證明了持續(xù)擴(kuò)展視頻模型是發(fā)展能力強(qiáng)大的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動(dòng)物和人的有前景的途徑。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!