當(dāng)前位置：首頁 >人工智能 >Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 視頻片段

Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 視頻片段

發(fā)布時(shí)間：2024-03-28 20:41:26 瀏覽量：219次

OpenAI 推出的人工智能功能曾經(jīng)只存在于科幻小說中。

2022年，Openai 發(fā)布了 ChatGPT，展示了先進(jìn)的語言模型如何實(shí)現(xiàn)自然對(duì)話。

隨后，DALL-E 問世，它利用文字提示生成令人驚嘆的合成圖像。

現(xiàn)在，他們又推出了 Text-to-Video 模型 Sora，將技術(shù)向前推進(jìn)了一步。這種全新的擴(kuò)散模式可直接通過文字描述創(chuàng)建逼真的視頻。

Sora 可以實(shí)現(xiàn)文生視頻，圖生視頻，圖+文生視頻，視頻修改，視頻補(bǔ)全等。

從Openai發(fā)布的技術(shù)報(bào)告來看，有以下幾點(diǎn)需要關(guān)注：

Sora 架構(gòu)為擴(kuò)散模型 + transformer。
訓(xùn)練時(shí)先用預(yù)訓(xùn)練模型把各種類型（大小不一）的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示（patch），把提取的時(shí)空要素充當(dāng) transformer 的 token 進(jìn)行訓(xùn)練。

雖然 Sora 能根據(jù)文字提示制作出無比逼真的視頻。人工智能對(duì)人物情緒和表情的處理也非常出色。一個(gè)視頻中的不同鏡頭也能保持一致。但也存在一些弱點(diǎn)。

復(fù)雜場(chǎng)景的物理處理，例如餅干吃完后沒有咬痕，吹氣后蠟燭不會(huì)熄滅，玻璃掉落不會(huì)碎等。
左右方向混淆。
不能總是準(zhǔn)確地按照相機(jī)提示操作。

下面來看下技術(shù)報(bào)告（中文譯文）：

視頻生成模型作為世界模擬器

我們探索了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模生成模型的訓(xùn)練。具體來說，我們聯(lián)合在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上訓(xùn)練了文本條件擴(kuò)散模型。我們利用了一個(gè)在視頻和圖像潛在編碼的時(shí)空塊上操作的 transformer 架構(gòu)。我們最大的模型 Sora 能夠生成一分鐘的高保真視頻。我們的結(jié)果表明，擴(kuò)展視頻生成模型是朝著構(gòu)建物理世界通用模擬器的有希望的路徑。

本技術(shù)報(bào)告關(guān)注以下兩個(gè)方面：(1) 我們將各種類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示的方法，以實(shí)現(xiàn)大規(guī)模生成模型的訓(xùn)練，以及 (2) 對(duì) Sora 的能力和局限性進(jìn)行定性評(píng)估。模型和實(shí)現(xiàn)細(xì)節(jié)未包含在本報(bào)告中。之前的研究已經(jīng)探討了使用各種方法對(duì)視頻數(shù)據(jù)進(jìn)行生成建模，包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變壓器和擴(kuò)散模型。這些工作通常側(cè)重于某一類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。Sora 是一種視覺數(shù)據(jù)的通用模型——它能夠生成持續(xù)時(shí)間、寬高比和分辨率多樣化的視頻和圖像，最長可達(dá)一分鐘的高清視頻。

將視覺數(shù)據(jù)轉(zhuǎn)換成 patch

我們受到大型語言模型的啟發(fā)，這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練而獲得了通用能力。LLM 范式的成功部分得益于優(yōu)雅地統(tǒng)一了文本的多種模態(tài)——代碼、數(shù)學(xué)和各種自然語言的標(biāo)記。在這項(xiàng)工作中，我們考慮了生成視覺數(shù)據(jù)模型如何繼承這些好處。而 LLMs具有文本標(biāo)記，Sora 具有視覺 patch。patch 已被證明是視覺數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn)，patch 是一種高度可擴(kuò)展且有效的表示方法，適用于訓(xùn)練不同類型的視頻和圖像的生成模型。

在高層次上，我們首先將視頻壓縮成低維潛在空間，然后將表示分解成時(shí)空補(bǔ)丁，從而將視頻轉(zhuǎn)換為補(bǔ)丁。

視頻壓縮網(wǎng)絡(luò)

我們訓(xùn)練了一個(gè)降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入，輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間內(nèi)進(jìn)行訓(xùn)練，隨后也在其中生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型，將生成的潛變量映射回像素空間。

時(shí)空潛在補(bǔ)丁

給定一個(gè)壓縮的輸入視頻，我們提取一系列時(shí)空補(bǔ)丁，這些補(bǔ)丁充當(dāng) transformer 的token。這個(gè)方案也適用于圖像，因?yàn)閳D像只是單幀的視頻。我們基于補(bǔ)丁的表示使得 Sora 能夠在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推理時(shí)，我們可以通過在大小適當(dāng)?shù)木W(wǎng)格中排列隨機(jī)初始化的補(bǔ)丁來控制生成視頻的大小。

將 transformer 擴(kuò)展到視頻生成

Sora 是一個(gè)擴(kuò)散模型；給定輸入的初始噪聲（以及文本提示等條件信息），它被訓(xùn)練為預(yù)測(cè)原始的“干凈”補(bǔ)丁。重要的是，Sora 是一個(gè)擴(kuò)散 transformer。transformer 在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能，包括語言建模、計(jì)算機(jī)視覺以及圖像生成。

在這項(xiàng)工作中，我們發(fā)現(xiàn)擴(kuò)散變壓器在視頻模型中也能有效地?cái)U(kuò)展。在下面，下面，我們展示了在訓(xùn)練過程中，使用固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算量的增加，樣本質(zhì)量顯著提高。

可變持續(xù)時(shí)間、分辨率、寬高比

過去的圖像和視頻生成方法通常將視頻調(diào)整為標(biāo)準(zhǔn)大小，例如，4秒鐘的視頻，分辨率為256x256。我們發(fā)現(xiàn)，與其這樣處理，訓(xùn)練原始大小的數(shù)據(jù)提供了幾個(gè)好處。

采樣靈活性

Sora 可以采樣寬屏 1920x1080p 視頻、豎屏 1080x1920 視頻以及介于兩者之間的所有內(nèi)容。這使得 Sora 可以直接以原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在生成全分辨率之前，快速原型化低分辨率的內(nèi)容——而且只需使用同一個(gè)模型。

改進(jìn)的構(gòu)圖和組合

我們通過實(shí)驗(yàn)發(fā)現(xiàn)，在其原始寬高比的視頻上進(jìn)行訓(xùn)練可以提高構(gòu)圖和畫面設(shè)計(jì)的質(zhì)量。我們將 Sora 與我們的模型的一個(gè)版本進(jìn)行了比較，這個(gè)版本模型將所有訓(xùn)練視頻裁剪為正方形，這在訓(xùn)練生成模型時(shí)是常見做法。在正方形裁剪上訓(xùn)練的模型（左側(cè)）有時(shí)會(huì)生成主體僅部分可見的視頻。相比之下，來自 Sora 的視頻（右側(cè)）有了改進(jìn)的畫面設(shè)計(jì)。

語言理解

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。我們將在 DALL·E 3 中引入的重新標(biāo)題技術(shù)應(yīng)用到視頻上。我們首先訓(xùn)練一個(gè)高度描述性的標(biāo)題生成模型，然后使用它為我們訓(xùn)練集中的所有視頻產(chǎn)生文本標(biāo)題。我們發(fā)現(xiàn)，在高度描述性的視頻標(biāo)題上進(jìn)行訓(xùn)練可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。與 DALL·E 3 類似，我們還利用 GPT 將簡(jiǎn)短的用戶提示轉(zhuǎn)化為更長的詳細(xì)標(biāo)題，然后發(fā)送給視頻模型。這使得 Sora 能夠生成高質(zhì)量的視頻，這些視頻能夠準(zhǔn)確地遵循用戶的提示。

使用圖像和視頻作為 Prompt

我們?cè)谏鲜鏊薪Y(jié)果和我們的登陸頁面上展示的都是文本到視頻的樣本。但是 Sora 也可以使用其他輸入來提示，例如預(yù)先存在的圖像或視頻。這種能力使得 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù)——?jiǎng)?chuàng)建完美循環(huán)的視頻，給靜態(tài)圖像添加動(dòng)畫，將視頻向前或向后延伸等等。

把 DALL·E 圖像變成動(dòng)畫

Sora 能夠生成基于 DALL·E 2 和 DALL·E 3 圖像的視頻，只需提供圖像和提示作為輸入。下面我們展示了基于這些圖像生成的示例視頻。

延長生成的視頻

Sora 還能夠延長視頻，無論是向前還是向后延長。下面是四個(gè)視頻，它們都是從一個(gè)生成的視頻片段開始向時(shí)間的后方延長。因此，這四個(gè)視頻的開頭各不相同，但最終都會(huì)導(dǎo)向相同的結(jié)尾。

我們也可以用這個(gè)方法擴(kuò)展一個(gè)視頻的頭和尾讓它首尾相連成一個(gè)無限循環(huán)的視頻。

視頻到視頻編輯

擴(kuò)散模型已經(jīng)為從文本提示編輯圖像和視頻提供了大量方法。下面我們將其中一種方法 SDEdit，應(yīng)用到 Sora 上。這種技術(shù)使得 Sora 能夠在零樣本情況下轉(zhuǎn)換輸入視頻的風(fēng)格和環(huán)境。

連接視頻

我們還可以使用 Sora 逐漸插值兩個(gè)輸入視頻之間，從而在完全不同的主題和場(chǎng)景構(gòu)圖的視頻之間創(chuàng)建無縫的過渡。在下面的示例中，中間的視頻在左側(cè)和右側(cè)對(duì)應(yīng)視頻之間進(jìn)行插值。

圖像生成能力

Sora 也能夠生成圖像。我們通過將高斯噪聲的補(bǔ)丁以一個(gè)幀的時(shí)間范圍排列成空間網(wǎng)格來實(shí)現(xiàn)這一點(diǎn)。該模型可以生成不同尺寸的圖像，分辨率高達(dá) 2048x2048。

涌現(xiàn)出模擬的能力

我們發(fā)現(xiàn)，在大規(guī)模訓(xùn)練時(shí)，視頻模型表現(xiàn)出許多有趣的新興能力。這些能力使得 Sora 能夠模擬來自物理世界的一些人、動(dòng)物和環(huán)境的方面。這些屬性是在沒有任何明確的歸納偏見的情況下出現(xiàn)的，比如對(duì) 3D、物體等——它們純粹是規(guī)模現(xiàn)象。

3D 一致性。Sora 可以生成具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中保持一致的移動(dòng)。

長程連貫性和物體持久性

對(duì)于視頻生成系統(tǒng)來說，一個(gè)重要挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間一致性。我們發(fā)現(xiàn)，Sora 通常能夠有效地模擬短期和長期依賴關(guān)系，盡管并非總是如此。例如，我們的模型可以在人、動(dòng)物和物體被遮擋或離開畫面時(shí)仍然保持其持久性。同樣地，它可以在一個(gè)樣本中生成同一個(gè)角色的多個(gè)鏡頭，并在整個(gè)視頻中保持其外觀。

與世界進(jìn)行交互。有時(shí) Sora 可以模擬一些簡(jiǎn)單方式影響世界狀態(tài)的動(dòng)作。例如，一個(gè)畫家可以在畫布上留下持續(xù)一段時(shí)間的新筆觸，或者一個(gè)人可以吃掉一個(gè)漢堡并留下咬痕。

模擬數(shù)字世界

Sora 還能模擬人工過程—一個(gè)例子是視頻游戲。Sora 可以同時(shí)使用基本策略控制 Minecraft中的玩家，同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。這些能力可以通過提示 Sora 提到“Minecraft”的標(biāo)題來零樣本激發(fā)。

這些能力表明，持續(xù)擴(kuò)展視頻模型是發(fā)展高能力的物理世界和數(shù)字世界模擬器，以及模擬其中的物體、動(dòng)物和人的有前景的途徑。

討論

目前，Sora 作為模擬器表現(xiàn)出了許多限制。例如，它并不能準(zhǔn)確地模擬許多基本交互的物理特性，比如玻璃破碎。其他交互，比如吃食物，并不總是產(chǎn)生正確的物體狀態(tài)變化。我們?cè)谖覀兊牡顷戫撁嫔狭信e了模型的其他常見失敗模式——例如，在長時(shí)間樣本中發(fā)展的不一致性或?qū)ο蟮耐蝗怀霈F(xiàn)。

我們相信，Sora 目前的能力證明了持續(xù)擴(kuò)展視頻模型是發(fā)展能力強(qiáng)大的物理世界和數(shù)字世界模擬器，以及模擬其中的物體、動(dòng)物和人的有前景的途徑。

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 Sora:深入谷歌videopoet理解全模態(tài)視頻生成

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡(jiǎn)單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡(jiǎn)單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 視頻片段

請(qǐng)綁定手機(jī)號(hào)