激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 視頻片段

發(fā)布時(shí)間:2024-03-28 20:41:26 瀏覽量:219次

OpenAI 推出的人工智能功能曾經(jīng)只存在于科幻小說中。

2022年,Openai 發(fā)布了 ChatGPT,展示了先進(jìn)的語言模型如何實(shí)現(xiàn)自然對(duì)話。

隨后,DALL-E 問世,它利用文字提示生成令人驚嘆的合成圖像。

現(xiàn)在,他們又推出了 Text-to-Video 模型 Sora,將技術(shù)向前推進(jìn)了一步。這種全新的擴(kuò)散模式可直接通過文字描述創(chuàng)建逼真的視頻。

Sora 可以實(shí)現(xiàn)文生視頻,圖生視頻,圖+文生視頻,視頻修改,視頻補(bǔ)全等。

從Openai發(fā)布的技術(shù)報(bào)告來看,有以下幾點(diǎn)需要關(guān)注:

  1. Sora 架構(gòu)為擴(kuò)散模型 + transformer。
  2. 訓(xùn)練時(shí)先用預(yù)訓(xùn)練模型把各種類型(大小不一)的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示(patch),把提取的時(shí)空要素充當(dāng) transformer 的 token 進(jìn)行訓(xùn)練。

雖然 Sora 能根據(jù)文字提示制作出無比逼真的視頻。人工智能對(duì)人物情緒和表情的處理也非常出色。一個(gè)視頻中的不同鏡頭也能保持一致。但也存在一些弱點(diǎn)。

  1. 復(fù)雜場(chǎng)景的物理處理,例如餅干吃完后沒有咬痕,吹氣后蠟燭不會(huì)熄滅,玻璃掉落不會(huì)碎等。
  2. 左右方向混淆。
  3. 不能總是準(zhǔn)確地按照相機(jī)提示操作。

下面來看下技術(shù)報(bào)告(中文譯文):

視頻生成模型作為世界模擬器

我們探索了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模生成模型的訓(xùn)練。具體來說,我們聯(lián)合在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上訓(xùn)練了文本條件擴(kuò)散模型。我們利用了一個(gè)在視頻和圖像潛在編碼的時(shí)空塊上操作的 transformer 架構(gòu)。我們最大的模型 Sora 能夠生成一分鐘的高保真視頻。我們的結(jié)果表明,擴(kuò)展視頻生成模型是朝著構(gòu)建物理世界通用模擬器的有希望的路徑。

本技術(shù)報(bào)告關(guān)注以下兩個(gè)方面:(1) 我們將各 種類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示的方法,以實(shí)現(xiàn)大規(guī)模生成模型的訓(xùn)練,以及 (2) 對(duì) Sora 的能力和局限性進(jìn)行定性評(píng)估。模型和實(shí)現(xiàn)細(xì)節(jié)未包含在本報(bào)告中。 之前的研究已經(jīng)探討了使用各種方法對(duì)視頻數(shù)據(jù)進(jìn)行生成建模,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變壓器和擴(kuò)散模型。這些工作通常側(cè)重于某一類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。Sora 是一種視覺數(shù)據(jù)的通用模型——它能夠生成持續(xù)時(shí)間、寬高比和分辨率多樣化的視頻和圖像,最長可達(dá)一分鐘的高清視頻。

將視覺數(shù)據(jù)轉(zhuǎn)換成 patch

我們受到大型語言模型的啟發(fā),這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練而獲得了通用能力。LLM 范式的成功部分得益于優(yōu)雅地統(tǒng)一了文本的多種模態(tài)——代碼、數(shù)學(xué)和各種自然語言的標(biāo)記。在這項(xiàng)工作中,我們考慮了生成視覺數(shù)據(jù)模型如何繼承這些好處。而 LLMs具有文本標(biāo)記,Sora 具有視覺 patch。patch 已被證明是視覺數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn),patch 是一種高度可擴(kuò)展且有效的表示方法,適用于訓(xùn)練不同類型的視頻和圖像的生成模型。

在高層次上,我們首先將視頻壓縮成低維潛在空間,然后將表示分解成時(shí)空補(bǔ)丁,從而將視頻轉(zhuǎn)換為補(bǔ)丁。

視頻壓縮網(wǎng)絡(luò)

我們訓(xùn)練了一個(gè)降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間內(nèi)進(jìn)行訓(xùn)練,隨后也在其中生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛變量映射回像素空間。

時(shí)空潛在補(bǔ)丁

給定一個(gè)壓縮的輸入視頻,我們提取一系列時(shí)空補(bǔ)丁,這些補(bǔ)丁充當(dāng) transformer 的token。這個(gè)方案也適用于圖像,因?yàn)閳D像只是單幀的視頻。我們基于補(bǔ)丁的表示使得 Sora 能夠在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推理時(shí),我們可以通過在大小適當(dāng)?shù)木W(wǎng)格中排列隨機(jī)初始化的補(bǔ)丁來控制生成視頻的大小。

將 transformer 擴(kuò)展到視頻生成

Sora 是一個(gè)擴(kuò)散模型;給定輸入的初始噪聲(以及文本提示等條件信息),它被訓(xùn)練為預(yù)測(cè)原始的“干凈”補(bǔ)丁。重要的是,Sora 是一個(gè)擴(kuò)散 transformer。transformer 在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能,包括語言建模、計(jì)算機(jī)視覺以及圖像生成。

在這項(xiàng)工作中,我們發(fā)現(xiàn)擴(kuò)散變壓器在視頻模型中也能有效地?cái)U(kuò)展。在下面,下面,我們展示了在訓(xùn)練過程中,使用固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算量的增加,樣本質(zhì)量顯著提高。

可變持續(xù)時(shí)間、分辨率、寬高比

過去的圖像和視頻生成方法通常將視頻調(diào)整為標(biāo)準(zhǔn)大小,例如,4秒鐘的視頻,分辨率為256x256。我們發(fā)現(xiàn),與其這樣處理,訓(xùn)練原始大小的數(shù)據(jù)提供了幾個(gè)好處。

采樣靈活性

Sora 可以采樣寬屏 1920x1080p 視頻、豎屏 1080x1920 視頻以及介于兩者之間的所有內(nèi)容。這使得 Sora 可以直接以原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在生成全分辨率之前,快速原型化低分辨率的內(nèi)容——而且只需使用同一個(gè)模型。

改進(jìn)的構(gòu)圖和組合

我們通過實(shí)驗(yàn)發(fā)現(xiàn),在其原始寬高比的視頻上進(jìn)行訓(xùn)練可以提高構(gòu)圖和畫面設(shè)計(jì)的質(zhì)量。我們將 Sora 與我們的模型的一個(gè)版本進(jìn)行了比較,這個(gè)版本模型將所有訓(xùn)練視頻裁剪為正方形,這在訓(xùn)練生成模型時(shí)是常見做法。在正方形裁剪上訓(xùn)練的模型(左側(cè))有時(shí)會(huì)生成主體僅部分可見的視頻。相比之下,來自 Sora 的視頻(右側(cè))有了改進(jìn)的畫面設(shè)計(jì)。

語言理解

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。我們將在 DALL·E 3 中引入的重新標(biāo)題技術(shù)應(yīng)用到視頻上。我們首先訓(xùn)練一個(gè)高度描述性的標(biāo)題生成模型,然后使用它為我們訓(xùn)練集中的所有視頻產(chǎn)生文本標(biāo)題。我們發(fā)現(xiàn),在高度描述性的視頻標(biāo)題上進(jìn)行訓(xùn)練可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。與 DALL·E 3 類似,我們還利用 GPT 將簡(jiǎn)短的用戶提示轉(zhuǎn)化為更長的詳細(xì)標(biāo)題,然后發(fā)送給視頻模型。這使得 Sora 能夠生成高質(zhì)量的視頻,這些視頻能夠準(zhǔn)確地遵循用戶的提示。

使用圖像和視頻作為 Prompt

我們?cè)谏鲜鏊薪Y(jié)果和我們的登陸頁面上展示的都是文本到視頻的樣本。但是 Sora 也可以使用其他輸入來提示,例如預(yù)先存在的圖像或視頻。這種能力使得 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù)——?jiǎng)?chuàng)建完美循環(huán)的視頻,給靜態(tài)圖像添加動(dòng)畫,將視頻向前或向后延伸等等。

把 DALL·E 圖像變成動(dòng)畫

Sora 能夠生成基于 DALL·E 2 和 DALL·E 3 圖像的視頻,只需提供圖像和提示作為輸入。下面我們展示了基于這些圖像生成的示例視頻。

延長生成的視頻

Sora 還能夠延長視頻,無論是向前還是向后延長。下面是四個(gè)視頻,它們都是從一個(gè)生成的視頻片段開始向時(shí)間的后方延長。因此,這四個(gè)視頻的開頭各不相同,但最終都會(huì)導(dǎo)向相同的結(jié)尾。

我們也可以用這個(gè)方法擴(kuò)展一個(gè)視頻的頭和尾讓它首尾相連成一個(gè)無限循環(huán)的視頻。

視頻到視頻編輯

擴(kuò)散模型已經(jīng)為從文本提示編輯圖像和視頻提供了大量方法。下面我們將其中一種方法 SDEdit,應(yīng)用到 Sora 上。這種技術(shù)使得 Sora 能夠在零樣本情況下轉(zhuǎn)換輸入視頻的風(fēng)格和環(huán)境。

連接視頻

我們還可以使用 Sora 逐漸插值兩個(gè)輸入視頻之間,從而在完全不同的主題和場(chǎng)景構(gòu)圖的視頻之間創(chuàng)建無縫的過渡。在下面的示例中,中間的視頻在左側(cè)和右側(cè)對(duì)應(yīng)視頻之間進(jìn)行插值。

圖像生成能力

Sora 也能夠生成圖像。我們通過將高斯噪聲的補(bǔ)丁以一個(gè)幀的時(shí)間范圍排列成空間網(wǎng)格來實(shí)現(xiàn)這一點(diǎn)。該模型可以生成不同尺寸的圖像,分辨 率高達(dá) 2048x2048。

涌現(xiàn)出模擬的能力

我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練時(shí),視頻模型表現(xiàn)出許多有趣的新興能力。這些能力使得 Sora 能夠模擬來自物理世界的一些人、動(dòng)物和環(huán)境的方面。這些屬性是在沒有任何明確的歸納偏見的情況下出現(xiàn)的,比如對(duì) 3D、物體等——它們純粹是規(guī)模現(xiàn)象。

3D 一致性。Sora 可以生成具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持一致的移動(dòng)。

長程連貫性和物體持久性

對(duì)于視頻生成系統(tǒng)來說,一個(gè)重要挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間一致性。我們發(fā)現(xiàn),Sora 通常能夠有效地模擬短期和長期依賴關(guān)系,盡管并非總是如此。例如,我們的模型可以在人、動(dòng)物和物體被遮擋或離開畫面時(shí)仍然保持其持久性。同樣地,它可以在一個(gè)樣本中生成同一個(gè)角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。

與世界進(jìn)行交互。有時(shí) Sora 可以模擬一些簡(jiǎn)單方式影響世界狀態(tài)的動(dòng)作。例如,一個(gè)畫家可以在畫布上留下持續(xù)一段時(shí)間的新筆觸,或者一個(gè)人可以吃掉一個(gè)漢堡并留下咬痕。

模擬數(shù)字世界

Sora 還能模擬人工過程—一個(gè)例子是視頻游戲。Sora 可以同時(shí)使用基本策略控制 Minecraft中的玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。這些能力可以通過提示 Sora 提到“Minecraft”的標(biāo)題來零樣本激發(fā)。

這些能力表明,持續(xù)擴(kuò)展視頻模型是發(fā)展高能力的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動(dòng)物和人的有前景的途徑。

討論

目前,Sora 作為模擬器表現(xiàn)出了許多限制。例如,它并不能準(zhǔn)確地模擬許多基本交互的物理特性,比如玻璃破碎。其他交互,比如吃食物,并不總是產(chǎn)生正確的物體狀態(tài)變化。我們?cè)谖覀兊牡顷戫撁嫔狭信e了模型的其他常見失敗模式——例如,在長時(shí)間樣本中發(fā)展的不一致性或?qū)ο蟮耐蝗怀霈F(xiàn)。

我們相信,Sora 目前的能力證明了持續(xù)擴(kuò)展視頻模型是發(fā)展能力強(qiáng)大的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動(dòng)物和人的有前景的途徑。

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定