當(dāng)前位置：首頁 >人工智能 >Open-Sora - 開源的類Sora架構(gòu)的視頻生成模型和復(fù)現(xiàn)方案

Open-Sora - 開源的類Sora架構(gòu)的視頻生成模型和復(fù)現(xiàn)方案

發(fā)布時(shí)間：2024-03-28 20:59:49 瀏覽量：264次

Open-Sora是什么

Open-Sora是由Colossal-AI團(tuán)隊(duì)開源的視頻生成模型，旨在復(fù)現(xiàn)OpenAI的Sora視頻生成產(chǎn)品。Open-Sora同樣基于DiT架構(gòu)，通過三個(gè)階段訓(xùn)練：大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練和高質(zhì)量視頻數(shù)據(jù)微調(diào)，以生成與文本描述相符的視頻內(nèi)容。該開源解決方案涵蓋了整個(gè)視頻生成模型的訓(xùn)練過程，包括數(shù)據(jù)處理、所有訓(xùn)練細(xì)節(jié)和模型檢查點(diǎn)，供所有對(duì)文生視頻模型感興趣的人免費(fèi)學(xué)習(xí)和使用。

Open-Sora的官網(wǎng)入口

官方項(xiàng)目主頁：https://hpcaitech.github.io/Open-Sora/
GitHub代碼庫：https://github.com/hpcaitech/Open-Sora

Open-Sora的模型架構(gòu)

Open-Sora模型采用當(dāng)前流行的Diffusion Transformer（DiT）架構(gòu)，使用華為開源的PixArt-α高質(zhì)量文本到圖像生成模型，并通過添加時(shí)間注意力層將其擴(kuò)展為生成視頻。具體設(shè)計(jì)如下：

核心組件

預(yù)訓(xùn)練的VAE (變分自編碼器)：VAE是用于數(shù)據(jù)壓縮的組件，它將輸入的視頻數(shù)據(jù)映射到一個(gè)潛在空間的低維表示。在Open-Sora中，VAE的編碼器部分在訓(xùn)練階段用于壓縮視頻數(shù)據(jù)，而在推理階段，它從潛在空間中采樣高斯噪聲并生成視頻。
文本編碼器：這個(gè)組件負(fù)責(zé)將文本提示（如描述視頻內(nèi)容的句子）轉(zhuǎn)換為文本嵌入，這些嵌入隨后與視頻數(shù)據(jù)結(jié)合，以確保生成的視頻符合文本描述。
STDiT (Spatial Temporal Diffusion Transformer)：這是Open-Sora的核心組件，一個(gè)利用空間-時(shí)間注意力機(jī)制的DiT模型。STDiT通過串行地在二維空間注意力模塊上疊加一維時(shí)間注意力模塊來建模視頻數(shù)據(jù)中的時(shí)序關(guān)系。此外，交叉注意力模塊用于對(duì)齊文本的語義信息。

架構(gòu)設(shè)計(jì)

空間-時(shí)間注意力機(jī)制：STDiT模型的每一層都包含空間注意力模塊和時(shí)間注意力模塊?？臻g注意力模塊處理視頻幀的二維空間特征，而時(shí)間注意力模塊則處理幀之間的時(shí)序關(guān)系。這種設(shè)計(jì)使得模型能夠有效地處理視頻數(shù)據(jù)中的空間和時(shí)間維度。
交叉注意力：在時(shí)間注意力模塊之后，交叉注意力模塊用于將文本嵌入與視頻特征融合，確保生成的視頻內(nèi)容與文本描述相匹配。
訓(xùn)練與推理流程：在訓(xùn)練階段，VAE的編碼器將視頻數(shù)據(jù)壓縮，然后與文本嵌入一起用于訓(xùn)練STDiT模型。在推理階段，從VAE的潛在空間中采樣出噪聲，與文本提示一起輸入到STDiT模型中，生成去噪后的特征，最后通過VAE的解碼器解碼得到最終的視頻。

Open-Sora的復(fù)現(xiàn)方案

Open-Sora的訓(xùn)練復(fù)現(xiàn)方案參考了Stable Video Diffusion (SVD)的工作，分為三個(gè)階段：大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練和高質(zhì)量視頻數(shù)據(jù)微調(diào)。通過這三個(gè)階段的訓(xùn)練復(fù)現(xiàn)方案，Open-Sora模型能夠逐步提升其視頻生成的能力，從基礎(chǔ)的圖像理解到復(fù)雜的視頻內(nèi)容生成，最終達(dá)到高質(zhì)量的視頻生成效果。

第一階段：大規(guī)模圖像預(yù)訓(xùn)練

在第一階段，模型通過大規(guī)模圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，以建立對(duì)圖像內(nèi)容的基本理解。這個(gè)階段的目的是利用現(xiàn)有的高質(zhì)量圖像生成模型（如Stable Diffusion）作為基礎(chǔ)，來初始化視頻生成模型的權(quán)重。通過這種方式，模型能夠從圖像數(shù)據(jù)中學(xué)習(xí)到豐富的視覺特征，為后續(xù)的視頻預(yù)訓(xùn)練打下堅(jiān)實(shí)的基礎(chǔ)。

第二階段：大規(guī)模視頻預(yù)訓(xùn)練

第二階段專注于大規(guī)模視頻數(shù)據(jù)的預(yù)訓(xùn)練，目的是增強(qiáng)模型對(duì)視頻時(shí)間序列的理解。在這個(gè)階段，模型通過大量的視頻數(shù)據(jù)進(jìn)行訓(xùn)練，以學(xué)習(xí)視頻中的時(shí)序關(guān)系和動(dòng)態(tài)變化。為了提高模型的泛化能力，需要確保視頻題材的多樣性。此外，模型在這個(gè)階段會(huì)加入時(shí)序注意力模塊，以更好地處理時(shí)間序列數(shù)據(jù)。這個(gè)階段的訓(xùn)練會(huì)在第一階段的基礎(chǔ)上進(jìn)行，使用前一階段的權(quán)重作為起點(diǎn)。

第三階段：高質(zhì)量視頻數(shù)據(jù)微調(diào)

最后一個(gè)階段是對(duì)模型進(jìn)行微調(diào)，使用高質(zhì)量的視頻數(shù)據(jù)來進(jìn)一步提升生成視頻的質(zhì)量和真實(shí)感。在這個(gè)階段，雖然使用的視頻數(shù)據(jù)量可能比第二階段少，但視頻的時(shí)長、分辨率和質(zhì)量都會(huì)更高。微調(diào)過程有助于模型捕捉到更加細(xì)致和逼真的視頻內(nèi)容，從而生成更加符合用戶期望的視頻。

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇輸入文字就能生成視頻!Sora工作原理像人做夢(mèng)

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线