激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Open-Sora - 開源的類Sora架構(gòu)的視頻生成模型和復(fù)現(xiàn)方案

發(fā)布時(shí)間:2024-03-28 20:59:49 瀏覽量:264次

Open-Sora是什么

Open-Sora是由Colossal-AI團(tuán)隊(duì)開源的視頻生成模型,旨在復(fù)現(xiàn)OpenAI的Sora視頻生成產(chǎn)品。Open-Sora同樣基于DiT架構(gòu),通過三個(gè)階段訓(xùn)練:大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練和高質(zhì)量視頻數(shù)據(jù)微調(diào),以生成與文本描述相符的視頻內(nèi)容。該開源解決方案涵蓋了整個(gè)視頻生成模型的訓(xùn)練過程,包括數(shù)據(jù)處理、所有訓(xùn)練細(xì)節(jié)和模型檢查點(diǎn),供所有對(duì)文生視頻模型感興趣的人免費(fèi)學(xué)習(xí)和使用。

Open-Sora的官網(wǎng)入口

  • 官方項(xiàng)目主頁:https://hpcaitech.github.io/Open-Sora/
  • GitHub代碼庫:https://github.com/hpcaitech/Open-Sora

Open-Sora的模型架構(gòu)

Open-Sora模型采用當(dāng)前流行的Diffusion Transformer(DiT)架構(gòu),使用華為開源的PixArt-α高質(zhì)量文本到圖像生成模型,并通過添加時(shí)間注意力層將其擴(kuò)展為生成視頻。具體設(shè)計(jì)如下:

核心組件

  • 預(yù)訓(xùn)練的VAE (變分自編碼器):VAE是用于數(shù)據(jù)壓縮的組件,它將輸入的視頻數(shù)據(jù)映射到一個(gè)潛在空間的低維表示。在Open-Sora中,VAE的編碼器部分在訓(xùn)練階段用于壓縮視頻數(shù)據(jù),而在推理階段,它從潛在空間中采樣高斯噪聲并生成視頻。
  • 文本編碼器:這個(gè)組件負(fù)責(zé)將文本提示(如描述視頻內(nèi)容的句子)轉(zhuǎn)換為文本嵌入,這些嵌入隨后與視頻數(shù)據(jù)結(jié)合,以確保生成的視頻符合文本描述。
  • STDiT (Spatial Temporal Diffusion Transformer):這是Open-Sora的核心組件,一個(gè)利用空間-時(shí)間注意力機(jī)制的DiT模型。STDiT通過串行地在二維空間注意力模塊上疊加一維時(shí)間注意力模塊來建模視頻數(shù)據(jù)中的時(shí)序關(guān)系。此外,交叉注意力模塊用于對(duì)齊文本的語義信息。

架構(gòu)設(shè)計(jì)

  • 空間-時(shí)間注意力機(jī)制:STDiT模型的每一層都包含空間注意力模塊和時(shí)間注意力模塊??臻g注意力模塊處理視頻幀的二維空間特征,而時(shí)間注意力模塊則處理幀之間的時(shí)序關(guān)系。這種設(shè)計(jì)使得模型能夠有效地處理視頻數(shù)據(jù)中的空間和時(shí)間維度。
  • 交叉注意力:在時(shí)間注意力模塊之后,交叉注意力模塊用于將文本嵌入與視頻特征融合,確保生成的視頻內(nèi)容與文本描述相匹配。
  • 訓(xùn)練與推理流程:在訓(xùn)練階段,VAE的編碼器將視頻數(shù)據(jù)壓縮,然后與文本嵌入一起用于訓(xùn)練STDiT模型。在推理階段,從VAE的潛在空間中采樣出噪聲,與文本提示一起輸入到STDiT模型中,生成去噪后的特征,最后通過VAE的解碼器解碼得到最終的視頻。

Open-Sora的復(fù)現(xiàn)方案

Open-Sora的訓(xùn)練復(fù)現(xiàn)方案參考了Stable Video Diffusion (SVD)的工作,分為三個(gè)階段:大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練和高質(zhì)量視頻數(shù)據(jù)微調(diào)。通過這三個(gè)階段的訓(xùn)練復(fù)現(xiàn)方案,Open-Sora模型能夠逐步提升其視頻生成的能力,從基礎(chǔ)的圖像理解到復(fù)雜的視頻內(nèi)容生成,最終達(dá)到高質(zhì)量的視頻生成效果。

第一階段:大規(guī)模圖像預(yù)訓(xùn)練

在第一階段,模型通過大規(guī)模圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,以建立對(duì)圖像內(nèi)容的基本理解。這個(gè)階段的目的是利用現(xiàn)有的高質(zhì)量圖像生成模型(如Stable Diffusion)作為基礎(chǔ),來初始化視頻生成模型的權(quán)重。通過這種方式,模型能夠從圖像數(shù)據(jù)中學(xué)習(xí)到豐富的視覺特征,為后續(xù)的視頻預(yù)訓(xùn)練打下堅(jiān)實(shí)的基礎(chǔ)。

第二階段:大規(guī)模視頻預(yù)訓(xùn)練

第二階段專注于大規(guī)模視頻數(shù)據(jù)的預(yù)訓(xùn)練,目的是增強(qiáng)模型對(duì)視頻時(shí)間序列的理解。在這個(gè)階段,模型通過大量的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,以學(xué)習(xí)視頻中的時(shí)序關(guān)系和動(dòng)態(tài)變化。為了提高模型的泛化能力,需要確保視頻題材的多樣性。此外,模型在這個(gè)階段會(huì)加入時(shí)序注意力模塊,以更好地處理時(shí)間序列數(shù)據(jù)。這個(gè)階段的訓(xùn)練會(huì)在第一階段的基礎(chǔ)上進(jìn)行,使用前一階段的權(quán)重作為起點(diǎn)。

第三階段:高質(zhì)量視頻數(shù)據(jù)微調(diào)

最后一個(gè)階段是對(duì)模型進(jìn)行微調(diào),使用高質(zhì)量的視頻數(shù)據(jù)來進(jìn)一步提升生成視頻的質(zhì)量和真實(shí)感。在這個(gè)階段,雖然使用的視頻數(shù)據(jù)量可能比第二階段少,但視頻的時(shí)長、分辨率和質(zhì)量都會(huì)更高。微調(diào)過程有助于模型捕捉到更加細(xì)致和逼真的視頻內(nèi)容,從而生成更加符合用戶期望的視頻。

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定