激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

從文生圖到文生視頻,AI生成內(nèi)容技術(shù)框架與商業(yè)化探析

發(fā)布時(shí)間:2024-08-18 10:34:13 瀏覽量:201次

從文生圖到文生視頻,AI生成內(nèi)容技術(shù)框架與商業(yè)化探析

文生圖:基于文本生成圖像,Stable Diffusion開源后迎來快速發(fā)展

文生圖是基于文本通過生成式AI生成圖像的模式。近期,文生圖技術(shù)蓬勃發(fā)展,如海外的Stable Diffusion、國內(nèi)的萬興科技萬興愛畫、百度文心·一格等投入商用。底層模型主要涵蓋GAN、擴(kuò)散模型、自回歸模型中的擴(kuò)散模型。

文生視頻:自回歸和擴(kuò)散模型為主流

文生視頻是基于文本生成視頻的模式,隨著文生圖技術(shù)的進(jìn)步,以Runway為代表的公司不斷涌現(xiàn)。主流模型經(jīng)歷圖像拼接生成、GAN/VAE/Flow-Based生成、自回歸和擴(kuò)散模型階段。

GAN:提升圖像生成能力

生成對抗網(wǎng)絡(luò)(GAN)是提升圖像生成能力的主流模型,通過生成器和判別器對抗訓(xùn)練,使生成式網(wǎng)絡(luò)的數(shù)據(jù)趨近真實(shí)數(shù)據(jù)。

自回歸模型:利用Transformer結(jié)構(gòu)進(jìn)行圖像生成

自回歸模型采用Transformer進(jìn)行圖像生成,模擬像素和高級屬性之間的關(guān)系,利用自注意力機(jī)制進(jìn)行編碼和解碼。

擴(kuò)散模型:通過添加噪聲和反向降噪推斷生成圖像

擴(kuò)散模型通過系統(tǒng)地?cái)_動(dòng)數(shù)據(jù)中的分布并逐步優(yōu)化,生成圖像,是當(dāng)前主流路徑之一。

CLIP:實(shí)現(xiàn)文本和圖像特征提取和映射

CLIP是基于對比學(xué)習(xí)的文本-圖像跨模態(tài)預(yù)訓(xùn)練模型,通過文本編碼器和圖像編碼器實(shí)現(xiàn)文本和圖像的特征提取和映射。

商業(yè)化模式及成本拆分

平均來看自回歸模型成本最高,生成視頻成本遠(yuǎn)高于生成圖片

不僅參數(shù)量大小,成本還取決于訓(xùn)練時(shí)間和用戶規(guī)模。用戶體量較大時(shí),線上運(yùn)營推理的成本可能占整體成本80-90%。

文生視頻生成消耗的算力較多,主流模型長度支持2秒~4秒。

文生圖領(lǐng)域整體創(chuàng)業(yè)門檻低,商業(yè)模式存疑問

在模型和成本端看,文生圖整體成本遠(yuǎn)低于通用大模型,但商業(yè)化模式仍存疑問,特別是C端用戶付費(fèi)意愿偏低問題。

文生圖代表模型及應(yīng)用

Meta:基于自回歸的模型CM3Leon發(fā)布

Meta發(fā)布CM3Leon,首個(gè)使用純文本語言模型改編和訓(xùn)練的多模態(tài)模型。

Midjourney:文生圖龍頭,用戶規(guī)模超千萬

Midjourney是AI基于文字生成圖像的工具,用戶規(guī)模龐大,但商業(yè)模型尚未明確。

StabilityAI:發(fā)布Stable Diffusion開源模型

Stable Diffusion是StabilityAI的文本生成圖像模型,已獲得大額融資,估值破億。

Clipdrop被StabilityAI收購

Clipdrop是AI圖像編輯應(yīng)用,母公司Init ML于2023年被StabilityAI收購,功能得到顯著增強(qiáng)。

Adobe Firefly:具備可編輯性的AI生成工具

Firefly是Adobe的基于生成式AI的工具,可以實(shí)現(xiàn)多種圖像處理功能。

文生視頻代表模型及應(yīng)用

視頻生成模型:行業(yè)迎來小高潮

文本生成視頻被視為文本生成圖像的進(jìn)階技術(shù),近期成為跨模態(tài)生成領(lǐng)域的熱門場景。

清華CogVideo:首個(gè)開源中文文本生成視頻模型

CogVideo是清華團(tuán)隊(duì)發(fā)布的基于自回歸模型的文本生成視頻模型,參數(shù)高達(dá)94億。

谷歌Phenaki:首個(gè)生成長視頻的自回歸模型

Phenaki是谷歌開發(fā)的首個(gè)能生成長視頻的模型,利用時(shí)間上的因果注意力實(shí)現(xiàn)可變長度視頻生成。

Runway Gen-1 & Gen-2:商用明星應(yīng)用

Runway是面向C端客戶的圖像和視頻編輯軟件供應(yīng)商,提供多項(xiàng)服務(wù)。

報(bào)告節(jié)選:

本文僅供參考,為AI生成內(nèi)容行業(yè)的技術(shù)探索,不構(gòu)成任何投資建議,具體信息請查閱原始報(bào)告。

精選報(bào)告來源:未來智庫。點(diǎn)擊咨詢

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定