發(fā)布時(shí)間:2024-08-18 10:34:13 瀏覽量:201次
文生圖:基于文本生成圖像,Stable Diffusion開源后迎來快速發(fā)展
文生圖是基于文本通過生成式AI生成圖像的模式。近期,文生圖技術(shù)蓬勃發(fā)展,如海外的Stable Diffusion、國內(nèi)的萬興科技萬興愛畫、百度文心·一格等投入商用。底層模型主要涵蓋GAN、擴(kuò)散模型、自回歸模型中的擴(kuò)散模型。
文生視頻:自回歸和擴(kuò)散模型為主流
文生視頻是基于文本生成視頻的模式,隨著文生圖技術(shù)的進(jìn)步,以Runway為代表的公司不斷涌現(xiàn)。主流模型經(jīng)歷圖像拼接生成、GAN/VAE/Flow-Based生成、自回歸和擴(kuò)散模型階段。
GAN:提升圖像生成能力
生成對抗網(wǎng)絡(luò)(GAN)是提升圖像生成能力的主流模型,通過生成器和判別器對抗訓(xùn)練,使生成式網(wǎng)絡(luò)的數(shù)據(jù)趨近真實(shí)數(shù)據(jù)。
自回歸模型:利用Transformer結(jié)構(gòu)進(jìn)行圖像生成
自回歸模型采用Transformer進(jìn)行圖像生成,模擬像素和高級屬性之間的關(guān)系,利用自注意力機(jī)制進(jìn)行編碼和解碼。
擴(kuò)散模型:通過添加噪聲和反向降噪推斷生成圖像
擴(kuò)散模型通過系統(tǒng)地?cái)_動(dòng)數(shù)據(jù)中的分布并逐步優(yōu)化,生成圖像,是當(dāng)前主流路徑之一。
CLIP:實(shí)現(xiàn)文本和圖像特征提取和映射
CLIP是基于對比學(xué)習(xí)的文本-圖像跨模態(tài)預(yù)訓(xùn)練模型,通過文本編碼器和圖像編碼器實(shí)現(xiàn)文本和圖像的特征提取和映射。
平均來看自回歸模型成本最高,生成視頻成本遠(yuǎn)高于生成圖片
不僅參數(shù)量大小,成本還取決于訓(xùn)練時(shí)間和用戶規(guī)模。用戶體量較大時(shí),線上運(yùn)營推理的成本可能占整體成本80-90%。
文生視頻生成消耗的算力較多,主流模型長度支持2秒~4秒。
文生圖領(lǐng)域整體創(chuàng)業(yè)門檻低,商業(yè)模式存疑問
在模型和成本端看,文生圖整體成本遠(yuǎn)低于通用大模型,但商業(yè)化模式仍存疑問,特別是C端用戶付費(fèi)意愿偏低問題。
Meta:基于自回歸的模型CM3Leon發(fā)布
Meta發(fā)布CM3Leon,首個(gè)使用純文本語言模型改編和訓(xùn)練的多模態(tài)模型。
Midjourney:文生圖龍頭,用戶規(guī)模超千萬
Midjourney是AI基于文字生成圖像的工具,用戶規(guī)模龐大,但商業(yè)模型尚未明確。
StabilityAI:發(fā)布Stable Diffusion開源模型
Stable Diffusion是StabilityAI的文本生成圖像模型,已獲得大額融資,估值破億。
Clipdrop被StabilityAI收購
Clipdrop是AI圖像編輯應(yīng)用,母公司Init ML于2023年被StabilityAI收購,功能得到顯著增強(qiáng)。
Adobe Firefly:具備可編輯性的AI生成工具
Firefly是Adobe的基于生成式AI的工具,可以實(shí)現(xiàn)多種圖像處理功能。
視頻生成模型:行業(yè)迎來小高潮
文本生成視頻被視為文本生成圖像的進(jìn)階技術(shù),近期成為跨模態(tài)生成領(lǐng)域的熱門場景。
清華CogVideo:首個(gè)開源中文文本生成視頻模型
CogVideo是清華團(tuán)隊(duì)發(fā)布的基于自回歸模型的文本生成視頻模型,參數(shù)高達(dá)94億。
谷歌Phenaki:首個(gè)生成長視頻的自回歸模型
Phenaki是谷歌開發(fā)的首個(gè)能生成長視頻的模型,利用時(shí)間上的因果注意力實(shí)現(xiàn)可變長度視頻生成。
Runway Gen-1 & Gen-2:商用明星應(yīng)用
Runway是面向C端客戶的圖像和視頻編輯軟件供應(yīng)商,提供多項(xiàng)服務(wù)。
本文僅供參考,為AI生成內(nèi)容行業(yè)的技術(shù)探索,不構(gòu)成任何投資建議,具體信息請查閱原始報(bào)告。
精選報(bào)告來源:未來智庫。點(diǎn)擊咨詢
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!