發(fā)布時間:2024-03-26 20:27:17 瀏覽量:183次
那個和 Midjourney 打得難舍難分,引發(fā)了一波買顯卡 “ 煉丹 ” “ 煉妹子 ” 風(fēng)潮的 Stable Diffusion ,又推出船新版本了。
就在昨天晚上, Stability AI 在官網(wǎng)來了一波更新,預(yù)告了一波 Stable Diffusion 3 。
根據(jù)介紹,新版本在多主題提示、圖片質(zhì)量還有文字渲染能力上都進(jìn)行了次大升級,模型參數(shù)量在 800M-8B 之間,并且延續(xù)了他們家一如既往開源的優(yōu)秀傳統(tǒng)。
更重要的是,它和 Sora 一樣當(dāng)起了維新派,摒棄了業(yè)內(nèi)常用的 U-NET 架構(gòu),加入 Transformer 和 Diffusion 結(jié)合的大家族。
而具體的原理和進(jìn)步啥的,看不懂沒關(guān)系,咱們過會兒再聊。
直接先來一波全新的高清無碼大圖,讓大伙們見識下 Stable Diffusion 3 的斤兩。
其中文字渲染能力,是這次 Stable Diffusion 3 比較突出的一個亮點(diǎn)。
因為不咋識字兒、不怎么會寫字兒,可以說是目前文生圖、文生視頻的通病了。
就拿世超用 DALL·E 3 生成的 “ Chaping 青花瓷 ” 為例,上面漢字不明所以。。。最重要的 " Chaping " 還拼寫錯了。。。
基本上可以說自 AI 畫圖不會畫手之后,把文本渲染成圖像里準(zhǔn)確的文字,也是個難題。
而新版本的 Stable Diffusion ,文化水平就明顯高了不少。
根據(jù)官網(wǎng)給出的案例,給它提示詞是 “ 一輛跑車的夜間照片,側(cè)面寫著 ' SD3 ' ,汽車在賽道上高速行駛,巨大的路標(biāo)上寫著 'Faster' 的文字 ” 。
生成的圖片不但符合描述,文字的位置也沒毛病,字體也很清晰。
但當(dāng)我們用同樣的提示詞在 DALL·E 3 生成的時候,文字渲染效果就有些一言難盡了。
Faster 倒是沒錯,但側(cè)面的 SD3 沒有一張圖是準(zhǔn)確的。
還有這張, Stable Diffusion 3 生成的是這樣的。
而 DALL ·E 3 連 incredible 都沒拼對。
只不過,現(xiàn)在目前的文字渲染暫時只支持英文,中文還得等上那么一段時間。
再來看這次 Stable Diffusion 3 的另一大更新——多主題提示,大伙兒可以把這個理解成, AI 在生成圖片的過程中漏沒漏提示詞。
舉個例子,這張圖的提示詞里,大致包括了宇航員、穿著芭蕾舞短裙撐著粉色雨傘的豬、戴著禮帽的知更鳥、還有角落里的 “Stable Diffusion” 幾個關(guān)鍵。
咱先不提圖片的質(zhì)量如何,但該生成的東西起碼 AI 都沒落下。
不過有意思的是,在這條推文下有網(wǎng)友把同樣的提示詞,分別喂給了 Midjourney 、 DALLE-3 和 Bing 。
看下來, DALLE-3 、 Bing 和 Midjourney 要不就是知更鳥少了帽子,要不就是 “Stable Diffusion” 單詞拼寫錯誤,沒一個能打的。
最后,是文生圖模型最為關(guān)鍵的圖像質(zhì)量。
Stable Diffusion 3 也是人狠話不多, po 了一張這樣的圖片。
世超第一眼看到的反應(yīng):這難道不是照片???
手帕上的紋理還有老虎刺繡,未免有點(diǎn)過于逼真了吧。。。
還有這張?zhí)O果,也是能以假亂真的程度。
而之所以 Stable Diffusion 3 這次能有這么大改變,很大可能要?dú)w功于一個跟 Sora 同源的架構(gòu)。
以前的 Stable Diffusion ,一般都是用 U-net 架構(gòu) + Diffusion 擴(kuò)散模型。而 Transformer ,也多是用在像 GPT 類大語言模型上,兩種技術(shù)各管各的。
而 OpenAI 則覺得 GPT 這把咱用Transformer 打贏了,就不改 banpick 了吧。。。于是就把Transformer 架構(gòu)和 Diffusion 結(jié)合了起來,用在視頻上,一頓魔改和大力出奇跡后,就整出了 Sora 。
Stability AI 團(tuán)隊也是英雄所見略同,把Diffusion Transformer ( 簡稱 Dit 架構(gòu) )用在了 Stable Diffusion 3 上。
有意思的是,關(guān)于 DiT 架構(gòu)的論文是 AI 大佬謝賽寧和 William Peebles 一起寫的。
這個 William Peebles ,正好是 Sora 團(tuán)隊的負(fù)責(zé)人之一。
Stability AI 的老板 Emad 也在 X ( 推特 )上表示,這次確實用到了和 sora 類似的技術(shù)。
另外,這次 Stable Diffusion 3 還用到了一個 Flow Matching ( 流匹配 )技術(shù)。
因為技術(shù)原理過于復(fù)雜,咱們可以簡單理解成,這是一種用來訓(xùn)練擴(kuò)散模型的方法。
如果把擴(kuò)散模型比作魔法畫筆,那這個流匹配的作用就是升級畫筆,讓畫筆可以更快、更準(zhǔn)確地畫出你想要的東西。
世超估計也正是因為這個技術(shù), Stable Diffusion 3 的文化水平才暴增的。
總而言之,光從現(xiàn)有的官方效果圖和技術(shù)公開來看,這次 Stable Diffusion 3 的出現(xiàn),又把文生圖卷到了一個新高度,也證明了 Dit 架構(gòu)在文生圖、文生視頻領(lǐng)域確實是個可行的新方向。
反正這么下去,保不齊下一波誰家又會拿出重磅更新。
不過大伙兒也別太焦慮,該吃吃該喝喝,要是有時間學(xué)學(xué)怎么用 AI 也行。
最后提個醒, Stable Diffusion 3 現(xiàn)在還沒正式公測,千萬別又讓賣課的給騙了。
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!