激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

史上最強(qiáng)的圖像生成器來了,這次不僅更逼真,甚至還會寫字

發(fā)布時間:2024-03-26 20:27:17 瀏覽量:183次


那個和 Midjourney 打得難舍難分,引發(fā)了一波買顯卡 “ 煉丹 ” “ 煉妹子 ” 風(fēng)潮的 Stable Diffusion ,又推出船新版本了。


就在昨天晚上, Stability AI 在官網(wǎng)來了一波更新,預(yù)告了一波 Stable Diffusion 3


根據(jù)介紹,新版本在多主題提示、圖片質(zhì)量還有文字渲染能力上都進(jìn)行了次大升級,模型參數(shù)量在 800M-8B 之間,并且延續(xù)了他們家一如既往開源的優(yōu)秀傳統(tǒng)。


更重要的是,它和 Sora 一樣當(dāng)起了維新派,摒棄了業(yè)內(nèi)常用的 U-NET 架構(gòu),加入 Transformer 和 Diffusion 結(jié)合的大家族。


而具體的原理和進(jìn)步啥的,看不懂沒關(guān)系,咱們過會兒再聊。


直接先來一波全新的高清無碼大圖,讓大伙們見識下 Stable Diffusion 3 的斤兩。


其中文字渲染能力,是這次 Stable Diffusion 3 比較突出的一個亮點(diǎn)。


因為不咋識字兒、不怎么會寫字兒,可以說是目前文生圖、文生視頻的通病了。


就拿世超用 DALL·E 3 生成的 “ Chaping 青花瓷 ” 為例,上面漢字不明所以。。。最重要的 " Chaping " 還拼寫錯了。。。


基本上可以說自 AI 畫圖不會畫手之后,把文本渲染成圖像里準(zhǔn)確的文字,也是個難題。


而新版本的 Stable Diffusion ,文化水平就明顯高了不少。


根據(jù)官網(wǎng)給出的案例,給它提示詞是 “ 一輛跑車的夜間照片,側(cè)面寫著 ' SD3 ' ,汽車在賽道上高速行駛,巨大的路標(biāo)上寫著 'Faster' 的文字 ” 。


生成的圖片不但符合描述,文字的位置也沒毛病,字體也很清晰。


但當(dāng)我們用同樣的提示詞在 DALL·E 3 生成的時候,文字渲染效果就有些一言難盡了。


Faster 倒是沒錯,但側(cè)面的 SD3 沒有一張圖是準(zhǔn)確的。


還有這張, Stable Diffusion 3 生成的是這樣的。


而 DALL ·E 3 連 incredible 都沒拼對。


只不過,現(xiàn)在目前的文字渲染暫時只支持英文,中文還得等上那么一段時間。


再來看這次 Stable Diffusion 3 的另一大更新——多主題提示,大伙兒可以把這個理解成, AI 在生成圖片的過程中漏沒漏提示詞。


舉個例子,這張圖的提示詞里,大致包括了宇航員、穿著芭蕾舞短裙撐著粉色雨傘的豬、戴著禮帽的知更鳥、還有角落里的 “Stable Diffusion” 幾個關(guān)鍵。


咱先不提圖片的質(zhì)量如何,但該生成的東西起碼 AI 都沒落下。


不過有意思的是,在這條推文下有網(wǎng)友把同樣的提示詞,分別喂給了 Midjourney 、 DALLE-3 和 Bing 。


看下來, DALLE-3 、 Bing 和 Midjourney 要不就是知更鳥少了帽子,要不就是 “Stable Diffusion” 單詞拼寫錯誤,沒一個能打的。


最后,是文生圖模型最為關(guān)鍵的圖像質(zhì)量。


Stable Diffusion 3 也是人狠話不多, po 了一張這樣的圖片。


世超第一眼看到的反應(yīng):這難道不是照片???


手帕上的紋理還有老虎刺繡,未免有點(diǎn)過于逼真了吧。。。


還有這張?zhí)O果,也是能以假亂真的程度。


而之所以 Stable Diffusion 3 這次能有這么大改變,很大可能要?dú)w功于一個跟 Sora 同源的架構(gòu)。


以前的 Stable Diffusion ,一般都是用 U-net 架構(gòu) + Diffusion 擴(kuò)散模型。而 Transformer ,也多是用在像 GPT 類大語言模型上,兩種技術(shù)各管各的。


而 OpenAI 則覺得 GPT 這把咱用Transformer 打贏了,就不改 banpick 了吧。。。于是就把Transformer 架構(gòu)和 Diffusion 結(jié)合了起來,用在視頻上,一頓魔改和大力出奇跡后,就整出了 Sora 。


Stability AI 團(tuán)隊也是英雄所見略同,把Diffusion Transformer ( 簡稱 Dit 架構(gòu) )用在了 Stable Diffusion 3 上。


有意思的是,關(guān)于 DiT 架構(gòu)的論文是 AI 大佬謝賽寧和 William Peebles 一起寫的。


這個 William Peebles ,正好是 Sora 團(tuán)隊的負(fù)責(zé)人之一。


Stability AI 的老板 Emad 也在 X ( 推特 )上表示,這次確實用到了和 sora 類似的技術(shù)。


另外,這次 Stable Diffusion 3 還用到了一個 Flow Matching ( 流匹配 )技術(shù)。


因為技術(shù)原理過于復(fù)雜,咱們可以簡單理解成,這是一種用來訓(xùn)練擴(kuò)散模型的方法。


如果把擴(kuò)散模型比作魔法畫筆,那這個流匹配的作用就是升級畫筆,讓畫筆可以更快、更準(zhǔn)確地畫出你想要的東西。


世超估計也正是因為這個技術(shù), Stable Diffusion 3 的文化水平才暴增的。


總而言之,光從現(xiàn)有的官方效果圖和技術(shù)公開來看,這次 Stable Diffusion 3 的出現(xiàn),又把文生圖卷到了一個新高度,也證明了 Dit 架構(gòu)在文生圖、文生視頻領(lǐng)域確實是個可行的新方向。


反正這么下去,保不齊下一波誰家又會拿出重磅更新。


不過大伙兒也別太焦慮,該吃吃該喝喝,要是有時間學(xué)學(xué)怎么用 AI 也行。


最后提個醒, Stable Diffusion 3 現(xiàn)在還沒正式公測,千萬別又讓賣課的給騙了。

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定