發(fā)布時(shí)間:2024-04-03 11:45:44 瀏覽量:327次
Stable Diffusion 是一種基于潛在擴(kuò)散模型(Latent Diffusion Models)的文本到圖像生成模型,能夠根據(jù)任意文本輸入生成高質(zhì)量、高分辨率、高逼真的圖像。
如何使用Stable Diffusion?
你需要給出一個(gè)描述圖片的提示,例如:姜餅屋,西洋鏡,焦點(diǎn),白色背景,吐司,脆麥片;生成圖片如下:
Stable Diffusion優(yōu)勢(shì)
類似的文本生成圖像服務(wù)有很多,例如DALLE和MidJourney。那為什么要選擇Stable Diffusion呢?
?開源:相較于剛才提到的兩個(gè)工具,Stable Diffusion對(duì)于用戶而言最大的優(yōu)勢(shì)在于免費(fèi)。
?高質(zhì)量:Stable Diffusion模型可以生成高分辨率、樣化的圖像,與真實(shí)圖片難以區(qū)分。
?靈活性:Stable Diffusion模型可以處理各種類型和風(fēng)格的文本輸入和圖像輸入,無論是簡單的描述、復(fù)雜的故事、抽象的概念、還是具體的要求。
?穩(wěn)定性:Stable Diffusion模型可以避免出現(xiàn)常見的圖像生成問題,如模糊、偽影、重復(fù)、不自然等。
風(fēng)格切換
在使用過程中大家可以根據(jù)自身的設(shè)計(jì)需求進(jìn)行風(fēng)格模型切換,例如:
?Stable Diffusion v1.4/.5/2.0/2.1:官方基礎(chǔ)模型。百搭各種風(fēng)格;
?Realistic Vision v2.0 : 擅長生成照片風(fēng)格的逼真圖像;
?Anything v3.0:動(dòng)漫風(fēng)格;
?dreamlike-photoreal :寫實(shí)風(fēng)格;
動(dòng)漫風(fēng)格
逼真圖像
在線生成器
對(duì)于AI繪畫感興趣的0基礎(chǔ)初學(xué)者,可以使用一些免費(fèi)在線生成器生成圖片,無需進(jìn)行鏡像部署等相對(duì)復(fù)雜的操作環(huán)節(jié)。
AI繪畫 Web UI
免費(fèi)在線生成器的功能非常有限,對(duì)于圖片有更高要求的人而言,可以使用更高級(jí)的Web UI(網(wǎng)絡(luò)產(chǎn)品界面設(shè)計(jì))。我使用的是UCloud的GPU云服務(wù)器,搭配平臺(tái)提供的AI繪圖 Web UI鏡像,開箱即用,無需進(jìn)行繁瑣配置。請(qǐng)參閱“如何一鍵部署安裝Stable Diffusion Web UI”安裝指南。
Prompt
雖然AI發(fā)展迅速,但Stable Diffusion仍然無法精準(zhǔn)讀懂用戶的想法,更多的是需要靠用戶盡可能詳細(xì)地描述需要的圖像主題,確保包含有力的關(guān)鍵詞來定義整體圖像風(fēng)格。Prompt可以作為元素權(quán)重的關(guān)鍵詞,讓AI更傾向于在繪圖中繪制和Prompt的內(nèi)容相關(guān)的元素。
?假設(shè)您想生成一張比較有個(gè)性的貓咪的照片。一個(gè)簡單的提示:有個(gè)性的貓,生成圖片如下:
如果我們用更加詳細(xì)具體的提示再生成一次:一只灰色的貓,戴耳機(jī),賽博朋克風(fēng)
從前后兩次提示生成的圖片對(duì)比來看,第一張就過于簡單,第二種相對(duì)更加符合我們的預(yù)期;所以在寫提示時(shí),我們要詳細(xì)描述我們需要的圖像風(fēng)格以及整體的構(gòu)建。對(duì)于初學(xué)者而言,前期我們可以借助AI提示生成器學(xué)習(xí)逐步過程和重要關(guān)鍵詞,從而使生成的圖片盡可能達(dá)到預(yù)期效果。
另外在寫提示時(shí),關(guān)鍵詞也十分重要,有向?qū)缘年P(guān)鍵詞可以使最終生成的圖片更加符合用戶的預(yù)期效果,例如:
名人的名字(例如 Emma Watson)
藝術(shù)家姓名(如梵高)
藝術(shù)媒介(例如插圖、繪畫、照片)
后續(xù)我們會(huì)單獨(dú)講解有關(guān)提示構(gòu)建和示例關(guān)鍵字的更多信息。
Negative prompt
Negative Prompt則是和Prompt相反,是一個(gè)反向加權(quán)的權(quán)重關(guān)系,也就是減低某些元素出現(xiàn)的頻率,從而約束AI的行為。
參數(shù)設(shè)置
為了使圖片達(dá)到更加精準(zhǔn)的預(yù)期效果,我們?cè)谶M(jìn)行圖像生成的過程中也可以去調(diào)整整體的參數(shù)設(shè)置,以下是一些比較重要的參數(shù)參考:
Image size:輸出圖像的大小。標(biāo)準(zhǔn)尺寸為 512×512 像素。將其更改為縱向或橫向尺寸會(huì)對(duì)最終生成的圖片效果產(chǎn)生很大影響。例如使用縱向尺寸最終會(huì)生成全身圖像。
Sampling steps:默認(rèn) 20,整體可根據(jù)最終生成的圖像效果去設(shè)置。適當(dāng)大一些的可以讓畫面內(nèi)容更細(xì)致,小的話就沒那么細(xì)致,想要追求更好的效果也可以將此參數(shù)適當(dāng)調(diào)大到30左右。當(dāng)然,參數(shù)越大越吃性能。
CFG scale:可以簡單理解為AI對(duì)描述參數(shù)的傾向程度,默認(rèn)典型值為7,如果希望最終生成的圖像更符合提示,可以適當(dāng)將參數(shù)調(diào)大一些。
Seed value:-1 生成隨機(jī)圖像,這個(gè)隨機(jī)數(shù)影響畫面的內(nèi)容,如果seed以及Negative Prompt和Prompt都相同,生成幾乎完全一致的圖片的概率就很高。個(gè)人建議這個(gè)不用特意設(shè)置,默認(rèn)就行;如果對(duì)生成圖像有明確要求,可以根據(jù)去看調(diào)整參數(shù)大小。
Batch count:一次性出圖的數(shù)量,出圖數(shù)量越多,生成越慢。
Stability AI及其合作伙伴發(fā)布的官方模型稱為基礎(chǔ)模型。例如 Stable Diffusion1.4、1.5、2.0和2.1。
定制模型是基于基礎(chǔ)模型進(jìn)行訓(xùn)練的。目前,大多數(shù)模型都是從 v1.4 或 v1.5 開始訓(xùn)練的。他們通過額外的數(shù)據(jù)訓(xùn)練,用于生成特定風(fēng)格的圖像。
以下是 5 種不同型號(hào)的比較:
選擇哪種模型
對(duì)于初級(jí)玩家來說,可以使用基本模型先摸索整體玩法和應(yīng)用,建議先從V1.5版本開始?;A(chǔ)模型分為兩個(gè)主要組:v1和v2。v1模型包括1.4和1.5版本,而v2模型則包括2.0和2.1版本。
如何訓(xùn)練新模型
訓(xùn)練模型的兩種主要方法是:(1) Dreambooth和 (2) embedding。
目前整體看來,Dreambooth更強(qiáng)大,因?yàn)樗鼘?duì)整個(gè)模型的權(quán)重進(jìn)行微調(diào)。嵌入則保持模型不變,但會(huì)找到描述新主題或風(fēng)格的關(guān)鍵詞。
除了上述提到的文生圖(txt2img),在選項(xiàng)卡中還有img2img,Extras,PNG Info,Checkpoint Merger,Train,Additional Networks,Dreambooth,Settings,Extensions,其中常用的也還有img2img圖生圖。
圖像精準(zhǔn)控制
ControlNet使用輸入圖像作為參考圖,然后程序根據(jù)此圖按一定的模式預(yù)處理一張新圖,之后再由AI根據(jù)這兩幅圖繪制出成品;用戶也可以關(guān)閉程序的預(yù)處理功能,直接輸入一張用戶自己處理好的圖片當(dāng)作預(yù)處理圖,之后AI僅根據(jù)這副圖生成成品。它可以提取特定信息,例如動(dòng)物姿勢(shì)。下面是使用 ControlNet 從輸入圖像復(fù)制動(dòng)物姿勢(shì)的示例。
Input
Output
圖像分割
segment anything支持圖像分層,切割,單次可處理單張或多張圖片。下面以一只貓的圖片為示例,基于sam模型可以快速實(shí)現(xiàn)圖像的分層、蒙版、分割。
Input
Output
圖像微調(diào)
Additional-Networks可支持基于LoRA模型微調(diào)圖片風(fēng)格。以Prompt:“a grey cat, headphone, cyberpunk”為例,如圖所示模型輸出結(jié)果如下:
Input
Output
區(qū)域提示
Regional Prompter可以通過設(shè)置區(qū)域提示來控制生成圖像的具體細(xì)節(jié)和特征。您可以使用區(qū)域提示來指定生成圖像中特定區(qū)域的外貌、風(fēng)格或?qū)傩?。下面是在左下角放置一只狼,在右下角放置頭骨的示例。
深度圖像
Depth-to-image是指從深度圖或深度信息生成圖像的過程。它可以檢測(cè)輸入圖像中的前景色和背景色,生成的輸出圖像將遵循相同的前景色和背景色。以下是一個(gè)示例:
Input
Output
Deforum是一種將Stable Diffusion的能力與動(dòng)畫的動(dòng)態(tài)性相結(jié)合的短視頻剪輯。目前該插件在社交媒體平臺(tái)上越來越受歡迎,它們以多種形式呈現(xiàn),如藝術(shù)動(dòng)畫、形態(tài)變換效果或超現(xiàn)實(shí)的視覺序列。
通過這個(gè)新手指南,我們可以了解使用Stable Diffusion生成圖像的基本知識(shí)和技巧。后續(xù)我們將針對(duì)每個(gè)環(huán)節(jié)給大家做更加細(xì)致的講解以及在線演示操作細(xì)節(jié)。讓我們一起深入探索,發(fā)現(xiàn)更多創(chuàng)作的可能性!
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!