激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Stable Diffusion-新手入門指南

發(fā)布時(shí)間:2024-04-03 11:45:44 瀏覽量:327次

1、Stable Diffusion

Stable Diffusion 是一種基于潛在擴(kuò)散模型(Latent Diffusion Models)的文本到圖像生成模型,能夠根據(jù)任意文本輸入生成高質(zhì)量、高分辨率、高逼真的圖像。

如何使用Stable Diffusion?

你需要給出一個(gè)描述圖片的提示,例如:姜餅屋,西洋鏡,焦點(diǎn),白色背景,吐司,脆麥片;生成圖片如下:

Stable Diffusion優(yōu)勢(shì)

類似的文本生成圖像服務(wù)有很多,例如DALLE和MidJourney。那為什么要選擇Stable Diffusion呢?

?開源:相較于剛才提到的兩個(gè)工具,Stable Diffusion對(duì)于用戶而言最大的優(yōu)勢(shì)在于免費(fèi)。

?高質(zhì)量:Stable Diffusion模型可以生成高分辨率、樣化的圖像,與真實(shí)圖片難以區(qū)分。

?靈活性:Stable Diffusion模型可以處理各種類型和風(fēng)格的文本輸入和圖像輸入,無論是簡單的描述、復(fù)雜的故事、抽象的概念、還是具體的要求。

?穩(wěn)定性:Stable Diffusion模型可以避免出現(xiàn)常見的圖像生成問題,如模糊、偽影、重復(fù)、不自然等。

2、多樣化風(fēng)格模型

風(fēng)格切換

在使用過程中大家可以根據(jù)自身的設(shè)計(jì)需求進(jìn)行風(fēng)格模型切換,例如:

?Stable Diffusion v1.4/.5/2.0/2.1:官方基礎(chǔ)模型。百搭各種風(fēng)格;

?Realistic Vision v2.0 : 擅長生成照片風(fēng)格的逼真圖像;

?Anything v3.0:動(dòng)漫風(fēng)格;

?dreamlike-photoreal :寫實(shí)風(fēng)格;

動(dòng)漫風(fēng)格

逼真圖像

3、產(chǎn)品推薦

在線生成器

對(duì)于AI繪畫感興趣的0基礎(chǔ)初學(xué)者,可以使用一些免費(fèi)在線生成器生成圖片,無需進(jìn)行鏡像部署等相對(duì)復(fù)雜的操作環(huán)節(jié)。

AI繪畫 Web UI

免費(fèi)在線生成器的功能非常有限,對(duì)于圖片有更高要求的人而言,可以使用更高級(jí)的Web UI(網(wǎng)絡(luò)產(chǎn)品界面設(shè)計(jì))。我使用的是UCloud的GPU云服務(wù)器,搭配平臺(tái)提供的AI繪圖 Web UI鏡像,開箱即用,無需進(jìn)行繁瑣配置。請(qǐng)參閱“如何一鍵部署安裝Stable Diffusion Web UI”安裝指南。

4、圖像生成

Prompt

雖然AI發(fā)展迅速,但Stable Diffusion仍然無法精準(zhǔn)讀懂用戶的想法,更多的是需要靠用戶盡可能詳細(xì)地描述需要的圖像主題,確保包含有力的關(guān)鍵詞來定義整體圖像風(fēng)格。Prompt可以作為元素權(quán)重的關(guān)鍵詞,讓AI更傾向于在繪圖中繪制和Prompt的內(nèi)容相關(guān)的元素。

?假設(shè)您想生成一張比較有個(gè)性的貓咪的照片。一個(gè)簡單的提示:有個(gè)性的貓,生成圖片如下:

如果我們用更加詳細(xì)具體的提示再生成一次:一只灰色的貓,戴耳機(jī),賽博朋克風(fēng)

從前后兩次提示生成的圖片對(duì)比來看,第一張就過于簡單,第二種相對(duì)更加符合我們的預(yù)期;所以在寫提示時(shí),我們要詳細(xì)描述我們需要的圖像風(fēng)格以及整體的構(gòu)建。對(duì)于初學(xué)者而言,前期我們可以借助AI提示生成器學(xué)習(xí)逐步過程和重要關(guān)鍵詞,從而使生成的圖片盡可能達(dá)到預(yù)期效果。

另外在寫提示時(shí),關(guān)鍵詞也十分重要,有向?qū)缘年P(guān)鍵詞可以使最終生成的圖片更加符合用戶的預(yù)期效果,例如:

名人的名字(例如 Emma Watson)

藝術(shù)家姓名(如梵高)

藝術(shù)媒介(例如插圖、繪畫、照片)

后續(xù)我們會(huì)單獨(dú)講解有關(guān)提示構(gòu)建和示例關(guān)鍵字的更多信息。

Negative prompt

Negative Prompt則是和Prompt相反,是一個(gè)反向加權(quán)的權(quán)重關(guān)系,也就是減低某些元素出現(xiàn)的頻率,從而約束AI的行為。

參數(shù)設(shè)置

為了使圖片達(dá)到更加精準(zhǔn)的預(yù)期效果,我們?cè)谶M(jìn)行圖像生成的過程中也可以去調(diào)整整體的參數(shù)設(shè)置,以下是一些比較重要的參數(shù)參考:

Image size:輸出圖像的大小。標(biāo)準(zhǔn)尺寸為 512×512 像素。將其更改為縱向或橫向尺寸會(huì)對(duì)最終生成的圖片效果產(chǎn)生很大影響。例如使用縱向尺寸最終會(huì)生成全身圖像。

Sampling steps:默認(rèn) 20,整體可根據(jù)最終生成的圖像效果去設(shè)置。適當(dāng)大一些的可以讓畫面內(nèi)容更細(xì)致,小的話就沒那么細(xì)致,想要追求更好的效果也可以將此參數(shù)適當(dāng)調(diào)大到30左右。當(dāng)然,參數(shù)越大越吃性能。

CFG scale:可以簡單理解為AI對(duì)描述參數(shù)的傾向程度,默認(rèn)典型值為7,如果希望最終生成的圖像更符合提示,可以適當(dāng)將參數(shù)調(diào)大一些。

Seed value:-1 生成隨機(jī)圖像,這個(gè)隨機(jī)數(shù)影響畫面的內(nèi)容,如果seed以及Negative Prompt和Prompt都相同,生成幾乎完全一致的圖片的概率就很高。個(gè)人建議這個(gè)不用特意設(shè)置,默認(rèn)就行;如果對(duì)生成圖像有明確要求,可以根據(jù)去看調(diào)整參數(shù)大小。

Batch count:一次性出圖的數(shù)量,出圖數(shù)量越多,生成越慢。

5、定制模型

Stability AI及其合作伙伴發(fā)布的官方模型稱為基礎(chǔ)模型。例如 Stable Diffusion1.4、1.5、2.0和2.1。

定制模型是基于基礎(chǔ)模型進(jìn)行訓(xùn)練的。目前,大多數(shù)模型都是從 v1.4 或 v1.5 開始訓(xùn)練的。他們通過額外的數(shù)據(jù)訓(xùn)練,用于生成特定風(fēng)格的圖像。

以下是 5 種不同型號(hào)的比較:

選擇哪種模型

對(duì)于初級(jí)玩家來說,可以使用基本模型先摸索整體玩法和應(yīng)用,建議先從V1.5版本開始?;A(chǔ)模型分為兩個(gè)主要組:v1和v2。v1模型包括1.4和1.5版本,而v2模型則包括2.0和2.1版本。

如何訓(xùn)練新模型

訓(xùn)練模型的兩種主要方法是:(1) Dreambooth和 (2) embedding。

目前整體看來,Dreambooth更強(qiáng)大,因?yàn)樗鼘?duì)整個(gè)模型的權(quán)重進(jìn)行微調(diào)。嵌入則保持模型不變,但會(huì)找到描述新主題或風(fēng)格的關(guān)鍵詞。

6、圖生圖

除了上述提到的文生圖(txt2img),在選項(xiàng)卡中還有img2img,Extras,PNG Info,Checkpoint Merger,Train,Additional Networks,Dreambooth,Settings,Extensions,其中常用的也還有img2img圖生圖。

圖像精準(zhǔn)控制

ControlNet使用輸入圖像作為參考圖,然后程序根據(jù)此圖按一定的模式預(yù)處理一張新圖,之后再由AI根據(jù)這兩幅圖繪制出成品;用戶也可以關(guān)閉程序的預(yù)處理功能,直接輸入一張用戶自己處理好的圖片當(dāng)作預(yù)處理圖,之后AI僅根據(jù)這副圖生成成品。它可以提取特定信息,例如動(dòng)物姿勢(shì)。下面是使用 ControlNet 從輸入圖像復(fù)制動(dòng)物姿勢(shì)的示例。

Input

Output

圖像分割

segment anything支持圖像分層,切割,單次可處理單張或多張圖片。下面以一只貓的圖片為示例,基于sam模型可以快速實(shí)現(xiàn)圖像的分層、蒙版、分割。

Input

Output


圖像微調(diào)

Additional-Networks可支持基于LoRA模型微調(diào)圖片風(fēng)格。以Prompt:“a grey cat, headphone, cyberpunk”為例,如圖所示模型輸出結(jié)果如下:

Input

Output

區(qū)域提示

Regional Prompter可以通過設(shè)置區(qū)域提示來控制生成圖像的具體細(xì)節(jié)和特征。您可以使用區(qū)域提示來指定生成圖像中特定區(qū)域的外貌、風(fēng)格或?qū)傩?。下面是在左下角放置一只狼,在右下角放置頭骨的示例。

深度圖像

Depth-to-image是指從深度圖或深度信息生成圖像的過程。它可以檢測(cè)輸入圖像中的前景色和背景色,生成的輸出圖像將遵循相同的前景色和背景色。以下是一個(gè)示例:

Input

Output

7、視頻制作

Deforum是一種將Stable Diffusion的能力與動(dòng)畫的動(dòng)態(tài)性相結(jié)合的短視頻剪輯。目前該插件在社交媒體平臺(tái)上越來越受歡迎,它們以多種形式呈現(xiàn),如藝術(shù)動(dòng)畫、形態(tài)變換效果或超現(xiàn)實(shí)的視覺序列。

通過這個(gè)新手指南,我們可以了解使用Stable Diffusion生成圖像的基本知識(shí)和技巧。后續(xù)我們將針對(duì)每個(gè)環(huán)節(jié)給大家做更加細(xì)致的講解以及在線演示操作細(xì)節(jié)。讓我們一起深入探索,發(fā)現(xiàn)更多創(chuàng)作的可能性!

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定