激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

探索 StableDiffusion:生成高質(zhì)量圖片學習及應用

發(fā)布時間:2024-04-03 13:08:26 瀏覽量:287次




本文主要介紹了 StableDiffusion在圖片生成上的內(nèi)容,然后詳細說明了StableDiffusion 的主要術語和參數(shù),并探討了如何使用 prompt 和高級技巧(如圖像修復、訓練自定義模型和圖像編輯)來生成高質(zhì)量的圖片。



介紹StableDiffusion


?StableDiffusion是什么


Stable Diffusion是一種潛在的文本到圖像擴散模型,能夠生成逼真的圖像,只需任何文本輸入,就可以自主自由創(chuàng)造漂亮的圖像,使眾多不會拍照的人在幾秒鐘內(nèi)創(chuàng)造出驚人的圖片。StableDiffusion可以生成不同的圖片風格,比如:Anime 動畫,realistic 寫實,Landscape 風景,F(xiàn)antasy 奇幻,Artistic 藝術。 還有很多其他的風格,都可以在網(wǎng)上看到。


?StableDiffusion主要術語


有一些圖示來直觀理解StableDiffusion,比較深奧,不過多解釋:

https://zhuanlan.zhihu.com/p/599887666


  • 模型


https://stable-diffusion-art.com/models/


網(wǎng)上可以下載到的StableDiffusion模型非常多。只需要記得這些都是SD模型的微調(diào)版本即可,這些不同版本的StableDiffusion模型都是基于相同的算法和原理,并且都可以用于生成高質(zhì)量的圖像、音頻、視頻等數(shù)據(jù)。具體選擇哪個版本取決于應用場景和具體需求。


以下是常見模型,以及說明:


也可以自己做模型的合并,在StableDiffusion的GUI界面如下操作即可:

  1. 使用 AUTOMATIC1111 GUI 合并兩個模型,轉(zhuǎn)到 Checkpoint Merger 選項卡,在 Primary model (A) 和 Secondary model (B) 中選擇要合并的兩個模型。
  2. 調(diào)整乘數(shù) (M) 來調(diào)整兩個模型的相對權重。將其設置為 0.5 將以相等重要性合并兩個模型。
  3. 按下運行按鈕后,新合并的模型就可以用了。



  • 微調(diào)模型:Embedding && Lora && Hypernetwork


  1. CheckPoint:這些是真正穩(wěn)定的擴散模型。它們包含生成圖像所需的所有內(nèi)容,不需要額外的文件。它們通常很大,大小為2-7 GB。本文的主題是它們。
  2. Embedding:也稱為Textual inversions。它們是定義新關鍵詞以生成新對象或樣式的小文件。通常為10-100 KB。您必須與CheckPoint模型一起使用。
  3. LoRA:它們是用于修改樣式的檢查點模型的小補丁文件。它們通常為10-200 MB。您必須與CheckPoint模型一起使用。也是用于給先有模型做一些微小的改變;可以對原有模型做補丁,然后通過關鍵詞觸發(fā)風格,人物。
  4. Hypernetwork:它們是添加到CheckPoint模型的附加網(wǎng)絡模塊。它們通常為5-300 MB。您必須與CheckPoint模型一起使用。


  • ControlNet 控制姿勢


ControlNet是一種穩(wěn)定的擴散模型,可以復制作品和人體姿勢。想要使用的話再擴展中安裝sd-webui-controlnet擴展即可。


正常情況下我們想要控制人物的姿勢是十分困難的,并且姿勢隨機,而ControlNet解決了這個問題。它強大而多功能,可以與任何擴散模型一起使用。


主要作用:

  1. 邊緣檢測,家具擺放等
  2. 人體姿勢復制


可用的模型以及說明:


  • 抽樣算法


不同抽樣算法的生成時間對比:


使用不同的抽樣算法生成的圖片:

a busy city street in a modern city



  • Stable Diffusion 主要參數(shù)列表



https://stable-diffusion-art.com/know-these-important-parameters-for-stunning-ai-images/#Sampling_methods


如何生成高質(zhì)量的圖片


?什么是prompt?


在StableDiffusion中,"prompt"是指為GPT模型提供輸入的文本段落或句子。它是用來引導模型生成有意義、準確的響應的關鍵因素之一。


  • 好的Prompt結(jié)構


  1. Subject (required) 主體
  2. Medium 藝術類別
  3. Style 藝術風格
  4. Artist 藝術家
  5. Website 藝術流派
  6. Resolution 清晰度
  7. Additional details 額外的細節(jié)
  8. Color 色彩


同時可以考慮滿足以下的條件:

  1. 在描述主題時要詳細和具體。
  2. 使用多個括號()來增強其強度,使用[]來降低。
  3. 藝術家的名字是一個非常強的風格修飾符,使用的時候要知道這個是什么風格。


  • Prompt風格參考


如果不確定要用什么風格,可以去下面的兩個地址搜一下對應的風格

  1. 關鍵詞檢索(laion-aesthetic-6pls):https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images
  2. 藝術風格匯總list of artists for SD:https://rentry.org/artists_sd-v1-4
  3. prompt查詢參考:https://stablediffusionweb.com/prompts
  4. 查找Tag:https://aitag.top/
  5. 攝影大師:https://docs.google.com/spreadsheets/d/16KKh1FQmd-r98K9aWPBux5m9lc9PCV_T1AWgU54qXm8/htmlview



  • Prompt調(diào)整權重


使用()增加權重,使用[]降低權重;



a (word) - 將對單詞的權重增加1.1倍

a ((word)) - 將對單詞的權重增加1.21倍(= 1.1 * 1.1)

a [word] - 將對單詞的權重減少1.1倍

a (word:1.5) - 將對單詞的權重增加1.5倍

a (word:0.25) - 將對單詞的權重減少4倍(= 1 / 0.25)

a \(word\) - 在提示中使用字面上的()字符,轉(zhuǎn)義,不使用權重


prompt也可以從某個點位開始考慮生成指定的內(nèi)容:

[from:to:when]


示例:

a [fantasy:cyberpunk:16] landscape

  1. 開始時,模型將繪制一幅fantasy景觀。
  2. 在第16步之后,它將切換到繪制一幅cyberpunk:景觀,繼續(xù)從fantasy停止的地方繪制。


另外一種語法:

[cow|horse] in a field

第1步,提示是“cow”。第2步是“horse”。第3步是“cow”,以此類推。


  • 一些參考prompt


negtive提示符:


ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face

((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)), [out of frame], extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), ((ugly)), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck)))


  1. 如何想出好的prompt:https://stable-diffusion-art.com/how-to-come-up-with-good-prompts-for-ai-image-generation/#Some_good_keywords_for_you
  2. 負面提示符:https://stable-diffusion-art.com/how-to-use-negative-prompts/#Negative_prompt_with_Stable_Diffusion_v15


?生成高質(zhì)量的圖片進階?


  • 圖片修復 (inpaiting)


https://stable-diffusion-art.com/inpainting-remove-extra-limbs/


  1. 下載inpaiting模型;
  2. 可以生成圖片后點擊send img2img,也可以自己上傳到img2img;
  3. 用刷子進行繪制想要修改的區(qū)域,刷完之后,重新生成。



其中的一些參數(shù):


模型記得選擇SDv1.5修復模型(sd-v1-5-inpainting.ckpt)。


  • 訓練自己的模型?


可以直接在Colab云端訓練,本地也不用配置環(huán)境,訓練也很快:

https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-LoRA-dreambooth.ipynb#scrollTo=WNn0g1pnHfk5


想在本地訓練:

  1. 參考:https://github.com/bmaltais/kohya_ss
  2. 訓練教程:https://stable-diffusion-art.com/dreambooth/


  1. 確定要訓練模型的唯一標識(起個名字),以及這個模型所對應的類型(class);
  2. 比如如果想要訓練一個狗的模型,那么狗就是對應的類型(class),然后可以給這個狗起一個名字。名字盡量不要太容易重復;
  3. 準備把圖片制作有有固定尺寸,創(chuàng)建一個目錄:<repeat count>_<class>一次可以訓練多個概念
  4. 開始訓練、選擇在colab上訓練是最方便的方式,本地就省去了很多配置。
  5. 以上要準備的內(nèi)容簡單說就是:圖片、類型、唯一名字
  6. https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-LoRA-dreambooth.ipynb#scrollTo=kh7CeDqK4l3Y


按照colab正常操作就行;最終會輸出一份訓練的模型到你的Google Driver中。然后自己在本地測試:

prompt:a woman, hitokomoru , with a cat on her head <lora:hito_komoru_test:1>

negtive: (worst quality:2), (low quality:2),disfigured, ugly, old, wrong finger


使用自己的Lora VS 不使用Lora


還有一次可以訓練多個概念,把文件件組織好就行了


  • 圖片編輯 pix2pix


編輯配置文件
configs/instruct-pix2pix.yaml,改為如下內(nèi)容:

    use_ema: true   // 默認為false
    load_ema: true


denoising 改為1.0, 抽樣使用Euler a算法;


常用參數(shù):

  1. text cfg: 越大代表生成的內(nèi)容越接近我們的文字描述
  2. image cfg: 越大代表越接近我們的原始圖片,越小代表可以越不按照原始圖片生成



下面是一些常用的指令模板:

  1. Change the Style to (an artist or style name)
  2. Have her/him (doing something)
  3. Make her/him look like (an object or person)
  4. Turn the (something in the photo) into a (new object)
  5. Add a (object)
  6. Add a (object) on (something in the photo)
  7. Replace the (object) with (another object)
  8. Put them in (a scene or background)
  9. Make it (a place, background or weather)
  10. Apply (a emotion or something on a person)


有時候重新表達指令可以改善結(jié)果(例如,“turn him into a dog”與“make him a dog”與“as a dog”)。

增加steps的值有時可以改善結(jié)果。

人臉看起來奇怪?Stable Diffusion自編碼器在圖像中人臉較小的情況下會有問題。嘗試:裁剪圖像,使人臉在畫面中占據(jù)更大的部分。


資料地址:

  1. 模型下載地址:https://huggingface.co/timbrooks/instruct-pix2pix/resolve/main/instruct-pix2pix-00-22000.ckpt
  2. 線上體驗地址:https://huggingface.co/spaces/timbrooks/instruct-pix2pix


  • 使用腳本


Stable Diffusion的webUI中默認有一些腳本,可以方便我們嘗試一些不同的生成方式。




  • 常見生成人物問題與處理



?StableDiffusion生成圖片演示


  • 水底美女文字生成 text2img


水下攝影肖像,iu1,裙子,美麗的詳細女孩,極其詳細的眼睛和臉,美麗的詳細眼睛,閉著嘴,黑色的頭發(fā),鎖骨,裸露的肩膀,長睫毛,飄逸的頭發(fā),氣泡,陽光穿過水面,逼真,照片般的真實感,由泰德·格蘭博拍攝,最高品質(zhì)。


正面提示:underwater photography portrait, iu1, dress, beautiful detailed girl, extremely detailed eyes and face, beautiful detailed eyes, closed mouth, black hair, collarbone, bare shoulders, longeyelashes, floating hair, bubbles, sun light breaking through water surface, realistic, photorealistic, by ted grambeau, best quality

<lora:iu_V35:0.8>


反面提示:(worst quality:2), (low quality:2), (normal quality:2) , goggles, sun glasses, hand, extra fingers, fewer fingers, strange fingers, bad hand



參數(shù)

參數(shù)說明

CFG scale

8

值越大,越符合你的prompt,范圍為1~30;默認為7.


個人測試:

5以下看起來不好看

Sampling steps

20

理論上越大,圖片質(zhì)量越高,但是可能會帶來模糊

Image size

512×512


Seed

-1


Face restoration

Codeformer

勾選面部修復

Sampling method

DPM++ 2M Karas


Model

F222

默認是SD模型,可以下載這個模型,F(xiàn)222主要用在女性身材生成上比較擅長:

https://huggingface.co/acheong08/f222/blob/main/f222.ckpt

微調(diào)模型

Lora iu

https://civitai.com/models/11722/iu

默認是SD模型,可以下載這個模型,F(xiàn)222主要用在女性身材生成上比較擅長:

https://huggingface.co/acheong08/f222/blob/main/f222.ckt


我做的事情:

  1. 下載并使用F222模型;
  2. 參考其他水底美女提示符,修改人物生成要用的人物;
  3. 微調(diào)提示符,多次生成;


  • 西湖風景后期處理 img2img


原始照片:



生成prompt:

第一張prompt: ((Sunset)) , (Lake Gold) , Boat Center, Mountain, Tree in left, realistic, photorealistic, , 8K,Wide-angle, (expansive:1.5) , a combination of red, orange, pink, and purple.

negtive: (worst quality:2), (low quality:2)


第二張:a sunset over a body of water with a tree branch hanging over it and the sun reflecting in the water, a photo, Arthur Pan, dau-al-set, tranquil


第三張:two ducks swimming in a pond with fish in the water and a fish in the water behind them,, an impressionist painting, Emperor Huizong of Song, cloisonnism, tone mapping


第四張:a field of colorful flowers with green stems and yellow and red flowers in the middle of the field,, a jigsaw puzzle, Bob Thompson, color field, rich vivid colors



  • 人像卡通化測試 img2img


prompt:a young man holding a durian fruit in his hand , portrait ,detailed eyes, hyperrealistic

negtive prompt: (worst quality:2), (low quality:2),disfigured, ugly, old

模型:AnythingV3;


Denoising strength從0.1依次升高,第一張為原圖;


Denoising strength: 0.4~0.7(可以看到從0.5的噪聲強度開始,AI已經(jīng)開始自由發(fā)揮了,雖然也會參考原圖)


Denoising strength: 0.8~0.9 (基本完全自由發(fā)揮)


依舊是上個原圖,換為midjourney v4模型,Denoising strength測試0.2, 0.4, 0.6, 0.8

相同的提示詞,換個模型之后整體風格大變;



  • 圖片編輯測試 pix2pix


TextCFG固定:7.5,調(diào)整ImageCFG;


Put him in beach



  • 控制人物姿勢 ControlNet


提示:A girl, showing her muscles, detailed face , realistic ,8k <
lora:chilloutmixss30_v30:1>

negtive prompht: (worst quality:2), (low quality:2),disfigured, ugly, old,nsfw


除了控制姿勢,還可以控制人物的表情,這里我們只是控制人物的姿勢;



  • 圖片Inpaiting測試 img2img



給“模特”戴項鏈:


A girl, (necklace:1.5), showing her muscles, detailed face , realistic ,8k <lora:chilloutmixss30_v30:1>



給“模特”戴墨鏡:

A girl, (sunglasses:1.5), showing her muscles, detailed face , realistic ,8k <lora:chilloutmixss30_v30:1>


StableDiffusion在實際應用中的案例



?個人應用


  1. 娛樂,頭像、圖片加工(不同風格處理)、創(chuàng)作新的場景(嘗試一些場景,然后告訴SD)
  2. 快速創(chuàng)建藝術作品、設計產(chǎn)品原型


?商業(yè)應用


  1. 設計工具,幫助設計師快速創(chuàng)建產(chǎn)品原型、樣式和藝術作品
  2. 營銷工具,幫助企業(yè)快速創(chuàng)建逼真的廣告海報、產(chǎn)品展示圖、電影場景等,提高營銷效果。
  3. 個性化定制,個性化定制平臺中,幫助消費者快速創(chuàng)建個性化產(chǎn)品,例如定制T恤、鞋子等
  4. 教育上,創(chuàng)新教育,虛擬實驗,只需要有想象力就可以生成對應的圖片


探討StableDiffusion與AIGC未來的發(fā)展趨勢


將概念擴大不僅是生成圖片,而是人工智能生成內(nèi)容的話,參開ChaGPT的回答,在未來人工智能技術可能的發(fā)展方向和影響;


?媒體行業(yè)和廣告行業(yè)


人工智能內(nèi)容生成技術可以用于新聞、報道、評論等方面,幫助媒體機構更快速、高效地生成內(nèi)容。同時,它也可以用于廣告創(chuàng)意、廣告文案等方面,幫助廣告公司更好地推廣產(chǎn)品和服務。


?游戲行業(yè)和教育行業(yè)


人工智能內(nèi)容生成技術可以用于游戲角色、游戲關卡等方面,幫助游戲公司更好地設計和開發(fā)游戲。此外,它還可以用于教學資源的生成和個性化教學,例如生成教材、課件、試題等。


?金融行業(yè)和醫(yī)療行業(yè)



人工智能內(nèi)容生成技術可以用于金融報告、分析和預測,例如生成金融新聞報道、投資報告等。在醫(yī)療行業(yè)中,它可以用于醫(yī)療報告和病歷記錄,例如生成病歷記錄、醫(yī)學報告等。


?法律行業(yè)和建筑行業(yè)




人工智能內(nèi)容生成技術可以用于法律文件和合同的生成,例如生成合同、法律文書等。在建筑行業(yè)中,它可以用于建筑設計和規(guī)劃,例如生成建筑設計圖紙、規(guī)劃方案等。


?IT行業(yè)



人工智能內(nèi)容生成技術在IT行業(yè)中的應用非常廣泛,可以將其分為以下幾個子類別:


  • 內(nèi)容創(chuàng)作

人工智能內(nèi)容生成技術可以用于互聯(lián)網(wǎng)內(nèi)容的自動化生成,例如自動化生成新聞報道、博客文章、社交媒體內(nèi)容等,從而提高效率和質(zhì)量。


  • 搜索引擎

人工智能內(nèi)容生成技術可以用于搜索引擎的優(yōu)化和改進,例如生成更好的搜索結(jié)果、提高搜索的準確性和速度等。


  • 個性化推薦

人工智能內(nèi)容生成技術可以用于個性化推薦系統(tǒng)的優(yōu)化和改進,例如生成更符合用戶興趣和需求的推薦內(nèi)容。


  • 聊天機器人

人工智能內(nèi)容生成技術可以用于聊天機器人的開發(fā)和優(yōu)化,例如生成更自然、流暢的對話內(nèi)容,提升用戶體驗。


  • 數(shù)據(jù)分析

人工智能內(nèi)容生成技術可以用于大數(shù)據(jù)分析和處理,例如自動生成數(shù)據(jù)報告、分析結(jié)果等。


  • 軟件開發(fā)

人工智能內(nèi)容生成技術可以用于自動生成代碼、文檔、測試用例等,從而提高軟件開發(fā)的效率和質(zhì)量。


  • 安全領域

人工智能內(nèi)容生成技術可以用于網(wǎng)絡安全和數(shù)據(jù)安全領域,例如自動生成安全報告、分析網(wǎng)絡攻擊等。


  • 人機交互

人工智能內(nèi)容生成技術可以用于改善人機交互體驗,例如自動生成UI界面、語音交互內(nèi)容等。


  • 云計算

人工智能內(nèi)容生成技術可以用于優(yōu)化云計算服務,例如自動生成云計算資源規(guī)劃、監(jiān)控報告等。


總結(jié)


這里主要介紹了 StableDiffusion在圖片生成上的內(nèi)容,然后詳細說明了StableDiffusion 的主要術語和參數(shù),并探討了如何使用 prompt 和高級技巧(如圖像修復、訓練自定義模型和圖像編輯)來生成高質(zhì)量的圖片。最后設想了一些 StableDiffusion 在個人和商業(yè)領域的實際應用案例,討論了它在媒體、游戲、金融、法律、IT 等行業(yè)的未來發(fā)展趨勢。


最后,我們正處于 AIGC的時代,這些新技術正在改變我們的生活和工作方式,為我們帶來前所未有的機遇和挑戰(zhàn)。積極擁抱這些新技術,抓住時代的機遇,不斷學習和適應新的變化。不管以后什么行業(yè),AIGC 技術都將發(fā)揮越來越重要的作用。盡早探索未知的領域,開創(chuàng)更好的未來!


相關資源


  1. 免費的SD網(wǎng)站:https://stable-diffusion-art.com/free-ai-image-generator-sites/
  2. stable diffusion webui:https://github.com/AUTOMATIC1111/stable-diffusion-webui
  3. 關鍵詞檢索(laion-aesthetic-6pls):https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images
  4. 藝術風格匯總list of artists for SD:https://rentry.org/artists_sd-v1-4
  5. 藝術家作品列表:https://docs.google.com/spreadsheets/d/16KKh1FQmd-r98K9aWPBux5m9lc9PCV_T1AWgU54qXm8/htmlview
  6. 提示語輔助生成promptoMANIA:https://promptomania.com/
  7. Textual Inversion Embeddings:https://cyberes.github.io/stable-diffusion-textual-inversion-models/
  8. AIGC 掀起的商業(yè)浪潮:https://grow.alibaba-inc.com/course/4800013996045603
  9. Stable Diffusion特性官方介紹:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features
  10. AI作品參考:
  11. Playground AI:https://playgroundai.com/
  12. Lexica:https://lexica.art/
  13. krea:https://www.krea.ai/
  14. 模型下載:
    • Civitai:https://civitai.com/
    • Hugging Face:https://huggingface.co/models

作者:艾賀(致問)

來源:微信公眾號:大淘寶技術

出處
:https://mp.weixin.qq.com/s/NkdPkEq_GMO6FRCLc_ZSow

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定