激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

深度解析AI繪畫技術(shù)的原理

發(fā)布時間:2023-12-19 17:44:08 瀏覽量:230次

隨著AIGC的發(fā)展,AI繪畫逐漸進入我們的生活和工作。本文將探討AI繪畫技術(shù)的各個方面。從圖像生成技術(shù)邁出的里程碑事件,到對AI繪畫技術(shù)的深度科普,再到未來的發(fā)展趨勢分析,相信本文將能夠為大家揭示AI繪畫背后的神秘面紗,一起來深入了解其技術(shù)原理吧。

我會通過兩篇文章來對AI繪畫產(chǎn)品進行分析,第一篇主要科普圖像生成技術(shù)原理;第二篇是分析AI繪畫產(chǎn)品商業(yè)化落地,算是我近期對AI繪畫產(chǎn)品了解的一個總結(jié)輸出,以下是第一篇內(nèi)容。

2022年9月一幅名為《太空歌劇院》的畫作在數(shù)字藝術(shù)類別比賽中一舉奪冠,這個震驚四座的畫作由游戲設(shè)計師Jason Allen使用Midjourney完成,AI繪畫進入人們的視野。

人們第一次意識到AI做出來的畫可以如此精美,意識到AI繪畫可能如同當(dāng)年相機、數(shù)字繪畫的出現(xiàn)一樣,會給繪畫設(shè)計行業(yè)帶來一場深刻的變革。

這篇文章從產(chǎn)品經(jīng)理視角,了解AI繪畫產(chǎn)品的背后有哪些算法模型、他們的技術(shù)原理是什么?不同技術(shù)的邊界在哪里,使用場景在哪里?產(chǎn)品經(jīng)理要懂得將算法合理的組合使用,以滿足日常工作的需求,實現(xiàn)產(chǎn)品目標(biāo)。

  1. AI繪畫發(fā)展的主要節(jié)點
  2. AI繪畫的底層原理
  3. 主流的圖像生成模型解析
  4. AI繪畫的可控性有哪些
  5. AI繪畫的技術(shù)研究趨勢

一、AI繪畫發(fā)展的主要節(jié)點

1. 2012年AI畫出了一只模糊的貓

吳恩達(dá)和杰夫安迪使用了1.6萬個CPU和You Tube上1000萬張貓的圖片,用時3天時間訓(xùn)練了當(dāng)時最大的深度學(xué)習(xí)模型,最終生成了一張貓臉。

雖然這張貓的圖片看起來非常模糊,而且耗時又非常久,但對當(dāng)時的計算機視覺來講具有重要突破意義的嘗試,開啟了AI繪畫研究的全新方向。

為什么當(dāng)時基于深度學(xué)習(xí)模型的AI繪畫那么麻煩?主要是整個模型需要利用大量標(biāo)注好的訓(xùn)練數(shù)據(jù),根據(jù)輸入和所對應(yīng)的預(yù)期輸出,不斷地調(diào)整模型內(nèi)部的參數(shù)進行匹配。例如生成一張512*512 *3(RGB)的畫,要將這些像素有規(guī)律的組合,會涉及到龐大參數(shù)迭代調(diào)整的過程。

2. 2015年文生圖重要的拐點

2015年出了一項人工智能的重大進展——智能圖像識別。機器學(xué)習(xí)可以對圖像中的物體貼上標(biāo)簽,然后將這些標(biāo)簽轉(zhuǎn)化成自然語言描述。

一些研究人員產(chǎn)生了好奇,如果把這個過程反向,通過文字來生成畫面,是否也能實現(xiàn)呢?

于是他們向計算機模型輸入了一些文字,看看能產(chǎn)生什么原因,結(jié)果模型真的生成了一些結(jié)果圖片。如下圖中所示,這時產(chǎn)生了32*32像素的小圖片,基本很難辨別出啥,但已經(jīng)預(yù)示著無限的可能性。

3. 2021年OpenAI宣布Dalle

2021年年初,OpenAI發(fā)布了引發(fā)巨大關(guān)注的DALL-E系統(tǒng),但DALL-E的繪畫水平還是很一般,之所以引發(fā)關(guān)注,是因為他實現(xiàn)了輸入文字就可以繪畫創(chuàng)作的可能,比之前生成的圖片質(zhì)量高很多。

4. 2022年開啟AI繪畫的元年

2月 Disco diffusion V5發(fā)布

在2022年的2月,由somnai等幾個開源社區(qū)的工程師做了一款基于擴散模型的AI繪圖生成器——Disco diffusion。從它開始,AI繪畫進入了發(fā)展的快車道,潘多拉魔盒已經(jīng)打開。

越來越多的人開始使用Disco diffusion創(chuàng)作作品,但是它有一個致命的缺點就是它生成的畫面都十分的抽象,這些畫面用來生成抽象畫還不錯,但是幾乎無法生成具象的人。

由于生成速度較慢,操作復(fù)雜、生成的風(fēng)格相對比較抽象, 目前使用的人沒有Stable Diffusion 和Midjourney那么多。

3月 Midjouney

Midjouney選擇搭載在discord平臺,借助discord聊天式的人機交互方式,不需要之前繁瑣的操作,也沒有Disco diffusion十分復(fù)雜的參數(shù)調(diào)節(jié),你只需要向聊天窗口輸入文字就可以生成圖像。更關(guān)鍵的是,Midjouney生成的圖片效果非常驚艷,普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品,竟然是AI繪畫生成的。

4月 DALL·E 2

4月10日,之前提到過的OpenAI推出的第二代圖像生成人工智能模型DALL·E 2。與第一代DALL-E相比,DALL-E 2在圖像質(zhì)量、生成速度和多樣性等方面都有顯著提升。影響力不及Chat GPT,個人消費者對他沒有那么喜歡,因為他生成的圖片的風(fēng)格更傾向于更一本正經(jīng),比較傳統(tǒng)一些。

7月 Stable diffusion

7月29日 一款叫Stable diffusion的AI生成器開始內(nèi)測,人們發(fā)現(xiàn)用它生成的AI繪畫作品,其質(zhì)量可以媲美DALL·E 2,而且還沒那么多限制。

Stable diffusion內(nèi)測不到1個月,正式宣布開源,開源讓AI繪畫技術(shù)的普及,也是讓領(lǐng)域能有更多人開發(fā)貢獻,加快技術(shù)的應(yīng)用發(fā)展。

二、AI繪畫的底層原理

AI繪畫的根源來源于人工神經(jīng)網(wǎng)絡(luò),科學(xué)家受人類神經(jīng)元啟發(fā),設(shè)計出的人工神經(jīng)網(wǎng)絡(luò)長下面這樣。

神經(jīng)網(wǎng)絡(luò)都是用數(shù)學(xué)公式表示的,沒有實體結(jié)構(gòu),圖里面的這些圈和連線是對神經(jīng)網(wǎng)絡(luò)的一種可視化呈現(xiàn),方便我們理解。

這圖中圓圈里都有一個計數(shù)器,當(dāng)這個計數(shù)器接收到左邊連線傳來的數(shù)時,會進行一次簡單的計算,然后把計算結(jié)果(也是一個數(shù))輸出,通過連線傳給右邊的圓圈,繼續(xù)重復(fù)類似的過程,直到數(shù)字從最右側(cè)的圓圈輸出。

人類的不同神經(jīng)元之間連接的強度是不一樣的,有些粗一點,有些細(xì)一點。正是這些連接強度,讓我們產(chǎn)生了記憶和知識。

對于神經(jīng)網(wǎng)絡(luò)來說,也有相似的規(guī)律:圓圈和圓圈之間的連線的“權(quán)重”不同。

神經(jīng)網(wǎng)絡(luò)左側(cè)輸入一些列數(shù)字,神經(jīng)網(wǎng)絡(luò)會按照圓圈里的計算規(guī)則及連線的權(quán)重,把數(shù)字從左到右計算和傳遞,最終,從最右側(cè)的圓圈輸出一系列數(shù)字。

那如何讓神經(jīng)網(wǎng)絡(luò)畫一幅畫?

原理其實比較好理解,首先需要將圖片轉(zhuǎn)化成計算機能理解的數(shù)字語言,對于計算機而言圖片就是一串?dāng)?shù)字,每個像素顏色由3個RGB數(shù)值表示。

然后將一串?dāng)?shù)字輸入到?jīng)]有訓(xùn)練過得神經(jīng)網(wǎng)絡(luò)模型,也會生成一串?dāng)?shù)字,只不過解碼后可能就是一張亂碼圖片,所以需要大量數(shù)據(jù)和不斷調(diào)整算法參數(shù)的權(quán)重,最終訓(xùn)練一個能畫貓的模型。例如當(dāng)輸入圖片貓或文字貓,都能轉(zhuǎn)化成一串?dāng)?shù)字到模型中,輸出一個正確的貓圖片。

圖像生成模型是在不斷演化的,從最早的VAE到風(fēng)靡一時的GAN,到當(dāng)今的王者Diffusion模型,那我們接下來介紹下不同模型的技術(shù)原理是什么。

三、主流的圖像生成模型解析

1. VAE — 打開生成模型的大門

VAE是AE的升級版本,AE由一個編碼器網(wǎng)絡(luò)和一個解碼器網(wǎng)絡(luò)組成。編碼器將輸入數(shù)據(jù)映射到潛在空間中的隱變量表示,解碼器則將隱變量映射回重構(gòu)的數(shù)據(jù)空間。

如上圖,假設(shè)有一張圖像,通過編碼器提取了多種特征,比如特征1字體顏色、特征2字體粗細(xì)、特征3字體形狀。傳統(tǒng)的自編碼器對輸入圖像的潛在特征表示為具體的數(shù)值,比如顏色=0.5,粗細(xì)=0.8,形狀=0.6。這些數(shù)值通過解碼器恢復(fù)出于原圖像相似的圖像。

那這樣的模型解決什么問題呢?

主要應(yīng)用在降維/可視化和去噪的場景中。

我們生活存在大量的文本、圖像、語音數(shù)據(jù),這些數(shù)據(jù)存在大量的冗余信息,理論上是可以用極少的向量來表示,所以可以用來圖像壓縮處理,這跟傳統(tǒng)的圖像壓縮技術(shù)完全不一樣。后面講到的stable diffusion 模型就用到AE的潛空間來進行低維度的降噪和生成真實圖像。

在應(yīng)用場景中也能發(fā)現(xiàn),他僅適合用于重建圖像,不適用于生成新的圖像,所以有了VAE的誕生。

VAE與AE的區(qū)別在,VAE在編碼器輸出的分布曲線值,而非離散值,這樣的話輸入的圖像就跟壓縮向量就不是直接對應(yīng)關(guān)系,這樣就可以生成新的圖像。

如上圖,我們將每個特征通過概率分布進行表示。比如顏色的取值范圍為[-1,1],粗細(xì)的取值范圍為[-3,3],形狀的取值范圍為[-5,5]。我們可以在范圍內(nèi)對每個特征進行取值,然后通過解碼器生成新圖像。例如給一張人臉可以生成不同表情的人臉。

VAE不僅除了應(yīng)用在壓縮、去噪和生成新的圖像也可以應(yīng)用在圖像分割上,例如自動駕駛的道路檢測。

但VAE生成圖像存在局限性,生成圖像的質(zhì)量不高,存在模糊和不真實。

2. GAN — 創(chuàng)建“以假亂真”的新數(shù)據(jù)

GAN包含了兩個模型,生成模型(Generator)和判別模型(Discirminator),給生成模型隨機輸入噪聲,生成圖片;給判別模型輸入真實數(shù)據(jù)和生成的圖片,判別生成的圖片是真的還是假的。

剛開始生成器生成的圖片給判別器,判別器一看就是假的,打回去讓生成器重新生成,同樣判別模型也要提升自己的判別水平,經(jīng)過無數(shù)次的對抗,直到生成模型生成的圖片騙過判別模型。

GAN的應(yīng)用場景有哪些?

GAN的應(yīng)用場景非常廣泛,在圖像生成,生成不存在的人物、物體、動物;圖像修復(fù)、圖像增強、風(fēng)格化和藝術(shù)的圖像創(chuàng)造等。不一一列舉,想要詳細(xì)了解的可以看鏈接:
https://zhuanlan.zhihu.com/p/75789936

曾經(jīng)大紅大紫的GAN為什么會被Diffusion取代?

1.GAN的訓(xùn)練過程過程相對不穩(wěn)定,生成器和判別器之間的平衡很容易打破,容易導(dǎo)致模型崩潰或崩塌問題;

2.判別器不需要考慮生成樣品的種類,而只關(guān)注于確定每個樣品是否真實,這使得生成器只需要生成少數(shù)高質(zhì)量的圖像就足以愚弄判別者;

3.生成的圖像分辨率較低;

因此,以GAN模型難以創(chuàng)作出有創(chuàng)意的新圖像,也不能通過文字提示生成新圖像。

3. Diffusion — 圖像生成模型的皇冠

目前主流國內(nèi)外靠譜的圖片生成技術(shù)主要基本都是基于Diffusion Model (擴散模型) 來進行的實現(xiàn),包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等主流產(chǎn)品,但是實際技術(shù)在處理方面又各有區(qū)別,也導(dǎo)致會有不司的表現(xiàn)形態(tài),核心一方面是底層模型訓(xùn)練的圖語料不同,另外一個方面是一些算法方面的微調(diào)區(qū)別。

Diffusion模型生成圖片的過程可以理解像是石雕的過程,從一塊石頭經(jīng)過不斷的雕刻變成一件藝術(shù)作品,從一個噪點圖像不斷去噪生成一張真實圖像。

那擴散模型是怎么訓(xùn)練的?

Diffusion模型的訓(xùn)練可以分為兩個部分:

  1. 前向擴散過程(Forward Diffusion Process) —— 向圖片中不斷添加噪聲,直到圖片變成完全的噪點圖片的過程。
  2. 反向擴散過程(Reverse Diffusion Process) —— 是將噪點圖片不斷的還原為原始圖片的過程。

官方給出的有3個訓(xùn)練步驟,如下圖:

  1. 對于每張圖像先隨機生成一個長T,T表示從一張原始圖到高斯噪聲圖要多少次。
  2. 給原始圖片添加T次高斯噪聲,不同T時圖像添加的噪聲深度會有所不同。
  3. 將T和對應(yīng)的圖片放入到UNet模型中訓(xùn)練,這樣還原圖片就能預(yù)測T步驟中的噪聲。

反向擴散訓(xùn)練過程步驟如下圖:

  1. 采樣一張高斯噪聲圖,假如T設(shè)置為1000
  2. 將高斯噪聲和T輸入到UNet模型中預(yù)測噪聲,下一步的高斯噪聲為上一步高斯噪聲減去預(yù)測噪聲,以此步驟直到T為0
  3. T為0時還原最終的圖像

Diffusion模型的大數(shù)據(jù)訓(xùn)練,數(shù)據(jù)訓(xùn)練來自于LAION-5B包含58.3文本-圖像對,并且是篩選了評分高的圖片進行訓(xùn)練。通過大數(shù)據(jù)模型訓(xùn)練,讓模型具有生成圖像的能力。有了生成圖像能力還不夠,需要能聽得懂需求的能力,根據(jù)文字輸入就能生成圖像。

4. CLIP—打造圖文匹配

CLIP是OpenAI在2021年開源的模型,一種基于對比文本-圖像對的預(yù)訓(xùn)練方法或者模型,確保計算機在文字描述和圖像之間形成互通。

在CLIP推出一年后,幾個開源社區(qū)的工程基于CLIP+Diffusion就開發(fā)了Disco Diffusion,后面的midjourney和stable diffusion模型都有使用CLIP模型。

據(jù)統(tǒng)計,CLIP模型搜集了網(wǎng)絡(luò)上超過4億的“文本-圖像”作為訓(xùn)練數(shù)據(jù),為文本生成圖像/視頻應(yīng)用的落地奠定了基礎(chǔ),實現(xiàn)了跨模態(tài)的創(chuàng)新。

以上圖像生成相關(guān)的模型都以解析完,那我們拿Stable Diffusion 來進行梳理下整個圖像生成的流程是怎么樣和整體架構(gòu),其他圖像生成模型大致也差不多。

5. Stable Diffusion 模型結(jié)構(gòu)

Stable Diffusion主要有三部分組成,像素空間、潛在空間 、條件機制。

像素空間:使用的AE模型將圖像壓縮到潛在空間訓(xùn)練和將生成的低維向量轉(zhuǎn)化成真實圖像,這樣提升生成速度和降低算力要求。

潛在空間:Diffusion模型在潛在空間進行加噪和去噪的訓(xùn)練,去噪的過程需要導(dǎo)入條件,生成符合預(yù)期圖片。

條件機制:條件可以是文字、圖像、音頻、視頻,將條件轉(zhuǎn)化成向量值,作為Diffusion模型生成過程中的引導(dǎo)因子。

Stable Diffusion圖像生成流如下:

通過以上擴散模型原理大致也明白AI生成的圖像帶有較大的隨機性,生成的每張圖像都不一樣,這種隨機性帶來的好處是無窮無盡的想象力,但同時也面臨著不可控,有點靠運氣,生成理想的圖像只能多嘗試。AI繪畫想要擴大商業(yè)化落地,必須要解決精準(zhǔn)可控性問題。

四、AI繪畫的可控性有哪些

除了輸入文字、墊圖的方式還最流行的微調(diào)模型叫Lora和最近幾個月更新的Controlnet來控制圖片的生成,這幾個小模型可以理解為Stable Diffusion的一種插件。

1. Lora模型

在不修改SD模型的前提下,教會利用少量數(shù)據(jù)訓(xùn)練出只可意會不可言傳的風(fēng)格,實現(xiàn)定制化需求,對算力的要求不高,模型適中在幾十MB大小。

Lora 必須搭配在SD模型上一起使用。

Lora可以自己訓(xùn)練也可以在著名的模型分享網(wǎng)站https://civitai.com/上下載,有大量Lora模型,其中SD模型僅有2000個,剩下4萬個基本都是LoRA等小模型。

例如想要生成下面風(fēng)格的汽車,我們找到這款不同角度的一些圖片作為Lora訓(xùn)練。生成汽車的風(fēng)格跟想要風(fēng)格汽車很相似。

微調(diào)模型不止有Lora 模型,還有Textual Inversion、Hypernetwork、Dreambooth。只是Lora 模型比較穩(wěn)定,使用門檻相對低,所以目前比較流行。

2. Controlnet模型

Controlnet就是控制網(wǎng)的意思,其實就是在大模型外部通過疊加一個神經(jīng)網(wǎng)絡(luò)來達(dá)到精準(zhǔn)控制輸出的內(nèi)容。很好的解決了單純的關(guān)鍵詞的控制方式無法滿足對細(xì)節(jié)控制的需要,比微調(diào)模型更進一步對圖像生成的控制。

想要對Controlnet有更詳細(xì)的了解可查看如下鏈接:

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI繪畫的技術(shù)研究趨勢

1. 更強的語義理解

使用AI繪畫生成高質(zhì)量、精美的生成圖像需要在在prompt做很多努力,可見prompt對最終效果的影響。因此,如何降低用戶使用prompt的門檻,讓AI更能理解語義,值得研究的方向。

2. 更精準(zhǔn)可控生成

目前可控生成是一個大火的領(lǐng)域,也有像ControlNet這樣的精品,可以通過輸入簡單的線稿圖、人體姿態(tài)圖、分割圖、深度圖等生成滿足條件的內(nèi)容,但距離真正的精準(zhǔn)控制仍有差距。可喜的是,可控生成發(fā)展得越來越快,精準(zhǔn)控制并不是遙不可及,圖像生成AI也會隨之拓展其應(yīng)用邊界,如一致性的視頻生成、精確的構(gòu)圖設(shè)計都會改變許多領(lǐng)域的工作方式。

最近,來自馬克斯?普朗克計算機科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶以交互的方式「拖動」圖像的任何點精確到達(dá)目標(biāo)點。

這種全新的控制方法非常靈活、強大且簡單,有手就行,只需在圖像上「拖動」想改變的位置點(操縱點),就能合成你想要的圖像。

3. 運算速度更快

影響Diffusion在生成圖片的速度除了顯卡的性能,很重要一個原因是,每生成一張圖片需要去噪1000次,速度相對還不是很快,為了能在解決這個問題,OpenAI曾在3月發(fā)布了一篇重磅、且含金量十足的論文「一致性模型 Consistency Models」,在訓(xùn)練速度上顛覆了擴散模型,能夠 『一步生成』 ,比擴散模型更快一個數(shù)量級完成簡單任務(wù),而且用到的計算量還要少10-2000倍。

以上就是從圖像生成技術(shù)里程事件到對圖像生成技術(shù)的科普以及未來的發(fā)展趨勢分析,我相信通過以上內(nèi)容很容易就理解了AI繪畫背后的技術(shù)。下一篇對AI繪畫產(chǎn)品商業(yè)化落地進行分析。

作者:Rzhiyi,8年產(chǎn)品經(jīng)理經(jīng)驗,做過AI皮膚檢測系統(tǒng)和SaaS類產(chǎn)品

本文由@Rzhiyi 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。提供信息存儲空間服務(wù)。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定