當(dāng)前位置：首頁(yè) >人工智能 >讓AI學(xué)會(huì)畫(huà)手的方法來(lái)了，輸入加buff控制生成細(xì)節(jié)丨GitHub 4.6k星

讓AI學(xué)會(huì)畫(huà)手的方法來(lái)了，輸入加buff控制生成細(xì)節(jié)丨GitHub 4.6k星

發(fā)布時(shí)間：2024-08-11 19:50:24 瀏覽量：155次

給畫(huà)畫(huà)AI加個(gè)buff，畫(huà)起圖像就像開(kāi)了掛。加個(gè)人體骨骼綁定buff，Stable Diffusion直接快進(jìn)到生成3D動(dòng)漫：

加個(gè)抽象到爆的草圖buff，AI變著風(fēng)格生成“完全一致”的狗子：

就連號(hào)稱(chēng)“AI殺手”的手部細(xì)節(jié)，也能在控制之下畫(huà)得惟妙惟肖：

這個(gè)名叫ControlNet的新AI插件，可以說(shuō)是給畫(huà)畫(huà)AI來(lái)了最后的“臨門(mén)一腳”，原本AI無(wú)法控制的手部細(xì)節(jié)、整體架構(gòu)，有了它之后，加上Stable Diffusion這樣的擴(kuò)散模型，足以生成任何人們想要的圖像。發(fā)出不到兩天，ControlNet就在GitHub上火了，目前已經(jīng)狂攬4.6k星：

△“讓我們控制擴(kuò)散模型”

各種效果圖更是在推特上爆火，試玩過(guò)的網(wǎng)友直呼：
游戲結(jié)束！

所以，這個(gè)ControlNet究竟給擴(kuò)散模型加了什么buff？

給AI畫(huà)畫(huà)模型加buff

ControlNet的原理，本質(zhì)上是給預(yù)訓(xùn)練擴(kuò)散模型增加一個(gè)額外的輸入，控制它生成的細(xì)節(jié)。這里可以是各種類(lèi)型的輸入，作者給出來(lái)的有8種，包括草圖、邊緣圖像、語(yǔ)義分割圖像、人體關(guān)鍵點(diǎn)特征、霍夫變換檢測(cè)直線、深度圖、人體骨骼等。

那么，讓大模型學(xué)會(huì)“按輸入條件生成圖片”的原理是什么呢？ControlNet整體思路和架構(gòu)分工如下：

具體來(lái)說(shuō)，ControlNet先復(fù)制一遍擴(kuò)散模型的權(quán)重，得到一個(gè)“可訓(xùn)練副本”。相比之下，原擴(kuò)散模型經(jīng)過(guò)幾十億張圖片的預(yù)訓(xùn)練，因此參數(shù)是被“鎖定”的。而這個(gè)“可訓(xùn)練副本”只需要在特定任務(wù)的小數(shù)據(jù)集上訓(xùn)練，就能學(xué)會(huì)條件控制。據(jù)作者表示，即使數(shù)據(jù)量很少（不超過(guò)5萬(wàn)張圖片），模型經(jīng)過(guò)訓(xùn)練后條件控制生成的效果也很好。

“鎖定模型”和“可訓(xùn)練副本”通過(guò)一個(gè)1×1的卷積層連接，名叫“0卷積層”。0卷積層的權(quán)重和偏置初始化為0，這樣在訓(xùn)練時(shí)速度會(huì)非?？?，接近微調(diào)擴(kuò)散模型的速度，甚至在個(gè)人設(shè)備上訓(xùn)練也可以。例如一塊英偉達(dá)RTX 3090TI，用20萬(wàn)張圖像數(shù)據(jù)訓(xùn)練的話只需要不到一個(gè)星期：

作者基于當(dāng)前大火的Stable Diffusion進(jìn)行了具體實(shí)現(xiàn)，主要架構(gòu)如下：

針對(duì)不同的輸入，作者也給出了對(duì)應(yīng)不同的模型，生成效果也都不錯(cuò)。例如這是采用Canny邊緣檢測(cè)算法檢測(cè)出的邊緣，用于生成圖像：

這是基于霍夫變換的直線檢測(cè)算法生成的直線草圖，用于生成各種風(fēng)格的室內(nèi)設(shè)計(jì)：

當(dāng)然，自己作畫(huà)也可以，例如這是基于用戶草圖生成的小龜：

提取深度圖，并讓AI生成一幅相似的圖像，直接舉一反五：

語(yǔ)義分割下的游泳池圖像，不僅水里有倒影細(xì)節(jié)，建筑也變化多樣：

不過(guò)目前來(lái)看，最受歡迎的還是基于人體姿態(tài)估計(jì)算法，控制動(dòng)漫人物的動(dòng)作生成：

看到這里，是不是已經(jīng)有了大膽的想法？（手動(dòng)狗頭）

曾開(kāi)發(fā)爆火AI上色插件

這個(gè)項(xiàng)目的作者Lvmin Zhang，2021年本科畢業(yè)于東吳大學(xué)，目前在斯坦福大學(xué)讀博。他最出名的項(xiàng)目之一，是2017年開(kāi)發(fā)的AI上色插件style2paints，目前GitHub上已經(jīng)有15.9k星。

style2paints也經(jīng)過(guò)了好幾次迭代，目前即將更新到第五版。這是第四版的效果，只需要線稿，AI就能自動(dòng)給你的圖像完成上色：

除了這個(gè)項(xiàng)目以外，他也是CV頂會(huì)的?？土?。

One More Thing

值得一提的是，現(xiàn)在已經(jīng)有基于ControlNet的國(guó)內(nèi)產(chǎn)品上線了。這個(gè)產(chǎn)品名叫稿定AI，包含照片轉(zhuǎn)插畫(huà)、插畫(huà)線稿上色、插畫(huà)優(yōu)化翻新等功能，正是基于ControlNet打造。作畫(huà)效果大概是醬嬸的：