激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

基于AI的建筑設(shè)計(jì)探索——以Stable Diffusion為例

發(fā)布時(shí)間:2024-01-12 19:04:13 瀏覽量:310次

首先先吐槽一下版面費(fèi),太貴了6400………………舍不得錢發(fā)表,直接共享了得了。


基于AI(artificial intelligence)的建筑設(shè)計(jì)探索——以Stable Diffusion為例

Exploration of AI-based Architecture Design - A Case Study of Stable Diffusion

摘要:近一年來(lái),各種AI圖像生成程序席卷了整個(gè)互聯(lián)網(wǎng),隨著AI技術(shù)的不斷進(jìn)步,傳統(tǒng)的設(shè)計(jì)行業(yè)也隨之而改變。本文主要基于stable diffusion為例,探討AI圖像生成程序?qū)τ诮ㄖO(shè)計(jì)的影響,簡(jiǎn)要闡述世面常見(jiàn)AI程序及其相關(guān)原理,探索基于AI生成的建筑設(shè)計(jì)探索,提出未來(lái)可能的建筑設(shè)計(jì)流程??梢钥闯?,以Stable Diffusion等為代表的圖像生成軟件在建筑設(shè)計(jì)領(lǐng)域有著廣闊的應(yīng)用前景,它們可以幫助建筑師在前期方案階段快速探索多種可能性,提高設(shè)計(jì)效率和創(chuàng)造力。

Summary: Over the past year, various AI image generation programs have swept the entire internet, and with the continuous advancement of AI technology, the traditional design industry has also changed accordingly. This article mainly explores the impact of AI image generation programs on architectural design using stable diffusion as an example. It briefly elaborates on common AI programs and their related principles, explores AI-generated architectural design, and proposes possible future architectural design processes. It can be seen that image generation software represented by Stable Diffusion has broad application prospects in the field of architectural design. They can help architects quickly explore multiple possibilities in the early stage of the scheme, improve design efficiency and creativity.

關(guān)鍵詞:AI設(shè)計(jì)、Stable Diffusion、artificial intelligence、AI設(shè)計(jì)流程、AI設(shè)計(jì)方法

Keywords: AI design, Stable Diffusion, artificial intelligence, AI design process, AI design methods

一、 研究背景與意義

《建筑學(xué)報(bào)》曾在2022年9月以“構(gòu)造未來(lái):有關(guān)建筑學(xué)趨勢(shì)的設(shè)想”為專題出版了一期雜志,其中袁烽教授在《思辨人類世中的建筑數(shù)字未來(lái)》一文中指出:建筑業(yè)的“意圖——建筑制圖——再現(xiàn)——建造”的傳統(tǒng)流程亟待更新。新技術(shù)時(shí)代允許機(jī)器智能可以無(wú)縫銜接從意向到建造的全過(guò)程,這種人機(jī)智能共生的設(shè)計(jì)范式將誕生全新的創(chuàng)造力與生產(chǎn)力[1]。

圖1:傳統(tǒng)的設(shè)計(jì)建造流程

然而,就在這篇文章發(fā)布不到半年的時(shí)間里,就有許多的科技公司陸續(xù)發(fā)布了以神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)為基礎(chǔ)的 AI (Artificial Intelligence) 繪圖軟件,這些軟件能夠依據(jù)文件生成逼真圖像從而席卷了互聯(lián)網(wǎng),使它們成為迄今采用速度最快的技術(shù)之一[[1]]。其中一些AI生成工具,如DALL-E、MidJourney或ChatGPT已經(jīng)獲得了廣泛的公眾知名度。

這些AI創(chuàng)作的圖像不僅僅應(yīng)用于人物生成,也可以創(chuàng)造出令人驚嘆的建筑方案。AI有潛力改變建筑師在設(shè)計(jì)階段和概念創(chuàng)意階段的工作方式,大家除了驚嘆以外,更多討論的是AI將如何影響建筑設(shè)計(jì)的未來(lái)。隨著科技水平的不斷進(jìn)步,AI設(shè)計(jì)在未來(lái)可能成為創(chuàng)造力的基石。雖然現(xiàn)階段AI設(shè)計(jì)尚不完善,但是該技術(shù)的主要優(yōu)勢(shì)在于AI能夠快速捕捉項(xiàng)目的愿景并給與具象的概念,在項(xiàng)目的早期階段甚至可以取代草圖和概念設(shè)計(jì)[[2]]。可以想象在未來(lái),AI設(shè)計(jì)將會(huì)成為整個(gè)設(shè)計(jì)流程中重要的一部分,人機(jī)協(xié)作的流程將變革為“意向——生成——優(yōu)化——建造——評(píng)估”的螺旋進(jìn)化式流程。

圖2:人工智能參與設(shè)計(jì)流程

現(xiàn)在比較主流的AI繪圖軟件有三款:DALL-E,midjourney和Stable Diffusion。這三款軟件均是基于文字生成圖片的基本原理來(lái)進(jìn)行運(yùn)作[[3]]。輸入的文字可以理解為對(duì)設(shè)計(jì)的意向,AI通過(guò)大語(yǔ)言模型根據(jù)文字意向生成相應(yīng)的結(jié)果,設(shè)計(jì)師可以基于AI生成的結(jié)果而進(jìn)行優(yōu)化、建造、評(píng)估;待評(píng)估完畢后設(shè)計(jì)師將評(píng)估結(jié)果讓AI進(jìn)一步學(xué)習(xí),這樣一個(gè)螺旋進(jìn)化式流程便形成了。

二、常見(jiàn)AI繪圖軟件相關(guān)介紹

1.Stable Diffusion

Stable Diffusion是一種潛在的文本到圖像擴(kuò)散模型(latent text-to-image diffusion model),能夠在給定任何文本輸入的情況下生成照片般逼真的圖像。它是由StabilityAI在2022年發(fā)布,是基于LAION-5B數(shù)據(jù)庫(kù)的512x512圖像子集上訓(xùn)練潛在擴(kuò)散模型。而擴(kuò)散模型是一種圖像生成模型,它通過(guò)學(xué)習(xí)如何迭代地反轉(zhuǎn)高斯噪聲,將隨機(jī)高斯噪聲轉(zhuǎn)換成圖像[[4]]。相比之前的text-to-image模型,Stable Diffusion通過(guò)將圖像形成過(guò)程分解為逐步應(yīng)用去噪自編碼器和擴(kuò)散模型(DM),DM在圖像數(shù)據(jù)及其它方面實(shí)現(xiàn)了最先進(jìn)的合成結(jié)果。因此,該模型相對(duì)較輕且可以在至少具有10GB VRAM的GPU上運(yùn)行[[5]]。

圖3使用圖像到圖像的風(fēng)格轉(zhuǎn)移應(yīng)用程序進(jìn)行擴(kuò)散過(guò)程(以草圖為輸入,真實(shí)圖片為輸出)。

2.Midjourney (https://www.midjourney.com/)

Midjourney由同名的獨(dú)立研究實(shí)驗(yàn)室創(chuàng)建的,他們是一個(gè)僅有11名全職員工的小型自助團(tuán)隊(duì)。Midjourney可以從文本描述中合成圖像,旨意探索新的思維媒介,擴(kuò)展人類的想象力[[6]]。Midjourney傾向于生成超現(xiàn)實(shí)主義圖像,深受藝術(shù)家的歡迎。

3.DALL·E

DALL·E是OpenAI基于GPT-3(120億參數(shù)版本)訓(xùn)練而成的神經(jīng)網(wǎng)絡(luò)程序,它通過(guò)使用文本-圖像對(duì)應(yīng)的數(shù)據(jù)集中獲取信息,可以根據(jù)自然語(yǔ)言表述的各種概念創(chuàng)建圖像。DALL-E 2是DALL-E的后續(xù)版本,OpenAI從互聯(lián)網(wǎng)抓取了大約6.5億個(gè)圖像文本并對(duì)其進(jìn)行了訓(xùn)練,它可以在更高分辨率下創(chuàng)建比DALL-E更逼真的圖像,并可以生成不同的概念、屬性和風(fēng)格[[7]]。

幾款軟件相比,由于DALL.E 2是基于數(shù)百萬(wàn)張庫(kù)存圖像進(jìn)行訓(xùn)練的,所以它所創(chuàng)造的輸出更加復(fù)雜,最適合企業(yè)使用[[8]]。根據(jù)Stable Diffusion的創(chuàng)始人Emad Mostaque的說(shuō)法,DALL.E 2的修復(fù)功能是其最佳特性,使其與其他圖像生成器區(qū)分開(kāi)來(lái)[9]。此外,與Midjourney或Stable Diffusion相比,DALL.E 2在有超過(guò)2個(gè)角色的情況下生成的圖像要好得多[10]。

而midjourney更具有藝術(shù)家風(fēng)格,偏向憑空想象、無(wú)中生有。渲染效果和補(bǔ)充效果也更好。在設(shè)計(jì)中,它更偏向給出具有創(chuàng)意的概念方案或者天馬行空的設(shè)計(jì)靈感[11]。

Stable Diffusion的塑形控制能力更好,插件也更多,且為開(kāi)源[[12]],所以應(yīng)用更廣泛,控制能力更高,適合對(duì)方案進(jìn)行推敲,并且能夠適應(yīng)具有限定條件和不斷變化的設(shè)計(jì)要求。因此,對(duì)比三款軟件,本文主要基于Stable Diffusion進(jìn)行AI設(shè)計(jì)流程的研究與探討。

圖4:在同樣的文字輸入情況下三款軟件的生成結(jié)果對(duì)比

  1. Stable Diffusion工作原理和意向的前期準(zhǔn)備

Stable Diffusion為開(kāi)源程序,因此眾多程序員基于其原始代碼進(jìn)行二次開(kāi)發(fā)。其中“AUTOMATIC1111”于2022年9月在github發(fā)布了基于個(gè)人電腦本地部署的“Stable Diffusion webUI”程序,這代表著個(gè)人免費(fèi)文生圖程序時(shí)代的蒞臨。而本地部署webUI程序也是AI輔助設(shè)計(jì)的第一步工作。然而,在進(jìn)行AI輔助設(shè)計(jì)之前,我們?nèi)孕铚?zhǔn)備和了解另外兩款基于Stable Diffusion的插件——ControlNet以及LoRA。

ControlNet可以支持額外的輸入條件用來(lái)控制預(yù)訓(xùn)練大型擴(kuò)散模型。像stable diffusion這樣的大型擴(kuò)散模型同樣也可以通過(guò)controlnet進(jìn)行增強(qiáng),比如利用邊緣圖、分割圖、關(guān)鍵點(diǎn)(edge maps, segmentation maps, keypoints)等條件輸入,可以實(shí)現(xiàn)多樣的控制大型擴(kuò)散模型的方法,并進(jìn)一步促進(jìn)圖像生成的相關(guān)應(yīng)用[[13]]。

圖5:使用Hough線(M-LSD)控制stable diffusion。 “自動(dòng)提示”是由BLIP根據(jù)默認(rèn)結(jié)果圖像生成的,而不使用用戶提示。

LoRA(Low-Rank Adaptation)為一種大語(yǔ)言模型的低階適應(yīng)方法。該方法將預(yù)訓(xùn)練模型權(quán)重凍結(jié),從而大大減少了下游任務(wù)的可訓(xùn)練參數(shù)數(shù)量。經(jīng)過(guò)研究,LoRA可將可訓(xùn)練參數(shù)的數(shù)量減少10,000倍,并將GPU內(nèi)存需求降低3倍[[14]]。LoRA除了應(yīng)用在像ChatGPT這樣的大語(yǔ)言模型之外,在圖像生成模型中表現(xiàn)更為優(yōu)異。我們可以通過(guò)訓(xùn)練并使用LoRA模型更加精準(zhǔn)的控制圖像生成的風(fēng)格。

  1. 基于Stable Diffusion的建筑設(shè)計(jì)生成研究

筆者通過(guò)不斷的試錯(cuò)與研究,初步得出基于stable Diffusion建設(shè)設(shè)計(jì)生成方法,可供大家參考:

  1. 自然語(yǔ)言生成的模型要比提示詞(tag)堆疊的效果要好;
  2. 建筑設(shè)計(jì)生成質(zhì)量的好壞取決于LoRA訓(xùn)練的品質(zhì)好壞;
  3. 多樣性的建筑設(shè)計(jì)生成風(fēng)格需配合多樣性LoRA;
  4. 使用contronet配合語(yǔ)義分割法(Seg)能夠更好的控制圖像生成質(zhì)量

圖6:基于SU草模生成的建筑效果圖對(duì)比

圖7:不同LoRA生成圖片對(duì)比

圖8:動(dòng)漫風(fēng)格與木模型風(fēng)格效果生成

  1. 總結(jié)與暢想

AIGC發(fā)展的速度飛快,從互聯(lián)網(wǎng)的各種教程和展示可以看出,以Stable Diffusion等為代表的圖像生成軟件在建筑設(shè)計(jì)領(lǐng)域有著廣闊的應(yīng)用前景,它們可以幫助建筑師在前期方案階段快速探索多種可能性,提高設(shè)計(jì)效率和創(chuàng)造力。

對(duì)于未來(lái)的建筑設(shè)計(jì)的流程來(lái)說(shuō),Stable Diffusion可以做到以下四個(gè)方面:

1.從低信息量到高信息量的生成。可以根據(jù)建筑師提供的簡(jiǎn)單的體塊模型、手繪草圖或?qū)嶓w模型,生成更加細(xì)節(jié)豐富和風(fēng)格多樣的建筑方案。這樣可以在保持設(shè)計(jì)框架的同時(shí),豐富設(shè)計(jì)細(xì)節(jié),深化設(shè)計(jì)。

2.從非建筑信息到建筑信息的遷移。可以將與建筑無(wú)關(guān)的信息轉(zhuǎn)化為建筑信息,例如將物件擺放、自然菌類或其他非人類信息作為輸入,生成對(duì)應(yīng)的建筑場(chǎng)景或形態(tài)。這樣可以拓展建筑師的視野和靈感,探索更多與建筑相關(guān)的理論和方法。

3.從一個(gè)方案到多個(gè)方案的擴(kuò)展。可以利用隱空間中參數(shù)的連續(xù)性,生成一系列具有相似性和變化性的建筑方案。這樣可以給建筑師提供更多的選擇和可能性,優(yōu)化設(shè)計(jì)方案。

4.從二維圖像評(píng)估到三維模型生成的轉(zhuǎn)變??梢越Y(jié)合其他生成式算法,利用CLIP作為評(píng)估工具,指導(dǎo)算法優(yōu)化生成結(jié)果,從而得到符合提示語(yǔ)描述的三維模型。這樣可以更貼合建筑設(shè)計(jì)需求,提高設(shè)計(jì)質(zhì)量和效果。[[15]]

人工智能的高速發(fā)展確實(shí)極大的超出了人們的想象,并且以迅雷不及掩耳之勢(shì)席卷了整個(gè)設(shè)計(jì)行業(yè),大家對(duì)于未來(lái)的職業(yè)發(fā)展也是充滿的迷茫和不安,但筆者還是認(rèn)為AI不能替代建筑師,因?yàn)榻ㄖO(shè)計(jì)是技術(shù)與藝術(shù)的融合,即便AI可以輔助建筑師進(jìn)行方案生成等工作,但是AI無(wú)法理解人類的情感和文化背景,更無(wú)法創(chuàng)造出具有個(gè)性和特色的建筑作品。建筑師的作用是將自己的理念和情感通過(guò)建筑的形式表達(dá)出來(lái),與人類的生活和環(huán)境相互交流和影響,這些都是AI無(wú)法做到的。最終筆者相信,各位建筑師也一定會(huì)逐漸適應(yīng)并駕馭AI,與科技共同進(jìn)步!

圖1來(lái)源于:袁烽,許心慧,李可可.思辨人類世中的建筑數(shù)字未來(lái)[J].建筑學(xué)報(bào),2022(09)
:12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.

圖2依據(jù)袁烽,許心慧,李可可.思辨人類世中的建筑數(shù)字未來(lái)[J]中圖片作者自繪

圖3來(lái)源于Louis Bouchard.Google Brain's Answer to Dalle-e 2:
Imagen.https://www.louisbouchard.ai/google-brain-imagen/

圖4來(lái)源于fabians.eth in twitter

圖5來(lái)源于Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).

圖6:基于SU草模生成的建筑效果圖對(duì)比 作者自繪

圖7:不同LoRA生成圖片對(duì)比 作者自繪

圖8:動(dòng)漫風(fēng)格與木模型風(fēng)格效果生成 作者自繪

  1. 袁烽,許心慧,李可可.思辨人類世中的建筑數(shù)字未來(lái)[J].建筑學(xué)報(bào),
  2. 2022(09):12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.
  3. [] Martínez, Gonzalo, et al. "Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation?." arXiv preprint arXiv:2303.01255 (2023).
  4. [] “How AI software will change architecture and design”https://www.dezeen.com/2022/11/16/ai-design-architecture-product/
  5. [] Borji, Ali. “Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2.” ArXiv abs/2210.00586 (2022): n. pag.
  6. [] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
  7. [] “Stable Diffusion”.GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
  8. [] https://www.midjourney.com/
  9. [] https://openai.com/product/dall-e-2
  10. [] Kyle Wiggers.“OpenAI expands access to DALL-E 2, its powerful image-generating AI system”.
  11. https://techcrunch.com/2022/07/20/openai-expands-access-to-dall-e-2-its-powerful-image-generating-ai-system/
  12. Emad in Twitter: "So #dalle2 is a model and a service. It is focused on a certain usage subset that will broaden. Inpainting is it’s best feature but by default it is random and best used for ideation and more corporate usage, hence it’s clear training on licensed stock images" / Twitter ↑
  13. fabians.eth in Twitter: ""Pixar movie scene of a dark skull wizard fighting against Kermit the frog as a gladiator, incredible render, Presto" DALL-E's usually my go to for scenes involving 2 or more clear "actors" - will be cool to render battle scenes for my prompt fighting game @battleprompts https://t.co/hSVDuqH8wp" / Twitter ↑
  14. [] Kyle Wiggers.“This startup is setting a DALL-E 2-like AI free, consequences be damned”.
  15. https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/
  16. [] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).
  17. [] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021).
  18. [] 鄭豪,觀點(diǎn) | AIGC影響下的AI建筑學(xué),https://zhuanlan.zhihu.com/p/606502335

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定