激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

AI繪畫熱潮興起:揭秘技術(shù)原理

發(fā)布時間:2023-12-19 15:33:54 瀏覽量:169次

導(dǎo)語 | 近些年AI蓬勃發(fā)展,在各行各業(yè)都有著不同方式的應(yīng)用。而AI創(chuàng)作藝術(shù)和生產(chǎn)內(nèi)容無疑是今年以來最熱門的話題,AI創(chuàng)作到底發(fā)生過什么,原理又是如何,是噱頭還是會有對我們有用的潛在應(yīng)用場景呢?我們旨在深入淺出的嘗試回答這些問題。



AI創(chuàng)作怎么火了?


今年開始,文本描述自動生成圖片(Text-to-Image)的AI繪畫黑科技一下子變火了。很多人對AI繪畫產(chǎn)生巨大興趣是從一副AI作品的新聞開始的。這幅由MidJourney生成的數(shù)字油畫參加了Colorado博覽會的藝術(shù)比賽,并且獲得了第一名。這個事件可以想象的引起了巨大的爭論。(難道300刀的獎金撬起了3千億的市場?)



Jason Allen’s A.I.-generated work, “Théatre D’opéra Spatial,” took first place in the digital category at the Colorado State Fair.Credit...via Jason Allen


Disco Diffusion是今年2月爆火的AI圖像生成程序,可以根據(jù)描述的場景關(guān)鍵詞渲染對應(yīng)的圖片。今年4月,大名鼎鼎的OpenAI也發(fā)布了新模型DALL-E 2,命名來源于著名畫家Dali和機(jī)器人總動員Wall-E,同樣支持Text-to-Image。在年初的時候,Disco Diffusion可以生成一些有氛圍感的圖片,但還無法生成精致的人臉,但很快到了DALL-E 2后就可以非常清晰的畫出人臉了。而現(xiàn)在到了Stable Diffusion在創(chuàng)作的精致程度和作畫速度上更上了一個新的臺階。



Disco Diffusion: Mechanical arm with a paint brush and a canvas by Li Shuxing and Tyler Edlin


DALL-E2: 將Johannes Vermeer 的名畫“戴珍珠耳環(huán)的女孩”轉(zhuǎn)換生成不同的面孔



Stable Diffusion: a beautiful painting of a building in a serene landscape


2022年8月,被視為當(dāng)下最強(qiáng)的AI創(chuàng)作工具Stable Diffusion正式開放,這無疑進(jìn)一步給AI創(chuàng)作帶來了最近的火熱。通過網(wǎng)站注冊就可以使用,提供了方便簡潔的UI,也大大降低了這類工具的使用門檻,而且效率高,圖像質(zhì)量好。而如果不想花錢的話,Stable Diffusion還正式開源了代碼、模型和weights,在huggingface上都可以直接clone和下載,部署到GPU上就可以隨便用了。huggingface上同時也已經(jīng)有了diffusers庫,可以成為調(diào)包俠直接使用,colab上也都有現(xiàn)成的notebook example了。也因此熱度,推出Stable Diffusion的AI公司StabilityAI完成了1億美元的種子輪融資,公司估值達(dá)到了10億美元。



Stable Diffusion開源后的搜索熱度已經(jīng)保持兩個月了


和機(jī)器學(xué)習(xí)剛開始火的時候一樣,AI生成技術(shù)也并不是憑空出現(xiàn)的。只是近一兩年以來,作品的質(zhì)量和計(jì)算速度日益快速提升,讓我們忽略了AI繪畫同樣悠久的歷史。



歷史發(fā)展


AI繪畫在計(jì)算機(jī)出現(xiàn)后不久就已經(jīng)開始有了最初的探索。在70年的時候藝術(shù)家Harold Cohen就已經(jīng)創(chuàng)造了程序“AARON”進(jìn)行繪畫,而不同于現(xiàn)在的黑科技,當(dāng)時AARON是真的去操作機(jī)械臂來畫畫。Harold對AARON的改進(jìn)持續(xù)了很久,80年代的時候,ARRON可以嘗試畫三維物體,并且很快就可以畫彩圖了。但AARON沒有開源,所以它學(xué)習(xí)的是Harold本人的抽象色彩繪畫風(fēng)格。2006年,出現(xiàn)了The Painting Fool,有點(diǎn)類似AARON,通過觀察照片提取顏色信息,使用現(xiàn)實(shí)中的材料進(jìn)行創(chuàng)作,所以同樣電腦程序通過學(xué)習(xí)信息就行物理繪畫的方式。



現(xiàn)在我們說的更多的“AI創(chuàng)作”的概念,更多的指的是基于Deep Learning模型進(jìn)行自動作圖的程序,這種繪畫方式得益于近些年計(jì)算機(jī)軟硬件的高速發(fā)展。2012年兩位大神Andrew Ng和Jeff Dean進(jìn)行了一次實(shí)驗(yàn),使用1.6萬個CPU和Youtube上一千萬個貓臉圖片用了3天訓(xùn)練了當(dāng)時最大的深度學(xué)習(xí)網(wǎng)絡(luò),生成了一個貓臉。在現(xiàn)在看來這個結(jié)果不值一提,但對當(dāng)時的CV領(lǐng)域來說,是具有突破性的意義的嘗試,并且正式開啟了AI創(chuàng)作的全新方向。



2006年,李飛飛教授發(fā)現(xiàn)了很多研究工作在AI算法方面忽略了“數(shù)據(jù)”的重要性,于是帶頭開始構(gòu)建大型圖像數(shù)據(jù)集 - ImageNet,也因此圖像識別大賽由此拉開帷幕,三年后李飛飛團(tuán)隊(duì)發(fā)表了ImageNet的論文從而真正發(fā)布了ImageNet數(shù)據(jù)集,給AI創(chuàng)作提供了強(qiáng)大的數(shù)據(jù)庫。同樣2006年,Geoffrey Hilton團(tuán)隊(duì)實(shí)現(xiàn)了GPU優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的方法,從而“深度學(xué)習(xí)”這個新名詞的概念被提出,各種Neural Networks的技術(shù)手段開始不斷出現(xiàn),深度學(xué)習(xí)的發(fā)展也加速了AI在兩個賽道Discriminative model和Generative model的發(fā)展。2012年的AlexNet,2014年的VGGNet,2015年的ResNet,2016年的DenseNet都是前者的經(jīng)典模型。


而對于Generative model,2014年大神Ian Goodfellow提出了GAN,兩個神經(jīng)網(wǎng)絡(luò)互相學(xué)習(xí)和訓(xùn)練,被認(rèn)為是CV領(lǐng)域的重大突破,通過兩個神經(jīng)網(wǎng)絡(luò)的相互博弈,使得生成的數(shù)據(jù)分布更接近真實(shí)數(shù)據(jù)分布。從此2014年的GAN、VAE以及2016年的PixelRNN/CNN成為了三類主流的Generative models。2017-2018年深度學(xué)習(xí)框架也建設(shè)成熟,PyTorch和Tensorflow成為首選框架,提供了很多圖像處理的大量預(yù)訓(xùn)練模型,大大降低了技術(shù)門檻。2018年,Nvidia發(fā)布了Video-to-Video synthesis,它可以通過發(fā)生器、鑒別器網(wǎng)絡(luò)等模塊,合成高分辨率照片一樣真實(shí)的視頻,實(shí)現(xiàn)了把AI推向新的創(chuàng)造場景。GAN的大規(guī)模使用,也出現(xiàn)了很多基于GAN的模型迭代和優(yōu)化,2019年BigGAN的出現(xiàn)讓GAN的世界更強(qiáng)大,由它訓(xùn)練生成的圖像已經(jīng)無法分辨真假了,被認(rèn)為是當(dāng)時最強(qiáng)的圖像生成器。


但是GAN依然存在一些缺陷,比如一些研究中都有提到模型的穩(wěn)定性和收斂較差,尤其是面對更加復(fù)雜和多樣的數(shù)據(jù)。更為重要的是,讓生成的數(shù)據(jù)分布接近真實(shí)數(shù)據(jù)分布,也就是接近現(xiàn)有的內(nèi)容的樣子同樣會形成一個問題,就是生成的內(nèi)容是非常接近現(xiàn)有內(nèi)容,接近也就是沒法突破帶來藝術(shù)上的“創(chuàng)新”。


而2020年開始在圖片生成領(lǐng)域研究更多的Diffusion model克服了這些問題。Diffusion model的核心原理就是給圖片去噪的過程中理解有意義的圖像是如何生成的,同時又大大簡化了模型訓(xùn)練過程數(shù)據(jù)處理的難度和穩(wěn)定性問題。所以Diffusion模型生成的圖片相比GAN模型京都更高,且隨著樣本數(shù)量和訓(xùn)練時長的累積,Diffusion model展現(xiàn)了對藝術(shù)表達(dá)風(fēng)格更好的模擬能力。2021年的對比研究表明,在同樣的ImageNet的數(shù)據(jù)庫訓(xùn)練后的圖片生成質(zhì)量,使用Diffusion model得到的FID評估結(jié)果要優(yōu)于當(dāng)時最好的Generative models BigGAN-deep等等。


正如開頭提到,今年的AI熱點(diǎn)屬于文本創(chuàng)作內(nèi)容,而其實(shí)一直到2021年初,OpenAI發(fā)布的DALL-E其AI繪畫水平也就一般,但這里開始擁有的一個重要能力就可以按照文本描述進(jìn)行創(chuàng)作。然后今年2022年,在三座大山Stable Diffusion、DALL-E 2、MidJourney生成的各種畫作中,已經(jīng)引起了各種人群包括開發(fā)者、藝術(shù)家、美術(shù)工作者等等的興趣嘗試和爭論。Stable Diffusion的開源和簡單的過濾器功能無疑將Text-to-Imagede的熱點(diǎn)和爭議推向了高潮。


而很快大廠們不再只局限于圖片,同時又推出了Text-to-Video的產(chǎn)品。Meta在剛過去的九月底宣布了新的AI產(chǎn)品Make-A-Video,使用者可以同樣使用文本的方式生產(chǎn)簡潔和高質(zhì)量的短視頻,他們的說明是系統(tǒng)模型可以從文本-圖片配對數(shù)據(jù)中學(xué)習(xí)這個世界的樣子并從視頻片段中推理沒有文本情況下的世界變化。從實(shí)現(xiàn)場景來看也有多種使用方式,比如文本描述不同類型的場景動作、使用單張或一對圖片生成變化視頻、在原始視頻中加入額外的元素和變化,Meta也表明了他們之后會發(fā)布demo工具。很快在十月初,Google也發(fā)布了他們新的AI產(chǎn)品Imagen Video,同樣是使用文本生產(chǎn)視頻的工具。Imagen Video還在研發(fā)階段,但Google的學(xué)術(shù)論文表明了這個工具可以通過文本描述生產(chǎn)24 fps的分辨率在1280x768的視頻,同時可以有風(fēng)格化能力和物體3D旋轉(zhuǎn)能力。文章還表明Imagen Video在文本內(nèi)容的視頻呈現(xiàn)上也會相對于優(yōu)于DALL-E和Stable Diffusion。又沒過幾天,Google和Phenaki宣布了另一個文本生產(chǎn)視頻工具Phenaki,甚至可以生產(chǎn)2分鐘以上較長的視頻。Google同時也說明了“問題數(shù)據(jù)”對于AI模型的影響和潛在的風(fēng)險,公司一直致力于嚴(yán)謹(jǐn)過濾暴力和色情內(nèi)容以及文化偏差等問題,因此短期內(nèi)并不會開源Imagen Video模型,但我們相信不久的將來,不管通過工具或者源代碼的方式,這些cutting-edge的視頻生產(chǎn)模型也會和圖片生產(chǎn)模型一樣很快和AI創(chuàng)作者們相見。



既然有了Text-to-Image和Text-to-Video,那Text-to-Speech肯定也要蹭一下熱度。10月中旬postcast.ai發(fā)布了一段音頻是跟用AI生成的跟Steve Jobs的對話火了(新聞),從語音語調(diào)上聽起來真的和Steve本人沒有差別,完全不像是機(jī)器人的聲音。而技術(shù)提供方play.ht在他們的網(wǎng)站上也上線了新的這個非常有吸引力的功能Voice Cloning,上面提供各種名人的AI合成聲音。他們并沒有提供更多的技術(shù)信息,但看起來他們使用了2020年上線并在2021年底開放的GPT3模型,同時從效果上看起來已經(jīng)非常接近復(fù)制真人的聲音了。




技術(shù)解讀


看到歷史和一些生動的例子,是不是覺得AI生成各種內(nèi)容已經(jīng)就在眼前了?我們可以隨便寫幾句話就能生成精美的圖片、視頻、聲音滿足各種需求了?但是實(shí)際操作上依然會有很多的限制。下面我們就來適當(dāng)剖析一下最近較熱的文本生成圖片和視頻技術(shù)原理,到底實(shí)現(xiàn)了什么功能以及相關(guān)的局限性在哪里,后面我們再針對實(shí)際游戲內(nèi)容做一些demo,更貼合應(yīng)用場景的了解這些局限性。


(一)Text-to-Image技術(shù)


不同的AI圖片生成器技術(shù)結(jié)構(gòu)上會有差別,本文在最后也附上了一些重要模型的參考文獻(xiàn)。我們在這里主要針對最近熱門的Stable Diffusion和DALL-E 2做一些解讀和討論。這類的AI生成模型的核心技術(shù)能力就是,把人類創(chuàng)作的內(nèi)容,用某一個高維的數(shù)學(xué)向量進(jìn)行表示。如果這種內(nèi)容到向量的“翻譯”足夠合理且能代表內(nèi)容的特征,那么人類所有的創(chuàng)作內(nèi)容都可以轉(zhuǎn)化為這個空間里的向量。當(dāng)把這個世界上所有的內(nèi)容都轉(zhuǎn)化為向量,而在這個空間中還無法表示出來的向量就是還沒有創(chuàng)造出來的內(nèi)容。而我們已經(jīng)知道了這些已知內(nèi)容的向量,那我們就可以通過反向轉(zhuǎn)化,用AI“創(chuàng)造”出還沒有被創(chuàng)造的內(nèi)容。



  • Stable Diffusion


Stable Diffusion的整體上來說主要是三個部分,language model、diffusion model和decoder。



Language model主要將輸入的文本提示轉(zhuǎn)化為可以輸入到diffusion model使用的表示形式,通常使用embedding加上一些random noise輸入到下一層。


diffusion model主要是一個時間條件U-Net,它將一些高斯噪聲和文本表示作為模型輸入,將對應(yīng)的圖像添加一點(diǎn)高斯噪聲,從而得到一個稍微有噪點(diǎn)的圖像,然后在時間線上重復(fù)這個過程,對于稍微有噪點(diǎn)的圖像,繼續(xù)添加高斯噪聲,以獲得更有噪點(diǎn)的圖像,重復(fù)多次到幾百次后就可以獲得完全嘈雜的圖像。這么做的過程中,知道每個步驟的圖像版本。然后訓(xùn)練的NN就可以將噪聲較大的示例作為輸入,具有預(yù)測圖像去噪版本的能力。


在訓(xùn)練過程中,還有一個encoder,是decoder的對應(yīng)部分,encoder的目標(biāo)是將輸入圖像轉(zhuǎn)化為具有高語義意義的縮減采樣表示,但消除與手頭圖像不太相關(guān)的高頻視覺噪聲。這里的做法是將encoder與diffusion的訓(xùn)練分開。這樣,可以訓(xùn)練encoder獲得最佳圖像表示,然后在下游訓(xùn)練幾個擴(kuò)散模型,這樣就可以在像素空間的訓(xùn)練上比原始圖像計(jì)算少64倍,因?yàn)橛?xùn)練模型的訓(xùn)練和推理是計(jì)算最貴的部分。


decoder的主要作用就是對應(yīng)encoder的部分,獲得擴(kuò)散模型的輸出并將其放大到完整圖像。比如擴(kuò)散模型在64x64 px上訓(xùn)練,解碼器將其提高到512x512 px。



  • DALL-E 2


DALL-E 2其實(shí)是三個子模塊拼接而成的,具體來說


  • 一個基于CLIP模型的編碼模塊,目標(biāo)是訓(xùn)練好的文本和圖像encoder,從而可以把文本和圖像都被編碼為相應(yīng)的特征空間。


  • 一個先驗(yàn)(prior)模塊,目標(biāo)是實(shí)現(xiàn)文本編碼到圖像編碼的轉(zhuǎn)換。


  • 一個decoder模塊,該模塊通過解碼圖像編碼生成目標(biāo)圖像。


在本篇文章開始前,希望你可以了解go的一些基本的內(nèi)存知識,不需要太深入,簡單總結(jié)了如下幾點(diǎn):


從上面的模型拆解中可以看出,DALL-E 2和Stable Diffusion的text encoder都是基于openAI提出的CLIP,圖像的生成都是基于diffusion model。其中,CLIP是學(xué)習(xí)任意給定的圖像和標(biāo)題(caption)之間的相關(guān)程度。其原理是計(jì)算圖像和標(biāo)題各自embedding之后的高維數(shù)學(xué)向量的余弦相似度(cosine similarity)。




(二)Text-to-Video技術(shù)

文本生成視頻大概從2017年就開始有一些研究了,但一直都有很多限制。而從今年10月初Meta宣布了他們的產(chǎn)品Make-A-Video以及Google宣布了Imagen Video。這兩款都是創(chuàng)新了Text-to-Video的技術(shù)場景。而這兩款最新產(chǎn)品都是從他們的Text-to-Image產(chǎn)品衍生而言的,所以技術(shù)實(shí)現(xiàn)方式也是基于Text-to-Image的技術(shù)演變而成。

本質(zhì)上來說我們可以認(rèn)為靜態(tài)圖片就是只有一幀的視頻。生成視頻需要考慮圖片中的元素在時間線上的變化,所以比生成照片會難很多,除了根據(jù)文本信息生成合理和正確的圖片像素外,還必須推理圖片像素對應(yīng)的信息如何隨時間變化。這里我們主要根據(jù)Make-A-Video的研究論文做一下拆解。

  • Meta's Make-A-Video

Make-A-Video正是建立在text-to-Image技術(shù)最新進(jìn)展的基礎(chǔ)上,使用的是一種通過時空分解的diffusion model將基于Text-to-Image的模型擴(kuò)展到Text-to-Video的方法。原理很直接:

  • 從文本-圖像數(shù)據(jù)里學(xué)習(xí)描述的世界長什么樣(文本生成圖像)

  • 從無文本的視頻數(shù)據(jù)中學(xué)習(xí)世界的變化(圖像在時間軸上的變化)

訓(xùn)練數(shù)據(jù)是23億文本-圖像數(shù)據(jù)(Schuhmann et al),以及千萬級別的視頻數(shù)據(jù)(WebVid-10M and HD-VILA-100M)。

整體上來說Make-A-Video也是有三個重要組成部分,所有的組成部分都是分開訓(xùn)練:

  • 基于文本圖像pair訓(xùn)練的基本的Text-to-Image的模型,總共會用到三個網(wǎng)絡(luò):

  • Prior網(wǎng)絡(luò):從文本信息生成Image特征向量,也是唯一接收文本信息的網(wǎng)絡(luò)。

  • Decoder網(wǎng)絡(luò):從圖像特征網(wǎng)絡(luò)生成低分辨率64x64的圖片。

  • 兩個空間的高分辨率網(wǎng)絡(luò):生成256x256和768x768的圖片。

  • 時空卷積層和注意層,將基于第一部分的網(wǎng)絡(luò)擴(kuò)展到時間維度

  • 在模型初始化階段擴(kuò)展包含了時間維度,而擴(kuò)展后包括了新的注意層,可以從視頻數(shù)據(jù)中學(xué)習(xí)信息的時間變化

  • temporal layer是通過未標(biāo)注的視頻數(shù)據(jù)進(jìn)行fine-tune,一般從視頻中抽取16幀。所以加上時間維度的decoder可以生成16幀的圖片

  • 以及用于高幀速率生成的插幀網(wǎng)絡(luò)

空間的超分辨率模型以及插幀模型,提高的高幀速率和分辨率,讓視覺質(zhì)量看起來更好。

整體評估上都要優(yōu)于今年早些時期的研究:


優(yōu)勢


  • 這里的好處很明顯就是不再需要使用大量的文本視頻pair數(shù)據(jù)來訓(xùn)練模型。


  • 因此也大大加速了模型訓(xùn)練時間。


  • 繼承了現(xiàn)在最好的文本生成圖像模型的優(yōu)質(zhì)結(jié)果。


*前兩點(diǎn)都是之前text-to-video生成模型發(fā)展的瓶頸。


限制


  • 這個方法無法學(xué)習(xí)只能從視頻中得到的關(guān)系文本和現(xiàn)象的關(guān)系,比如一個人是從左往右揮手還是從右往左揮手的的視頻細(xì)節(jié)。


  • 目前限于簡單的動作和變化,包括多個場景和事件的較長視頻,或者更多的視頻中展現(xiàn)的故事細(xì)節(jié)很難實(shí)現(xiàn)。


  • 一樣是使用大量公開數(shù)據(jù)的大規(guī)模模型,一樣有用于生產(chǎn)有害內(nèi)容的風(fēng)險。



  • Google's Imagen Video


7個串聯(lián)的子模型構(gòu)成,模型包含多達(dá)116億個參數(shù),其中T5是一個language model用來理解文本語義,Base是負(fù)責(zé)生產(chǎn)視頻中的關(guān)鍵幀,SSR模型提升視頻的像素,TSR負(fù)責(zé)填充關(guān)鍵幀之間輔助幀。




能夠?qū)崿F(xiàn)的技術(shù)應(yīng)用場景


通過底層技術(shù)尤其在CV、NLP相關(guān)的各類模型在不同內(nèi)容和多模態(tài)場景中的嘗試和迭代,對于AI創(chuàng)作和內(nèi)容生產(chǎn)同樣無外乎在不同類型內(nèi)容(文本、音頻、圖像、視頻)生產(chǎn)和內(nèi)容跨類型的生產(chǎn)場景。下圖很好總結(jié)了這些實(shí)際中可以使用的技術(shù)場景。




針對游戲內(nèi)容的Demo


這些技術(shù)實(shí)現(xiàn)是否同樣能給我們提供游戲相關(guān)的應(yīng)用場景呢?我們在這里針對相對較為成熟的圖像相關(guān)的生成場景做了幾個demo嘗試。整體上來說在我們游戲中臺相關(guān)的業(yè)務(wù)場景中是有一些應(yīng)用點(diǎn)的。下面看一下這幾個demo的樣子。


(一)文本生成圖像


針對莊周這個英雄的樣子我們使用工具和代碼都嘗試了一下如何能夠生產(chǎn)不同風(fēng)格的莊周

游戲中的樣子:


經(jīng)過我們以下描述后的樣子,同時也可以加上卡通、二次元、素描等等風(fēng)格的描述,我們得到各種不同風(fēng)格類型的樣子:


Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation



我們在各種嘗試的過程中很明顯的感知和發(fā)現(xiàn)一些限制:


  • 文本描述生成的結(jié)果會有一些隨機(jī)性,生成的圖片大概率是很難完全按照“需求”生成,更多帶來的是“驚喜”,這種驚喜在一定的層面上代表的也是一種藝術(shù)風(fēng)格。所以在實(shí)際的使用中并不是很適用于按照嚴(yán)格要求生產(chǎn)圖片的任務(wù),而更多的適用于有一定的描述,能夠給藝術(shù)創(chuàng)意帶來一些靈感的迸發(fā)和參考。


  • 文本的準(zhǔn)確描述對于生成的圖片樣子是極其重要的,技術(shù)本身對文本描述和措辭有較高要求,需對腦海中的核心創(chuàng)意細(xì)節(jié)有較為準(zhǔn)確的描述。


  • 生產(chǎn)Domain-specific例如騰訊游戲高度一致的內(nèi)容元素需對預(yù)訓(xùn)練大模型進(jìn)行再訓(xùn)練。


而文本生成視頻的場景相對很新,Google/Meta也是這兩三周才官宣對應(yīng)的視頻生成器,且還沒有開放使用和開源,但我們預(yù)估以目前的熱度和迭代速度,在未來的3-6個月內(nèi)我們可以對相關(guān)能力有更清晰的探索和嘗試。



(二)圖像融合和變換


圖像本身的融合變換在早幾年的時候就已經(jīng)有了一些研究和探索,且有了相對較為成熟的生成的樣子,這里我們使用和平精英的素材嘗試做一種變換風(fēng)格的樣子。


和平精英素材原圖和星空:



更加深度的將星空的顏色和變化融合到原始圖片中:



相對較淺度的將星空的顏色像素融合到原始圖片中:



另外一種很有意思的方式是,我們可以變換人物風(fēng)格,比如王者英雄不知火舞和亞瑟在我們印象的樣子,我們可以把他們Q化成數(shù)碼寶貝的樣子:


不知火舞



亞瑟



試想一下,這些不同的技術(shù)實(shí)現(xiàn)甚至都可以串聯(lián)在一起,比如我們可以先用文本描述生成圖片,再對圖片進(jìn)行風(fēng)格變換等等,那這里可以操作的事情就越來越多了,這里就不一一展開了。


而再進(jìn)一步思考(發(fā)自懶人的思考),我們是不是都不用去思考文本怎么寫?有沒有幫忙生成文本或者我們可以搜索之前生成過的文本?答案是有,比如Phraser就提供了這樣的方式,甚至可以通過圖片搜索相關(guān)的文本:




AI創(chuàng)作的意義及風(fēng)險


(一)意義


正如開頭提到,今年的AI熱點(diǎn)屬于AI創(chuàng)作,從2月的Disco Diffusion,到4月的DALL-E 2和MidJourney內(nèi)測,到5/6月的Google模型Imagen和Parti,再到7月底的Stable Diffusion。越來越多的人開始嘗試AI創(chuàng)作圖像、聲音、視頻、3D內(nèi)容等等,這讓我們看到了AI在藝術(shù)領(lǐng)域越來越多的可能性。


十多年前當(dāng)世界都開始為AI和機(jī)器學(xué)習(xí)歡呼的時候,我們看到了很多AI可以做的事情,而“創(chuàng)作力”和“想象力”也是一直以來AI最無法啃動的硬骨頭,也是人類世界在AI和機(jī)器取代面前最后的倔強(qiáng),然而現(xiàn)在看起來也是可以被技術(shù)拆解的。


從Alpha GO身上,我們就看到了AI在智慧和謀略上就已經(jīng)突破了人類極限,而AI創(chuàng)作又進(jìn)一步在創(chuàng)造力和想象力逐漸取代人類。在未來,一個各方面成熟的AI完全取代人類看起來已經(jīng)是越來越現(xiàn)實(shí)的問題。如果AI未來可以完成計(jì)算機(jī)領(lǐng)域上下游所有的事情包括自己寫代碼,那么人類需要思考的問題就是如何和一個超越自己所有方面的人共存于世了。



(二)風(fēng)險


AI創(chuàng)作的大火在很長時間以后回頭看一定有Stable Diffusion的開源的一席之地,同樣這也會帶來一些爭議和風(fēng)險。Stability AI的開源是簡單粗暴的,他們幾乎不對生成內(nèi)容做任何審核或者過濾,他們只包含了一些關(guān)鍵詞過濾,但技術(shù)上可以輕松繞過,Reddit上就有教程如何5秒內(nèi)移除Stable Diffusion的安全過濾。因此用戶可以輕松指控Stable Diffusion生成暴力或不良圖片,描繪公眾人物和名人,也可以高度仿制藝術(shù)品或者有版權(quán)保護(hù)的圖像,aka deepfakes。


由此我們也可以設(shè)想這項(xiàng)技術(shù)可能被用于各類惡意和影響巨大的用途,我們還很難判斷在更久的未來,這項(xiàng)技術(shù)的開源是會給我們更大的技術(shù)革新還是各種問題。目前最大的亂子可能就是Stable Diffusion讓生成暴力和色情圖像變更容易,且內(nèi)容中往往包含真人特征。雖然開源說明禁止人們使用該模型實(shí)施各類犯罪行為,但只要把Stable Diffusion下載到自己的電腦上,使用者可以完全不守約束。雖然很多論壇例如Reddit有不少約束政策且會封禁相關(guān)內(nèi)容,但仍有用戶不斷生成各種名人明星的荒誕圖像,AI生成內(nèi)容的倫理問題再次會出現(xiàn)在風(fēng)口浪尖。


在AI創(chuàng)作內(nèi)容的這些模型中,訓(xùn)練數(shù)據(jù)中一類很明顯的視覺素材就是受版權(quán)保護(hù)的作品。這在藝術(shù)家眼里,模仿藝術(shù)風(fēng)格和美學(xué)的行為是不道德行為,且可能違反版權(quán)。Stable Diffusion也是其中重要一員,它的訓(xùn)練集LAION-5B包含50多億張圖像與匹配的文本標(biāo)注,其中就包含了大量受版權(quán)保護(hù)的內(nèi)容,這些內(nèi)容其實(shí)歸眾多獨(dú)立藝術(shù)家和專業(yè)攝影師所有。這些版權(quán)爭議,也給這些AI創(chuàng)作工具帶來了盜竊藝術(shù)家創(chuàng)作成果的罵名,也讓很多有抱負(fù)有想法的藝術(shù)家越來越難以生存。


參考資料

1.https://arxiv.org/pdf/2209.14697.pdf

2.https://arxiv.org/pdf/2112.10752.pdf

3.[1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution

4.https://arxiv.org/pdf/2204.06125.pdf

5.https://imagen.research.google

6.[2105.05233] Diffusion Models Beat GANs on Image Synthesis

7.https://ommer-lab.com/research/latent-diffusion-models/


注意:后臺回復(fù)關(guān)鍵詞“AI”,即可獲取demo生產(chǎn)工具)


  • B站直播的自研P2P實(shí)踐 | 助力S12英雄聯(lián)盟總決賽

  • 美團(tuán)高性能終端實(shí)時日志系統(tǒng)建設(shè)實(shí)踐

  • RocksDB 7 終于解決了 Compaction 時性能下降問題

  • 實(shí)時營銷引擎在vivo營銷自動化中的實(shí)踐 | 引擎篇04

  • 從0到1000萬:嗶哩嗶哩直播架構(gòu)演進(jìn)史


本文由高可用架構(gòu)轉(zhuǎn)載。技術(shù)原創(chuàng)及架構(gòu)實(shí)踐文章,歡迎通過公眾號菜單「聯(lián)系我們」進(jìn)行投稿



熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定