發(fā)布時間:2024-01-08 13:15:23 瀏覽量:147次
今年下半年,生成式 AI 作畫突然爆火,許多人都對這種“以文生圖”的 AI 作畫感到好奇,并且進行了自己的嘗試。在 AI 的幫助下,不乏一些讓人驚嘆的美術作品出現(xiàn),比如今年 8 月,美國游戲設計師 Jason Allen 就憑借一幅 AI 繪畫作品《太空歌劇院(Théatre D'opéra Spatial)》,獲得了美國科羅拉多州博覽會美術競賽一等獎。
《太空歌劇院(Théatre D’opéra Spatial)》,作者:Jason M. Allen
在欣賞 AI 作品的同時,我們也不能忽略人工智能在作畫時產(chǎn)生的問題。
01
作品質(zhì)量參差不齊
首先就是作品質(zhì)量問題。像剛才提到的獲得一等獎的《太空歌劇院》,其實也是被設計師進行了多次修改,花費了近 80 個小時后才得到的作品。在一些情況下,如果沒有人為的后續(xù)修改,那么 AI 繪畫的作品可能會“慘不忍睹”。
這是因為盡管人工智能作品充滿了沖擊力和視覺張力,但和幾乎所有其他的深度學習模型一樣,在理解知識、推理、邏輯方面做得都不夠好。例如“畫一張世界上最大的貓科動物的圖片”,甚至是“一只狗坐在一只貓的左邊”,都不會產(chǎn)生符合邏輯或常識的圖片。在生成偏寫實風格的人類圖片的時候,有時候會因為微小的偏差產(chǎn)生“恐怖谷效應”,讓人感到不適。
另一個已經(jīng)被廣泛注意到的問題,是人工智能經(jīng)常會生成奇形怪狀的手。
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
這種現(xiàn)象的原因很可能是手部是人類身體上形狀最豐富的結(jié)構(gòu)之一——人的一只手有超過 20 個關節(jié)(相較而言,臉上只有 1 個關節(jié))。
手部有豐富的姿勢,圖庫版權(quán)圖片,不授權(quán)轉(zhuǎn)載
而且在大部分用來訓練的圖片中,手部經(jīng)常不是最核心的部位,所以角度不同、距離不同、手勢不同、還會被陰影和其他物體遮擋。
甚至還有些更加奇特的“手”,它們的手的形狀和手指數(shù)都不相同,但也都會被標注成“手”,讓模型覺得它們的形狀——以及它們形狀的平均形態(tài),可能都是合理的,也就因此產(chǎn)生了各種崎嶇的手。
甚至這些也可以被標注為“手”,圖片來源:《精靈寶可夢》《黑貓警長》《機器貓》和《忍者神龜》的動畫介紹截圖。
另一個有趣的例子是,一家公司的團隊照片幾乎都是通過人工智能技術生成的。如果仔細看的話,還是能發(fā)現(xiàn)一些線索。例如,第一排左起第二個人只帶了一個耳環(huán),第二排左起第二個人的耳朵輪廓不太正常。
圖片來源:Business Insider 截取了這家公司的網(wǎng)頁截圖。
可以看到,和開頭的獲獎作品不同,AI 作畫在寫實風格上還是存在不少問題的,但這并不妨礙人們對 AI 作畫的嘗試和使用,同時還在幫助設計者們對 AI 不斷優(yōu)化。畢竟讓機器有創(chuàng)造力一直是人工智能的最高理想之一,所以生成任務就成了衡量機器創(chuàng)造力的標準。
02
AI 也會產(chǎn)生偏見和刻板印象
除了質(zhì)量問題外,人工智能生成的內(nèi)容還有可能產(chǎn)生各種倫理問題。比如在語言模型上時常會出現(xiàn)的偏見和刻板印象,在圖片生成中也有體現(xiàn),例如生成“大公司 CEO”大概率會出現(xiàn)一個白人成熟男性的形象。更大的擔憂在于大量虛假內(nèi)容很可能會操縱公眾注意力和觀點。
每一次修改或生成內(nèi)容的新技術出現(xiàn),都會引發(fā)這樣的擔憂。技術的進步讓生成虛假內(nèi)容的門檻變得越來越低,人們認為,AI 技術有可能會讓虛假信息空前繁榮,因此傷害社會。除了推動立法外,開發(fā)便捷的生成檢測技術也是必要的。
03
AI 生成的歷史
除了最近非常受歡迎的圖片生成,AI 創(chuàng)作還包括文字(問答、對話、詩歌、小說)和視頻生成,只不過,AI 在創(chuàng)造上還需要更多的訓練和學習。
第一個能保證質(zhì)量水準的 AI 創(chuàng)造模型是對抗生成網(wǎng)絡(Generative Adversarial Network,下簡稱:GAN),它包括了一個生成器(G)和一個對抗(分類)器(A)。生成器需要不斷訓練自己,得到逼真的圖片,騙過分類器;而分類器則要盡量將生成的圖片和真實的圖片區(qū)分開來。
GAN 的作者伊恩·古德費洛(Ian Goodfellow)在原始論文里用一個假想的警察和假鈔犯來舉例子:警察不停地使用越來越強的驗鈔機,逼迫假鈔犯露出馬腳,但隨著驗鈔機的能力越來越強,假鈔機的模仿能力也變得更強。
最早的 GAN 放在今天看,效果其實并不好。圖片來源:伊恩·古德費洛等人于 2014 年發(fā)表的論文《對抗生成網(wǎng)絡(Generative Adversarial Nets)》
最早的 GAN 其實效果一般,但隨后各種 GAN 的變體開始像雨后春筍一樣涌現(xiàn)出來。其中,相當有名的是 StyleGAN,它能生成極為逼真的人臉。這些人臉和任何已有的人臉都不相同,是由計算機全新創(chuàng)作出的面孔。
StyleGAN 生成的高清人臉。值得注意的是,這些人臉并非從真人照片中修改而來,而是模型從零開始生成的全新人臉。圖片來源:Tero Karras 等人于 2019 年發(fā)表的論文《一種基于風格的生成對抗網(wǎng)絡生成器架構(gòu)(A Style-Based Generator Architecture for Generative Adversarial Networks)》。
作為圖片生成模型,GAN 仍然有很多缺點。例如,不同的場景需要訓練不同的 GAN 模型,但需求的種類是無限的,有些場景也會非常復雜。所以,GAN 只能理解專門用于某個場景的訓練圖片數(shù)據(jù),而無法理解人類的語言,因此不能通過文字控制圖片的生成。
04
風格逐漸豐富的 AI 創(chuàng)作
新的模型很大程度上解決了這一問題。2021 年 1 月,美國研究機構(gòu)OPEN AI 發(fā)布了 DALL·E,OPEN AI 隨后又在 2022 年 4 月公布了 DALL·E 2。和 GAN 相比,DALL·E 是預先訓練好的大模型,也有理解人類語言的能力,所以只需要用戶輸入一段文字,就能直接生成對應的圖片,不再需要每次都根據(jù)對應數(shù)據(jù)集重新訓練。
因為不再需要訓練模型的專業(yè)知識,直接輸入文字就能生成效果驚人的圖片,DALL·E 2 在國外的社交網(wǎng)絡上引起了巨大轟動。大家紛紛嘗試用各種各樣奇怪的文字輸入模型,再把生成的圖片公布出來,一度形成了網(wǎng)絡迷因。
很快,大家發(fā)現(xiàn),DALL·E 2 不僅能準確地生成各種實體,比如動物、植物、建筑、人,還能按照要求改變繪畫風格,從寫實照片到數(shù)字藝術,從油畫到簡筆畫,從梵高到安迪霍爾,從中國國畫到日本浮世繪,從毛線織物到橡皮泥風格。只需要在輸入文字中加入一兩個描繪風格的詞,DALL·E 2 就能自動生成符合這種風格的圖片。
圖片來源:DALL·E 2官網(wǎng)
圖片來源:DALL·E 2官網(wǎng)
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
更令人驚訝的是,DALL·E 對語言的內(nèi)涵經(jīng)常有非常準確的理解,因此在面對一些完全虛構(gòu)的場景時,也能生成帶有復雜邏輯的驚人圖片。例如:
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
除了 OpenAI,谷歌也隨后推出了自己的模型 Disco Diffusion。在技術原理上它和 DALL·E 很類似,但允許藝術家在輸入主題文字外,還能控制一些圖片參數(shù)。
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
圖片來源:用戶在社交網(wǎng)絡上分享的圖片
雖然這些模型都很強大,但卻不能理解中文,也難以生成有中國特色的圖片,例如國畫。因此,很多中國的機構(gòu)也在訓練有創(chuàng)作能力的模型。百度于 2022 年 8 月發(fā)布了文心一格,不僅可以接受中文輸入,還能生成中國國畫或帶有古詩詞意境的圖片。
在百度文心一格上生成的“江南水鄉(xiāng)”
05
AI 創(chuàng)作的版權(quán)問題
最后,人工智能模型生成的作品也面臨版權(quán)爭議。美國版權(quán)局多次判決,擁有版權(quán)的只有可能是自然人,不能是程序或者機器。另外,有很多人工智能團隊在沒有征求原作者同意的情況下就用他們的作品用預訓練模型,這也引起了廣泛的爭議。目前,已經(jīng)有程序員群體在起訴微軟的 Github 和 Open AI,因為他們認為這兩個機構(gòu)使用他們的代碼訓練自動寫程序的模型。不過,因為人工智能的創(chuàng)作模型仍是一個非常新的產(chǎn)品,所以各方的邊界都沒有被法律明確界定,可能還需要更多的案例才能逐漸明晰。
作者|管心宇
審核|馬珂 阿里云 人工智能計算機視覺 高級工程師
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
10. 10個建筑AI工具,從設計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設計、建筑方案設計、住宅設計、管道設計、出渲染圖、3D掃...
最新文章
同學您好!