激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

AI 又開“畫展”了!Google Brain 推出新的圖像生成模型——Imagen

發(fā)布時間:2024-08-06 13:13:48 瀏覽量:133次

今年4月的時候,OpenAI 曾展示了它新的圖像生成神經(jīng)網(wǎng)絡 DALL-E 2,它可以幾乎按照任何要求來生成高分辨率的圖像,并在大多數(shù)方面都超過了最初版本的 DALL-E。

可僅僅過了一個月,Google Brain 就在近日也發(fā)布了自己的圖像生成人工智能——Imagen,而它的表現(xiàn)甚至比 DALL-E 2 要更好。

Imagen 的相關論文于5月23日發(fā)布在 arxiv 上
(圖片來源:arxiv)

Imagen 是一種文本到圖像的擴散模型,具有深層次的語言理解能力,可以通過輸入文本創(chuàng)建逼真的圖像。Imagen 使用大型 frozen T5-XXL 編碼器將輸入的文本編碼為??嵌入??,然后條件擴散模型將文本嵌入映射到 64×64 的圖像中,之后再進一步利用超分辨率擴散模型生成 256×256 和 1024×1024 的圖像。

輸入“一只穿戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”后 Imagen 的動作
(圖片來源:Imagen)

Imagen 的許多圖片都令人驚嘆不已,不僅僅是因為圖片內(nèi)容有趣又奇幻,而且很多圖片場景帶來的真實感十分強烈。

(圖片來源:MIT technologyreview)

就像 OpenAI 發(fā)布 DALL-E 時所做的一樣,Google 也用各種“擬人化動物”的可愛圖片來宣傳他們的工具,比如一只戴著宇航員頭盔的浣熊,一只趴在壽司房子里的柯基,一只戴著皇冠坐在國王寶座上的博美等等。

但是,這些公開的大多數(shù)圖片之所以都如此可愛,或許是經(jīng)過精心挑選的結(jié)果。其實像 DALL-E 2 和 Imagen 這樣的模型,往往依賴于大量網(wǎng)絡抓取的圖像數(shù)據(jù),而這些數(shù)據(jù)通常是未經(jīng)處理的,其中既有好的數(shù)據(jù),同時也會有不健康的數(shù)據(jù)。

Imagen 團隊表示 :“雖然我們對一部分訓練數(shù)據(jù)進行了過濾,以去除噪音和不良內(nèi)容,如色情圖像和有毒語言,但我們也使用了 LAION-400M 數(shù)據(jù)集,眾所周知,該數(shù)據(jù)集包含大量不當內(nèi)容,包括色情圖像、種族歧視和有害的社會刻板印象。Imagen 依賴于在未記錄的網(wǎng)絡規(guī)模數(shù)據(jù)上訓練的文本編碼器,從而繼承了大型語言模型的社會偏見和局限性。因此,Imagen 存在對有害的刻板印象和表述進行編碼的風險,這促使我們決定在沒有進一步保障措施的情況下,不發(fā)布 Imagen 供公眾使用。”

盡管 DALL-E 2 和 Imagen 存在風險,但它們本質(zhì)上大大地推動了人工智能領域的發(fā)展,使人工智能再次達到了新的高度。并且,這種人工智能圖像生成的技術將有可能成為改變世界的一項技術。

AI 又開“畫展”了!Google Brain 推出新的圖像生成模型,讓圖像生成再次升級!

(圖片來源:pixabay)

回顧過往,你會發(fā)現(xiàn)人工智能在發(fā)展到一定程度之后都受到了一個瓶頸的困擾:主要的機器學習手段還是來自于蠻力計算,而且其依賴大量的數(shù)據(jù)來訓練系統(tǒng)。這離人類的思考方式還是有很大區(qū)別的。人類在思考時可以進行泛化,例如,嬰兒直知道什么是貓之后,再見到其他的貓就能馬上知道這是貓。

機器無法進行泛化,這從另外一個方面也反映了機器學習一直只能通過大量數(shù)據(jù)分析模仿人類的邏輯分析能力,而一直難以實現(xiàn)人類大腦的另一強大功能——想象力。

直到2014年,當時還是蒙特利爾大學博士生的 Ian Goodfellow 突然想到了這個問題的答案——對抗性神經(jīng)網(wǎng)絡。對抗性神經(jīng)網(wǎng)絡的原理是兩個 AI 系統(tǒng)可以通過相互對抗來創(chuàng)造超級真實的原創(chuàng)圖像或聲音。對抗性神經(jīng)網(wǎng)絡賦予了機器創(chuàng)造和想象的能力,也讓機器學習減少了對數(shù)據(jù)的依賴性,對于人工智能是一大突破。

對抗性神經(jīng)網(wǎng)絡被稱作是近年來最有潛力的,解決了一直困擾人工智能領域數(shù)據(jù)來源問題的重要機器學習模型,可以說是真正實現(xiàn)了不依賴人類的無監(jiān)督學習。對抗性神經(jīng)網(wǎng)絡更是在2018年入選了《麻省理工科技評論》“十大突破性技術”。

自2018年以來,由對抗性神經(jīng)網(wǎng)絡帶來的無監(jiān)督學習方法吸引了越來越多的關注,并使得 AI 在多個領域取得了巨大的進展。除了前面提到的圖像生成領域,AI 在文本創(chuàng)作領域同樣表現(xiàn)不俗。入選2021年《麻省理工科技評論》“十大突破性技術”之一的 GPT-3 就是一種使用對抗性神經(jīng)網(wǎng)絡無監(jiān)督學習算法的 “大型語言模型”。

GPT-3 由舊金山的研究實驗室 OpenAI 創(chuàng)建?;贕PT-3,AI 能夠模仿人類書寫文本,且逼真程度令人稱贊,人們甚至認為 GPT-3 可以寫出任何東西:同人小說、哲學辯論、甚至代碼。GPT-3 的出現(xiàn)也讓我們可以期待 AI 將在未來走得更遠。


最后,讓我們盡情欣賞 Imagen 創(chuàng)造的各種“怪異而美妙”的“畫作”吧!

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定