激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

AI 又開“畫展”了!Google Brain 推出新的圖像生成模型——Imagen

發(fā)布時(shí)間:2024-08-06 13:13:48 瀏覽量:131次

今年4月的時(shí)候,OpenAI 曾展示了它新的圖像生成神經(jīng)網(wǎng)絡(luò) DALL-E 2,它可以幾乎按照任何要求來生成高分辨率的圖像,并在大多數(shù)方面都超過了最初版本的 DALL-E。

可僅僅過了一個(gè)月,Google Brain 就在近日也發(fā)布了自己的圖像生成人工智能——Imagen,而它的表現(xiàn)甚至比 DALL-E 2 要更好。

Imagen 的相關(guān)論文于5月23日發(fā)布在 arxiv 上
(圖片來源:arxiv)

Imagen 是一種文本到圖像的擴(kuò)散模型,具有深層次的語言理解能力,可以通過輸入文本創(chuàng)建逼真的圖像。Imagen 使用大型 frozen T5-XXL 編碼器將輸入的文本編碼為??嵌入??,然后條件擴(kuò)散模型將文本嵌入映射到 64×64 的圖像中,之后再進(jìn)一步利用超分辨率擴(kuò)散模型生成 256×256 和 1024×1024 的圖像。

輸入“一只穿戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”后 Imagen 的動(dòng)作
(圖片來源:Imagen)

Imagen 的許多圖片都令人驚嘆不已,不僅僅是因?yàn)閳D片內(nèi)容有趣又奇幻,而且很多圖片場景帶來的真實(shí)感十分強(qiáng)烈。

(圖片來源:MIT technologyreview)

就像 OpenAI 發(fā)布 DALL-E 時(shí)所做的一樣,Google 也用各種“擬人化動(dòng)物”的可愛圖片來宣傳他們的工具,比如一只戴著宇航員頭盔的浣熊,一只趴在壽司房子里的柯基,一只戴著皇冠坐在國王寶座上的博美等等。

但是,這些公開的大多數(shù)圖片之所以都如此可愛,或許是經(jīng)過精心挑選的結(jié)果。其實(shí)像 DALL-E 2 和 Imagen 這樣的模型,往往依賴于大量網(wǎng)絡(luò)抓取的圖像數(shù)據(jù),而這些數(shù)據(jù)通常是未經(jīng)處理的,其中既有好的數(shù)據(jù),同時(shí)也會(huì)有不健康的數(shù)據(jù)。

Imagen 團(tuán)隊(duì)表示 :“雖然我們對一部分訓(xùn)練數(shù)據(jù)進(jìn)行了過濾,以去除噪音和不良內(nèi)容,如色情圖像和有毒語言,但我們也使用了 LAION-400M 數(shù)據(jù)集,眾所周知,該數(shù)據(jù)集包含大量不當(dāng)內(nèi)容,包括色情圖像、種族歧視和有害的社會(huì)刻板印象。Imagen 依賴于在未記錄的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上訓(xùn)練的文本編碼器,從而繼承了大型語言模型的社會(huì)偏見和局限性。因此,Imagen 存在對有害的刻板印象和表述進(jìn)行編碼的風(fēng)險(xiǎn),這促使我們決定在沒有進(jìn)一步保障措施的情況下,不發(fā)布 Imagen 供公眾使用?!?/span>

盡管 DALL-E 2 和 Imagen 存在風(fēng)險(xiǎn),但它們本質(zhì)上大大地推動(dòng)了人工智能領(lǐng)域的發(fā)展,使人工智能再次達(dá)到了新的高度。并且,這種人工智能圖像生成的技術(shù)將有可能成為改變世界的一項(xiàng)技術(shù)。

AI 又開“畫展”了!Google Brain 推出新的圖像生成模型,讓圖像生成再次升級!

(圖片來源:pixabay)

回顧過往,你會(huì)發(fā)現(xiàn)人工智能在發(fā)展到一定程度之后都受到了一個(gè)瓶頸的困擾:主要的機(jī)器學(xué)習(xí)手段還是來自于蠻力計(jì)算,而且其依賴大量的數(shù)據(jù)來訓(xùn)練系統(tǒng)。這離人類的思考方式還是有很大區(qū)別的。人類在思考時(shí)可以進(jìn)行泛化,例如,嬰兒直知道什么是貓之后,再見到其他的貓就能馬上知道這是貓。

機(jī)器無法進(jìn)行泛化,這從另外一個(gè)方面也反映了機(jī)器學(xué)習(xí)一直只能通過大量數(shù)據(jù)分析模仿人類的邏輯分析能力,而一直難以實(shí)現(xiàn)人類大腦的另一強(qiáng)大功能——想象力。

直到2014年,當(dāng)時(shí)還是蒙特利爾大學(xué)博士生的 Ian Goodfellow 突然想到了這個(gè)問題的答案——對抗性神經(jīng)網(wǎng)絡(luò)。對抗性神經(jīng)網(wǎng)絡(luò)的原理是兩個(gè) AI 系統(tǒng)可以通過相互對抗來創(chuàng)造超級真實(shí)的原創(chuàng)圖像或聲音。對抗性神經(jīng)網(wǎng)絡(luò)賦予了機(jī)器創(chuàng)造和想象的能力,也讓機(jī)器學(xué)習(xí)減少了對數(shù)據(jù)的依賴性,對于人工智能是一大突破。

對抗性神經(jīng)網(wǎng)絡(luò)被稱作是近年來最有潛力的,解決了一直困擾人工智能領(lǐng)域數(shù)據(jù)來源問題的重要機(jī)器學(xué)習(xí)模型,可以說是真正實(shí)現(xiàn)了不依賴人類的無監(jiān)督學(xué)習(xí)。對抗性神經(jīng)網(wǎng)絡(luò)更是在2018年入選了《麻省理工科技評論》“十大突破性技術(shù)”。

自2018年以來,由對抗性神經(jīng)網(wǎng)絡(luò)帶來的無監(jiān)督學(xué)習(xí)方法吸引了越來越多的關(guān)注,并使得 AI 在多個(gè)領(lǐng)域取得了巨大的進(jìn)展。除了前面提到的圖像生成領(lǐng)域,AI 在文本創(chuàng)作領(lǐng)域同樣表現(xiàn)不俗。入選2021年《麻省理工科技評論》“十大突破性技術(shù)”之一的 GPT-3 就是一種使用對抗性神經(jīng)網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)算法的 “大型語言模型”。

GPT-3 由舊金山的研究實(shí)驗(yàn)室 OpenAI 創(chuàng)建?;贕PT-3,AI 能夠模仿人類書寫文本,且逼真程度令人稱贊,人們甚至認(rèn)為 GPT-3 可以寫出任何東西:同人小說、哲學(xué)辯論、甚至代碼。GPT-3 的出現(xiàn)也讓我們可以期待 AI 將在未來走得更遠(yuǎn)。


最后,讓我們盡情欣賞 Imagen 創(chuàng)造的各種“怪異而美妙”的“畫作”吧!

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定