發(fā)布時(shí)間:2023-12-05 09:26:05 瀏覽量:281次
機(jī)器之心原創(chuàng)
作者:小舟
AIGC,不只是一場(chǎng)狂歡。
最近,社交平臺(tái)上一些 AI 作畫工具引起廣泛關(guān)注,比如因「情侶合影」刷屏的 Midjourney v5 和剛剛開啟公測(cè)的 Stable Diffusion XL。
Midjourney v5 和 Stable Diffusion XL 生成的圖像。
AI 生成的圖像天馬行空,在互聯(lián)網(wǎng)上掀起了一場(chǎng)狂歡,AIGC(人工智能生成內(nèi)容)也成為一個(gè)爆款詞匯,人們驚呼 AI 技術(shù)的迅速發(fā)展。
狂歡之后,我們需要想想:AIGC 的現(xiàn)實(shí)價(jià)值是什么?
AIGC 被認(rèn)為是繼專業(yè)生產(chǎn)內(nèi)容(PGC)、用戶生產(chǎn)內(nèi)容(UGC)之后的新型內(nèi)容創(chuàng)作方式,人們期待 AI 能夠掀起新一輪內(nèi)容生產(chǎn)變革。當(dāng)前,大部分 AI 作畫工具是面向個(gè)人消費(fèi)者(to C)的應(yīng)用產(chǎn)品,這些產(chǎn)品的生成效果的確讓人眼前一亮。
但想讓 AIGC 賦能各行各業(yè),提升生產(chǎn)力,做出面向 B 端客戶的高效、專業(yè)的應(yīng)用才是關(guān)鍵。
最近,長(zhǎng)期深耕 to B 業(yè)務(wù)的商湯科技宣布推出秒畫 SenseMirage,為 AI 作畫打開了商業(yè)應(yīng)用的新格局。
秒畫是基于商湯自研的文生圖大模型,依托商湯 AI 大裝置 SenseCore 強(qiáng)大算力集群的 AI 作畫平臺(tái)。在秒畫平臺(tái)上,B 端客戶可以使用商湯自研的文生圖大模型快速生成圖像。
其效果如何?背后技術(shù)是什么?有哪些特色與優(yōu)勢(shì)?讓我們一一為你揭秘。
多種風(fēng)格、秒速生成
不同于 Stable Diffusion、Midjourney,秒畫是一個(gè) to B 的 AI 作畫平臺(tái),將廣泛應(yīng)用于設(shè)計(jì)、營(yíng)銷、游戲動(dòng)畫、工程建筑、醫(yī)學(xué)、教育科普等領(lǐng)域。我們來看一些秒畫平臺(tái)中商湯自研文生圖大模型的生成樣例。
首先,面向時(shí)尚設(shè)計(jì)領(lǐng)域,商湯自研大模型生成的「中國(guó)女士時(shí)尚街拍圖如下」:
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——中國(guó)女士時(shí)尚街拍圖。
還能生成巴黎時(shí)裝周攝影風(fēng)的模特圖像:
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——巴黎時(shí)裝周模特圖片。
我們也和其他文生圖模型進(jìn)行了效果對(duì)比,例如生成圖像:一只戴著珍珠耳環(huán)的鸚鵡,商湯自研模型的生成效果如下:
Prompt:(混合語言輸入)一只戴著珍珠耳環(huán)的鸚鵡,維米爾風(fēng)格,12K,高畫質(zhì),高清,octane render
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——戴珍珠耳環(huán)的鸚鵡。
同樣的 prompt 翻譯成英文后,我們嘗試用 Stable Diffusion XL 生成,但并沒有得到符合要求的結(jié)果。部分圖像沒有以鸚鵡作為主體,部分即便生成了鸚鵡,但缺少珍珠耳環(huán)等細(xì)節(jié)。
Stable Diffusion XL 生成的一組圖像。
在游戲動(dòng)畫領(lǐng)域,商湯自研的文生圖模型也有很強(qiáng)大的生成能力,生成的圖像符合文本描述,且細(xì)節(jié)豐富,有動(dòng)畫感染力。例如生成一只「憤怒的皮卡丘」:
Prompt:(中文輸入)憤怒的皮卡丘,它的眼睛是紅色的,周圍電閃雷鳴,超寫實(shí)主義風(fēng)格
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——憤怒的皮卡丘。
同樣的 prompt 翻譯為英文輸入后,Stable Diffusion XL 生成的結(jié)果不盡如人意,要么是皮卡丘不夠憤怒,要么是圖像細(xì)節(jié)不到位。
Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style
Stable Diffusion XL 生成的一組圖像。
我們發(fā)現(xiàn),秒畫平臺(tái)中商湯自研的文生圖模型可以生成符合要求的高質(zhì)量圖像,而且非常適用于設(shè)計(jì)和游戲動(dòng)畫行業(yè)。下面我們就看一下這個(gè)文生圖大模型的具體細(xì)節(jié)。
超 10 億參數(shù)的自研文生圖大模型
要想讓大模型足夠好、AI 作畫足夠逼真,就要具備三個(gè)核心元素,包括模型架構(gòu)、優(yōu)化方法和底層基建。
首先,模型本身的結(jié)構(gòu)設(shè)計(jì)要足夠高效。一般來講,神經(jīng)網(wǎng)絡(luò)變得更大,模型學(xué)習(xí)能力就會(huì)更強(qiáng)。但如何保證在同等超大參數(shù)量下,模型能夠具有性能優(yōu)勢(shì),這就需要在模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上多下功夫。
從 2019 年開始,商湯就研發(fā)了一套半自主的超大模型結(jié)構(gòu)設(shè)計(jì) pipeline。它能夠幫助研究員在模型參數(shù)量特別大的情況下,設(shè)計(jì)出高效的神經(jīng)網(wǎng)絡(luò)算子,同時(shí)商湯還使用 AutoML 平臺(tái)把這些算子結(jié)合起來。
因此,商湯自研的大模型是基于研究人員和 AI 一起設(shè)計(jì)出來的超大神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這個(gè)結(jié)構(gòu)下,相同的數(shù)據(jù)、相同的參數(shù)量,商湯自研的模型在性能上就有顯著的優(yōu)勢(shì)。經(jīng)過訓(xùn)練的模型,在生成效果上會(huì)比單純把深度、寬度加大一些量級(jí)的模型好很多。
第二,在這套模型架構(gòu)設(shè)計(jì) pipeline 里,研究人員會(huì)手工設(shè)計(jì)一些優(yōu)化方法。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練都是用 SGD、Adam 優(yōu)化器等等。而在過去的幾年里,商湯在超大神經(jīng)網(wǎng)絡(luò)的梯度下降優(yōu)化方法上做了非常多的研究。
特別大的模型在優(yōu)化上有一個(gè)非常嚴(yán)重的問題,是模型訓(xùn)練過程的收斂性很難保證。這可能因?yàn)閮?yōu)化器不夠好,也可能是因?yàn)閿?shù)據(jù)里有噪聲,導(dǎo)致模型在極個(gè)別錯(cuò)誤的樣本下產(chǎn)生極大的損失函數(shù)值。此外,對(duì)于基于擴(kuò)散模型的生成式模型來說,生成的語義完備性、物體宏觀結(jié)構(gòu)、細(xì)節(jié)(比如手指、四肢等)、推理步的加速等都有較大改進(jìn)空間。商湯的研究團(tuán)隊(duì)基于這些問題做了大量的優(yōu)化,以確保商湯自研的文生圖、視覺感知等大模型都能夠在一個(gè)很長(zhǎng)周期內(nèi)保持訓(xùn)練穩(wěn)定、高效。
具體來說,為了讓該模型生成的圖像質(zhì)量更高、細(xì)節(jié)更豐富、風(fēng)格更多樣,商湯的研究團(tuán)隊(duì)自研了分層推理專家(hierarchical inference experts)、圖像質(zhì)量感知的分布式訓(xùn)練(image quality-aware distributed training)、圖像紋理指導(dǎo)的交叉注意力學(xué)習(xí)(texture-guided cross-attention learning)等優(yōu)化算法。
第三,算法與底層基建要綁定配合,聯(lián)合優(yōu)化。當(dāng)模型的體量足夠大,就需要用 3D 切割的方法從神經(jīng)網(wǎng)絡(luò)深度,寬度以及數(shù)據(jù) batch 的三個(gè)維度來切割神經(jīng)網(wǎng)絡(luò),再分配到上千塊 GPU 上,在每個(gè) GPU 上進(jìn)行局部計(jì)算,就會(huì)涉及到非常多機(jī)器學(xué)習(xí)系統(tǒng)的問題。比如在計(jì)算每一個(gè)分塊計(jì)算的全局結(jié)果時(shí),需要把不同卡的計(jì)算結(jié)果結(jié)合起來。而這又會(huì)導(dǎo)致一個(gè)問題 —— 每個(gè) GPU 上的子模型在相互通信時(shí),帶寬要求會(huì)非常大。
然而,機(jī)器學(xué)習(xí)系統(tǒng)中通常是一個(gè) POD 內(nèi)的 P2P 通信帶寬很大,POD 之間的通信帶寬很小,因此商湯的研究團(tuán)隊(duì)專門針對(duì)這個(gè)問題對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了特異性設(shè)計(jì),讓只能在一個(gè) POD 內(nèi)通信的子模型盡量放在一個(gè) POD 里,而通信帶寬要求相對(duì)較小的一些模塊(比如不同的 experts)就放到不同的 POD 之間,這就可以讓大模型與商湯的 AI 大裝置進(jìn)行聯(lián)合優(yōu)化,以獲得更高的訓(xùn)練效率。
這三個(gè)技術(shù)要素讓商湯自研的文生圖大模型具備了更優(yōu)的文本理解能力和逼真的生成效果。在 prompt 比較詳細(xì)復(fù)雜的時(shí)候,該模型可以生成帶有故事性的逼真圖像。例如提供 prompt 讓模型生成皮卡丘和馬里奧打斗的場(chǎng)景:
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——皮卡丘和馬里奧打斗。
在秒畫平臺(tái)上,商湯自研的文生圖大模型是一個(gè)基礎(chǔ)模型,B 端客戶僅用少量數(shù)據(jù)就可以迅速微調(diào)得到一個(gè)適用于下游任務(wù)的垂類模型,大大降低了訓(xùn)練門檻。
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像。
獨(dú)具優(yōu)勢(shì)的文生圖平臺(tái)
除了商湯自研的文生圖大模型,秒畫還是一個(gè)可以導(dǎo)入其他開源模型的平臺(tái),被稱為「模型超市」。
可從第三方平臺(tái)導(dǎo)入模型,并啟動(dòng)秒畫 SenseMirage 平臺(tái)的模型編譯技術(shù)進(jìn)行推理加速的效果展示。
在秒畫平臺(tái)上,用戶可以一鍵導(dǎo)入 Hugging Face、Civitai、GitHub 等第三方社區(qū)的開源模型,并且添加至用戶「我的模型庫(kù)」列表中,方便進(jìn)行體驗(yàn),讓用戶免除本地化部署的繁瑣流程。
這是為了大幅降低 AI 作畫的商用門檻。對(duì)于一些中小型企業(yè)來說,本地化部署大模型的成本是非常高的。硬件方面,訓(xùn)練垂類模型需要搭建一定規(guī)模的 GPU 算力集群,還需要專業(yè)的技術(shù)團(tuán)隊(duì),人力成本也是比較高的。
秒畫為商湯自研文生圖模型和開源模型提供了一套算法框架和強(qiáng)大的算力基礎(chǔ)設(shè)施 ——AI 大裝置 SenseCore。B 端用戶可以直接在秒畫平臺(tái)上訓(xùn)練定制化的 LoRA 模型,基于現(xiàn)有商湯自研文生圖模型的高度泛化性,B 端用戶只需要拖拽 20 張左右圖片作為訓(xùn)練集,最低僅需 5 分鐘就能完成一個(gè)高質(zhì)量模型的訓(xùn)練。這讓中小型企業(yè)也能輕松擁有屬于自己的垂類模型。
此外,秒畫還提供了特異性推理優(yōu)化服務(wù),開源模型導(dǎo)入后會(huì)自動(dòng)采用秒畫平臺(tái)底層的模型編譯技術(shù)進(jìn)行加速。借助這項(xiàng)加速技術(shù),在本地 RTX 3070 顯卡上需要 10 秒生成的圖像,秒畫只要 2 秒的推理時(shí)間就可以生成。
總體來說,秒畫是一個(gè)依托商湯 AI 大裝置 SenseCore 的 to B 文生圖平臺(tái),它基于商湯自研的超 10 億參數(shù)文生圖大模型,也能一鍵導(dǎo)入第三方開源模型,為 B 端客戶免去了本地化部署的繁瑣流程,并提供了簡(jiǎn)單快速的訓(xùn)練服務(wù)和推理加速功能。
打開 AIGC 的商業(yè)價(jià)值
隨著生成式 AI 模型迎來爆發(fā)式增長(zhǎng),越來越多的人開始探索 AIGC 的潛在應(yīng)用場(chǎng)景。不同于 to C 的應(yīng)用軟件,to B 的 AIGC 平臺(tái)需要為各行業(yè)找到合適的商業(yè)模式。
作為深耕 to B 業(yè)務(wù)的公司,商湯自去年開始就為 B 端用戶提供定制化的文生圖模型,當(dāng)時(shí)的常見做法是根據(jù)用戶的需求為客戶訓(xùn)練并封裝成 SDK 來交付。這樣的業(yè)務(wù)積累也讓商湯有了構(gòu)建通用文生圖平臺(tái)的新思路,秒畫應(yīng)運(yùn)而生。
在文生圖領(lǐng)域,設(shè)計(jì)、營(yíng)銷、游戲動(dòng)畫等行業(yè)未來將成為 AI 作畫的主要應(yīng)用場(chǎng)景。作為 to B 的文生圖平臺(tái),秒畫具備賦能這些行業(yè)的優(yōu)勢(shì)。
例如,對(duì)比同類產(chǎn)品的生成效果,秒畫更適用于商業(yè)設(shè)計(jì)和產(chǎn)品營(yíng)銷。在下面這個(gè)生成汽車圖像的例子中,相比于 Stable Diffusion,商湯自研模型的生成結(jié)果更符合 prompt 中的「概念設(shè)計(jì)」和「水墨」這兩個(gè)關(guān)鍵詞。
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。
類似地,在游戲動(dòng)畫行業(yè),圖像的展現(xiàn)效果將直接影響產(chǎn)品的質(zhì)量,這對(duì)賦能該行業(yè)的 AIGC 工具提出了更高的要求,包括圖像生成效果和對(duì)文本的理解能力兩方面。以下圖生成「夢(mèng)幻的蝴蝶」為例,基于商湯自研模型的優(yōu)化技術(shù),秒畫在圖像風(fēng)格、細(xì)節(jié)刻畫等方面都更符合行業(yè)要求。
“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。
一方面,秒畫為 B 端客戶大幅降低了文生圖垂類模型的構(gòu)建門檻和商用成本;另一方面,秒畫也符合當(dāng)前主流 AI 作畫的應(yīng)用場(chǎng)景,提高了文生圖模型的實(shí)用價(jià)值。
在 AI 作畫賺足眼球的今天,秒畫平臺(tái)從賦能行業(yè)的角度出發(fā),為 AIGC 打開商業(yè)價(jià)值提供了一個(gè)新的思路。
最后,我們想說,文生圖只是 AIGC 的方向之一。隨著生成式 AI 模型的迅速發(fā)展,AI 生成文本、AI 生成視頻等等多個(gè)領(lǐng)域都在加快應(yīng)用落地,AI 終將掀起內(nèi)容生產(chǎn)的新一輪變革。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!