當(dāng)前位置：首頁(yè) >人工智能 >賺足眼球的AI作畫，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

賺足眼球的AI作畫，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

發(fā)布時(shí)間：2023-12-05 09:26:05 瀏覽量：281次

機(jī)器之心原創(chuàng)

作者：小舟

AIGC，不只是一場(chǎng)狂歡。

最近，社交平臺(tái)上一些 AI 作畫工具引起廣泛關(guān)注，比如因「情侶合影」刷屏的 Midjourney v5 和剛剛開啟公測(cè)的 Stable Diffusion XL。

Midjourney v5 和 Stable Diffusion XL 生成的圖像。

AI 生成的圖像天馬行空，在互聯(lián)網(wǎng)上掀起了一場(chǎng)狂歡，AIGC（人工智能生成內(nèi)容）也成為一個(gè)爆款詞匯，人們驚呼 AI 技術(shù)的迅速發(fā)展。

狂歡之后，我們需要想想：AIGC 的現(xiàn)實(shí)價(jià)值是什么？

AIGC 被認(rèn)為是繼專業(yè)生產(chǎn)內(nèi)容（PGC）、用戶生產(chǎn)內(nèi)容（UGC）之后的新型內(nèi)容創(chuàng)作方式，人們期待 AI 能夠掀起新一輪內(nèi)容生產(chǎn)變革。當(dāng)前，大部分 AI 作畫工具是面向個(gè)人消費(fèi)者（to C）的應(yīng)用產(chǎn)品，這些產(chǎn)品的生成效果的確讓人眼前一亮。

但想讓 AIGC 賦能各行各業(yè)，提升生產(chǎn)力，做出面向 B 端客戶的高效、專業(yè)的應(yīng)用才是關(guān)鍵。

最近，長(zhǎng)期深耕 to B 業(yè)務(wù)的商湯科技宣布推出秒畫 SenseMirage，為 AI 作畫打開了商業(yè)應(yīng)用的新格局。

秒畫是基于商湯自研的文生圖大模型，依托商湯 AI 大裝置 SenseCore 強(qiáng)大算力集群的 AI 作畫平臺(tái)。在秒畫平臺(tái)上，B 端客戶可以使用商湯自研的文生圖大模型快速生成圖像。

其效果如何？背后技術(shù)是什么？有哪些特色與優(yōu)勢(shì)？讓我們一一為你揭秘。

多種風(fēng)格、秒速生成

不同于 Stable Diffusion、Midjourney，秒畫是一個(gè) to B 的 AI 作畫平臺(tái)，將廣泛應(yīng)用于設(shè)計(jì)、營(yíng)銷、游戲動(dòng)畫、工程建筑、醫(yī)學(xué)、教育科普等領(lǐng)域。我們來看一些秒畫平臺(tái)中商湯自研文生圖大模型的生成樣例。

首先，面向時(shí)尚設(shè)計(jì)領(lǐng)域，商湯自研大模型生成的「中國(guó)女士時(shí)尚街拍圖如下」：

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——中國(guó)女士時(shí)尚街拍圖。

還能生成巴黎時(shí)裝周攝影風(fēng)的模特圖像：

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——巴黎時(shí)裝周模特圖片。

我們也和其他文生圖模型進(jìn)行了效果對(duì)比，例如生成圖像：一只戴著珍珠耳環(huán)的鸚鵡，商湯自研模型的生成效果如下：

Prompt：（混合語言輸入）一只戴著珍珠耳環(huán)的鸚鵡，維米爾風(fēng)格，12K，高畫質(zhì)，高清，octane render

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——戴珍珠耳環(huán)的鸚鵡。

同樣的 prompt 翻譯成英文后，我們嘗試用 Stable Diffusion XL 生成，但并沒有得到符合要求的結(jié)果。部分圖像沒有以鸚鵡作為主體，部分即便生成了鸚鵡，但缺少珍珠耳環(huán)等細(xì)節(jié)。

Stable Diffusion XL 生成的一組圖像。

在游戲動(dòng)畫領(lǐng)域，商湯自研的文生圖模型也有很強(qiáng)大的生成能力，生成的圖像符合文本描述，且細(xì)節(jié)豐富，有動(dòng)畫感染力。例如生成一只「憤怒的皮卡丘」：

Prompt：（中文輸入）憤怒的皮卡丘，它的眼睛是紅色的，周圍電閃雷鳴，超寫實(shí)主義風(fēng)格

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——憤怒的皮卡丘。

同樣的 prompt 翻譯為英文輸入后，Stable Diffusion XL 生成的結(jié)果不盡如人意，要么是皮卡丘不夠憤怒，要么是圖像細(xì)節(jié)不到位。

Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

Stable Diffusion XL 生成的一組圖像。

我們發(fā)現(xiàn)，秒畫平臺(tái)中商湯自研的文生圖模型可以生成符合要求的高質(zhì)量圖像，而且非常適用于設(shè)計(jì)和游戲動(dòng)畫行業(yè)。下面我們就看一下這個(gè)文生圖大模型的具體細(xì)節(jié)。

超 10 億參數(shù)的自研文生圖大模型

要想讓大模型足夠好、AI 作畫足夠逼真，就要具備三個(gè)核心元素，包括模型架構(gòu)、優(yōu)化方法和底層基建。

首先，模型本身的結(jié)構(gòu)設(shè)計(jì)要足夠高效。一般來講，神經(jīng)網(wǎng)絡(luò)變得更大，模型學(xué)習(xí)能力就會(huì)更強(qiáng)。但如何保證在同等超大參數(shù)量下，模型能夠具有性能優(yōu)勢(shì)，這就需要在模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上多下功夫。

從 2019 年開始，商湯就研發(fā)了一套半自主的超大模型結(jié)構(gòu)設(shè)計(jì) pipeline。它能夠幫助研究員在模型參數(shù)量特別大的情況下，設(shè)計(jì)出高效的神經(jīng)網(wǎng)絡(luò)算子，同時(shí)商湯還使用 AutoML 平臺(tái)把這些算子結(jié)合起來。

因此，商湯自研的大模型是基于研究人員和 AI 一起設(shè)計(jì)出來的超大神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這個(gè)結(jié)構(gòu)下，相同的數(shù)據(jù)、相同的參數(shù)量，商湯自研的模型在性能上就有顯著的優(yōu)勢(shì)。經(jīng)過訓(xùn)練的模型，在生成效果上會(huì)比單純把深度、寬度加大一些量級(jí)的模型好很多。

第二，在這套模型架構(gòu)設(shè)計(jì) pipeline 里，研究人員會(huì)手工設(shè)計(jì)一些優(yōu)化方法。

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練都是用 SGD、Adam 優(yōu)化器等等。而在過去的幾年里，商湯在超大神經(jīng)網(wǎng)絡(luò)的梯度下降優(yōu)化方法上做了非常多的研究。

特別大的模型在優(yōu)化上有一個(gè)非常嚴(yán)重的問題，是模型訓(xùn)練過程的收斂性很難保證。這可能因?yàn)閮?yōu)化器不夠好，也可能是因?yàn)閿?shù)據(jù)里有噪聲，導(dǎo)致模型在極個(gè)別錯(cuò)誤的樣本下產(chǎn)生極大的損失函數(shù)值。此外，對(duì)于基于擴(kuò)散模型的生成式模型來說，生成的語義完備性、物體宏觀結(jié)構(gòu)、細(xì)節(jié)（比如手指、四肢等）、推理步的加速等都有較大改進(jìn)空間。商湯的研究團(tuán)隊(duì)基于這些問題做了大量的優(yōu)化，以確保商湯自研的文生圖、視覺感知等大模型都能夠在一個(gè)很長(zhǎng)周期內(nèi)保持訓(xùn)練穩(wěn)定、高效。

具體來說，為了讓該模型生成的圖像質(zhì)量更高、細(xì)節(jié)更豐富、風(fēng)格更多樣，商湯的研究團(tuán)隊(duì)自研了分層推理專家（hierarchical inference experts）、圖像質(zhì)量感知的分布式訓(xùn)練（image quality-aware distributed training）、圖像紋理指導(dǎo)的交叉注意力學(xué)習(xí)（texture-guided cross-attention learning）等優(yōu)化算法。

第三，算法與底層基建要綁定配合，聯(lián)合優(yōu)化。當(dāng)模型的體量足夠大，就需要用 3D 切割的方法從神經(jīng)網(wǎng)絡(luò)深度，寬度以及數(shù)據(jù) batch 的三個(gè)維度來切割神經(jīng)網(wǎng)絡(luò)，再分配到上千塊 GPU 上，在每個(gè) GPU 上進(jìn)行局部計(jì)算，就會(huì)涉及到非常多機(jī)器學(xué)習(xí)系統(tǒng)的問題。比如在計(jì)算每一個(gè)分塊計(jì)算的全局結(jié)果時(shí)，需要把不同卡的計(jì)算結(jié)果結(jié)合起來。而這又會(huì)導(dǎo)致一個(gè)問題 —— 每個(gè) GPU 上的子模型在相互通信時(shí)，帶寬要求會(huì)非常大。

然而，機(jī)器學(xué)習(xí)系統(tǒng)中通常是一個(gè) POD 內(nèi)的 P2P 通信帶寬很大，POD 之間的通信帶寬很小，因此商湯的研究團(tuán)隊(duì)專門針對(duì)這個(gè)問題對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了特異性設(shè)計(jì)，讓只能在一個(gè) POD 內(nèi)通信的子模型盡量放在一個(gè) POD 里，而通信帶寬要求相對(duì)較小的一些模塊（比如不同的 experts）就放到不同的 POD 之間，這就可以讓大模型與商湯的 AI 大裝置進(jìn)行聯(lián)合優(yōu)化，以獲得更高的訓(xùn)練效率。

這三個(gè)技術(shù)要素讓商湯自研的文生圖大模型具備了更優(yōu)的文本理解能力和逼真的生成效果。在 prompt 比較詳細(xì)復(fù)雜的時(shí)候，該模型可以生成帶有故事性的逼真圖像。例如提供 prompt 讓模型生成皮卡丘和馬里奧打斗的場(chǎng)景：

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——皮卡丘和馬里奧打斗。

在秒畫平臺(tái)上，商湯自研的文生圖大模型是一個(gè)基礎(chǔ)模型，B 端客戶僅用少量數(shù)據(jù)就可以迅速微調(diào)得到一個(gè)適用于下游任務(wù)的垂類模型，大大降低了訓(xùn)練門檻。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像。

獨(dú)具優(yōu)勢(shì)的文生圖平臺(tái)

除了商湯自研的文生圖大模型，秒畫還是一個(gè)可以導(dǎo)入其他開源模型的平臺(tái)，被稱為「模型超市」。

可從第三方平臺(tái)導(dǎo)入模型，并啟動(dòng)秒畫 SenseMirage 平臺(tái)的模型編譯技術(shù)進(jìn)行推理加速的效果展示。

在秒畫平臺(tái)上，用戶可以一鍵導(dǎo)入 Hugging Face、Civitai、GitHub 等第三方社區(qū)的開源模型，并且添加至用戶「我的模型庫(kù)」列表中，方便進(jìn)行體驗(yàn)，讓用戶免除本地化部署的繁瑣流程。

這是為了大幅降低 AI 作畫的商用門檻。對(duì)于一些中小型企業(yè)來說，本地化部署大模型的成本是非常高的。硬件方面，訓(xùn)練垂類模型需要搭建一定規(guī)模的 GPU 算力集群，還需要專業(yè)的技術(shù)團(tuán)隊(duì)，人力成本也是比較高的。

秒畫為商湯自研文生圖模型和開源模型提供了一套算法框架和強(qiáng)大的算力基礎(chǔ)設(shè)施 ——AI 大裝置 SenseCore。B 端用戶可以直接在秒畫平臺(tái)上訓(xùn)練定制化的 LoRA 模型，基于現(xiàn)有商湯自研文生圖模型的高度泛化性，B 端用戶只需要拖拽 20 張左右圖片作為訓(xùn)練集，最低僅需 5 分鐘就能完成一個(gè)高質(zhì)量模型的訓(xùn)練。這讓中小型企業(yè)也能輕松擁有屬于自己的垂類模型。

此外，秒畫還提供了特異性推理優(yōu)化服務(wù)，開源模型導(dǎo)入后會(huì)自動(dòng)采用秒畫平臺(tái)底層的模型編譯技術(shù)進(jìn)行加速。借助這項(xiàng)加速技術(shù)，在本地 RTX 3070 顯卡上需要 10 秒生成的圖像，秒畫只要 2 秒的推理時(shí)間就可以生成。

總體來說，秒畫是一個(gè)依托商湯 AI 大裝置 SenseCore 的 to B 文生圖平臺(tái)，它基于商湯自研的超 10 億參數(shù)文生圖大模型，也能一鍵導(dǎo)入第三方開源模型，為 B 端客戶免去了本地化部署的繁瑣流程，并提供了簡(jiǎn)單快速的訓(xùn)練服務(wù)和推理加速功能。

打開 AIGC 的商業(yè)價(jià)值

隨著生成式 AI 模型迎來爆發(fā)式增長(zhǎng)，越來越多的人開始探索 AIGC 的潛在應(yīng)用場(chǎng)景。不同于 to C 的應(yīng)用軟件，to B 的 AIGC 平臺(tái)需要為各行業(yè)找到合適的商業(yè)模式。

作為深耕 to B 業(yè)務(wù)的公司，商湯自去年開始就為 B 端用戶提供定制化的文生圖模型，當(dāng)時(shí)的常見做法是根據(jù)用戶的需求為客戶訓(xùn)練并封裝成 SDK 來交付。這樣的業(yè)務(wù)積累也讓商湯有了構(gòu)建通用文生圖平臺(tái)的新思路，秒畫應(yīng)運(yùn)而生。

在文生圖領(lǐng)域，設(shè)計(jì)、營(yíng)銷、游戲動(dòng)畫等行業(yè)未來將成為 AI 作畫的主要應(yīng)用場(chǎng)景。作為 to B 的文生圖平臺(tái)，秒畫具備賦能這些行業(yè)的優(yōu)勢(shì)。

例如，對(duì)比同類產(chǎn)品的生成效果，秒畫更適用于商業(yè)設(shè)計(jì)和產(chǎn)品營(yíng)銷。在下面這個(gè)生成汽車圖像的例子中，相比于 Stable Diffusion，商湯自研模型的生成結(jié)果更符合 prompt 中的「概念設(shè)計(jì)」和「水墨」這兩個(gè)關(guān)鍵詞。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。

類似地，在游戲動(dòng)畫行業(yè)，圖像的展現(xiàn)效果將直接影響產(chǎn)品的質(zhì)量，這對(duì)賦能該行業(yè)的 AIGC 工具提出了更高的要求，包括圖像生成效果和對(duì)文本的理解能力兩方面。以下圖生成「夢(mèng)幻的蝴蝶」為例，基于商湯自研模型的優(yōu)化技術(shù)，秒畫在圖像風(fēng)格、細(xì)節(jié)刻畫等方面都更符合行業(yè)要求。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。

一方面，秒畫為 B 端客戶大幅降低了文生圖垂類模型的構(gòu)建門檻和商用成本；另一方面，秒畫也符合當(dāng)前主流 AI 作畫的應(yīng)用場(chǎng)景，提高了文生圖模型的實(shí)用價(jià)值。

在 AI 作畫賺足眼球的今天，秒畫平臺(tái)從賦能行業(yè)的角度出發(fā)，為 AIGC 打開商業(yè)價(jià)值提供了一個(gè)新的思路。

最后，我們想說，文生圖只是 AIGC 的方向之一。隨著生成式 AI 模型的迅速發(fā)展，AI 生成文本、AI 生成視頻等等多個(gè)領(lǐng)域都在加快應(yīng)用落地，AI 終將掀起內(nèi)容生產(chǎn)的新一輪變革。

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 AI繪畫商用案例教程 | 用Midjourney兩小時(shí)做了兩套書籍封面設(shè)計(jì)

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡(jiǎn)單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡(jiǎn)單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
9. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具，從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

賺足眼球的AI作畫，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

請(qǐng)綁定手機(jī)號(hào)

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

賺足眼球的AI作畫，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

請(qǐng)綁定手機(jī)號(hào)

賺足眼球的AI作畫，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案