當前位置：首頁 >人工智能 >計算機行業(yè)AIGC:GPT-4v如何實現(xiàn)強大多模態(tài)，從文生圖到圖生文

計算機行業(yè)AIGC:GPT-4v如何實現(xiàn)強大多模態(tài)，從文生圖到圖生文

發(fā)布時間：2024-04-02 15:51:05 瀏覽量：186次

報告出品方：申萬宏源

以下為報告原文節(jié)選

------

1.海外 AI 應用更新，集中體現(xiàn)多模態(tài)能力

近期，海外 AI 應用催化較多：1）Open AI 升級了圖片、語音多模態(tài)能力，并即將應用在最新 ChatGPT 中；2）微軟宣布本月底更新 AI Copilot 系統(tǒng)，全面集成 Open AI 模型能力。
1.1 Open AI 在 ChatGPT 中升級了圖片、語音多模態(tài)能力

9 月 25 日，Open AI 宣布即將發(fā)布新的多模態(tài)功能，包括圖像讀取與理解、語音對話和語音生成。ChatGPT 即將在兩周內對 Plus 用戶與企業(yè)用戶開放一系列新功能，其中圖文能力（如下圖）對全平臺開放，與 Chatgpt 語音對話的能力僅對 ios 及安卓客戶端開放。

對話能力：通過語音直接對 ChatGPT 對話，同時 GPT 可以直接語音回復客戶，可選 5種定制聲音，支持 ios 和 Android 移動應用使用；圖像-文本能力：ChatGPT 除了文字之外，可以理解客戶上傳的圖片信息。GPT 能夠理解照片、圖片截圖、包含圖像的文檔等?？蛻艨梢陨蟼饕粡埢蛘叨鄰垐D片給系統(tǒng)，甚至可以用畫筆標注重點內容，讓系統(tǒng)讀取理解，可以用于輔導學生作業(yè)、搜索日常食譜等各個方向。
語音和圖像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行時拍攝地標的照片，并就其進行實時對話問答；拍攝冰箱和食品儲藏室的照片，以確定晚餐的食物（并詢問后續(xù)問題以獲取分步食譜）；通過直接拍攝家庭作業(yè)照片來獲得解答，或分析與工作相關的數(shù)據的復雜圖表。

此前，OPEN AI 也升級了 DALL?E 3 模型能力。新的 DALL·E 模型與 ChatGPT 能力合并，畫作更加細膩，同時可以不用 prompt，準確還原細節(jié)，并且為圖片配上文字。Plus和企業(yè)版用戶通過文本就能直接在 ChatGPT 中生成各種類型圖片，不僅加強提示詞的生成圖像體驗，而且增強模型理解用戶指令的能力，圖像效果也有提升。

更好的掌握用戶提出的每一個描述。例如上圖，“享受夜間生活的行人”“滿月的光輝”“蒸汽朋克電話”“和怒氣沖沖的老商人討價還價”等多個較難以體現(xiàn)的細節(jié)描述，都體現(xiàn)在圖畫中。
同時可以對生成內容進行多輪自然語言對話編輯。例如讓 DALL-E 模型生成多個刺猬圖片，選出其中一只取名為 Larry，并要求模型生成更多 Larry 圖片，甚至可以詢問模型“為什么 Larry 這么可愛”，模型可以做出文字解答，期間完成了 5 輪對話和修改。
1.2 GPT-4V 的使用方法、工作模式、任務能力

微軟在 Open AI 發(fā)布后，公布了 GPT-4V 詳細測評《 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》。
5 種使用方式：輸入圖像（images）、子圖像（sub-images）、文本（texts）、場景文本（scene texts）和視覺指針（visual pointers）。即同時支持純圖像輸入、也支持圖像、文本交互輸入、同時也可以對圖片進行指向性提示（例如畫箭頭、畫圈）。基本上涵蓋了圖-文多模態(tài)的每個場景。

3 種支持的能力：指令遵循（instruction following）、思維鏈（chain-of-thoughts）、上下文少樣本學習（in-context few-shot learning）。

此外，微軟也展示了 GPT-4V 的多項基本能力：1）視覺-語言能力；2）與人類的互動：視覺參考提示；3）時間和視頻理解；4）其它，包括智商測試、情商測試，以及創(chuàng)新場景應用。
1）視覺-語言能力：除常見的人物、地標等識別外，GPT-4V 還可以理解人和物體間的關系，計數(shù)、生成字幕和描述，解釋笑話，回答科學問題，根據手寫數(shù)學方程生成 LaTeX代碼等。

2）與人類的互動：視覺參考提示。在與多模態(tài)系統(tǒng)的人機交互中，指向特定空間位置是一項基本能力，例如進行基于視覺的對話。

3）時間和視頻理解：多圖像序列、視頻理解、基于時間理解的視覺參考提示。輸入視頻的幾個關鍵幀，可以理解事件前后關聯(lián)。

4）視覺推理、智商、情商測試等，此外 GPT-4v 還可以用于工業(yè)、醫(yī)藥、汽車保險、具身智能、GUI 交互等。

整體來看，GPT-4V：1）展現(xiàn)出強大的混合輸入能力，并且可以較好的支持 LLM 中觀察到的 test-time 技術，包括指令跟隨、思維鏈、上下文少樣本學習等；

2）在不同領域人物中完成度和通用性都較強，包括開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等；

3）像素級編輯能力擴展了 4V 的使用邊界；

4）4V 出現(xiàn)后人工智能應用空間進一步打開，包括工業(yè)、醫(yī)療、金融、具身智能等多個產品都看到應用可能。
1.3 微軟 AI Copilot 系統(tǒng)更新，Office Copilot 辦公能力即將發(fā)布

AI Copilot 9 月 26 日起發(fā)布，Office Copilot 11 月 1 日起大范圍開放。1）9 月 21日，微軟更新AI Copilot 功能，并宣布Copilot 功能將自9 月26 日起，隨著更新的 Windows11 以初期版本形式免費更新，支持在多個 APP 和設備運行；2）Office Copilot 將于 11月 1 日開始大范圍開放，此前 7 月，微軟曾表示將把 Copilot 的價格定在每人每月 30 美元，這是傳統(tǒng) Office 365 訂閱價格之外的額外費用。
這次 Win 11 版本更新了超過 150 個新功能，新版本中 AI Copilot 既可以始終顯示在任務欄上，也可以通過 Win+C 的快捷鍵啟動。新功能包括為 Windows PC 帶來Copilot 功能以及畫圖、照片、Clipchamp 等應用。必應將增加對 OpenAI 最新 DALL?E 3 模型的支持。

我們認為，本次發(fā)布的 AI Copilot/Office Copilot 亮點包括：

1、圖像能力顯著提升：正式加入 DALL?E 3 模型，新增圖文生成、圖片理解、AI編輯 P 圖等功能。
此前 Open AI 發(fā)布了第三代 AI 繪圖工具 DALL?E 3，集成了 ChatGPT，用戶不需要在 prompt 上多費時間就能生成圖像。相比上一代，DALL?E 3 提供了更強的細節(jié)渲染，還可以更好地理解要求，提供更準確的圖像。

同時微軟必應中也集成了這一 AI 設計工具 Microsoft Designer。用戶在使用Designer 可在通過拖曳、prompt 等簡單操作直接將原始畫質圖像添加到自己的設計中。
比如使用本地圖片設計封面，并直接執(zhí)行消除背景等操作，或通過 AI 創(chuàng)作圖片內容對圖像進行延申。

此外，基于 DALL?E 3，微軟更新了 Bing 搜索引擎和 Edge 瀏覽器的 AI 功能。例如在購物中，以圖識圖搜索商品細節(jié)，根據網絡上的買家評論，結合優(yōu)惠券和促銷打折碼幫忙尋找合適的產品和最優(yōu)惠價格。
同時，微軟通過加密方法向 Bing 中所有 AIGC 圖像添加“內容憑證”（Content Credentials）。即一種不可見的數(shù)字水印，包括最初的創(chuàng)建時間和日期。
2、AI Copilot 升級了多端和團隊協(xié)同能力。
AI Copilot 支持下，Outlook for Windows 可連接到谷歌、蘋果等不同公司的多個（云端）賬戶。文件管理器 File Explorer 的主頁、地址欄和搜索框能直接訪問重要且相關的內容，無需打開文件便可進行協(xié)作。備份 Backup 功能可將大多數(shù)文件、應用程序和個性化設置等從一臺 Windows 電腦無縫轉移到另一臺上。
Copilot 還可從用戶手機（例如短信）中獲取內容，導入 Win11 系統(tǒng)。假設用戶要給家人發(fā)送航班時刻表，Copilot 會根據要求將數(shù)據導入電腦桌面上，無需拿出手機就可完成信息發(fā)送。
3、集合展示了 word、excel、ppt、OneNote 中的 copilot 能力。
本次發(fā)布會展示的辦公軟件插件能力與此前多次發(fā)布并無較大差異。仍然包括：Word：文檔摘要、重寫內容、調整語氣、從副本中生成表格等。
Excel：通過自然語言 Prompt 實現(xiàn)數(shù)據可視化、添加計算公式等。
OneNote：對 note 提出較為綜合的問題、生成摘要、文章快速編輯等。

基于以上，本次增加了辦公軟件 AI 助手功能：Microsoft 365 Chat?？墒崂砉ぷ髦械母鱾€數(shù)據領域信息，包括電子郵件、會議、聊天記錄、文檔以及網絡信息。Microsoft 365Copilot 企業(yè)版將提取用戶的企業(yè)數(shù)據來幫助撰寫電子郵件、規(guī)劃活動等。
我們認為，本次發(fā)布會相對超預期的點包括：1）展示了 AI 能力在 Windows 操作系統(tǒng)中的全局管理能力；2）融合圖片大模型 DALL?E 3 基礎，從純文本能力升級到文本-圖片多模態(tài)，同時圖片 AIGC 水平遠超前一代；3）明確 Win11 更新免費，可以使更多人體驗 AI Copilot；4）對 Office Copilot 發(fā)布給定明確時間。
但同時，我們認為目前發(fā)布也存在爭議點，包括：1）Office Copilot 體現(xiàn)出的能力、尤其語言文字理解能力相比于 3 月發(fā)布并無顯著優(yōu)勢；2）而 Office Copilot 定價 30 美金/月，能否體現(xiàn)增量價值有待商榷；2）部分 Win 系統(tǒng)中通過 AI 操作調用需要大量 Prompt，便捷性需要驗證。

2.多模態(tài)原理解析：從文生圖到圖生文

2022 年后，隨著 Transformer 技術的發(fā)展，Transformer 也使用在了 CV 領域，并形成了 Vision Transformer 技術。2023 年后，基于 Transformer 的多模態(tài)大模型出現(xiàn)，AI 大模型應用新的空間打開。

2.1 文生圖：最先成熟的 AIGC 應用，核心在 CLIP

DALL·E：基于 CLIP，可以按照文字描述、生成對應圖片。DALL·E 是 OpenAI 2021年發(fā)布的多模態(tài)-文生圖模型，DALL·E 基于 GPT-3，經過文本-圖像數(shù)據集訓練，有 120億參數(shù)。

Dall-E 一代的創(chuàng)新點：CLIP 形成文字和圖片對照。
1）在文字輸入部分，仍然使用了與 GPE-3 類似的 transformer 語言模型，且參數(shù)量大幅降低。
DALL·E 有 12B 參數(shù)，相比 GPT-3 的 175B 大幅降低，該模型是在 250M 圖像-文本對的數(shù)據集上訓練的。訓練后的模型根據提供的文本生成了幾個樣本（最多 512 個），然后再由 CLIP 進行排序。
2）CLIP，暴力美學下的文本-圖像對應工具，DALL-E 的最大創(chuàng)新點。
CLIP（Contrastive Language-Image Pre-Training）用于將相關文本和圖像對應，背后思路簡單，Open AI 從網上爬蟲，抓取已經有過描述的文本-圖像數(shù)據集，但是數(shù)據集規(guī)模達到了 4 億。

然后在數(shù)據集上訓練對比模型。對比模型可以給來自同一對的圖像和文本產生高相似度得分，而對不匹配的文本和圖像產生低分。如下圖左對比式無監(jiān)督預訓練。

--- 報告摘錄結束更多內容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

（特別說明：本文來源于公開資料，摘錄內容僅供參考，不構成任何投資建議，如需使用請參閱報告原文。）

精選報告來源：報告派

科技 / 電子 / 半導體 /

上一篇北師大未來設計學院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇二舅都能看懂的AIGC賦能UI設計教程丨Midjourney教程

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網站和工具

以下是一些免費的AI視頻制作網站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領域，Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

計算機行業(yè)AIGC:GPT-4v如何實現(xiàn)強大多模態(tài)，從文生圖到圖生文

精選報告來源：報告派

請綁定手機號