激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

計算機行業(yè)AIGC:GPT-4v如何實現(xiàn)強大多模態(tài),從文生圖到圖生文

發(fā)布時間:2024-04-02 15:51:05 瀏覽量:186次

報告出品方:申萬宏源

以下為報告原文節(jié)選

------

1.海外 AI 應用更新,集中體現(xiàn)多模態(tài)能力

近期,海外 AI 應用催化較多:1)Open AI 升級了圖片、語音多模態(tài)能力,并即將應用在最新 ChatGPT 中;2)微軟宣布本月底更新 AI Copilot 系統(tǒng),全面集成 Open AI 模型能力。
1.1 Open AI 在 ChatGPT 中升級了圖片、語音多模態(tài)能力

9 月 25 日,Open AI 宣布即將發(fā)布新的多模態(tài)功能,包括圖像讀取與理解、語音對話和語音生成。ChatGPT 即將在兩周內對 Plus 用戶與企業(yè)用戶開放一系列新功能,其中圖文能力(如下圖)對全平臺開放,與 Chatgpt 語音對話的能力僅對 ios 及安卓客戶端開放。



對話能力:通過語音直接對 ChatGPT 對話,同時 GPT 可以直接語音回復客戶,可選 5種定制聲音,支持 ios 和 Android 移動應用使用;圖像-文本能力:ChatGPT 除了文字之外,可以理解客戶上傳的圖片信息。GPT 能夠理解照片、圖片截圖、包含圖像的文檔等??蛻艨梢陨蟼饕粡埢蛘叨鄰垐D片給系統(tǒng),甚至可以用畫筆標注重點內容,讓系統(tǒng)讀取理解,可以用于輔導學生作業(yè)、搜索日常食譜等各個方向。
語音和圖像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行時拍攝地標的照片,并就其進行實時對話問答;拍攝冰箱和食品儲藏室的照片,以確定晚餐的食物(并詢問后續(xù)問題以獲取分步食譜);通過直接拍攝家庭作業(yè)照片來獲得解答,或分析與工作相關的數(shù)據的復雜圖表。




此前,OPEN AI 也升級了 DALL?E 3 模型能力。新的 DALL·E 模型與 ChatGPT 能力合并,畫作更加細膩,同時可以不用 prompt,準確還原細節(jié),并且為圖片配上文字。Plus和企業(yè)版用戶通過文本就能直接在 ChatGPT 中生成各種類型圖片,不僅加強提示詞的生成圖像體驗,而且增強模型理解用戶指令的能力,圖像效果也有提升。



更好的掌握用戶提出的每一個描述。例如上圖,“享受夜間生活的行人”“滿月的光輝”“蒸汽朋克電話”“和怒氣沖沖的老商人討價還價”等多個較難以體現(xiàn)的細節(jié)描述,都體現(xiàn)在圖畫中。
同時可以對生成內容進行多輪自然語言對話編輯。例如讓 DALL-E 模型生成多個刺猬圖片,選出其中一只取名為 Larry,并要求模型生成更多 Larry 圖片,甚至可以詢問模型“為什么 Larry 這么可愛”,模型可以做出文字解答,期間完成了 5 輪對話和修改。
1.2 GPT-4V 的使用方法、工作模式、任務能力

微軟在 Open AI 發(fā)布后,公布了 GPT-4V 詳細測評《 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》。
5 種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場景文本(scene texts)和視覺指針(visual pointers)。即同時支持純圖像輸入、也支持圖像、文本交互輸入、同時也可以對圖片進行指向性提示(例如畫箭頭、畫圈)。基本上涵蓋了圖-文多模態(tài)的每個場景。




3 種支持的能力:指令遵循(instruction following)、思維鏈(chain-of-thoughts)、上下文少樣本學習(in-context few-shot learning)。



此外,微軟也展示了 GPT-4V 的多項基本能力:1)視覺-語言能力;2)與人類的互動:視覺參考提示;3)時間和視頻理解;4)其它,包括智商測試、情商測試,以及創(chuàng)新場景應用。
1)視覺-語言能力:除常見的人物、地標等識別外,GPT-4V 還可以理解人和物體間的關系,計數(shù)、生成字幕和描述,解釋笑話,回答科學問題,根據手寫數(shù)學方程生成 LaTeX代碼等。



2)與人類的互動:視覺參考提示。在與多模態(tài)系統(tǒng)的人機交互中,指向特定空間位置是一項基本能力,例如進行基于視覺的對話。




3)時間和視頻理解:多圖像序列、視頻理解、基于時間理解的視覺參考提示。輸入視頻的幾個關鍵幀,可以理解事件前后關聯(lián)。



4)視覺推理、智商、情商測試等,此外 GPT-4v 還可以用于工業(yè)、醫(yī)藥、汽車保險、具身智能、GUI 交互等。



整體來看,GPT-4V:1)展現(xiàn)出強大的混合輸入能力,并且可以較好的支持 LLM 中觀察到的 test-time 技術,包括指令跟隨、思維鏈、上下文少樣本學習等;

2)在不同領域人物中完成度和通用性都較強,包括開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等;

3)像素級編輯能力擴展了 4V 的使用邊界;

4)4V 出現(xiàn)后人工智能應用空間進一步打開,包括工業(yè)、醫(yī)療、金融、具身智能等多個產品都看到應用可能。
1.3 微軟 AI Copilot 系統(tǒng)更新,Office Copilot 辦公能力即將發(fā)布

AI Copilot 9 月 26 日起發(fā)布,Office Copilot 11 月 1 日起大范圍開放。1)9 月 21日,微軟更新AI Copilot 功能,并宣布Copilot 功能將自9 月26 日起,隨著更新的 Windows11 以初期版本形式免費更新,支持在多個 APP 和設備運行;2)Office Copilot 將于 11月 1 日開始大范圍開放,此前 7 月,微軟曾表示將把 Copilot 的價格定在每人每月 30 美元,這是傳統(tǒng) Office 365 訂閱價格之外的額外費用。
這次 Win 11 版本更新了超過 150 個新功能,新版本中 AI Copilot 既可以始終顯示在任務欄上,也可以通過 Win+C 的快捷鍵啟動。新功能包括為 Windows PC 帶來Copilot 功能以及畫圖、照片、Clipchamp 等應用。必應將增加對 OpenAI 最新 DALL?E 3 模型的支持。

我們認為,本次發(fā)布的 AI Copilot/Office Copilot 亮點包括:

1、圖像能力顯著提升:正式加入 DALL?E 3 模型,新增圖文生成、圖片理解、AI編輯 P 圖等功能。
此前 Open AI 發(fā)布了第三代 AI 繪圖工具 DALL?E 3,集成了 ChatGPT,用戶不需要在 prompt 上多費時間就能生成圖像。相比上一代,DALL?E 3 提供了更強的細節(jié)渲染,還可以更好地理解要求,提供更準確的圖像。



同時微軟 必應中 也集成了 這一 AI 設 計工具 Microsoft Designer。用戶在使用Designer 可在通過拖曳、prompt 等簡單操作直接將原始畫質圖像添加到自己的設計中。
比如使用本地圖片設計封面,并直接執(zhí)行消除背景等操作,或通過 AI 創(chuàng)作圖片內容對圖像進行延申。




此外,基于 DALL?E 3,微軟更新了 Bing 搜索引擎和 Edge 瀏覽器的 AI 功能。例如在購物中,以圖識圖搜索商品細節(jié),根據網絡上的買家評論,結合優(yōu)惠券和促銷打折碼幫忙尋找合適的產品和最優(yōu)惠價格。
同時,微軟通過加密方法向 Bing 中所有 AIGC 圖像添加“內容憑證”(Content Credentials)。即一種不可見的數(shù)字水印,包括最初的創(chuàng)建時間和日期。
2、AI Copilot 升級了多端和團隊協(xié)同能力。
AI Copilot 支持下,Outlook for Windows 可連接到谷歌、蘋果等不同公司的多個(云端)賬戶。文件管理器 File Explorer 的主頁、地址欄和搜索框能直接訪問重要且相關的內容,無需打開文件便可進行協(xié)作。備份 Backup 功能可將大多數(shù)文件、應用程序和個性化設置等從一臺 Windows 電腦無縫轉移到另一臺上。
Copilot 還可從用戶手機(例如短信)中獲取內容,導入 Win11 系統(tǒng)。假設用戶要給家人發(fā)送航班時刻表,Copilot 會根據要求將數(shù)據導入電腦桌面上,無需拿出手機就可完成信息發(fā)送。
3、集合展示了 word、excel、ppt、OneNote 中的 copilot 能力。
本次發(fā)布會展示的辦公軟件插件能力與此前多次發(fā)布并無較大差異。仍然包括:Word:文檔摘要、重寫內容、調整語氣、從副本中生成表格等。
Excel:通過自然語言 Prompt 實現(xiàn)數(shù)據可視化、添加計算公式等。
OneNote:對 note 提出較為綜合的問題、生成摘要、文章快速編輯等。



基于以上,本次增加了辦公軟件 AI 助手功能:Microsoft 365 Chat??墒崂砉ぷ髦械母鱾€數(shù)據領域信息,包括電子郵件、會議、聊天記錄、文檔以及網絡信息。Microsoft 365Copilot 企業(yè)版將提取用戶的企業(yè)數(shù)據來幫助撰寫電子郵件、規(guī)劃活動等。
我們認為,本次發(fā)布會相對超預期的點包括:1)展示了 AI 能力在 Windows 操作系統(tǒng)中的全局管理能力;2)融合圖片大模型 DALL?E 3 基礎,從純文本能力升級到文本-圖片多模態(tài),同時圖片 AIGC 水平遠超前一代;3)明確 Win11 更新免費,可以使更多人體驗 AI Copilot;4)對 Office Copilot 發(fā)布給定明確時間。
但同時,我們認為目前發(fā)布也存在爭議點,包括:1)Office Copilot 體現(xiàn)出的能力、尤其語言文字理解能力相比于 3 月發(fā)布并無顯著優(yōu)勢;2)而 Office Copilot 定價 30 美金/月,能否體現(xiàn)增量價值有待商榷;2)部分 Win 系統(tǒng)中通過 AI 操作調用需要大量 Prompt,便捷性需要驗證。

2.多模態(tài)原理解析:從文生圖到圖生文

2022 年后,隨著 Transformer 技術的發(fā)展,Transformer 也使用在了 CV 領域,并形成了 Vision Transformer 技術。2023 年后,基于 Transformer 的多模態(tài)大模型出現(xiàn),AI 大模型應用新的空間打開。



2.1 文生圖:最先成熟的 AIGC 應用,核心在 CLIP

DALL·E:基于 CLIP,可以按照文字描述、生成對應圖片。DALL·E 是 OpenAI 2021年發(fā)布的多模態(tài)-文生圖模型,DALL·E 基于 GPT-3,經過文本-圖像數(shù)據集訓練,有 120億參數(shù)。



Dall-E 一代的創(chuàng)新點:CLIP 形成文字和圖片對照。
1)在文字輸入部分,仍然使用了與 GPE-3 類似的 transformer 語言模型,且參數(shù)量大幅降低。
DALL·E 有 12B 參數(shù),相比 GPT-3 的 175B 大幅降低,該模型是在 250M 圖像-文本對的數(shù)據集上訓練的。訓練后的模型根據提供的文本生成了幾個樣本(最多 512 個),然后再由 CLIP 進行排序。
2)CLIP,暴力美學下的文本-圖像對應工具,DALL-E 的最大創(chuàng)新點。
CLIP(Contrastive Language-Image Pre-Training)用于將相關文本和圖像對應,背后思路簡單,Open AI 從網上爬蟲,抓取已經有過描述的文本-圖像數(shù)據集,但是數(shù)據集規(guī)模達到了 4 億。



然后在數(shù)據集上訓練對比模型。對比模型可以給來自同一對的圖像和文本產生高相似度得分,而對不匹配的文本和圖像產生低分。如下圖左對比式無監(jiān)督預訓練。




--- 報告摘錄結束 更多內容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

(特別說明:本文來源于公開資料,摘錄內容僅供參考,不構成任何投資建議,如需使用請參閱報告原文。)

精選報告來源:報告派


科技 / 電子 / 半導體 /

人工智能 | Ai產業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴設備 |半導體 | 芯片產業(yè) | 第三代半導體 | 藍牙 | 晶圓 | 功率半導體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產管理 | 保險行業(yè) | 保險科技 | 財產保險 |

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定