激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)

發(fā)布時間:2023-11-28 14:54:14 瀏覽量:95次

權(quán)重已開源

明敏 發(fā)自 凹非寺

|  

最近多模態(tài)大模型是真熱鬧啊。

這不,Transformer一作攜團(tuán)隊也帶來了新作,一個規(guī)模為80億參數(shù)的多模態(tài)大模型Fuyu-8B。

而且發(fā)布即開源,模型權(quán)重在Hugging Face上可以看到。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

該模型具備強(qiáng)大的圖像理解能力。

照片、圖表、PDF、界面UI都不在話下。

能從這么一張復(fù)雜的食物網(wǎng)里理清楚各個生物之間的關(guān)系。

提問:道格拉斯冷杉針葉缺失了,哪種生物會滅絕?

回答:紅樹田鼠。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

也能從密密麻麻的連線圖里找到,權(quán)游“小指頭”扮演者Aidan Gillen出演過HBO兩個系列的劇。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

看得懂專業(yè)圖表,可以幫你找到想要的數(shù)據(jù)。

提問:(左圖)24、32、33、42這組數(shù)字序列中丟了哪個數(shù)?
回答:29

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

一張包含多個圖表的PDF也難不倒它。提問:加州哪里的工作前景不錯?

Fuyu-8B可以準(zhǔn)確找到對應(yīng)的信息塊,并給出正確答案“洛杉磯”。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

而且Fuyu-8B的處理速度很快,研究團(tuán)隊表示100毫秒內(nèi)可反饋大圖像處理結(jié)果。

同時它還很“輕巧”,不僅模型規(guī)模沒超百億,還沒有使用圖像編碼器

這讓它能更快速進(jìn)行訓(xùn)練和推理,并支持處理任意大小圖像。

Hugging Face聯(lián)創(chuàng)兼CTO看了都有點(diǎn)激動,表示假如自己還沒有創(chuàng)業(yè),那么這個項(xiàng)目會啟發(fā)他做點(diǎn)什么。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

該成果來自Transformer一作Ashish Vaswani所在創(chuàng)業(yè)公司Adept。

目前該模型已開源,demo可線上試玩。

一個只有解碼器的Transformer

現(xiàn)在在Hugging Face上即可體驗(yàn)Fuyu-8B的能力。

Demo中提供了兩種任務(wù)。

  • 看圖問答
  • 圖像概述

可以上傳一張圖片然后對大模型進(jìn)行提問。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

或者是直接讓它看圖然后描述圖片內(nèi)容。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

大模型的常識水平不錯,比如問它一道甜點(diǎn)是怎么做的?

它給出的回答是:

這道甜點(diǎn)是用一層層的酥皮做成的,上面點(diǎn)綴著開心果和帕瑪森奶酪。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

測試了下中文能力,發(fā)現(xiàn)它能理解中文,但是“習(xí)慣性”用英文回答。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

模型采用了一種簡單的架構(gòu):純解碼器Transformer

它沒有圖像編碼器。圖像塊(image patch)繞過embedding lookup,即在嵌入矩陣中查找特定輸入的過程,直接映射到Transformer的第一層。

這種架構(gòu)使得模型能支持任意圖像分辨率。

研究團(tuán)隊刪除了圖像特定位置嵌入,并按掃描線順序(raster-scan order)輸入盡可能多的圖像token。

通過一個特殊的圖像轉(zhuǎn)換行符號,模型能知道在什么時候斷行。

由此模型在訓(xùn)練時可以使用任意大小的圖像。

這種架構(gòu)也更進(jìn)一步簡化了模型的訓(xùn)練和推理過程。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

這種架構(gòu)模式也引起了不少網(wǎng)友的關(guān)注,有人就表示,之前總覺得大模型圖像理解能力差是因?yàn)槭褂昧斯潭ù笮〉膒atch。

但Fuyu-8B反駁了他的這一想法。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

實(shí)驗(yàn)結(jié)果顯示Fuyu-8B在多個任務(wù)中性能優(yōu)于PaLM-e-12B和QWEN-VL(10B)。

研究團(tuán)隊還表示,刷榜不是他們本次工作的最終目的,所以模型沒有進(jìn)行優(yōu)化。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

他們構(gòu)建這個大模型的真正目的是為了提升自家產(chǎn)品的能力。

Adept團(tuán)隊致力于打造一個AI Copilot。

這個Copilot能夠理解用戶屏幕上的內(nèi)容(比如網(wǎng)頁、PPT、PDF、圖表等),并能輔助人類快速完成工作。

這就要求大模型需要能理解環(huán)境信息,同時可以代替人類進(jìn)行操作。換言之,需要大模型能具備超強(qiáng)的圖像理解能力。

所以這也是為啥Fuyu-8B會很強(qiáng)調(diào)對UI的理解能力。

比如它能理解你打開的窗口,以及窗口內(nèi)的信息。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

Adept:新晉獨(dú)角獸

帶來這一新工作的團(tuán)隊是Adept。

這是一家由Transformer一作、前OpenAI工程副總裁等業(yè)內(nèi)大佬共同創(chuàng)立的AI公司。

它成立于2022年4月。目前已完成B輪融資,總?cè)谫Y額達(dá)4.15億美元,公司估值超過10億美元。

首席科學(xué)家是Ashish Vaswani。他是《Attention is all you need》的第一作者,平??凑撐臅r經(jīng)常出現(xiàn)的“(Vaswani et al., 2017)”就是這位大佬。

他博士畢業(yè)于南加州大學(xué),在谷歌大腦工作已有5年。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

Transformer的另一位作者Niki Parmar也加入了該團(tuán)隊。
她在印度上完大學(xué)后,同樣在南加州大學(xué)讀完碩士,在谷歌工作了近7年。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

創(chuàng)始人兼CEO David Luan,是前OpenAI加州實(shí)驗(yàn)室工程副總裁,參與過GPT-2、GPT-3、CLIP、DALL-E等模型的開發(fā),后來加入谷歌,曾任谷歌大腦大模型研究的Director。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

Adept致力于打造一個AI Copilot。

團(tuán)隊在去年推出的首項(xiàng)工作,就頗有AutoGPT那感覺。

他們打造的Action Transformer(ACT-1),會使用瀏覽器、Excel等,能理解人類給出的命令并完成相應(yīng)操作。

比如想要在Excel表格中加上利潤、利潤率,只需把這段話輸入給AI,它就能自己在對應(yīng)行列創(chuàng)建公式完成任務(wù)了。

Transformer一作來卷多模態(tài)!學(xué)術(shù)圖表也能看懂,100毫秒極速響應(yīng)|免費(fèi)試玩

同時該團(tuán)隊還非常關(guān)注開源工作。

今年先后推出的兩項(xiàng)工作Persimmon-8B和Fuyu-8B,都已對外開源。

Demo試玩:
https://huggingface.co/spaces/adept/fuyu-8b-demo

參考鏈接:
[1]https://www.adept.ai/blog/fuyu-8b
[2]https://twitter.com/AdeptAILabs/status/1714682413983601046
[3]https://twitter.com/julien_c/status/1714694606095310876?s=20
[4]https://twitter.com/main_horse/status/1714684833488949519?s=20

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定