發(fā)布時間:2023-11-27 12:04:58 瀏覽量:125次
整場大會干貨滿滿
白交 發(fā)自 凹非寺
|
用視覺來做Prompt,是種什么體驗(yàn)?
只需在圖里隨便框一下,結(jié)果秒秒鐘圈出同一類別!
即便是那種GPT-4V都難搞定的數(shù)米粒的環(huán)節(jié)。只需要你手動拉一下框,就能找出所有米粒來。
新的目標(biāo)檢測范式,有了!
剛剛結(jié)束的IDEA年度大會上,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋展示了最新研究成果——
基于視覺提示(Visual Prompt)模型T-Rex。
整個流程交互,開箱即用,只需幾步就可以完成。
此前,Meta開源的SAM分割一切模型,直接讓CV領(lǐng)域迎來了GPT-3時刻,但仍是基于文本prompt的范式,在應(yīng)對一些復(fù)雜、罕見場景就會比較難辦。
現(xiàn)在以圖換圖的方式,就能輕松迎刃而解。
除此之外,整場大會也是干貨滿滿,比如Think-on-Graph知識驅(qū)動大模型、開發(fā)者平臺MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU機(jī)密計(jì)算協(xié)處理器、可控人像視頻生成平臺HiveNet等等。
最后,沈向洋還分享了過去幾年時間花時間最多的一個項(xiàng)目:低空經(jīng)濟(jì)。
我相信當(dāng)?shù)涂战?jīng)濟(jì)發(fā)展到相對成熟時,同一個時間點(diǎn),在深圳的天空中每天有10萬架無人機(jī),每天飛起來的有百萬架無人機(jī)。
除了基礎(chǔ)的單輪提示功能,T-Rex還支持三種進(jìn)階模式。
有點(diǎn)像多輪對話,以得出更為精確的結(jié)果,不至于出現(xiàn)漏檢的情況。
適用于視覺提示帶有二義性造成誤檢的場景。
* 跨圖模式。
用單張參考圖提示,來檢測其他的圖。
據(jù)介紹,T-Rex不會受到預(yù)定義類別限制,能夠利用視覺示例指定檢測目標(biāo),這樣一來就克服有些物體難以用文字充分表達(dá)的問題,以提高提示效率。尤其像一些工業(yè)場景中的復(fù)雜組件等。
除此之外,通過與用戶交互的方式,也可以隨時快速地評估檢測結(jié)果,并進(jìn)行糾錯等。
T-Rex主要由三個組件組成:圖像編碼器、提示編碼器以及框解碼器。
這項(xiàng)工作來自IDEA研究院計(jì)算機(jī)視覺與機(jī)器人研究中心。
該團(tuán)隊(duì)此前開源的目標(biāo)檢測模型DINO是首個在COCO目標(biāo)檢測上取得榜單第一的DETR類模型;在Github上大火(至今狂攬11K星)的零樣本檢測器Grounding DINO與能夠檢測、分割一切的Grounded SAM。更多技術(shù)細(xì)節(jié)可戳文末鏈接。
除此之外,IDEA大會上還重點(diǎn)分享了幾個研究成果。
比如Think-on-Graph知識驅(qū)動大模型,簡單來說就是將大模型與知識圖譜結(jié)合。
大模型擅長意圖理解和自主學(xué)習(xí),而知識圖譜因其結(jié)構(gòu)化的知識存儲方式,更擅長邏輯鏈條推理。
Think-on-Graph通過驅(qū)動大模型agent在知識圖譜上“思考”,逐步搜索推理出最優(yōu)答案(在知識圖譜的關(guān)聯(lián)實(shí)體上一步一步搜索推理)。每一步推理中,大模型都親自參與,與知識圖譜相互取長補(bǔ)短。
MoonBit月兔,這是由Wasm驅(qū)動,專為云計(jì)算與邊緣計(jì)算設(shè)計(jì)的開發(fā)者平臺。
它不僅提供通用程序語言設(shè)計(jì),還整合了編譯器、構(gòu)建系統(tǒng)、集成開發(fā)環(huán)境(IDE)、部署工具等版塊,來提升開發(fā)體驗(yàn)與效率。
此前發(fā)布的科研神器ReadPaper也更新至2.0,發(fā)布會現(xiàn)場演示了閱讀copilot、潤色copilot等新功能。
發(fā)布會最后,沈向洋發(fā)布《低空經(jīng)濟(jì)發(fā)展白皮書——深圳方案》,在其智能融合低空系統(tǒng)(Smart Integrated Lower Airspace System,SILAS)中,提出時空進(jìn)程(Temporal Spatial Process)新概念。
T-Rex鏈接:
https://trex-counting.github.io/
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!