激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

發(fā)布時(shí)間:2023-11-15 17:19:22 瀏覽量:108次

理論成功率91%

豐色 發(fā)自 凹非寺

|  

GPT-4V,就是Siri終結(jié)的開始。

一項(xiàng)研究發(fā)現(xiàn):

無需任何訓(xùn)練,GPT-4V就能直接像人類一樣與智能手機(jī)進(jìn)行交互,完成各種指定命令。

比如讓它在50-100美元的預(yù)算內(nèi)購買一個(gè)打奶泡的工具。

它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)并打開、點(diǎn)擊搜索欄輸入“奶泡器”、找到篩選功能選擇預(yù)算區(qū)間、點(diǎn)擊商品并完成下單這一系列共計(jì)9個(gè)操作。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

根據(jù)測試,GPT-4V在iPhone上完成類似任務(wù)的成功率可達(dá)75%。

因此,有人感嘆有了它,Siri漸漸就沒有用武之地了(比Siri更懂iPhone)

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

誰知有人直接擺擺手:

Siri壓根兒一開始就沒這么強(qiáng)好嘛。(狗頭)

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

還有人看完直呼:

智能語音交互時(shí)代已經(jīng)開始。我們的手機(jī)可能要變成一個(gè)純粹的顯示設(shè)備了。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

真的這么?

GPT-4V零樣本操作iPhone

這項(xiàng)研究來自加州大學(xué)圣地亞哥分校、微軟等機(jī)構(gòu)。

它本身是開發(fā)了一個(gè)MM-Navigator,也就是一種基于GPT-4V的agent,用于開展智能手機(jī)用戶界面的導(dǎo)航任務(wù)。

實(shí)驗(yàn)設(shè)置

在每一個(gè)時(shí)間步驟,MM-Navigator都會得到一個(gè)屏幕截圖

作為一個(gè)多模態(tài)模型,GPT-4V接受圖像和文本作為輸入并產(chǎn)生文本輸出。

在這里,就是一步步讀屏幕截圖信息,輸出要操作的步驟。

現(xiàn)在的問題就是:

如何讓模型合理地計(jì)算出給定屏幕上應(yīng)該點(diǎn)擊的準(zhǔn)確位置坐標(biāo)(GPT-4V只能給出大概位置)。

作者給出的解決辦法非常簡單,通過OCR工具和IconNet檢測每一個(gè)給定屏幕上的UI元素,并標(biāo)記不同的數(shù)字

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

這樣一來,GPT-4V就只需面對一張截圖指出要點(diǎn)什么數(shù)字進(jìn)行操作就好。

兩項(xiàng)能力測試

測試率先在iPhone上展開。

要想成功操縱手機(jī)涉及到GPT-4V不同類型的屏幕理解能力:

一個(gè)是語義推理,包括理解屏幕輸入和闡明完成給定指令所需的動作。

一個(gè)是指出每一個(gè)動作應(yīng)執(zhí)行的精確位置(即該點(diǎn)哪個(gè)數(shù)字)的能力。

因此,作者開發(fā)了兩組測試分別進(jìn)行區(qū)分。

1、預(yù)期動作描述

只輸出應(yīng)該干啥,不輸出具體坐標(biāo)。

在這個(gè)任務(wù)中,GPT-4V理解指令并給出操作步驟的準(zhǔn)確率為90.9%

比如在下面這個(gè)Safari瀏覽器的截圖中,用戶想要打開一個(gè)新標(biāo)簽頁,但左下角的+號是灰色的,應(yīng)該怎么辦?

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

GPT-4V回答:

通常這樣操作是ok的,但從截圖來看,您似乎已經(jīng)達(dá)到了500個(gè)標(biāo)簽頁的上限,要想再打開新的,需要關(guān)閉一些已有選項(xiàng)卡,然后再看看+號是否可以點(diǎn)擊。

看圖理解表現(xiàn)得很不錯~更多例子可以翻閱論文。

2、本地化動作執(zhí)行

當(dāng)讓GPT-4V把這些“紙上談兵”都化為具體行動時(shí)(即第二個(gè)測試任務(wù)),它的正確率有所下降,來到74.5%

還是上面的例子,它可以遵循自己給出的指令,給出正確的操作數(shù)字,比如點(diǎn)擊數(shù)字9關(guān)閉一個(gè)標(biāo)簽頁。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

但如下圖所示,讓它找一個(gè)可以識別建筑物的應(yīng)用程序時(shí),它可以準(zhǔn)確指出用ChatGPT,但是卻給出了錯誤數(shù)字“15”(應(yīng)該是“5”)。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

還有的錯誤是因?yàn)槠聊唤貓D本身就沒有標(biāo)出對應(yīng)位置。

比如讓它從下面的圖中開啟隱身模式,直接給了wifi處于的“11”位置,完全不搭嘎。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

此外,除了這種簡單的單步任務(wù),測試也發(fā)現(xiàn)GPT-4V完全可以不需訓(xùn)練就勝任“買起泡器”這樣的復(fù)雜指令。

在這個(gè)過程中,我們可以看到GPT-4V事無巨細(xì)地列出每一步該干什么,以及對應(yīng)的數(shù)字坐標(biāo)。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

最后,是安卓機(jī)上的測試。

整體來看,比其他模型比如Llama 2、PaLM 2和ChatGPT表現(xiàn)得明顯要好。

在執(zhí)行安裝、購物等任務(wù)中的總體表現(xiàn)最高得分為52.96%,這些基線模型最高才39.6%。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

對于整個(gè)實(shí)驗(yàn)來說,它最大的意義是證明多模態(tài)模型比如GPT-4V能夠?qū)⒛芰χ苯舆w移到未見過的場景,展現(xiàn)出進(jìn)行手機(jī)交互的極大潛力。

值得一提的是,網(wǎng)友看完這項(xiàng)研究也提出了兩個(gè)點(diǎn):

一是我們如何定義任務(wù)執(zhí)行的成功與否

比如我們想讓它買洗手液補(bǔ)充裝,只想要一袋,它卻加購了六袋算成功嗎?

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

二是大伙也不能興奮得太早,要想真的商用這項(xiàng)技術(shù),前進(jìn)空間還很大。

因?yàn)?,?zhǔn)確率可達(dá)95%的Siri都還經(jīng)常被吐槽很差勁呢。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

團(tuán)隊(duì)介紹

本研究一共12位作者,基本都來自微軟。

用GPT-4V“操縱”iPhone,無需訓(xùn)練可完成任意指令,“Siri終結(jié)的開始”

共同一作兩位。

分別是加州大學(xué)圣地亞哥分校的博士生An Yan,以及微軟的高級研究員Zhengyuan Yang,后者本科畢業(yè)于中科大,博士畢業(yè)于羅切斯特大學(xué)。

參考鏈接:
[1]https://arxiv.org/abs/2311.07562
[2]https://x.com/emollick/status/1724272391595995329?s=20

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動,老師會在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定