當(dāng)前位置：首頁 >人工智能 >用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”

用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”

發(fā)布時(shí)間：2023-11-15 17:19:22 瀏覽量：108次

理論成功率91%

豐色發(fā)自凹非寺

|

GPT-4V，就是Siri終結(jié)的開始。

一項(xiàng)研究發(fā)現(xiàn)：

無需任何訓(xùn)練，GPT-4V就能直接像人類一樣與智能手機(jī)進(jìn)行交互，完成各種指定命令。

比如讓它在50-100美元的預(yù)算內(nèi)購買一個打奶泡的工具。

它就能像下面這樣一步一步地完成選擇購物程序（亞馬遜）并打開、點(diǎn)擊搜索欄輸入“奶泡器”、找到篩選功能選擇預(yù)算區(qū)間、點(diǎn)擊商品并完成下單這一系列共計(jì)9個操作。

用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”

根據(jù)測試，GPT-4V在iPhone上完成類似任務(wù)的成功率可達(dá)75%。

因此，有人感嘆有了它，Siri漸漸就沒有用武之地了（比Siri更懂iPhone）

誰知有人直接擺擺手：

Siri壓根兒一開始就沒這么強(qiáng)好嘛。（狗頭）

還有人看完直呼：

智能語音交互時(shí)代已經(jīng)開始。我們的手機(jī)可能要變成一個純粹的顯示設(shè)備了。

真的這么？

GPT-4V零樣本操作iPhone

這項(xiàng)研究來自加州大學(xué)圣地亞哥分校、微軟等機(jī)構(gòu)。

它本身是開發(fā)了一個MM-Navigator，也就是一種基于GPT-4V的agent，用于開展智能手機(jī)用戶界面的導(dǎo)航任務(wù)。

實(shí)驗(yàn)設(shè)置

在每一個時(shí)間步驟，MM-Navigator都會得到一個屏幕截圖。

作為一個多模態(tài)模型，GPT-4V接受圖像和文本作為輸入并產(chǎn)生文本輸出。

在這里，就是一步步讀屏幕截圖信息，輸出要操作的步驟。

現(xiàn)在的問題就是：

如何讓模型合理地計(jì)算出給定屏幕上應(yīng)該點(diǎn)擊的準(zhǔn)確位置坐標(biāo)（GPT-4V只能給出大概位置）。

作者給出的解決辦法非常簡單，通過OCR工具和IconNet檢測每一個給定屏幕上的UI元素，并標(biāo)記不同的數(shù)字。

這樣一來，GPT-4V就只需面對一張截圖指出要點(diǎn)什么數(shù)字進(jìn)行操作就好。

兩項(xiàng)能力測試

測試率先在iPhone上展開。

要想成功操縱手機(jī)涉及到GPT-4V不同類型的屏幕理解能力：

一個是語義推理，包括理解屏幕輸入和闡明完成給定指令所需的動作。

一個是指出每一個動作應(yīng)執(zhí)行的精確位置（即該點(diǎn)哪個數(shù)字）的能力。

因此，作者開發(fā)了兩組測試分別進(jìn)行區(qū)分。

1、預(yù)期動作描述

只輸出應(yīng)該干啥，不輸出具體坐標(biāo)。

在這個任務(wù)中，GPT-4V理解指令并給出操作步驟的準(zhǔn)確率為90.9%。

比如在下面這個Safari瀏覽器的截圖中，用戶想要打開一個新標(biāo)簽頁，但左下角的+號是灰色的，應(yīng)該怎么辦？

GPT-4V回答：

通常這樣操作是ok的，但從截圖來看，您似乎已經(jīng)達(dá)到了500個標(biāo)簽頁的上限，要想再打開新的，需要關(guān)閉一些已有選項(xiàng)卡，然后再看看+號是否可以點(diǎn)擊。

看圖理解表現(xiàn)得很不錯～更多例子可以翻閱論文。

2、本地化動作執(zhí)行

當(dāng)讓GPT-4V把這些“紙上談兵”都化為具體行動時(shí)（即第二個測試任務(wù)），它的正確率有所下降，來到74.5%。

還是上面的例子，它可以遵循自己給出的指令，給出正確的操作數(shù)字，比如點(diǎn)擊數(shù)字9關(guān)閉一個標(biāo)簽頁。

但如下圖所示，讓它找一個可以識別建筑物的應(yīng)用程序時(shí)，它可以準(zhǔn)確指出用ChatGPT，但是卻給出了錯誤數(shù)字“15”（應(yīng)該是“5”）。

還有的錯誤是因?yàn)槠聊唤貓D本身就沒有標(biāo)出對應(yīng)位置。

比如讓它從下面的圖中開啟隱身模式，直接給了wifi處于的“11”位置，完全不搭嘎。

此外，除了這種簡單的單步任務(wù)，測試也發(fā)現(xiàn)GPT-4V完全可以不需訓(xùn)練就勝任“買起泡器”這樣的復(fù)雜指令。

在這個過程中，我們可以看到GPT-4V事無巨細(xì)地列出每一步該干什么，以及對應(yīng)的數(shù)字坐標(biāo)。

最后，是安卓機(jī)上的測試。

整體來看，比其他模型比如Llama 2、PaLM 2和ChatGPT表現(xiàn)得明顯要好。

在執(zhí)行安裝、購物等任務(wù)中的總體表現(xiàn)最高得分為52.96%，這些基線模型最高才39.6%。

對于整個實(shí)驗(yàn)來說，它最大的意義是證明多模態(tài)模型比如GPT-4V能夠?qū)⒛芰χ苯舆w移到未見過的場景，展現(xiàn)出進(jìn)行手機(jī)交互的極大潛力。

值得一提的是，網(wǎng)友看完這項(xiàng)研究也提出了兩個點(diǎn)：

一是我們如何定義任務(wù)執(zhí)行的成功與否。

比如我們想讓它買洗手液補(bǔ)充裝，只想要一袋，它卻加購了六袋算成功嗎？

二是大伙也不能興奮得太早，要想真的商用這項(xiàng)技術(shù)，前進(jìn)空間還很大。

因?yàn)?，?zhǔn)確率可達(dá)95%的Siri都還經(jīng)常被吐槽很差勁呢。

團(tuán)隊(duì)介紹

本研究一共12位作者，基本都來自微軟。

共同一作兩位。

分別是加州大學(xué)圣地亞哥分校的博士生An Yan，以及微軟的高級研究員Zhengyuan Yang，后者本科畢業(yè)于中科大，博士畢業(yè)于羅切斯特大學(xué)。

參考鏈接：
[1]https://arxiv.org/abs/2311.07562
[2]https://x.com/emollick/status/1724272391595995329?s=20

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇登上CMMLU性能評測榜單第一四大維度解碼夸克自研大模型

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”

GPT-4V零樣本操作iPhone

實(shí)驗(yàn)設(shè)置

兩項(xiàng)能力測試

團(tuán)隊(duì)介紹

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”

GPT-4V零樣本操作iPhone

實(shí)驗(yàn)設(shè)置

兩項(xiàng)能力測試

團(tuán)隊(duì)介紹

請綁定手機(jī)號

用GPT-4V“操縱”iPhone，無需訓(xùn)練可完成任意指令，“Siri終結(jié)的開始”