當(dāng)前位置：首頁 >人工智能 >谷歌讓大模型更具“心智”，GPT-4任務(wù)準(zhǔn)確率大增

谷歌讓大模型更具“心智”，GPT-4任務(wù)準(zhǔn)確率大增

發(fā)布時間：2023-11-28 14:54:52 瀏覽量：110次

心智水平已達(dá)人類七成

克雷西發(fā)自凹非寺

|

谷歌聯(lián)合多所高校的一項最新研究，讓大模型開始擁有了人類的“心智”。

在新的提示策略下，大模型不僅能推測出人類所面臨的問題，還學(xué)會了用推測的結(jié)論調(diào)整自己的行為。

有了這一成果，GPT-4的“心智”水平已經(jīng)提高到了人類的71%。

具體來說，研究人員發(fā)現(xiàn)，現(xiàn)在的大模型，已經(jīng)具備了在對話中推測人類“在想啥”的能力。但如果你要它根據(jù)這種推理給出行動建議，那可就難倒大模型了。

舉個例子，小明放學(xué)回家后把書包扔到沙發(fā)上就跑出去玩了，媽媽看到之后幫小明把包放到了臥室。

如果大模型能夠像人類一樣，在小明回來之后告訴他包在臥室，就說明大模型具備了“心智理論”。

研究人員把這種做法稱為Thinking for Doing(T4D)，并設(shè)計了相應(yīng)的任務(wù)。

為了提高模型在T4D任務(wù)上的表現(xiàn)，團(tuán)隊進(jìn)一步提出了Foresee and Reflect(FaR)提示策略，結(jié)果讓大模型在“心智”上取得了重大突破。

論文的標(biāo)題也包含了“How far……” ，一語雙關(guān)，既體現(xiàn)了FaR框架對大模型的幫助，又暗含了大模型離具有人類“心智”的距離。

那么，有了FaR的大模型，究竟擁有什么樣的“心智”呢？

大模型離具有“心智”更進(jìn)一步

我們還是從例子說起，如下圖所示，一共有綠色和藍(lán)色兩個櫥柜，Tom在綠色櫥柜中放了一塊巧克力。

Tom離開后，Ella把這塊巧克力挪到了藍(lán)色的柜子里。

那么等Tom再回來，會從哪個柜子中找巧克力呢？（當(dāng)然是綠色的）

這就是一個“推理”任務(wù)，是心理學(xué)上著名的“薩利-安妮”（用于測試“心智”）實驗的變體。

而T4D任務(wù)是這樣的：

如果你就在旁邊（并且知道發(fā)生了什么），會怎么做？

人類會選擇告訴Tom巧克力被挪走了，但（未經(jīng)調(diào)教的）大模型就不一定會這樣做了。

為了更宏觀地測試大模型在調(diào)整前后的表現(xiàn)，研究團(tuán)隊選擇了ToMi數(shù)據(jù)集并改編成了T4D-Tom數(shù)據(jù)集。

其中的ToMi是一個由大量“薩利-安妮”類情景組成的測試數(shù)據(jù)集，用于測試大模型的“心智推理”能力。

可以看出，在推理上，表現(xiàn)最好的GPT-4與人類已經(jīng)相差無幾，但在T4D任務(wù)上才剛剛達(dá)到人類水平的一半。

于是，研究團(tuán)隊提出的FaR方法登場了。

FaR框架的核心奧義就是模仿人類的理性思維方式，和A*搜索算法（用于搜索最短路徑）有些相似。

具體來說，F(xiàn)aR包括Foresee和Reflect兩步。

Foresee過程中模型會被要求預(yù)測接下來會發(fā)生什么，并分析人所面臨的“困難”。

Reflect發(fā)生在Foresee之后，模型會預(yù)測自己接下來的行為是否能解決相應(yīng)的“困難”。

有了FaR框架，效果也是立竿見影。

相比于思維鏈（CoT）、思維樹（ToT）、自己提問等方式，F(xiàn)aR顯著提高了大模型在“薩利-安妮”類T4D問題上的準(zhǔn)確率。

特別是GPT-4，準(zhǔn)確率從人類的50%提升到了71%，GPT-3.5以及谷歌自家的PaLM表現(xiàn)也有提高。

消融實驗結(jié)果表明，F(xiàn)oresee和Reflect兩步都是FaR的關(guān)鍵步驟，缺一不可。

為了驗證FaR方法的通用性和魯棒性，研究團(tuán)隊還進(jìn)行了一系列泛化測試。

首先是在“薩利-安妮”情景的基礎(chǔ)上改變故事的結(jié)構(gòu)，研究團(tuán)隊一共嘗試了三種方式：

D1：增加房間的數(shù)量
D2：人物的數(shù)量增多
D3：容器的數(shù)量增加到四個

結(jié)果FaR依舊成功幫助大模型提高了任務(wù)的準(zhǔn)確率，在第三種模式下GPT-4甚至取得了和人類相當(dāng)?shù)某煽?/strong>。

即使故意設(shè)置干擾信息，F(xiàn)aR依舊可以提高大模型的表現(xiàn)。

研究團(tuán)隊專門構(gòu)建了包含困擾信息的“Faux Pas”數(shù)據(jù)集，結(jié)果GPT-4的表現(xiàn)從31%提高到了76%。

作者簡介

FaR論文的第一作者是南加州大學(xué)NLP實驗室的華人博士生Pei Zhou。

這項成果是他在谷歌實習(xí)期間完成的。

此外，來自谷歌（包括DeepMind）、卡耐基梅隆大學(xué)和的芝加哥大學(xué)的學(xué)者也參與了本項目。

那么對于大模型的“心智”，你有什么看法呢？

論文地址：
http://arxiv.org/abs/2310.03051

— 完 —

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇用暫停token重新訓(xùn)練大模型，AI學(xué)會三思而后行

熱門課程推薦

熱門資訊

1. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！

2. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！

3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...

4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！

5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...

6. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...

7. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...

8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...

9. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。

10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

最新文章

1. 設(shè)計培訓(xùn)哪家好？課程對比+就業(yè)數(shù)據(jù)分析

2. 動畫制作全流程解析及軟件推薦

3. 如何選擇視頻制作軟件推薦？

4. 曲面建模常見問題解答：提升設(shè)計效率的10大關(guān)鍵技巧

5. 快速摳圖培訓(xùn)機構(gòu)哪家強？專業(yè)推薦

最新問答

1. ui都會做運營設(shè)計嘛

2. ui還是ue賺錢

3. ui還原度測試測什么

4. ui跟前端的區(qū)別

5. ui跟前端有什么區(qū)別

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

谷歌讓大模型更具“心智”，GPT-4任務(wù)準(zhǔn)確率大增

大模型離具有“心智”更進(jìn)一步

作者簡介

請綁定手機號