發(fā)布時(shí)間:2023-11-28 14:54:52 瀏覽量:109次
心智水平已達(dá)人類七成
克雷西 發(fā)自 凹非寺
|
谷歌聯(lián)合多所高校的一項(xiàng)最新研究,讓大模型開始擁有了人類的“心智”。
在新的提示策略下,大模型不僅能推測出人類所面臨的問題,還學(xué)會(huì)了用推測的結(jié)論調(diào)整自己的行為。
有了這一成果,GPT-4的“心智”水平已經(jīng)提高到了人類的71%。
具體來說,研究人員發(fā)現(xiàn),現(xiàn)在的大模型,已經(jīng)具備了在對話中推測人類“在想啥”的能力。但如果你要它根據(jù)這種推理給出行動(dòng)建議,那可就難倒大模型了。
舉個(gè)例子,小明放學(xué)回家后把書包扔到沙發(fā)上就跑出去玩了,媽媽看到之后幫小明把包放到了臥室。
如果大模型能夠像人類一樣,在小明回來之后告訴他包在臥室,就說明大模型具備了“心智理論”。
研究人員把這種做法稱為Thinking for Doing(T4D),并設(shè)計(jì)了相應(yīng)的任務(wù)。
為了提高模型在T4D任務(wù)上的表現(xiàn),團(tuán)隊(duì)進(jìn)一步提出了Foresee and Reflect(FaR)提示策略,結(jié)果讓大模型在“心智”上取得了重大突破。
論文的標(biāo)題也包含了“How far……” ,一語雙關(guān),既體現(xiàn)了FaR框架對大模型的幫助,又暗含了大模型離具有人類“心智”的距離。
那么,有了FaR的大模型,究竟擁有什么樣的“心智”呢?
我們還是從例子說起,如下圖所示,一共有綠色和藍(lán)色兩個(gè)櫥柜,Tom在綠色櫥柜中放了一塊巧克力。
Tom離開后,Ella把這塊巧克力挪到了藍(lán)色的柜子里。
那么等Tom再回來,會(huì)從哪個(gè)柜子中找巧克力呢?(當(dāng)然是綠色的)
這就是一個(gè)“推理”任務(wù),是心理學(xué)上著名的“薩利-安妮”(用于測試“心智”)實(shí)驗(yàn)的變體。
而T4D任務(wù)是這樣的:
如果你就在旁邊(并且知道發(fā)生了什么),會(huì)怎么做?
人類會(huì)選擇告訴Tom巧克力被挪走了,但(未經(jīng)調(diào)教的)大模型就不一定會(huì)這樣做了。
為了更宏觀地測試大模型在調(diào)整前后的表現(xiàn),研究團(tuán)隊(duì)選擇了ToMi數(shù)據(jù)集并改編成了T4D-Tom數(shù)據(jù)集。
其中的ToMi是一個(gè)由大量“薩利-安妮”類情景組成的測試數(shù)據(jù)集,用于測試大模型的“心智推理”能力。
可以看出,在推理上,表現(xiàn)最好的GPT-4與人類已經(jīng)相差無幾,但在T4D任務(wù)上才剛剛達(dá)到人類水平的一半。
于是,研究團(tuán)隊(duì)提出的FaR方法登場了。
FaR框架的核心奧義就是模仿人類的理性思維方式,和A*搜索算法(用于搜索最短路徑)有些相似。
具體來說,F(xiàn)aR包括Foresee和Reflect兩步。
Foresee過程中模型會(huì)被要求預(yù)測接下來會(huì)發(fā)生什么,并分析人所面臨的“困難”。
Reflect發(fā)生在Foresee之后,模型會(huì)預(yù)測自己接下來的行為是否能解決相應(yīng)的“困難”。
有了FaR框架,效果也是立竿見影。
相比于思維鏈(CoT)、思維樹(ToT)、自己提問等方式,F(xiàn)aR顯著提高了大模型在“薩利-安妮”類T4D問題上的準(zhǔn)確率。
特別是GPT-4,準(zhǔn)確率從人類的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表現(xiàn)也有提高。
消融實(shí)驗(yàn)結(jié)果表明,F(xiàn)oresee和Reflect兩步都是FaR的關(guān)鍵步驟,缺一不可。
為了驗(yàn)證FaR方法的通用性和魯棒性,研究團(tuán)隊(duì)還進(jìn)行了一系列泛化測試。
首先是在“薩利-安妮”情景的基礎(chǔ)上改變故事的結(jié)構(gòu),研究團(tuán)隊(duì)一共嘗試了三種方式:
結(jié)果FaR依舊成功幫助大模型提高了任務(wù)的準(zhǔn)確率,在第三種模式下GPT-4甚至取得了和人類相當(dāng)?shù)某煽?/strong>。
即使故意設(shè)置干擾信息,F(xiàn)aR依舊可以提高大模型的表現(xiàn)。
研究團(tuán)隊(duì)專門構(gòu)建了包含困擾信息的“Faux Pas”數(shù)據(jù)集,結(jié)果GPT-4的表現(xiàn)從31%提高到了76%。
FaR論文的第一作者是南加州大學(xué)NLP實(shí)驗(yàn)室的華人博士生Pei Zhou。
這項(xiàng)成果是他在谷歌實(shí)習(xí)期間完成的。
此外,來自谷歌(包括DeepMind)、卡耐基梅隆大學(xué)和的芝加哥大學(xué)的學(xué)者也參與了本項(xiàng)目。
那么對于大模型的“心智”,你有什么看法呢?
論文地址:
http://arxiv.org/abs/2310.03051
— 完 —
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!