發(fā)布時(shí)間:2023-11-11 17:48:53 瀏覽量:103次
網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗(yàn)等
克雷西 發(fā)自 凹非寺
|
針對(duì)Transformer,谷歌DeepMind一項(xiàng)新的發(fā)現(xiàn)引起了不小爭(zhēng)議:
它的泛化能力,無(wú)法擴(kuò)展到訓(xùn)練數(shù)據(jù)以外的內(nèi)容。
目前這一結(jié)論還沒有進(jìn)一步得到驗(yàn)證,但已經(jīng)驚動(dòng)了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。
谷歌Transformer是今天大模型背后的基礎(chǔ)架構(gòu),我們所熟悉的GPT里的“T”指的就是它。
一系列大模型表現(xiàn)出強(qiáng)大的上下文學(xué)習(xí)能力,可以快速學(xué)習(xí)示例并完成新的任務(wù)。
但現(xiàn)在,同樣來(lái)自Google的研究人員似乎指出了它的致命缺陷——超出訓(xùn)練數(shù)據(jù)也就是人類已有知識(shí)之外,全都無(wú)能為力。
一時(shí)間,不少?gòu)臉I(yè)者認(rèn)為AGI再次變得遙不可及。
然而,也有網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗(yàn),訓(xùn)練數(shù)據(jù)也不是語(yǔ)言等。
隨著時(shí)間的推移,更多認(rèn)真研究了這篇論文的網(wǎng)友則指出,研究結(jié)論本身沒什么問題,但人們卻基于此做出過(guò)度的解讀。
而論文引發(fā)網(wǎng)友熱議之后,其中一名作者也出來(lái)做了兩點(diǎn)澄清:
首先實(shí)驗(yàn)中使用的是簡(jiǎn)單Transformer,既不“大”也不是語(yǔ)言模型;
其次,模型是可以學(xué)習(xí)新任務(wù)的,只是無(wú)法泛化到新類型的任務(wù)
此后,又有網(wǎng)友在Colab中重復(fù)了這一實(shí)驗(yàn),卻得到了完全不同的結(jié)果。
那么,我們就先來(lái)看看這篇論文,還有提出不同結(jié)果的Samuel,到底都說(shuō)了什么。
實(shí)驗(yàn)中,作者在基于Jax的機(jī)器學(xué)習(xí)框架上訓(xùn)練了規(guī)模接近GPT-2、只包含解碼器的Transformer。
其中包括了12層,8個(gè)注意力頭,嵌入空間維度為256,參數(shù)量約為950萬(wàn)。
為了測(cè)試它的泛化能力,作者使用了函數(shù)作為測(cè)試對(duì)象——將線性函數(shù)和正弦函數(shù)一起作為訓(xùn)練數(shù)據(jù)喂模型。
這兩種函數(shù)對(duì)于此時(shí)的模型來(lái)說(shuō)是已知,預(yù)測(cè)的結(jié)果自然也很好,但當(dāng)研究者把線性函數(shù)和正弦函數(shù)進(jìn)行了凸性組合時(shí),問題就出現(xiàn)了。
凸性組合并沒有那么神秘,作者構(gòu)建出了形如f(x)=a·kx+(1-a)sin(x)的函數(shù),在我們看來(lái)不過(guò)是兩個(gè)函數(shù)按比例簡(jiǎn)單相加。
但我們之所以會(huì)這么認(rèn)為,正是因?yàn)槲覀兊拇竽X擁有這方面的泛化能力,而大模型就不一樣了。
別看就是簡(jiǎn)單相加,對(duì)于只見過(guò)線性和正弦函數(shù)的模型來(lái)說(shuō),這就是一種全新的函數(shù)。
對(duì)于這種新函數(shù),Transformer給出的預(yù)測(cè)可以說(shuō)是毫無(wú)準(zhǔn)確性可言(圖4c)——于是作者就認(rèn)為模型在函數(shù)上沒有泛化能力。
為了進(jìn)一步驗(yàn)證自己的結(jié)論,作者調(diào)整了線性或正弦函數(shù)的權(quán)重,但即使這樣Transformer的預(yù)測(cè)表現(xiàn)也沒有顯著的變化。
只有一點(diǎn)例外——當(dāng)其中一項(xiàng)的權(quán)重接近1時(shí),模型的預(yù)測(cè)結(jié)果和實(shí)際就比較吻合了。
但權(quán)重為1意味著,陌生的新函數(shù)直接變成了訓(xùn)練時(shí)見過(guò)的函數(shù),這樣的數(shù)據(jù)對(duì)于泛化能力來(lái)說(shuō)顯然沒有什么意義。
進(jìn)一步實(shí)驗(yàn)還顯示,Transformer不僅對(duì)于函數(shù)的種類十分敏感,甚至同種函數(shù)也可能變成陌生條件。
研究人員發(fā)現(xiàn),哪怕是單純的正弦函數(shù),只是改變其中的頻率,模型的預(yù)測(cè)結(jié)果也會(huì)發(fā)生線束變化。
只有當(dāng)頻率接近訓(xùn)練數(shù)據(jù)中的函數(shù)時(shí),模型才能給出比較準(zhǔn)確的預(yù)測(cè),當(dāng)頻率過(guò)高或過(guò)低時(shí),預(yù)測(cè)結(jié)果出現(xiàn)了嚴(yán)重的偏差……
據(jù)此,作者認(rèn)為,條件只要稍微有點(diǎn)不一樣,大模型就不知道怎么做了,這不就是說(shuō)明泛化能力差嗎?
作者在文中也自述了研究中存在的一些局限性,如何將函數(shù)數(shù)據(jù)上的觀察應(yīng)用到token化的自然語(yǔ)言問題上。
團(tuán)隊(duì)也在語(yǔ)言模型上嘗試了相似的試驗(yàn)但遇到一些障礙,如何適當(dāng)定義任務(wù)族(相當(dāng)于這里的函數(shù)種類)、凸組合等還有待解決。
而Samuel這邊的模型規(guī)模更小,僅有4層,在Colab上訓(xùn)練5分鐘后就可以泛化到線性與正弦函數(shù)的組合。
綜合全文來(lái)看,Quora CEO這篇文章的結(jié)論非常窄,只在很多假設(shè)下才能成立。
斯隆獎(jiǎng)得主、UCLA教授顧全全說(shuō),這篇論文本身的結(jié)論不存在爭(zhēng)議,但不應(yīng)該被過(guò)度解讀。
結(jié)合先前的研究,Transformer只是無(wú)法泛化到與預(yù)訓(xùn)練數(shù)據(jù)“明顯不同”的內(nèi)容,而實(shí)際上,大模型的泛化能力通常用任務(wù)多樣性和任務(wù)復(fù)雜性來(lái)衡量。
如果仔細(xì)追究Transformer的泛化能力,恐怕要讓子彈再飛一會(huì)兒了。
但是,就算真的缺乏泛化能力,又能怎么樣呢?
英偉達(dá)AI科學(xué)家Jim Fan就說(shuō),這種現(xiàn)象其實(shí)沒啥奇怪的,因?yàn)門ransformer本來(lái)就不是萬(wàn)金油,大模型表現(xiàn)得好,是因?yàn)?strong>訓(xùn)練數(shù)據(jù)剛好是我們關(guān)心的內(nèi)容。
Jim進(jìn)一步補(bǔ)充道,這就好像是在說(shuō),用一千億張貓狗的照片訓(xùn)練視覺模型,接著讓模型去識(shí)別飛機(jī),然后發(fā)現(xiàn),哇,居然真的不認(rèn)識(shí)誒。
不只是大模型,人類在遇到一些未知任務(wù)時(shí)也不一定能有解決方案,這是否也說(shuō)明人類缺乏泛化能力呢?
所以,在目標(biāo)導(dǎo)向之下,無(wú)論是大模型還是人類,最終的目的還是要回到解決問題上來(lái),而泛化只是一種手段。
借用這個(gè)表情包的說(shuō)法,既然泛化能力欠缺,那就把它訓(xùn)練到?jīng)]有訓(xùn)練之外的數(shù)據(jù)為止。
那么,對(duì)于這項(xiàng)研究,你有什么看法呢?
論文地址:
https://arxiv.org/abs/2311.00871
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來(lái)...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒聽過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!