激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

發(fā)布時(shí)間:2023-11-11 17:48:53 瀏覽量:103次

網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗(yàn)等

克雷西 發(fā)自 凹非寺

|  

針對(duì)Transformer,谷歌DeepMind一項(xiàng)新的發(fā)現(xiàn)引起了不小爭(zhēng)議:

它的泛化能力,無(wú)法擴(kuò)展到訓(xùn)練數(shù)據(jù)以外的內(nèi)容。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

目前這一結(jié)論還沒有進(jìn)一步得到驗(yàn)證,但已經(jīng)驚動(dòng)了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

谷歌Transformer是今天大模型背后的基礎(chǔ)架構(gòu),我們所熟悉的GPT里的“T”指的就是它。

一系列大模型表現(xiàn)出強(qiáng)大的上下文學(xué)習(xí)能力,可以快速學(xué)習(xí)示例并完成新的任務(wù)。

但現(xiàn)在,同樣來(lái)自Google的研究人員似乎指出了它的致命缺陷——超出訓(xùn)練數(shù)據(jù)也就是人類已有知識(shí)之外,全都無(wú)能為力。

一時(shí)間,不少?gòu)臉I(yè)者認(rèn)為AGI再次變得遙不可及。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

然而,也有網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗(yàn),訓(xùn)練數(shù)據(jù)也不是語(yǔ)言等。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

隨著時(shí)間的推移,更多認(rèn)真研究了這篇論文的網(wǎng)友則指出,研究結(jié)論本身沒什么問題,但人們卻基于此做出過(guò)度的解讀。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

而論文引發(fā)網(wǎng)友熱議之后,其中一名作者也出來(lái)做了兩點(diǎn)澄清:

首先實(shí)驗(yàn)中使用的是簡(jiǎn)單Transformer,既不“大”也不是語(yǔ)言模型;

其次,模型是可以學(xué)習(xí)新任務(wù)的,只是無(wú)法泛化到新類型的任務(wù)

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

此后,又有網(wǎng)友在Colab中重復(fù)了這一實(shí)驗(yàn),卻得到了完全不同的結(jié)果。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

那么,我們就先來(lái)看看這篇論文,還有提出不同結(jié)果的Samuel,到底都說(shuō)了什么。

新函數(shù)幾乎無(wú)法預(yù)測(cè)

實(shí)驗(yàn)中,作者在基于Jax的機(jī)器學(xué)習(xí)框架上訓(xùn)練了規(guī)模接近GPT-2、只包含解碼器的Transformer。

其中包括了12層,8個(gè)注意力頭,嵌入空間維度為256,參數(shù)量約為950萬(wàn)。

為了測(cè)試它的泛化能力,作者使用了函數(shù)作為測(cè)試對(duì)象——將線性函數(shù)和正弦函數(shù)一起作為訓(xùn)練數(shù)據(jù)喂模型。

這兩種函數(shù)對(duì)于此時(shí)的模型來(lái)說(shuō)是已知,預(yù)測(cè)的結(jié)果自然也很好,但當(dāng)研究者把線性函數(shù)和正弦函數(shù)進(jìn)行了凸性組合時(shí),問題就出現(xiàn)了。

凸性組合并沒有那么神秘,作者構(gòu)建出了形如f(x)=a·kx+(1-a)sin(x)的函數(shù),在我們看來(lái)不過(guò)是兩個(gè)函數(shù)按比例簡(jiǎn)單相加。

但我們之所以會(huì)這么認(rèn)為,正是因?yàn)槲覀兊拇竽X擁有這方面的泛化能力,而大模型就不一樣了。

別看就是簡(jiǎn)單相加,對(duì)于只見過(guò)線性和正弦函數(shù)的模型來(lái)說(shuō),這就是一種全新的函數(shù)。

對(duì)于這種新函數(shù),Transformer給出的預(yù)測(cè)可以說(shuō)是毫無(wú)準(zhǔn)確性可言(圖4c)——于是作者就認(rèn)為模型在函數(shù)上沒有泛化能力。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

為了進(jìn)一步驗(yàn)證自己的結(jié)論,作者調(diào)整了線性或正弦函數(shù)的權(quán)重,但即使這樣Transformer的預(yù)測(cè)表現(xiàn)也沒有顯著的變化。

只有一點(diǎn)例外——當(dāng)其中一項(xiàng)的權(quán)重接近1時(shí),模型的預(yù)測(cè)結(jié)果和實(shí)際就比較吻合了。

但權(quán)重為1意味著,陌生的新函數(shù)直接變成了訓(xùn)練時(shí)見過(guò)的函數(shù),這樣的數(shù)據(jù)對(duì)于泛化能力來(lái)說(shuō)顯然沒有什么意義。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

進(jìn)一步實(shí)驗(yàn)還顯示,Transformer不僅對(duì)于函數(shù)的種類十分敏感,甚至同種函數(shù)也可能變成陌生條件。

研究人員發(fā)現(xiàn),哪怕是單純的正弦函數(shù),只是改變其中的頻率,模型的預(yù)測(cè)結(jié)果也會(huì)發(fā)生線束變化。

只有當(dāng)頻率接近訓(xùn)練數(shù)據(jù)中的函數(shù)時(shí),模型才能給出比較準(zhǔn)確的預(yù)測(cè),當(dāng)頻率過(guò)高或過(guò)低時(shí),預(yù)測(cè)結(jié)果出現(xiàn)了嚴(yán)重的偏差……

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

據(jù)此,作者認(rèn)為,條件只要稍微有點(diǎn)不一樣,大模型就不知道怎么做了,這不就是說(shuō)明泛化能力差嗎?

作者在文中也自述了研究中存在的一些局限性,如何將函數(shù)數(shù)據(jù)上的觀察應(yīng)用到token化的自然語(yǔ)言問題上。

團(tuán)隊(duì)也在語(yǔ)言模型上嘗試了相似的試驗(yàn)但遇到一些障礙,如何適當(dāng)定義任務(wù)族(相當(dāng)于這里的函數(shù)種類)、凸組合等還有待解決。

而Samuel這邊的模型規(guī)模更小,僅有4層,在Colab上訓(xùn)練5分鐘后就可以泛化到線性與正弦函數(shù)的組合。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

不能泛化又如何

綜合全文來(lái)看,Quora CEO這篇文章的結(jié)論非常窄,只在很多假設(shè)下才能成立。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

斯隆獎(jiǎng)得主、UCLA教授顧全全說(shuō),這篇論文本身的結(jié)論不存在爭(zhēng)議,但不應(yīng)該被過(guò)度解讀。

結(jié)合先前的研究,Transformer只是無(wú)法泛化到與預(yù)訓(xùn)練數(shù)據(jù)“明顯不同”的內(nèi)容,而實(shí)際上,大模型的泛化能力通常用任務(wù)多樣性和任務(wù)復(fù)雜性來(lái)衡量。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

如果仔細(xì)追究Transformer的泛化能力,恐怕要讓子彈再飛一會(huì)兒了。

但是,就算真的缺乏泛化能力,又能怎么樣呢?

英偉達(dá)AI科學(xué)家Jim Fan就說(shuō),這種現(xiàn)象其實(shí)沒啥奇怪的,因?yàn)門ransformer本來(lái)就不是萬(wàn)金油,大模型表現(xiàn)得好,是因?yàn)?strong>訓(xùn)練數(shù)據(jù)剛好是我們關(guān)心的內(nèi)容。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

Jim進(jìn)一步補(bǔ)充道,這就好像是在說(shuō),用一千億張貓狗的照片訓(xùn)練視覺模型,接著讓模型去識(shí)別飛機(jī),然后發(fā)現(xiàn),哇,居然真的不認(rèn)識(shí)誒。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

不只是大模型,人類在遇到一些未知任務(wù)時(shí)也不一定能有解決方案,這是否也說(shuō)明人類缺乏泛化能力呢?

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

所以,在目標(biāo)導(dǎo)向之下,無(wú)論是大模型還是人類,最終的目的還是要回到解決問題上來(lái),而泛化只是一種手段。

借用這個(gè)表情包的說(shuō)法,既然泛化能力欠缺,那就把它訓(xùn)練到?jīng)]有訓(xùn)練之外的數(shù)據(jù)為止。

谷歌大模型研究陷重大爭(zhēng)議:訓(xùn)練數(shù)據(jù)之外完全無(wú)法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了

那么,對(duì)于這項(xiàng)研究,你有什么看法呢?

論文地址:
https://arxiv.org/abs/2311.00871

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定