當(dāng)前位置：首頁 >人工智能 >別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

發(fā)布時間：2023-11-09 14:57:09 瀏覽量：106次

來自人民大學(xué)等最新研究

明敏發(fā)自凹非寺

|

“別讓大模型被基準(zhǔn)評估給坑了”。

這是一項最新研究的題目，來自人民大學(xué)信息學(xué)院、高瓴人工智能學(xué)院和伊利諾伊大學(xué)厄巴納-香檳分校。

別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

研究發(fā)現(xiàn)，基準(zhǔn)測試中相關(guān)數(shù)據(jù)意外被用于模型訓(xùn)練的現(xiàn)象，變得越來越常見了。

因為預(yù)訓(xùn)練語料中包含很多公開文本資料，而評估基準(zhǔn)也建立在這些信息之上，本來這種情況就在所難免。

現(xiàn)在隨著大模型試圖搜集更多公開數(shù)據(jù)，問題正在加重。

要知道，這種數(shù)據(jù)重疊帶來的危害非常大。

不僅會導(dǎo)致模型部分測試分?jǐn)?shù)虛高，還會使模型泛化能力下降、不相關(guān)任務(wù)表現(xiàn)驟降。甚至可能讓大模型在實際應(yīng)用中產(chǎn)生“危害”。

所以這項研究正式發(fā)出警告，并通過多項模擬測試驗證了可能誘發(fā)的實際危害，具體來看。

大模型“被漏題”很危險

研究主要通過模擬極端泄露數(shù)據(jù)的情況，來測試觀察大模型會產(chǎn)生的影響。

極端泄露數(shù)據(jù)的方式有四種：

使用MMLU的訓(xùn)練集
使用MMLU以外所有測試基準(zhǔn)的訓(xùn)練集
使用所有訓(xùn)練集+測試prompt
使用所有訓(xùn)練集、測試集和測試prompt（這是最極端情況，僅為實驗?zāi)M，正常情況下不會發(fā)生）

然后研究人員給4個大模型進行“投毒”，然后再觀察它們在不同benchmark中的表現(xiàn)，主要評估了在問答、推理、閱讀理解等任務(wù)中的表現(xiàn)。

使用的模型分別是：

GPT-Neo（1.3B）
phi-1.5（1.3B）
OpenLLaMA（3B）
LLaMA-2（7B）

同時使用LLaMA（13B/30B/65B）作為對照組。

結(jié)果發(fā)現(xiàn)，當(dāng)大模型的預(yù)訓(xùn)練數(shù)據(jù)中包含了某一個評測基準(zhǔn)的數(shù)據(jù)，它會在這一評測基準(zhǔn)中表現(xiàn)更好，但在其他不相關(guān)任務(wù)中的表現(xiàn)會下降。

比如使用MMLU數(shù)據(jù)集訓(xùn)練后，多個大模型在MMLU測試中分?jǐn)?shù)提高的同時，在常識基準(zhǔn)HSwag、數(shù)學(xué)基準(zhǔn)GSM8K中分?jǐn)?shù)下降。

這表明大模型的泛化能力受到影響。

另一方面，還可能造成不相關(guān)測試分?jǐn)?shù)虛高。

如上給大模型進行“投毒”的四個訓(xùn)練集中僅包含少量中文數(shù)據(jù)，但是大模型被“投毒”后，在C3（中文基準(zhǔn)測試）中的分?jǐn)?shù)卻都變高了。

這種升高是不合理的。

這種訓(xùn)練數(shù)據(jù)泄露的情況，甚至?xí)?dǎo)致模型測試分?jǐn)?shù)，異常超越更大模型的表現(xiàn)。

比如phi-1.5（1.3B）在RACE-M和RACE-H上的表現(xiàn)優(yōu)于LLaMA65B，后者是前者規(guī)模的50倍。

但這種分?jǐn)?shù)升高沒有意義，只是作弊罷了。

更嚴(yán)重的是，哪怕是沒有被泄露數(shù)據(jù)的任務(wù)，也會受到影響，表現(xiàn)下降。

下表中可以看到，在代碼任務(wù)HEval中，兩個大模型都出現(xiàn)了分?jǐn)?shù)大幅下降的情況。

同時被泄露數(shù)據(jù)后，大模型的微調(diào)提升遠不如未被泄露情況。

對于發(fā)生數(shù)據(jù)重疊/泄露的情況，本項研究分析了各種可能。

比如大模型預(yù)訓(xùn)練語料和基準(zhǔn)測試數(shù)據(jù)都會選用公開文本（網(wǎng)頁、論文等），所以發(fā)生重疊在所難免。

而且當(dāng)前大模型評估都是在本地進行，或者是通過API調(diào)用來獲得結(jié)果。這種方式無法嚴(yán)格檢查一些不正常的數(shù)值提升。

以及當(dāng)下大模型的預(yù)訓(xùn)練語料都被各方視為核心機密，外界無法評估。

所以導(dǎo)致了大模型被意外“投毒”的情況發(fā)生。

那該如何規(guī)避這一問題呢？研究團隊也出了一些建議。

如何規(guī)避？

研究團隊給出了三點建議：

第一，實際情況中很難完全避免數(shù)據(jù)重疊，所以大模型應(yīng)該采用多個基準(zhǔn)測試進行更全面的評估。

第二，對于大模型開發(fā)者，應(yīng)該要對數(shù)據(jù)進行脫敏，公開訓(xùn)練語料的詳細構(gòu)成。

第三，對于基準(zhǔn)測試維護人員，應(yīng)該提供基準(zhǔn)測試數(shù)據(jù)來源，分析數(shù)據(jù)被污染的風(fēng)險，使用更多樣化的提示進行多次評估。

不過團隊也表示本次研究中還存在一定局限。比如沒有對不同程度數(shù)據(jù)泄露進行系統(tǒng)性測試，以及沒能在預(yù)訓(xùn)練中直接引入數(shù)據(jù)泄露進行模擬等。

本次研究由中國人民大學(xué)信息學(xué)院、高瓴人工智能學(xué)院和伊利諾伊大學(xué)香檳分校的多位學(xué)者共同帶來。

在研究團隊中我們發(fā)現(xiàn)了兩位數(shù)據(jù)挖掘領(lǐng)域大佬：文繼榮和韓家煒。

文繼榮教授現(xiàn)任中國人民大學(xué)高瓴人工智能學(xué)院院長、中國人民大學(xué)信息學(xué)院院長。主要研究方向為信息檢索、數(shù)據(jù)挖掘、機器學(xué)習(xí)、大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與應(yīng)用。

韓家煒教授領(lǐng)銜是數(shù)據(jù)挖掘領(lǐng)域?qū)＜?，現(xiàn)為伊利諾伊大學(xué)香檳分校計算機系教授，美國計算機協(xié)會院士和IEEE院士。

論文地址：
https://arxiv.org/abs/2311.01964

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇 GitHub CEO：AI助手已成公司搖錢樹

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

大模型“被漏題”很危險

如何規(guī)避？

請綁定手機號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

大模型“被漏題”很危險

如何規(guī)避？

請綁定手機號

別讓大模型被基準(zhǔn)評估坑了！測試集亂入預(yù)訓(xùn)練，分?jǐn)?shù)虛高，模型變傻

如何規(guī)避？