發(fā)布時(shí)間:2023-11-28 14:55:19 瀏覽量:127次
比從頭訓(xùn)練劃算得多
夢(mèng)晨 發(fā)自 凹非寺
|
只用3%的計(jì)算量、5%的成本取得SOTA,統(tǒng)治了1B-3B規(guī)模的開(kāi)源大模型。
這一成果來(lái)自普林斯頓陳丹琦團(tuán)隊(duì),名為LLM-Shearing大模型剪枝法。
以羊駝LLaMA 2 7B為基礎(chǔ),通過(guò)定向結(jié)構(gòu)化剪枝得到1.3B和3B剪枝后的Sheared-LLama模型。
分別在下游任務(wù)評(píng)估上超越之前的同等規(guī)模模型。
一作夏夢(mèng)舟表示,“比從頭開(kāi)始預(yù)訓(xùn)練劃算很多”。
論文中也給出了剪枝后的Sheared-LLaMA輸出示例,表示盡管規(guī)模只有1.3B和2.7B,也已經(jīng)能生成連貫且內(nèi)容豐富的回復(fù)。
相同的“扮演一個(gè)半導(dǎo)體行業(yè)分析師”任務(wù),2.7B版本的回答結(jié)構(gòu)上還要更清晰一些。
團(tuán)隊(duì)表示雖然目前只用Llama 2 7B版做了剪枝實(shí)驗(yàn),但該方法可以擴(kuò)展到其他模型架構(gòu),也能擴(kuò)展到任意規(guī)模。
另外還有一個(gè)好處,剪枝后可自行選用優(yōu)質(zhì)的數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練。
有開(kāi)發(fā)者表示,6個(gè)月前還幾乎所有人都認(rèn)為65B以下的模型沒(méi)有任何實(shí)際用處。
照這樣下去,我敢打賭1B-3B模型也能產(chǎn)生巨大價(jià)值,如果不是現(xiàn)在,也是不久以后。
LLM-Shearing,具體來(lái)說(shuō)是一種定向結(jié)構(gòu)化剪枝,將一個(gè)大模型剪枝到指定的目標(biāo)結(jié)構(gòu)。
之前的剪枝方法可能會(huì)導(dǎo)致模型性能下降,因?yàn)闀?huì)刪除一些結(jié)構(gòu),影響表達(dá)能力。
新方法將剪枝看成一種約束優(yōu)化問(wèn)題,學(xué)習(xí)剪枝掩碼矩陣來(lái)搜索與指定結(jié)構(gòu)匹配的子網(wǎng)絡(luò),同時(shí)以最大化性能為目標(biāo)。
接下來(lái)對(duì)剪枝過(guò)的模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,在一定程度上恢復(fù)剪枝造成的性能損失。
在這個(gè)階段,團(tuán)隊(duì)發(fā)現(xiàn)剪枝過(guò)的模型與從頭訓(xùn)練的模型對(duì)不同數(shù)據(jù)集的損失下降速率不一樣,產(chǎn)生數(shù)據(jù)使用效率低下的問(wèn)題。
為此團(tuán)隊(duì)提出了動(dòng)態(tài)批量加載(Dynamic Batch Loading),根據(jù)模型在不同域數(shù)據(jù)上的損失下降速率動(dòng)態(tài)調(diào)整每個(gè)域的數(shù)據(jù)所占比例,提高數(shù)據(jù)使用效率。
實(shí)驗(yàn)發(fā)現(xiàn),雖然剪枝模型與從頭訓(xùn)練的同等規(guī)模模型相比,雖然一開(kāi)始表現(xiàn)差得多,但繼續(xù)預(yù)訓(xùn)練可以迅速提高,最終超越。
這表明從強(qiáng)大的基礎(chǔ)模型中剪枝,可以為繼續(xù)預(yù)訓(xùn)練提供更好的初始化條件。
論文作者分別為普林斯頓博士生夏夢(mèng)舟、高天宇,清華Zhiyuan Zeng,普林斯頓助理教授陳丹琦。
夏夢(mèng)舟,本科畢業(yè)于復(fù)旦,碩士畢業(yè)于CMU。
高天宇,本科畢業(yè)于清華,是2019年清華特獎(jiǎng)得主。
兩人都是陳丹琦的學(xué)生,陳丹琦現(xiàn)在為普林斯頓助理教授,普林斯頓 NLP小組的共同領(lǐng)導(dǎo)者。
最近在個(gè)人主頁(yè)中,陳丹琦更新了她的研究方向。
“這些日子主要被開(kāi)發(fā)大模型吸引”,正在研究的主題包括:
目前Sheared-Llama已在Hugging Face上提供。
團(tuán)隊(duì)表示,開(kāi)源庫(kù)還會(huì)保持更新。
更多大模型發(fā)布時(shí),來(lái)一個(gè)剪一個(gè),持續(xù)發(fā)布高性能的小模型。
不得不說(shuō),現(xiàn)在大模型實(shí)在是太卷了。
一作Mengzhou Xia剛剛發(fā)布一條更正,表示寫(xiě)論文時(shí)還是SOTA,論文寫(xiě)好就已經(jīng)被最新的Stable-LM-3B超越了。
論文地址:
https://arxiv.org/abs/2310.06694
Hugging Face:
https://huggingface.co/princeton-nlp
項(xiàng)目主頁(yè):
https://xiamengzhou.github.io/sheared-llama/
熱門(mén)資訊
1. 照片變漫畫(huà)效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫(huà)效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫(huà)模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫(huà),教大家如何用AI生成自己的漫畫(huà)
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫(huà)。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫(huà)作品。讓...
7. AI顯卡繪畫(huà)排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類(lèi)型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫(huà)的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫(huà)軟件,提供詳細(xì)操作!有需要的快來(lái)...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒(méi)聽(tīng)過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!