當前位置：首頁 >人工智能 >“最強7B模型”論文發(fā)布，揭秘如何超越13B版Llama 2

“最強7B模型”論文發(fā)布，揭秘如何超越13B版Llama 2

發(fā)布時間：2023-11-28 14:55:03 瀏覽量：107次

使用多種優(yōu)化方式

克雷西發(fā)自凹非寺

|

來自“歐洲OpenAI”的“最強7B開源模型”Mistral最近可謂是圈粉無數(shù)。

它各方面的測試指標全面超越了13B的Llama2，甚至讓一眾網(wǎng)友覺得羊駝不香了。

最新消息是，Mistral AI團隊已經發(fā)布了相關論文，透露背后的技術細節(jié)。

Mistral不僅全面戰(zhàn)勝了13B Llama2，在數(shù)學、代碼和推理方面，34B的Llama1也不是Mistral的對手。

在推理任務上，Mistral的表現(xiàn)更是直逼10倍參數(shù)量的Llama2-70B。

但Mistral消耗的資源卻很少，只需要6GB顯存，MacBook就能流暢運行。

為了用更少消耗達到更好的效果，Mistral可謂是使出了渾身解數(shù)。

那么關于Mistral的這篇論文都透露了哪些技術信息呢？

多種機制降低運算消耗

基礎結構上，Mistral基于Transformer架構設計，一共有32個n_layer，上下文長度達到了8192 token。

具體的參數(shù)如下表所示：

而Mistral能做到高性能低消耗，則要歸功于所用到的多種優(yōu)化策略。

首先是最核心的注意力機制，其直接作用是減少計算量，具體包括了兩個方面。

第一種是滑動窗口（Sliding Window）注意力機制。

推理階段中，會設定出一個窗口長度，并在劃分出的注意力層范圍之內進行注意力運算，而不是針對全文。

通過滑動方式，各注意力層之間會有所重疊，從而實現(xiàn)長文本序列的處理。

4096的長度，理論上可以處理13.1萬token。

這種注意力機制和標準注意力相比，可以將速度提升到兩倍。

另一種則是分組查詢（Grouped-query）注意力機制。

這種機制將查詢(query)拆分成多個組，每個組只與key的一個子集進行注意力運算，然后拼接出結果。

這樣不僅能降低運算量，也能讓組間通信次數(shù)減少，并提高查詢吞吐。

除了在注意力機制上下功夫，開發(fā)者還引入了滾動緩沖區(qū)緩存（Rolling Buffer Cache）。

這種存儲方式固定了緩沖區(qū)的大小，從而限定了內存消耗的最大值。

如果把緩沖區(qū)比作一座倉庫，每存進一個新東西，都會占據(jù)相應的位置。

而倉庫的總容量是固定的，當倉庫被裝滿時，就會把最先放入的東西移除，讓新的物品繼續(xù)進倉。

但入倉時間更接近的物品則會留在倉庫中，就能在節(jié)約資源的同時保留一定長度的序列。

利用這種緩存機制，只要緩沖區(qū)大小設置得合理，就能實現(xiàn)預算效率與記憶力的平衡。

此外還有一種預填充和分塊機制，它的直接作用是減少重復運算。

假如需要處理一個很長的句子，那么這個句子將被分割成小塊。

訓練完前面的小塊之后，再加入后面的塊，以此類推……

這樣存儲空間中就有了前面的塊信息，用來建立長序列。

這種方式避免了從頭開始的重復運算，從而使效率得到了提升。

以上就是開發(fā)者在Mistral中使用的優(yōu)化策略，而為了評估模型的泛化能力，開發(fā)者使用了HF上的公開數(shù)據(jù)集進行了指導性微調。

結果Mistral的表現(xiàn)全面超過了13B參數(shù)的Llama 2，其中推理技能更是與70B版本十分接近。

單塊3090即可微調

Mistral的火爆程度，直接讓第三方工作室也推出了微調教程。

據(jù)介紹，用這種方法微調之后，可以進一步提升Mistral的性能并降低消耗。

而這個微調的過程，用一塊3090就能完成。

首先是根據(jù)使用目的準備數(shù)據(jù)集，轉化為prompt形式并劃分出訓練和驗證集。

然后是對模型進行初始化，加載Mistral并設置4-bit量化和Lora等參數(shù)。

接著是構建Trainer，輸入數(shù)據(jù)、模型等信息正式開始訓練，然后測試并保存。

具體的細節(jié)可以到教程原文中去了解。

論文地址：
https://arxiv.org/abs/2310.06825
微調教程：
https://wandb.ai/byyoung3/ml-news/reports/Fine-Tuning-Mistral7B-on-Python-Code-With-A-Single-GPU—Vmlldzo1NTg0NzY5

上一篇北師大未來設計學院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇谷歌版AI繪畫搜索框里直接玩！基于Imagen打造，網(wǎng)友：DALL-E替代品來了

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領域，Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

“最強7B模型”論文發(fā)布，揭秘如何超越13B版Llama 2

多種機制降低運算消耗

單塊3090即可微調

請綁定手機號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

“最強7B模型”論文發(fā)布，揭秘如何超越13B版Llama 2

多種機制降低運算消耗

單塊3090即可微調

請綁定手機號

“最強7B模型”論文發(fā)布，揭秘如何超越13B版Llama 2