當(dāng)前位置：首頁 >人工智能 >面壁智能對齊技術(shù)UltraFeedback如何讓7B模型打敗70B LLaMA2？

面壁智能對齊技術(shù)UltraFeedback如何讓7B模型打敗70B LLaMA2？

發(fā)布時(shí)間：2023-11-28 14:54:54 瀏覽量：102次

性能超越參數(shù)十倍之大的 LLaMA2-70B-Chat。

面壁智能對齊技術(shù)UltraFeedback如何讓7B模型打敗70B LLaMA2？

HuggingFace 團(tuán)隊(duì)最新訓(xùn)練的小尺寸模型 Zephyr-7B，性能 超越參數(shù)十倍之大的 LLaMA2-70B-Chat。

在權(quán)威基準(zhǔn)測試 MT-Bench 上，Zephyr-7B 以 7.09 分的成績整體超越 LLaMA2-70B-Chat。此外，Zephyr-7B 還在 OpenLLM Leaderboard 的 4 個(gè)數(shù)據(jù)集上取得了 66.1 的平均分。

從 Twitter 中的雷達(dá)圖可以看出，這個(gè) 7B 模型的信息抽取（Extraction）和代碼（Coding）能力尤其突出，大幅超越 Mistra-7B-Instruct 和 LLaMA2-70B-Chat。

以一當(dāng)十，Zephyr-7B 是怎么做到的？

Zephyr-7B 基于 面壁智能（ModelBest）聯(lián)合清華 NLP 實(shí)驗(yàn)室最新開源的大規(guī)模反饋數(shù)據(jù)集 UltraFeedback 訓(xùn)練而成。

UltraFeedback是團(tuán)隊(duì)探索 大模型對齊（Alignment）技術(shù) 的又一座里程碑，發(fā)布不足十天，已經(jīng)得到開源社區(qū)的積極認(rèn)可。

GitHub地址：https://github.com/OpenBMB/UltraFeedback

HuggingFace鏈接： https://huggingface.co/datasets/openbmb/UltraFeedback

UltraFeedback 數(shù)據(jù)集強(qiáng)在哪里？

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），已被 OpenAI、Anthropic 和 Google DeepMind 等業(yè)界領(lǐng)先公司廣泛研究并應(yīng)用。

然而，由于 缺乏高質(zhì)量、公開可用的偏好數(shù)據(jù)集，開源社區(qū)在 RLHF 的研究和實(shí)踐上仍然處于落后狀態(tài)。

為了解決這一問題，助力建設(shè)繁榮的大模型開源生態(tài)。面壁智能團(tuán)隊(duì)構(gòu)建了UltraFeedback，一個(gè) 大規(guī)模、多樣化、細(xì)粒度 的偏好數(shù)據(jù)集，包括 25萬 條對話數(shù)據(jù)以及相應(yīng)的偏好標(biāo)注數(shù)據(jù)。

在非社區(qū)標(biāo)注的偏好數(shù)據(jù)集中，這一數(shù)據(jù)規(guī)模排在首位。并且，其中每條偏好標(biāo)注均包含四個(gè)方面的細(xì)粒度得分與詳細(xì)的文字說明。

此外，UltraFeedback 從多個(gè)社區(qū)開源的指令數(shù)據(jù)集中收集了約 6 萬條指令?；谶@些指令，UltraFeedback 從 17 種不同架構(gòu)、參數(shù)量、訓(xùn)練數(shù)據(jù)的模型中隨機(jī)選取 4 種不同模型，為每條指令生成4種有區(qū)分度的回復(fù)，極大地提升了指令和模型的多樣性。

目前，團(tuán)隊(duì)已經(jīng)發(fā)布 UltraFeedback 的相應(yīng)論文，想要詳細(xì)了解 UltraFeedback 技術(shù)原理的朋友可前去查看。

如何應(yīng)用 UltraFeedback？獎勵模型和批評模型

基于 UltraFeedback，團(tuán)隊(duì)訓(xùn)練了兩個(gè)模型來進(jìn)一步輔助模型評測和模型反饋學(xué)習(xí)。

一個(gè)是 獎勵模型（Reward Model）——UltraRM，旨在區(qū)分同一個(gè)問題的不同回答好壞（HuggingFace 地址：https://huggingface.co/openbmb/UltraRM-13b ）。

就像老師為不同學(xué)生的答案給出評分，分?jǐn)?shù)高低其實(shí)就是收到的獎勵大小。高分答案可以指引大家后續(xù)的回答方向。同理，UltraRM 是大模型后續(xù)進(jìn)行RLHF的基礎(chǔ)，也是衡量反饋數(shù)據(jù)集質(zhì)量的重要維度。

UltraRM 由 LLaMA2-13B 初始化，在 UltraFeedback 和三個(gè)開源數(shù)據(jù)集（Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization）組成的混合數(shù)據(jù)集上進(jìn)行微調(diào)。在四個(gè)公共偏好測試集上，UltraRM 顯著超過其他開源獎勵模型，達(dá)到了 SOTA 的性能。

另一個(gè)機(jī)制是 批評模型（Critique Model）——UltraCM，用于自動生成文本形式的反饋（HuggingFace 地址： https://huggingface.co/openbmb/UltraCM-13b）。

批評重在“評”，就像老師除了給分外，還會進(jìn)一步作出點(diǎn)評，指出答案好在哪里，不好在哪里。根據(jù)更明確的一對一點(diǎn)評，才能針對性地提升回答。

能夠給出文本形式評價(jià)的 UltraCM 對于可解釋的模型評測以及模型反饋學(xué)習(xí)十分重要。

與 UltraRM 類似，UltraCM 由 LLaMA2-13B 初始化。在 9 個(gè)基準(zhǔn)數(shù)據(jù)集上，UltraCM 優(yōu)于所有開源 baseline，性能接近 ChatGPT。

對齊技術(shù)給大模型戴上“緊箍咒”

“對齊（Alignment）” 是指要求人工智能系統(tǒng)的目標(biāo)、價(jià)值觀、利益等與人類的相一致，使其符合設(shè)計(jì)者的預(yù)期，避免產(chǎn)生超出控制的有害后果。

如果人工智能是神通廣大的孫悟空，那么對齊技術(shù)就是緊箍咒。唐僧只有掌握了緊箍咒，才能確保孫悟空不會胡作非為。

面壁智能（ModelBest）與清華大學(xué) NLP 實(shí)驗(yàn)室持續(xù)探索深耕大模型對齊（Alignment）技術(shù)，除了 UltraFeedback 外，團(tuán)隊(duì)此前還開源發(fā)布了 UltraChat 和 UltraLM。

UltraChat，高質(zhì)量的對話數(shù)據(jù)集，包含了 150 余萬 條多輪指令數(shù)據(jù)。調(diào)用多個(gè) ChatGPT API 相互對話，從而生成多輪對話數(shù)據(jù)。

UltraLM，基于 UltraChat 數(shù)據(jù)訓(xùn)練的大語言模型，具有豐富的世界知識和超強(qiáng)的指令理解和跟隨能力，能對各類問題/指令給出具有豐富信息量的回復(fù)。

繼 UltraLM-13B-v1.0 登頂斯坦福 AlpacaEval* 開源模型榜單 后，團(tuán)隊(duì)最新發(fā)布了與 UltraRM 聯(lián)合的 UltraLM-13B-v2.0（best-of-16 采樣），在 AlpacaEval 榜單取得了 92.30% 的高分，成為 70B 以下模型 最高分。

由此可見，運(yùn)用面壁智能相關(guān)對齊技術(shù)能夠“降本增效”地提升模型能力。

不管AI未來會有多么強(qiáng)大，只有被人類馴化才能服務(wù)人類。對齊技術(shù)是人工智能的好老師，讓大模型的訓(xùn)練和生成得以控制。

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇谷歌讓大模型更具“心智”，GPT-4任務(wù)準(zhǔn)確率大增

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

面壁智能對齊技術(shù)UltraFeedback如何讓7B模型打敗70B LLaMA2？

UltraFeedback 數(shù)據(jù)集強(qiáng)在哪里？

如何應(yīng)用 UltraFeedback？獎勵模型和批評模型

對齊技術(shù)給大模型戴上“緊箍咒”

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

面壁智能對齊技術(shù)UltraFeedback如何讓7B模型打敗70B LLaMA2？

UltraFeedback 數(shù)據(jù)集強(qiáng)在哪里？

如何應(yīng)用 UltraFeedback？獎勵模型和批評模型

對齊技術(shù)給大模型戴上“緊箍咒”

請綁定手機(jī)號

UltraFeedback 數(shù)據(jù)集強(qiáng)在哪里？

如何應(yīng)用 UltraFeedback？獎勵模型和批評模型