當(dāng)前位置：首頁 >人工智能 >全都不及格！斯坦福100頁論文給大模型透明度排名，GPT-4僅排第三

全都不及格！斯坦福100頁論文給大模型透明度排名，GPT-4僅排第三

發(fā)布時間：2023-11-28 14:54:16 瀏覽量：146次

開源模型成績領(lǐng)先

金磊發(fā)自凹非寺

|

試問百模大戰(zhàn)的當(dāng)下，誰家大模型的透明度最高？

（例如模型是如何構(gòu)建的、如何工作、用戶如何使用它們的相關(guān)信息。）

現(xiàn)在，這個問題終于有解了。

因為斯坦福大學(xué)HAI等研究機(jī)構(gòu)最新共同發(fā)布了一項研究——

專門設(shè)計了一個名為基礎(chǔ)模型透明度指標(biāo)（The Foundation Model Transparency Index）的評分系統(tǒng)。

它從100個維度對國外10家主流的大模型做了排名，并在透明度這一層面上做了全面的評估。

結(jié)果可謂是大跌眼鏡！

若是以60分作為及格線，那么“參賽”的大模型們可以說是全軍覆沒，沒有一個及格的……

來感受下這個feel：

排名第一的Llama 2，分?jǐn)?shù)僅為54；緊隨其后的便是BLOOMZ，得分53。

而GPT-4分?jǐn)?shù)僅僅為48，排名第三；來自亞馬遜的Titan Text成績墊底，僅取得12分。

不僅如此，在斯坦福HAI官方的博客中，負(fù)責(zé)人Rishi Bommasani直言不諱地把OpenAI單拎出來說道：

基礎(chǔ)模型領(lǐng)域的公司變得越來越不透明。

例如名字帶“open”的OpenAI曾明確表示，與GPT-4相關(guān)的大多數(shù)信息將不會公開。

總而言之，團(tuán)隊認(rèn)為大模型發(fā)展到現(xiàn)階段，它們的透明度是一個非常重要的關(guān)鍵點，直接與是否可信掛鉤。

而且更深層次的，他們認(rèn)為這也從側(cè)面反映了人工智能行業(yè)從根本上缺乏透明度。

100多頁論文研究模型透明度

那么這個排名到底是怎么來的？

在成績公布的同時，團(tuán)隊也把一篇厚達(dá)100多頁的論文曬了出來。

正如我們剛才提到的，這次排名一共涉及到了100個指標(biāo)維度。

若是“歸攏歸攏”著來看，可以將這些指標(biāo)大致分為三大類，分別是：

上游（Upstream）：指構(gòu)建基礎(chǔ)模型所涉及的成分和過程，例如計算資源、數(shù)據(jù)等；
模型（Model）：指基礎(chǔ)模型的屬性和功能，例如體系結(jié)構(gòu)、能力和風(fēng)險等；
下游（Downstream）：基礎(chǔ)模型是如何分布和使用的，例如對用戶的影響、更新內(nèi)容、控制策略等。

將10大模型此次的成績，按照上面的三大維度來看，得分細(xì)節(jié)如下：

從結(jié)果上來看，“上游”類指標(biāo)的得分差異較為明顯；例如BLOOMZ的“上游”類指標(biāo)在整體得分中的占比較高。

而像Jurassic-2、Inflection-1和Titan Text，這三個模型的“上游”類指標(biāo)得分直接為0。

如果將“上游”、“模型”和“下游”視為三個“頂級域”，那么團(tuán)隊在它們基礎(chǔ)之上，還分了更精細(xì)、更深入的13個“子域”：

數(shù)據(jù)（Data）、勞動力（Labor）、計算（Compute）；
方法（Methods）、模型基礎(chǔ)（Model Basicis）、模型訪問（Model Access）、功能（Capabilities）；
風(fēng)險（Risks）、緩解措施（Mitigations）、分布（Distributions）、使用策略（Usage Policy）、反饋（Feedback）、影響（Impact）。

13個“子域”劃分下的細(xì)節(jié)得分情況如下：

至于完整的100個指標(biāo)維度，可以參考下面這張圖表：

當(dāng)然，對于大模型領(lǐng)域最具熱度話題之一的“開源閉源之爭”，也在此次的研究中有所涉足。

團(tuán)隊將廣泛可下載的模型標(biāo)記為開源模型，“參賽選手”中有三位屬于此列，分別是Llama 2、BLOOMZ和Stable Diffusion 2。

從排名結(jié)果中顯而易見地可以看出，開源模型的得分普遍遙遙領(lǐng)先，唯有GPT-4的得分比Stable Diffusion 2高出了1分。

對此，研究人員也做出了解釋：

這種差異很大程度上是由于閉源模型的開發(fā)人員在“上游”問題上缺乏透明度造成的，比如用于構(gòu)建模型的數(shù)據(jù)、勞動力和計算。

此次模型透明度排名的更多細(xì)節(jié)內(nèi)容，可參考文末的論文。

透明度為什么重要？

針對這個問題，斯坦福HAI在官方博客中也做出了相應(yīng)說明。

例如在負(fù)責(zé)人Rishi Bommasani看來：

缺乏透明度，長期以來一直是數(shù)字技術(shù)消費者面臨的一個問題。

在當(dāng)下的互聯(lián)網(wǎng)中充斥著諸多這樣的問題，例如欺騙性的廣告和定價、欺騙用戶在不知情的情況下進(jìn)行網(wǎng)購等等。

MIT博士Shayne Longpre認(rèn)為，隨著大模型越發(fā)的火熱并且在各行各業(yè)中迅速落地，科學(xué)家們有必要了解它們是如何設(shè)計的，尤其是“上游”的那些指標(biāo)。

對于產(chǎn)業(yè)界來說，亦是如此，決策者們在面對“用哪個大模型、怎么用”等問題時，都需要建立在模型透明度的基礎(chǔ)之上。

那么你對于這次大模型的透明度排名有怎樣的看法呢？歡迎在評論區(qū)留言交流~

論文地址：
https://crfm.stanford.edu/fmti/fmti.pdf

參考鏈接：
[1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
[2]https://github.com/stanford-crfm/fmti
[3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇 Transformer一作來卷多模態(tài)！學(xué)術(shù)圖表也能看懂，100毫秒極速響應(yīng)

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

全都不及格！斯坦福100頁論文給大模型透明度排名，GPT-4僅排第三

100多頁論文研究模型透明度

透明度為什么重要？

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

全都不及格！斯坦福100頁論文給大模型透明度排名，GPT-4僅排第三

100多頁論文研究模型透明度

透明度為什么重要？

請綁定手機(jī)號

全都不及格！斯坦福100頁論文給大模型透明度排名，GPT-4僅排第三