發(fā)布時間:2023-11-28 14:54:38 瀏覽量:140次
已被EMNLP 2023 System Demonstrations 錄取
允中 發(fā)自 凹非寺
|
ChatGPT 的一聲號角吹響了2023年全球大語言模型的競賽。
2023年初以來,來自工業(yè)界和研究機(jī)構(gòu)的各種大語言模型層出不窮,特別值得一提的是,中文大語言模型也如雨后春筍般,在過去的半年里不斷涌現(xiàn)。
與此同時,和如何訓(xùn)練大語言模型相比,另一些核心的難題同時出現(xiàn)在學(xué)術(shù)界和產(chǎn)業(yè)界的面前:究竟應(yīng)該如何理解和評價中文大語言模型的能力?在中文和英文大模型的理解和評測上又應(yīng)該有什么聯(lián)系與區(qū)別?
帶著問題的思考,我們發(fā)現(xiàn),近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進(jìn)了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。
想要準(zhǔn)確全面地理解和評測中文大語言模型,這些問題亟須解決:
針對這些挑戰(zhàn),有研究團(tuán)隊已經(jīng)給出了自己的探索與方案。
近日,EMNLP 2023的論文結(jié)果公布。來自香港中文大學(xué)計算機(jī)科學(xué)與工程學(xué)系的王歷偉助理教授研究團(tuán)隊的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 錄取。
據(jù)CLEVA項目負(fù)責(zé)人王歷偉教授介紹,CLEVA是其帶領(lǐng)的港中文語言和視覺實驗室(CUHK LaVi Lab)聯(lián)合上海人工智能實驗室合作研究的全面的中文大語言模型評測方法。
值得一提的是,CLEVA目前已經(jīng)被全球前沿的英文大語言模型評測體系-斯坦福大學(xué)的HELM 評測體系認(rèn)可和接入!
目前,用戶已經(jīng)可以通過斯坦福的HELM評測平臺來調(diào)用和測試CLEVA的中文大模型評測?!澳艿玫絿H前沿大模型評測研究團(tuán)隊的認(rèn)可,是對我們研究工作的極大鼓勵?!?LaVi實驗室的同學(xué)自豪地說。
全面的大語言模型評測離不開海量的數(shù)據(jù)和完整的評測指標(biāo)。CLEVA目前覆蓋 31個任務(wù)(11個應(yīng)用評估+20個能力評測),囊括目前最多的來自84個數(shù)據(jù)集的370K個中文測試樣本。中文測試樣本數(shù)是過往同類工作最大值的四倍,讓大語言模型在不同任務(wù)上的能力都完整地呈現(xiàn)出來。
指標(biāo)上,CLEVA不僅關(guān)注過往評測中大家最在乎的準(zhǔn)確性(Accuracy),還借鑒了HELM在英文評測中的做法,針對中文評測設(shè)計了魯棒性(Robustness)、公平性(Fairness)、效率(Efficiency)、校準(zhǔn)與不確定性(Calibration and Uncertainty)、偏見與刻板印象(Bias and Stereotypes)和毒性(Toxicity)的指標(biāo)。另外,CLEVA還引入了多樣性(Diversity)和隱私性(Privacy)評測,幫助人們做出綜合的判斷。這對大模型應(yīng)用至關(guān)重要。
在使用大模型時,人們經(jīng)常發(fā)現(xiàn)大模型對提示等細(xì)節(jié)變化不夠魯棒。不同的提示模版會帶來較明顯的差異。過往的大模型評測很多只提供了評測數(shù)據(jù),并沒有提供或只提供了一兩個提示模版,而這直接導(dǎo)致不同工作得到的評測結(jié)果不直接可比。
CLEVA為每一個評測任務(wù)準(zhǔn)備了一組多個提示模版。所有模型用同樣一組提示模版進(jìn)行統(tǒng)一評測,不僅可以更公平比較模型能力,還可以通過不同模版帶來的性能差異分析一個模型對提示模版的敏感程度,指導(dǎo)模型的下游應(yīng)用。
隨著大模型訓(xùn)練用的語料越來越龐大,數(shù)據(jù)污染的風(fēng)險也與日俱增。數(shù)據(jù)污染會使模型測試結(jié)果不可信,很難公平地體現(xiàn)出模型的能力。如何盡量減輕數(shù)據(jù)污染的問題,之前的中文評測工作還沒有針對這一問題給出充分的探索和方案。
CLEVA通過多種方法在評測開始之前就主動降低數(shù)據(jù)污染帶來的風(fēng)險。從源頭上,33.98%的測試數(shù)據(jù)是CLEVA新采集構(gòu)造的。更關(guān)鍵的是,CLEVA基于規(guī)模最大的中文測試數(shù)據(jù),在每輪評測時都會通過不重復(fù)采樣得到一個全新的測試集。每一輪測試集在經(jīng)過多種數(shù)據(jù)增強(qiáng)策略的調(diào)整后,才用來評測大模型,進(jìn)一步緩解數(shù)據(jù)污染的風(fēng)險。
CLEVA已經(jīng)評測了23個目前最有影響力的中文大模型,還會持續(xù)用更多的數(shù)據(jù)和指標(biāo),評測更多的模型。對大模型評測感興趣的研究團(tuán)隊,可以通過CLEVA網(wǎng)站提交和對接評測后續(xù)的進(jìn)展。詳細(xì)的教程請參考CLEVA官方網(wǎng)頁或GitHub repo。
對于CLEVA已經(jīng)具有的評測需求,CLEVA還提供了清晰好用的網(wǎng)絡(luò)界面進(jìn)行操作。用戶可以用可交互的可視化工具,仔細(xì)對比不同模型在不同任務(wù)和評測指標(biāo)上的差異。在申請權(quán)限后,用戶可以讓自己感興趣的模型通過網(wǎng)絡(luò)接口跟CLEVA進(jìn)行交互,只需按幾次鼠標(biāo)即可開始一次全面評測,十分便利。
“團(tuán)隊很努力地做了很久的CLEVA,不僅僅是研究上的理解加深,細(xì)節(jié)上也在不斷打磨,不斷優(yōu)化。在此過程中,非常感謝上海人工智能實驗室的合作與支持?!?CLEVA 團(tuán)隊在提起打造這個研究工作的時候,能感覺出來研究積累的力量。
筆者也了解到,學(xué)術(shù)界和工業(yè)界對大模型能力評測關(guān)注的角度也有一些區(qū)別與聯(lián)系。
王歷偉教授,在2020年加入香港中文大學(xué)任助理教授之前,已經(jīng)在北美有數(shù)年的工業(yè)界工作經(jīng)驗。他也曾作為商湯科技大語言模型“商量SenseChat”的技術(shù)總負(fù)責(zé)人,帶領(lǐng)團(tuán)隊于2023年4月,發(fā)布最早的國內(nèi)中文大語言模型的代表之一,“商量SenseChat”。
△王歷偉
當(dāng)他提起學(xué)術(shù)界和工業(yè)界關(guān)注大模型評測的角度的區(qū)別和聯(lián)系的時候,說道:“工業(yè)界的大模型會不僅僅關(guān)注模型的基本通用能力,還會關(guān)注大模型如何服務(wù)垂直場景和垂直產(chǎn)業(yè),所以評測能力會更加在場景中具象化;而學(xué)校或者研究機(jī)構(gòu)則更適合從基本的模型理解能力、認(rèn)知能力、通用智能等角度來理解和評測大模型?!?/p>
針對大模型評測領(lǐng)域的許多開放問題,王歷偉教授提到,短期內(nèi)他的港中文研究團(tuán)隊會持續(xù)關(guān)注的幾點:
“第一,就是進(jìn)一步優(yōu)化解決數(shù)據(jù)污染的辦法。CLEVA 通過增加新數(shù)據(jù)和采樣的方式減少數(shù)據(jù)污染的可能。但是未來應(yīng)該可以通過新的數(shù)據(jù)生成范式來構(gòu)造更多的評測數(shù)據(jù)?!?/p>
“第二,就是目前評測工作還存在很多需要提高的方面,比如應(yīng)該如何定義推理(reasoning)?應(yīng)該如何評價推理的過程,而不僅僅是簡單地看推理的結(jié)果?再比如,針對什么是智能的理解問題上,應(yīng)該如何跨學(xué)科地合作,來設(shè)計新的問題,來檢驗大模型的智能。當(dāng)然還有很多方面,比如AI 安全問題,如何評價幻覺問題,等等?!?/p>
“第三,多模態(tài)場景下的涌現(xiàn)能力和純語言學(xué)習(xí)下有哪些不同?我們有十年左右的vision+language 研究經(jīng)驗和積累。CUHK LaVi Lab在不斷加強(qiáng)大語言模型和多模態(tài)大模型的各個課題研究的同時,也會不斷探索多模態(tài)場景下的大模型的能力認(rèn)知和評測?!?/p>
“對大模型能力認(rèn)知和評測的研究本身,也一定會幫助研究團(tuán)隊理解和加強(qiáng)持續(xù)提高大模型的能力?!?/p>
參考鏈接:
[1] CLEVA論文地址:
https://arxiv.org/abs/2308.04813
[2] CLEVA GitHub Repo:
https://github.com/LaVi-Lab/CLEVA
[3] CLEVA官方網(wǎng)頁:
http://www.lavicleva.com
[4] 斯坦福大學(xué)HELM官方網(wǎng)頁:
https://crfm.stanford.edu/helm/latest/
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
最新文章
同學(xué)您好!