激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

SuperCLUE中文大模型評測:商湯商量攬總榜、AI智能體兩項第一

發(fā)布時間:2023-11-28 14:54:58 瀏覽量:99次

近日,中文通用大模型綜合性評測基準SuperCLUE發(fā)布9月總排行榜和各個分類任務榜單,商湯商量SenseChat 3.0 位列中文大模型總榜排名第一。

近日,中文通用大模型綜合性評測基準SuperCLUE發(fā)布9月總排行榜和各個分類任務榜單,商湯商量SenseChat 3.0 位列中文大模型總榜排名第一。在新增的AI Agent(AI智能體)子榜中,SenseChat 3.0 同樣排名第一,領先所有國內(nèi)中文大模型以及GPT-3.5 和 Claude 2,表現(xiàn)僅次于GPT-4,展示了商湯在大模型領域創(chuàng)新發(fā)展及釋放生產(chǎn)力的優(yōu)勢,以及在探索AGI道路上的積累與潛力。

SuperCLUE中文大模型評測:商湯商量攬總榜、AI智能體兩項第一

注:國外代表性模型(GPT4.0/Claude2/gpt-3.5)不參與排名。

SuperCLUE是中文通用大模型的綜合性評測基準,旨在對大模型在各個能力維度上的表現(xiàn)進行全方位的評估,是國內(nèi)最具專業(yè)性和代表性的中文大模型評測基準之一。此次評測選取了目前國內(nèi)外最具代表性的20個通用大語言模型。

商量總榜第一,客觀題成績超GPT-3.5

9月最新發(fā)布的SuperCLUE總排行榜和各個分類任務榜單,主要聚焦于大模型的四個能力象限,語言理解與生成,包括語言理解與抽取、上下文對、生成與創(chuàng)作、角色扮演;專業(yè)技能與知識,包括知識與百科、計算、代碼、邏輯與推理;Agent智能體,包括工具使用、任務規(guī)劃;安全性,包括系統(tǒng)安全、指令攻擊,總共12項基礎能力。

在總排行榜中,商湯科技商量SenseChat 3.0以總分62.75分位列第一,其中在OPT客觀題部分,商湯SenseChat 3.0得分還超過了GPT-3.5,展示了在中文大模型方面極強的綜合競爭力。

商湯商量SenseChat于2023年4月正式推出,是國內(nèi)最早的基于千億參數(shù)大語言模型之一,并不斷迭代更新。其背后依托的是商湯AI大裝置SenseCore,目前上線GPU數(shù)量約30,000塊,算力規(guī)模提升至6 ExaFLOPS,有效支持語言大模型的訓練、升級迭代和服務。

推動AI智能體發(fā)展,加速邁向AGI

隨著大模型發(fā)展,“聊天”已遠遠不能滿足人們的要求,能夠準確使用工具成為解放大模型生產(chǎn)力的關鍵。SuperCLUE新增的AI Agent(AI智能體)子榜,是業(yè)界首個AI Agent榜單,它重點評估了AI Agent在“工具使用”和“任務規(guī)劃”兩個關鍵能力上的表現(xiàn)。評測顯示商湯商量SenseChat 3.0具備作為人類超級助手的潛力,可以根據(jù)人類需求自主完成任務,進而充分釋放大模型的生產(chǎn)力,使其在 AI Agent 榜單上表現(xiàn)僅次于GPT-4,全面領先其余參評大模型。

SuperCLUE中文大模型評測:商湯商量攬總榜、AI智能體兩項第一

目前全球領先的AI 智能體,幾乎都以領先大模型GPT-4為核心驅(qū)動,它們借助強大的工具使用能力等,可將復雜問題拆解成可實現(xiàn)的子任務、類人的自然語言交互等能力。商量SenseChat 3.0作為領先的中文大模型,通過使用代碼解釋器、API調(diào)用和搜索三類常用工具來解決復雜任務,靈活搭建AI智能體應用,支撐企業(yè)的生產(chǎn)力革新。

目前,商量SenseChat已經(jīng)在金融、手機、醫(yī)療、汽車、地產(chǎn)、能源、傳媒、工業(yè)制造等眾多垂直行業(yè)與超過500家客戶建立了深度合作。作為具備強大工具使用能力的大模型,商量SenseChat的持續(xù)快速提升,為商湯發(fā)展更強大的、能夠像人類一樣進行交互的AI智能體,以及面向AGI道路的探索,都將提供重要的基礎和支撐。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定