發(fā)布時(shí)間:2023-12-07 18:46:33 瀏覽量:229次
頭圖|Google
當(dāng)?shù)貢r(shí)間12月6日,谷歌官宣了其最新大模型Gemini 1.0。
Gemini 1.0與LLaMA模型相似,也是一套系列模型,其中包含三個(gè)版本:
Gemini Ultra——參數(shù)量最大,能力最強(qiáng),適用于高度復(fù)雜的任務(wù)。
Gemini Pro——可擴(kuò)展至各種任務(wù)的模型。
Gemini Nano——高效的設(shè)備端任務(wù)模型。
Gemini 1.0主打多模態(tài)能力,谷歌將Gemini定義為一款“原生多模態(tài)(natively multimodal)”模型。
在模型能力方面,谷歌稱Gemini Ultra的性能在大型語言模型(LLM)研發(fā)中使用的 32 個(gè)廣泛使用的學(xué)術(shù)基準(zhǔn)中的 30 個(gè)超過了當(dāng)前最先進(jìn)的結(jié)果。
在MMLU(大規(guī)模多任務(wù)語言理解)測(cè)試框架中,Gemini Ultra 的得分高達(dá) 90.0%,甚至超越了人類專家。
Gemini被谷歌CEO Sundar Pichai稱為“谷歌迄今為止最大、能力最強(qiáng)的AI模型”。
Sundar Pichai在Gemini的官宣博客中寫道:
“在許多領(lǐng)先的基準(zhǔn)測(cè)試中都具有最先進(jìn)的性能。谷歌的第一個(gè)版本 Gemini 1.0 針對(duì)不同尺寸進(jìn)行了優(yōu)化:Ultra、Pro 和 Nano。這些是 Gemini 時(shí)代的第一個(gè)模型,也是谷歌今年早些時(shí)候成立 Google DeepMind 時(shí)的愿景的首次實(shí)現(xiàn)。這個(gè)模型的新時(shí)代代表了谷歌作為一家公司所做出的最大的科學(xué)和工程努力之一。我對(duì)未來以及雙子座將為世界各地的人們帶來的機(jī)會(huì)感到由衷地興奮?!?/p>
目前,谷歌官方稱其主打的聊天機(jī)器人 Bard已升級(jí)至Gemini Pro版本,能力在推理、規(guī)劃和理解等方面得到顯著提升,并繼續(xù)免費(fèi)向用戶提供服務(wù)。谷歌預(yù)計(jì)明年初推出更為先進(jìn)的“Bard Advanced”,屆時(shí)將采用 Gemini Ultra。
在Gemini發(fā)布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當(dāng)中收獲的評(píng)價(jià)一直不高,相對(duì)于業(yè)界領(lǐng)軍的GPT-4差距很大。
由此,傳聞中谷歌重點(diǎn)研發(fā)的Gemini模型一直被寄予厚望。Gemini也是谷歌大腦(Google Brain)和DeepMind合并組建Google DeepMind之后的首個(gè)重要產(chǎn)品。
下面我們來看看,Gemini到底牛在哪?
超過人類專家,向強(qiáng)人工智能邁近一步?
“Gemini在MMLU基準(zhǔn)測(cè)試中超越人類專家?!?/strong>
雖然,有了AlphaGo的經(jīng)驗(yàn),我們并不認(rèn)為AI在某些領(lǐng)域超越人類是什么新鮮事。但今時(shí)不同往日,在ChatGPT帶來的AGI、強(qiáng)人工智能“威懾”下,任何被稱為超越人類的AI,多多少少都會(huì)引人側(cè)目。
那么在這個(gè)測(cè)試集中超越人類專家,到底有多厲害呢?
大型語言模型(LLM)的主流評(píng)測(cè)數(shù)據(jù)集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于評(píng)估模型在語言理解、推理、閱讀理解和常識(shí)推理等方面的能力。
MMLU(大規(guī)模多任務(wù)語言理解)是一個(gè)結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個(gè)科目的測(cè)試集。相比于其他測(cè)試集,MMLU的廣泛性和深度更強(qiáng),它通過大量和多樣的任務(wù)來測(cè)試AI模型在理解自然語言方面的能力,特別是在復(fù)雜和多變的真實(shí)世界場(chǎng)景中的表現(xiàn)。這使得MMLU成為一個(gè)極具挑戰(zhàn)性的評(píng)測(cè)框架,可以全面地評(píng)估和推動(dòng)大型語言模型的發(fā)展。
GPT-4與Gemini在MMLU測(cè)試集的對(duì)比
這個(gè)框架通常包括數(shù)以千計(jì)的不同任務(wù),涵蓋廣泛的主題和挑戰(zhàn)。MMLU 的目的是提供一個(gè)全面且多樣化的方法,測(cè)試和評(píng)估語言模型在各種復(fù)雜和現(xiàn)實(shí)世界場(chǎng)景中的表現(xiàn)。其中的測(cè)試任務(wù)可能包括理解笑話、回答有關(guān)世界歷史的問題、解釋科學(xué)現(xiàn)象等眾多更接近于人類知識(shí)、常識(shí)和理解能力的項(xiàng)目。
在MMLU測(cè)試中超越人類專家,也可以理解為,在這個(gè)測(cè)試框架下,Gemini在“各種復(fù)雜和現(xiàn)實(shí)世界場(chǎng)景中的表現(xiàn)”超越了人類專家。
谷歌在官方博客中稱:Gemini利用MMLU基準(zhǔn)方法使Gemini能夠利用其推理能力在回答難題之前更仔細(xì)地思考,從而比僅使用第一印象有顯著改進(jìn)。
除此之外,Gemini Ultra 還在新的MMMU(專家 AGI 的大規(guī)模多學(xué)科多模式理解和推理)基準(zhǔn)測(cè)試中取得了59.4%的最先進(jìn)分?jǐn)?shù),該基準(zhǔn)測(cè)試由跨越不同領(lǐng)域、需要深思熟慮的推理的多模態(tài)任務(wù)組成。
谷歌的測(cè)試顯示Gemini Ultra 的性能優(yōu)于之前最先進(jìn)的模型,無需從圖像中提取文本以進(jìn)行進(jìn)一步處理的對(duì)象字符識(shí)別 (OCR) 系統(tǒng)的幫助。這些基準(zhǔn)凸顯了雙子座天生的多模態(tài)性,并表明了雙子座更復(fù)雜推理能力的早期跡象。
Gemini在文本和編碼等一系列基準(zhǔn)測(cè)試中的表現(xiàn)
在某個(gè)測(cè)試集中超越人類專家,對(duì)于AGI或者強(qiáng)人工智能來說雖然還相去甚遠(yuǎn),但仍可以說是在這條路上邁出的堅(jiān)實(shí)一步。
原生多模態(tài),比GPT-4更強(qiáng)大?
其實(shí)Gemini的LLM性能表現(xiàn)并不是他最大的亮點(diǎn)。Gemini真正值得關(guān)注的差異化能力是“原生多模態(tài)”。
首先,什么是“Gemini’s native multimodality”(Gemini的原生多模態(tài)能力)?
原生多模態(tài)能力,指的是Gemini模型固有的能力,可以直接理解和處理多種不同類型的數(shù)據(jù),而不需要額外的專門處理或轉(zhuǎn)換。
有人可能會(huì)疑惑,那這與GPT-4有何不同?
打個(gè)簡單的比方:假如GPT-4是一個(gè)詩人,他不僅擅長寫詩,還會(huì)畫畫,但寫詩是他的職業(yè),畫畫只是他的副業(yè)。GPT-4能處理文字(寫詩)和圖片(畫畫),但它主要還是以文字處理為強(qiáng)項(xiàng)。
具有“原生多模態(tài)能力”的Gemini則是一個(gè)詩人、畫家“雙料人才”,他在寫詩和畫畫方面同樣出色,沒有哪一方面比另一方面弱。Gemini能夠同時(shí)處理文字和圖片,并且在這兩個(gè)方面都做得很好,沒有主次之分。
GPT-4的多模態(tài)能力可能更多地是通過將不同模型的能力集成到一個(gè)框架中來實(shí)現(xiàn)的,而不是所有功能都在一個(gè)統(tǒng)一的模型中原生實(shí)現(xiàn)。作為一個(gè)大型語言模型,GPT-4的主要優(yōu)化和訓(xùn)練是圍繞語言理解和生成。對(duì)于圖像處理,雖然它展現(xiàn)了一定的能力,但可能不如那些專門針對(duì)圖像處理優(yōu)化的模型。而一個(gè)真正的本地多模態(tài)模型會(huì)在所有模態(tài)上都進(jìn)行平衡和優(yōu)化。
Gemini的多模態(tài)理解能力
原生多模態(tài)能力意味著模型能夠更自然、高效地處理和融合多種類型的數(shù)據(jù),這在實(shí)現(xiàn)更復(fù)雜的AI應(yīng)用方面具有重要意義。
當(dāng)然,這也是更接近人類的理解方式。人類在理解世界時(shí)自然地融合了視覺、聽覺和語言等多種感官信息。一個(gè)具有本地多模態(tài)能力的AI模型在處理信息時(shí)也采用了類似的綜合方式,這更接近于人類的理解和認(rèn)知方式。
全方位“打敗”GPT-4
Gemini不僅是在模型能力和多模態(tài)能力方面敢與GPT-4一爭高下。在應(yīng)用方面,也提供了更多選擇。
“小模型”
模型系列中的最小尺寸的Gemini Nano模型,被設(shè)計(jì)為適用于內(nèi)存受限的端側(cè)設(shè)備。它在多種任務(wù)上展示了出色的性能,尤其是在多模態(tài)和多語言處理方面。Gemini Nano的這些特性使其成為適合在資源受限環(huán)境中使用的強(qiáng)大工具。
雖然目前大模型的主流趨勢(shì)仍是“依云而生”,但在AI未來的商業(yè)化版圖中,離線、個(gè)人化、小型化的端側(cè)模型正在受到越來越多的重視。
過去幾個(gè)月中,高通、聯(lián)想等眾多巨頭都在反復(fù)強(qiáng)調(diào)自己在端側(cè)生成式AI的戰(zhàn)略布局。高通推出的最新一代驍龍芯片對(duì)生成式AI提供了強(qiáng)大的支持能力,聯(lián)想則提出AI PC概念,并強(qiáng)調(diào)未來一段時(shí)間里將圍繞AI對(duì)已有的全部產(chǎn)品展開大刀闊斧地改革。
然而,硬件設(shè)備廠商非?;钴S的同時(shí),AI廠商對(duì)端側(cè)的關(guān)注卻并不怎么高。以百模大戰(zhàn)的國內(nèi)市場(chǎng)為例,目前只有個(gè)位數(shù)的廠商正式宣布過自己的端側(cè)小模型。其中包括雷軍在8月的年度演講中提到的小米MiLM模型的13億參數(shù)版本,以及通義千問在12月1日開源的Qwen-1.8B模型。
在這方面,相比OpenAI,谷歌更有動(dòng)力去研究端側(cè)小模型。畢竟谷歌本身具備Pixel手機(jī)和Android的雙重優(yōu)勢(shì)。
訓(xùn)練
谷歌在訓(xùn)練Gemini過程中大量使用了自研的張量處理單元(TPU)v4 和 v5e。
在 TPU 上,Gemini 的運(yùn)行速度明顯快于早期、較小且功能較差的型號(hào)。這些定制設(shè)計(jì)的人工智能加速器一直是谷歌人工智能產(chǎn)品的核心,這些產(chǎn)品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數(shù)十億用戶提供服務(wù)。它們還使世界各地的公司能夠經(jīng)濟(jì)高效地訓(xùn)練大規(guī)模人工智能模型。
Google 數(shù)據(jù)中心內(nèi)的一排 Cloud TPU v5p AI 加速器超級(jí)計(jì)算機(jī)
隨著Gemini的問世,谷歌也宣布了TPU系統(tǒng)的最強(qiáng)升級(jí)Cloud TPU v5p,專為訓(xùn)練尖端 AI 模型而設(shè)計(jì)。
在訓(xùn)練優(yōu)化方面,Gemini增加了對(duì)模型并行性和數(shù)據(jù)并行性的利用,并對(duì)網(wǎng)絡(luò)延遲和帶寬進(jìn)行了優(yōu)化。Gemini還使用了Jax和Pathways編程模型,為復(fù)雜的數(shù)學(xué)運(yùn)算(如在機(jī)器學(xué)習(xí)中常見的運(yùn)算)提供了優(yōu)化的支持。
Jax特別適用于高效地執(zhí)行大規(guī)模的數(shù)組運(yùn)算。Pathways指用于管理和協(xié)調(diào)大規(guī)模訓(xùn)練任務(wù)的編程模型或框架。通過使用這些工具,Gemini模型的開發(fā)者可以使用單個(gè)Python進(jìn)程來協(xié)調(diào)整個(gè)訓(xùn)練過程,這樣可以簡化開發(fā)和訓(xùn)練工作流,同時(shí)利用Jax和Pathways的高效性能。
復(fù)雜推理能力
Gemini 1.0 復(fù)雜的多模式推理功能可以幫助理解復(fù)雜的書面和視覺信息。這使得它在發(fā)現(xiàn)大量數(shù)據(jù)中難以辨別的知識(shí)方面具有獨(dú)特的能力。
批改物理作業(yè)
其通過閱讀、過濾和理解信息從數(shù)十萬份文檔中提取見解的卓越能力將有助于在從科學(xué)到金融的許多領(lǐng)域以數(shù)字速度實(shí)現(xiàn)新的突破。
Gemini 1.0 經(jīng)過訓(xùn)練,可以同時(shí)識(shí)別和理解文本、圖像、音頻等,因此它可以更好地理解微妙的信息,并可以回答與復(fù)雜主題相關(guān)的問題。這使得它特別擅長解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理。
編程
Gemini可以理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼。它跨語言工作和推理復(fù)雜信息的能力使其成為世界領(lǐng)先的編碼基礎(chǔ)模型之一。
Gemini Ultra在多個(gè)編碼基準(zhǔn)測(cè)試中表現(xiàn)出色,包括HumanEval(用于評(píng)估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))和Natural2Code(谷歌內(nèi)部保留的數(shù)據(jù)集),該數(shù)據(jù)集使用作者生成的源而不是基于網(wǎng)絡(luò)的信息。
Gemini還可以用作更高級(jí)編碼系統(tǒng)的引擎。兩年前,谷歌推出了達(dá)到競(jìng)賽水平的AI代碼生成系統(tǒng)AlphaCode。如今基于Gemini技術(shù)開發(fā),剛剛又開發(fā)了AlphaCode 2,專門針對(duì)競(jìng)技編程任務(wù)進(jìn)行了優(yōu)化和增強(qiáng)。
Gemini的下一步規(guī)劃
雖然谷歌在技術(shù)文件和官方博客中把Gemini吹得很神,好像已經(jīng)把OpenAI踩在腳下了。但今天的發(fā)布其實(shí)只是一個(gè)“論文”而已,真正有能力對(duì)標(biāo)GPT-4的Gemini Ultra要到明年年初才會(huì)上線。
Gemini家族的老二,Gemini Pro目前已經(jīng)準(zhǔn)備開始為谷歌的對(duì)話機(jī)器人產(chǎn)品Bard提供支持了。
谷歌在博客中稱:從今天開始,Bard將使用Gemini Pro的微調(diào)版本來進(jìn)行更高級(jí)的推理、規(guī)劃、理解等。這是 Bard 自推出以來最大的升級(jí)。它將在170多個(gè)國家和地區(qū)提供英語版本,谷歌計(jì)劃在不久的將來擴(kuò)展到不同的模式并支持新的語言和地點(diǎn)。
不過,截至發(fā)稿,在bard上的測(cè)試仍顯示未升級(jí)到Gemini,且bard對(duì)Gemini的了解也十分有限。
提問Bard是否已經(jīng)升級(jí)Gemini
Gemini Nano則被規(guī)劃到了Pixel。谷歌將在Pixel 8 Pro中首次內(nèi)置Gemini Nano。這款手機(jī)將支持Recorder應(yīng)用中的Summarize等新功能,并從WhatsApp開始推出Gboard中的 Smart Reply,明年還會(huì)推出更多消息應(yīng)用。
從12月13日開始,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 訪問 Gemini Pro 。
Google AI Studio是一款基于網(wǎng)絡(luò)的免費(fèi)開發(fā)者工具,可使用 API 密鑰快速構(gòu)建應(yīng)用程序原型并啟動(dòng)應(yīng)用程序。當(dāng)需要完全托管的 AI 平臺(tái)時(shí),Vertex AI 允許對(duì) Gemini 進(jìn)行自定義,提供全面的數(shù)據(jù)控制,并受益于額外的 Google Cloud 功能,以實(shí)現(xiàn)企業(yè)安全、安全、隱私以及數(shù)據(jù)治理和合規(guī)性。
Android 開發(fā)人員還可以通過 AICore(Android 14 中提供的新系統(tǒng)功能,從 Pixel 8 Pro 設(shè)備開始)使用 Gemini Nano(谷歌最高效的設(shè)備端任務(wù)模型)進(jìn)行構(gòu)建。
除此之外,Gemini已經(jīng)確定會(huì)很快融入到谷歌的業(yè)務(wù)中。在接下來的幾個(gè)月中,Gemini將出現(xiàn)在更多谷歌產(chǎn)品和服務(wù)中,例如搜索、廣告、Chrome 和 Duet AI。
谷歌稱已經(jīng)開始在搜索中試驗(yàn)Gemini,它使用戶的搜索生成體驗(yàn)(SGE)更快,美國英語的延遲減少了40%,同時(shí)質(zhì)量也得到了提高。
值得注意的是,對(duì)于谷歌來說,搜索始終是其看家業(yè)務(wù)。Gemini在谷歌搜索、廣告業(yè)務(wù)中的全面鋪開,可能會(huì)徹底改變未來的廣告和營銷邏輯。
在最近的一次工業(yè)軟件研討會(huì)中,一位工業(yè)企業(yè)高管對(duì)虎嗅吐槽說,“谷歌的競(jìng)爭對(duì)手在互聯(lián)網(wǎng)上鋪了很多軟文,但是我們沒有買軟文。這就導(dǎo)致這些軟文成了LLM訓(xùn)練的數(shù)據(jù),進(jìn)而沉淀到它的知識(shí)庫中。在AI的意識(shí)里,我們的競(jìng)爭對(duì)手已經(jīng)被看作是默認(rèn)的行業(yè)標(biāo)準(zhǔn)了。”
這種現(xiàn)象,早在2022年底,就已經(jīng)有人預(yù)言了,“SEO is Dead, Long Live LLMO”的口號(hào)。彼時(shí)的ChatGPT還沒有聯(lián)網(wǎng)功能,而今天的Gemini幾乎已經(jīng)確定要融入到谷歌的搜索引擎中,并完全改變未來的網(wǎng)絡(luò)搜索邏輯。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!