發(fā)布時(shí)間:2023-11-28 14:55:37 瀏覽量:114次
支持輸入的長(zhǎng)文本達(dá)20萬(wàn)字,全球最長(zhǎng)
衡宇 發(fā)自 凹非寺
|
千億參數(shù)大模型,支持輸入的長(zhǎng)文本首次達(dá)20萬(wàn)x字!
在任何規(guī)模的大模型產(chǎn)品化隊(duì)伍中,這個(gè)長(zhǎng)度堪稱目前的全球最長(zhǎng)。
用數(shù)據(jù)說(shuō)話:目前Claude支持最大長(zhǎng)文本為100k(約8萬(wàn)字),而GPT-4則是32k(約2.5萬(wàn)字)。20萬(wàn)字,分別是它們的2.5倍和8倍。
這便是清華叉院助理教授楊植麟,創(chuàng)業(yè)大模型后拿出的第一份成績(jī)單。
就在10月9日下午,楊植麟創(chuàng)業(yè)AI公司月之暗面(Moonshot AI)推出了首款大模型產(chǎn)品智能助手Kimi Chat。
核心被強(qiáng)調(diào)的亮點(diǎn)是:其背后雖是體量為千億參數(shù)的“龐然大物”,但卻可以hold住輸入20萬(wàn)漢字,不管是《三體》還是《馬斯克傳》都能隨便讀。
據(jù)介紹,拓展上下文窗口長(zhǎng)度,只是月之暗面“登月計(jì)劃”的第一步;這一步的落實(shí),實(shí)則是為下一步落子多模態(tài)提供基礎(chǔ)——該公司預(yù)計(jì)在明年對(duì)外開(kāi)放多模態(tài)版本產(chǎn)品。
而公司的最終目標(biāo),是在大模型領(lǐng)域做To C超級(jí)應(yīng)用。
楊植麟身上的光環(huán)很多。
除了是清華叉院助理教授外,還有FAIR、Google Brain的工作履歷,是Transformer-XL和XLNet工作一作,發(fā)明的算法曾在30多項(xiàng)AI標(biāo)準(zhǔn)任務(wù)取得SOTA,師從蘋果公司AI負(fù)責(zé)人Ruslan Salakhutdinov、清華唐杰……
種種光環(huán)加持下,3月被曝創(chuàng)業(yè)后,月之暗面就自帶一層神秘面紗。而后,紅杉孵化式支持,循序完成兩輪共計(jì)近20億元融資,更是讓公司獲得了格外多的注目。
如今,這家公司首次公開(kāi)亮相,回應(yīng)了更多外界的議論。
現(xiàn)場(chǎng)演示時(shí),關(guān)注到,由于支持20萬(wàn)字長(zhǎng)文本,月之暗面智能助手Kimi Chat有幾點(diǎn)新花樣。
一個(gè)是提供角色簡(jiǎn)介鏈接,Kimi就能根據(jù)鏈接內(nèi)的基本信息,扮演角色進(jìn)行對(duì)話:
一個(gè)是能同時(shí)支持多個(gè)(現(xiàn)場(chǎng)演示時(shí)為50個(gè))文件的上傳和閱讀分析:
還有一個(gè)是能根據(jù)提供的文本內(nèi)容,畫思維導(dǎo)圖……
這樣一個(gè)智能助手產(chǎn)品,月之暗面對(duì)其應(yīng)用場(chǎng)景定位比較廣泛,“包括生產(chǎn)力、娛樂(lè)層面的一些場(chǎng)景都可以”。
為什么選擇以“長(zhǎng)文本輸入”為核心,來(lái)構(gòu)建自家底座大模型的差異化競(jìng)爭(zhēng)力?
月之暗面的官方回答是,這是行業(yè)現(xiàn)在迫切需要解決的問(wèn)題,也是通往下一步,即產(chǎn)品化的最大卡點(diǎn)。
一切基于整個(gè)團(tuán)隊(duì)的“樸素判斷”,參數(shù)量決定了大模型支持多復(fù)雜的“計(jì)算”,而能夠接收多少文本輸入(即長(zhǎng)文本技術(shù))則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應(yīng)用效果。
上下文對(duì)應(yīng)的其實(shí)是計(jì)算機(jī)的內(nèi)存。
近幾十年,計(jì)算機(jī)系統(tǒng)的內(nèi)存發(fā)生了翻天覆地的變化。《超級(jí)瑪麗》初代版本使用的內(nèi)存非常非常低,但現(xiàn)在的應(yīng)用內(nèi)存至少都是幾個(gè)GB。
參數(shù)量決定了模型能支持多復(fù)雜的計(jì)算,但不光是要有足夠多的參數(shù)量,同時(shí)要有很強(qiáng)的上下文。上下文是新一代大模型的標(biāo)準(zhǔn)配置。
天下大模型苦長(zhǎng)文本久矣。
就連目前最頂尖的模型,在上下文窗口方面還有非常大的探索空間,如Claude 2最長(zhǎng)上下文窗口100k,GPT-4最長(zhǎng)為32k,Llama2最長(zhǎng)支持4k。
支持這樣的長(zhǎng)度對(duì)實(shí)際應(yīng)用來(lái)說(shuō),遠(yuǎn)遠(yuǎn)不夠。
此處拿大模型應(yīng)用的熱門方向Agent舉例。Agent運(yùn)行需要自動(dòng)進(jìn)行多輪規(guī)劃和決策,且每次行動(dòng)都需要參考?xì)v史記憶信息才能完成,這會(huì)帶來(lái)模型輸入的快速增加,同時(shí)也意味著,不能處理更長(zhǎng)上下文的模型,將因無(wú)法全面準(zhǔn)確地基于歷史信息進(jìn)行新規(guī)劃和決策,從而降低成功運(yùn)行概率。
該怎么彌補(bǔ)和提升呢?
在這一點(diǎn)上,楊植麟把市面上現(xiàn)有的解決方案劃分為三種類型。
楊植麟將以上三種辦法統(tǒng)稱為解決大模型上下文窗口長(zhǎng)度的捷徑,并稱,不會(huì)依賴這些滑動(dòng)窗口、降采樣、小模型等對(duì)性能損害較大的捷徑方案。
具體到月之暗面自己的解決辦法上,月之暗面主要在兩點(diǎn)上發(fā)力,一是創(chuàng)新網(wǎng)絡(luò)結(jié)構(gòu),二是進(jìn)行工程優(yōu)化。
接下來(lái)的目標(biāo),是按照產(chǎn)品驅(qū)動(dòng)去迭代升級(jí),把技術(shù)和產(chǎn)品結(jié)合到一起,最終目標(biāo)是打造C端的Super App。
并且預(yù)計(jì)明年發(fā)布多模態(tài)產(chǎn)品,因?yàn)樵跅钪谗肟磥?lái),無(wú)論何種模態(tài)的數(shù)據(jù),對(duì)其進(jìn)行無(wú)損壓縮是可以實(shí)現(xiàn)高程度智能的。
無(wú)損壓縮等同于對(duì)數(shù)據(jù)聯(lián)合概率分布的預(yù)測(cè),而多模態(tài)數(shù)據(jù)的生成,本質(zhì)上也是在做數(shù)據(jù)的聯(lián)合概率分布預(yù)測(cè)。
目前,剛創(chuàng)業(yè)起步的月之暗面已經(jīng)獲得了近20億元融資,投資方包括紅杉、今日資本、礪思資本等。
除了大模型火熱之外,這樣進(jìn)展迅速的高估值、高融資和創(chuàng)始團(tuán)隊(duì)不無(wú)關(guān)系。
目前公開(kāi)的資料來(lái)看,月之暗面聯(lián)合創(chuàng)始核心團(tuán)隊(duì)共3人。
創(chuàng)始人兼CEO楊植麟,本科就讀于清華大學(xué)計(jì)算機(jī)系。
高中時(shí)期,沒(méi)有任何編程基礎(chǔ)的楊植麟被選拔進(jìn)信息學(xué)奧林匹克競(jìng)賽培訓(xùn)班,最終通過(guò)競(jìng)賽保送清華大學(xué)(非計(jì)算機(jī)系)。
直到大二時(shí),他驚覺(jué)自己還是對(duì)計(jì)算機(jī)的興趣更濃,于是果斷轉(zhuǎn)入計(jì)算機(jī)系,師從清華教授、IEEE Fellow唐杰。
計(jì)算機(jī)系就讀期間,楊植麟以滿分成績(jī)通過(guò)所有程序設(shè)計(jì)課程。
2015年,他以年級(jí)第一的成績(jī)畢業(yè),隨后遠(yuǎn)赴CMU(卡內(nèi)基梅隆大學(xué))語(yǔ)言技術(shù)研究所,跟隨蘋果公司AI負(fù)責(zé)人Ruslan Salakhutdinov和Google AI智能首席科學(xué)家William W. Cohen攻讀博士學(xué)位。
CUM就讀期間,楊植麟不僅和圖靈獎(jiǎng)得主、深度學(xué)習(xí)三巨頭之一Yoshua Bengio合作發(fā)布“火鍋問(wèn)答”數(shù)據(jù)集HotpotQA;還以一作身份,發(fā)表XLNet和Transformer-XL工作。
前者成為NeurIPS 2019與ACL 2019的最高引論文之一,Google Scholar引用次數(shù)破8000,后者引用次數(shù)也超3000。
楊植麟曾和Yoshua Bengio(圖靈獎(jiǎng)得主,深度學(xué)習(xí)三巨頭之一)、Yann LeCun(圖靈獎(jiǎng)得主,又一個(gè)深度學(xué)習(xí)三巨頭之一)、Quoc V. Le(Google Brain創(chuàng)始人之一)、何愷明(Kaiming He)等合寫過(guò)論文。
據(jù)不完全統(tǒng)計(jì),他曾在ICLR、NeurIPS、ICML、ACL、EMNLP等計(jì)算機(jī)頂會(huì)發(fā)表論文20余篇,研究成果累計(jì)Google Shcolar引用超過(guò)19000。
一般情況下,CMU的博士學(xué)位之旅6年起步,但僅僅花費(fèi)4年時(shí)間,2019年,楊植麟就順利拿下博士學(xué)位。
第二名聯(lián)合創(chuàng)始人,目前是月之暗面的算法團(tuán)隊(duì)負(fù)責(zé)人,周昕宇。
他是清華大學(xué)2011級(jí)本科生,和楊植麟同為計(jì)算機(jī)系的學(xué)生。
周昕宇在畢業(yè)后選擇加入曠視,工作內(nèi)容是算法量產(chǎn)。
就職期間,他和曠視研究院基礎(chǔ)科研負(fù)責(zé)人、ResNet作者之一張祥雨一道,研究移動(dòng)端模型,以共同一作的身份撰寫ShuffleNet論文,被CVPR接受。
這項(xiàng)工作后來(lái)影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機(jī)毫秒級(jí)人臉解鎖技術(shù)。
另一名聯(lián)合創(chuàng)始人是吳育昕,目前持有公司5.96%的股份。
吳育昕和楊植麟一樣,先后畢業(yè)于清華和CMU,研究方向?yàn)橛?jì)算機(jī)視覺(jué)中的檢測(cè)和識(shí)別問(wèn)題。
畢業(yè)后他先是在Meta的FAIR工作,曾和AI大神何愷明共同提出組歸一化(GN)的方法。期間,他還創(chuàng)建了detectron2,這是Meta最受歡迎的AI項(xiàng)目之一。
在Google Scholarship上,吳育昕的被引次數(shù)超過(guò)了19000次。
這三人聯(lián)手創(chuàng)業(yè),目前公司規(guī)模拓展到50-60人上下。
有趣的是,月之暗面三位聯(lián)創(chuàng)都出身清華。這不由得讓人想到在今年以來(lái)的大模型熱潮中,清華系占據(jù)創(chuàng)業(yè)團(tuán)隊(duì)半壁江山的現(xiàn)狀。
包括楊植麟師從的清華教授唐杰,就與另一名大模型創(chuàng)業(yè)明星智譜AI,有著千絲萬(wàn)縷的密切聯(lián)系。
楊植麟倒是直言了對(duì)這種競(jìng)爭(zhēng)格局的看法:“大模型空間非常大,很難有任何一家公司可以把所有的事情都做了。有ToB也有ToC,技術(shù)路線也不一樣,我覺(jué)得這是一個(gè)巨大的空白空間。”
他認(rèn)為,除了OpenAI,中國(guó)的幾個(gè)公司都有機(jī)會(huì)產(chǎn)生自己獨(dú)一無(wú)二的價(jià)值。
月之暗面這個(gè)公司名,來(lái)源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。
在清華時(shí),聯(lián)創(chuàng)之一的周昕宇就和楊植麟共同創(chuàng)建了樂(lè)隊(duì),并創(chuàng)作了一首歌,有關(guān)“做了一個(gè)創(chuàng)業(yè)成功一夜暴富的白日夢(mèng)”。
于是,媒體溝通會(huì)現(xiàn)場(chǎng),當(dāng)被問(wèn)到“現(xiàn)在還搖滾嗎”這個(gè)問(wèn)題時(shí),得到的答案是:
現(xiàn)在公司放著兩把電吉他,還有一架鋼琴(doge)。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來(lái)...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒(méi)聽(tīng)過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!