作者丨曉曉
編輯丨信陵
11月6日,由創(chuàng)新工場董事長兼CEO李開復(fù)成立的AI公司“零一萬物”發(fā)布了首款開源中英雙語大模型“Yi”。
于此同時(shí),零一萬物已完成新一輪融資,由阿里云領(lǐng)投。目前,零一萬物估值已超10億美元,躋身獨(dú)角獸行列。
此次開源發(fā)布的Yi系列模型,包含34B和6B兩個(gè)版本,并于11月2日在Hugging Face上傳了這兩個(gè)參數(shù)。創(chuàng)業(yè)邦了解到,Hugging Face是全球最受歡迎的大模型、數(shù)據(jù)集開源社區(qū),被認(rèn)為是大模型領(lǐng)域的GitHub,在大模型英文能力測試中具有相當(dāng)權(quán)威性。
根據(jù)Hugging Face英文開源社區(qū)平臺(tái)和C-Eval中文評(píng)測的最新榜單,Yi-34B分別在Hugging Face LLM Leaderboard(pretrained)(預(yù)訓(xùn)練大語言模型)和中文大模型榜單C-Eval排行榜已經(jīng)爬升到1位。
這也是迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產(chǎn)模型。
今年3月,李開復(fù)開始組建零一萬物團(tuán)隊(duì),并于6月開始運(yùn)營,在不到八個(gè)月的時(shí)間里就成為了“獨(dú)角獸”。
首款340億參數(shù)大模型Yi
此次Yi系列基礎(chǔ)模型的首個(gè)公開版本包括兩款:Yi-6B(數(shù)據(jù)參數(shù)量為60億)、Yi-34B(340億),均是雙語(英文/中文)、支持開源。
“34B是一個(gè)黃金尺寸?!崩铋_復(fù)說。
優(yōu)勢在于,它不會(huì)小到?jīng)]有涌現(xiàn)或者涌現(xiàn)不夠,甚至已經(jīng)完全達(dá)到了涌現(xiàn)的門檻,但是又沒有太大,允許高效率的單卡推理。既滿足精度要求、訓(xùn)練推理成本友好、達(dá)到涌現(xiàn)的門檻,又是很多商業(yè)應(yīng)用都可以做的。
Yi-34B模型在多項(xiàng)評(píng)測基準(zhǔn)中全球領(lǐng)跑,基于超強(qiáng)Infra下模型訓(xùn)練成本實(shí)測下降40%,模擬千億規(guī)模訓(xùn)練成本可下降多達(dá)50%,并以更小模型尺寸的基準(zhǔn)結(jié)果超過LLaMA2-34B/70B、Falcon-180B等大尺寸開源模型,以及百川智能(王小川創(chuàng)立)的Baichuan2-13B。
AI Infra(AI Infrastructure 人工智能基礎(chǔ)架構(gòu)技術(shù))主要涵蓋大模型訓(xùn)練和部署提供各種底層技術(shù)設(shè)施,包括處理器、操作系統(tǒng)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施、云計(jì)算平臺(tái)等,是模型訓(xùn)練背后極其關(guān)鍵的“保障技術(shù)”,這是大模型行業(yè)至今較少受到關(guān)注的硬技術(shù)領(lǐng)域?!白鲞^大模型Infra的人比做算法的人才更稀缺”。李開復(fù)曾表示。
由于GPU緊缺,當(dāng)模型尺寸從6B推向更大的尺寸時(shí),團(tuán)隊(duì)需要把握好規(guī)模減少試錯(cuò)成本,不能一味追求“大”。通過打磨AI Infra,Yi-34B將訓(xùn)練成本下降了40%,“別的友商如果要用2000張GPU,我們只要1200張。”李開復(fù)說。
C-Eval 排行榜:公開訪問的模型,Yi-34B 全球第一(2023年11月5日)
值得注意的是,此次開源的Yi-34B模型還將發(fā)布全球最長、可支持200K 超長上下文窗口(context window)版本,可以處理約40萬漢字超長文本輸入。
相比之下,OpenAI的GPT-4上下文窗口只有32K,文字處理量約2.5萬字。今年三月,硅谷知名AI 2.0創(chuàng)業(yè)公司Anthropic的Claude2-100K 將上下文窗口擴(kuò)展到了100K規(guī)模,零一萬物直接加倍,并且是第一家將超長上下文窗口在開源社區(qū)開放的大模型公司。
“所以選底座就選最好的底座?!崩铋_復(fù)說,“Yi就是最好的底座,沒有之一。”
在 Yi 開源模型的全球首發(fā)日,零一萬物CEO李開復(fù)也宣布,在完成 Yi-34B 預(yù)訓(xùn)練的同時(shí),已經(jīng)旋即啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練?!傲阋蝗f物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺(tái)、GPU 資源和 AI Infra 都已經(jīng)準(zhǔn)備好,我們的動(dòng)作會(huì)越來越快”。
各評(píng)測集得分:Yi 模型 v.s. 其他開源模型
零一萬物團(tuán)隊(duì)首度亮相
作為零一萬物的發(fā)起人,李開復(fù)是中國人工智能的領(lǐng)軍人物之一。他曾先后擔(dān)任微軟全球副總裁、谷歌全球副總裁兼大中華區(qū)總裁,并在2009年創(chuàng)立了天使投資和企業(yè)孵化平臺(tái)創(chuàng)新工場。
2023年3月,李開復(fù)躬身入局大模型賽道,為籌建新公司零一萬物廣發(fā)“英雄帖”:“零一萬物歡迎有AI 2.0技術(shù)實(shí)力和AGI信仰的優(yōu)秀人才加入,一起打造AI2.0全新平臺(tái),加速AGI到來。”到7月,零一萬物已有來自阿里、百度、谷歌、微軟等國內(nèi)外公司的數(shù)十位核心成員到位。
發(fā)布會(huì)上,李開復(fù)介紹,“公司從招的第一個(gè)人,寫的第一行代碼,設(shè)計(jì)的第一個(gè)模型開始,就一直抱著成為‘World's No.1’的初衷和決心。所以我們組成了一支有潛力對(duì)標(biāo) OpenAI、Google等一線大廠的團(tuán)隊(duì)?!?/p>
創(chuàng)業(yè)邦了解到,零一萬物的成員來自Google、微軟、阿里巴巴、百度、字節(jié)跳動(dòng)、騰訊等國內(nèi)外頂級(jí)企業(yè)背景,并持續(xù)延攬全球范圍內(nèi)最優(yōu)秀的華人AI精英。
零一萬物算法和模型團(tuán)隊(duì)成員,有論文曾被GPT-4引用的算法大拿,有獲得過微軟內(nèi)部研究大獎(jiǎng)的優(yōu)秀研究員,曾獲得過阿里CEO特別獎(jiǎng)的超級(jí)工程師??傆?jì)在ICLR、NeurIPS、CVPR、ICCV等知名學(xué)術(shù)會(huì)議上發(fā)表過大模型相關(guān)學(xué)術(shù)論文100余篇。
零一萬物技術(shù)副總裁及AI Alignment負(fù)責(zé)人是 Google Bard/Assistant 早期核心成員,主導(dǎo)或參與了從 Bert、LaMDA 到大模型在多輪對(duì)話、個(gè)人助理、AI Agent 等多個(gè)方向的研究和工程落地;首席架構(gòu)師曾在Google Brain與Jeff Dean、Samy Bengio等合作,為TensorFlow的核心創(chuàng)始成員之一。
首次發(fā)布的背后主力戰(zhàn)將、零一萬物技術(shù)副總裁及 Pretrain 負(fù)責(zé)人黃文灝是通用人工智能AGI的信仰者,他曾先后任職于微軟亞洲研究院和智源研究院。在微軟從事AI Agent研究工作時(shí),得到微軟創(chuàng)始人比爾·蓋茨和CEO 薩提亞·納德拉的高度贊揚(yáng)。
發(fā)布會(huì)上,黃文灝說,在效果和效率之間,34B是是一個(gè)很好的平衡點(diǎn),在模型訓(xùn)練好的基礎(chǔ)上,有相當(dāng)程度的涌現(xiàn)能力,而且34B的大小也是消費(fèi)者顯卡推理模型一個(gè)極限。“
支持 Yi 模型訓(xùn)練保障交付的零一萬物技術(shù)副總裁及AI Infra負(fù)責(zé)人戴宗宏,是前華為云 AI CTO 及技術(shù)創(chuàng)新部長、前阿里達(dá)摩院 AI Infra 總監(jiān)。Infra核心團(tuán)隊(duì)主要來自于阿里、華為、微軟、商湯,是AI 多領(lǐng)域具有高水平研究及系統(tǒng)研發(fā)能力的知名專家,曾經(jīng)參與支持了4個(gè)千億參數(shù)大模型規(guī)?;?xùn)練,管理過數(shù)萬張GPU卡,夯實(shí)了端到端的全棧AI技術(shù)能力,零一萬物可說是具備一支行業(yè)內(nèi)少有的 AI Infra “技術(shù)天團(tuán)”。
從短期來看,公司已經(jīng)在訓(xùn)練千億參數(shù)以上模型。“但我們覺得模型參數(shù)還可以再提高一到兩個(gè)數(shù)量級(jí),達(dá)到萬億或者十萬億的規(guī)模?!贝髯诤暾f,包括幾十T token的高質(zhì)量數(shù)據(jù),還可以再提高到幾百T或者幾千T。
從這個(gè)程度上來看,模型智能還有很大的發(fā)展空間。
打造更多ToC Super App
“AI 2.0時(shí)代來到了,最大的商機(jī)一定是超級(jí)應(yīng)用,而這超級(jí)應(yīng)用一定是在消費(fèi)者級(jí)別的超級(jí)應(yīng)用?!崩铋_復(fù)在發(fā)布會(huì)上說。
除了大模型,零一萬物將基于Yi系列大模型,打造更多To C超級(jí)應(yīng)用。零一萬物的目標(biāo)是在AI 2.0時(shí)代再做一款微信、抖音。
具體到零一萬物的商業(yè)規(guī)劃,李開復(fù)說,AI 1.0時(shí)代無法商業(yè)化的公司很早被淘汰,而商業(yè)化公司的最大挑戰(zhàn)是能夠可持續(xù)、可增長——這意味著AI 1.0的不少公司需要人頭規(guī)模,不是高質(zhì)量的收入。
他強(qiáng)調(diào),收入的規(guī)?;粦?yīng)該用人頭推動(dòng),而應(yīng)該用技術(shù)推動(dòng)?!耙源藶樵瓌t,零一萬物將朝著Consumer(消費(fèi)級(jí))應(yīng)用發(fā)力。”考慮到國內(nèi)用戶的付費(fèi)意識(shí)和意愿尚在培養(yǎng)階段,零一萬物將同時(shí)考慮應(yīng)用的本地化和出海。
目前,零一萬物已經(jīng)啟動(dòng)100B以上參數(shù)規(guī)模的模型訓(xùn)練,而多模態(tài)大模型團(tuán)隊(duì)已經(jīng)集結(jié)了十多個(gè)人?!皫字苤畠?nèi)我們就有新的發(fā)布和大家分享?!崩铋_復(fù)透露,“Yi”的定位是通用底座,同時(shí),Yi系列量化版本、對(duì)話模型、數(shù)學(xué)模型、代碼模型、多模態(tài)模型將以快節(jié)奏推出。
目前,Yi系列模型已在 Hugging Face、ModelScope、GitHub 三大全球開源社區(qū)平臺(tái)正式上線。
李開復(fù)的目標(biāo)是進(jìn)軍全球第一梯隊(duì),從公司成立第一天,就一直抱著成為‘World's No.1’的初衷和決心。首發(fā)大模型后,李開復(fù)和團(tuán)隊(duì)正在往這個(gè)方向努力。
本文為創(chuàng)業(yè)邦原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載,否則創(chuàng)業(yè)邦將保留向其追究法律責(zé)任的權(quán)利。如需轉(zhuǎn)載或有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。