以“創(chuàng)業(yè)團(tuán)隊(duì)”的身份在深度學(xué)習(xí)框架賽道上殺出一條血路,并成功實(shí)現(xiàn)彎道超車,這在OneFlow面世之前,是AI行業(yè)中難以想象的事。
深度學(xué)習(xí)框架素有人工智能操作系統(tǒng)之稱,決定了人工智能算法和應(yīng)用的技術(shù)高度,是人工智能芯片等底層硬件的軟件入口,近年來被越來越多的業(yè)內(nèi)人士看到,已成為人工智能領(lǐng)域的“必爭之地”。
目前,國際上研發(fā)開源深度學(xué)習(xí)框架的公司不在少數(shù),其中谷歌的TensorFlow和臉書的PyTorch更是在眾多競爭對(duì)手中殺出重圍,實(shí)現(xiàn)了一定程度的突出;在國內(nèi),百度、華為等公司也在積極布局深度學(xué)習(xí)框架賽道——上述企業(yè)無一例外都擁有雄厚的實(shí)力。
而以初創(chuàng)企業(yè)的身份做到這件事,目前全球已知僅北京一流科技有限公司(以下簡稱“一流科技”)一家。
這支由清華大學(xué)博士袁進(jìn)輝帶領(lǐng),核心成員是清華大學(xué)、北京大學(xué)、中科院等多所高校研究員的創(chuàng)業(yè)團(tuán)隊(duì)創(chuàng)立于2017年1月,是一家AI基礎(chǔ)設(shè)施供應(yīng)商,專注于人工智能基礎(chǔ)設(shè)施軟件的研發(fā)工作,立足于通用性深度學(xué)習(xí)框架的研發(fā)和推廣使用,力爭打造人工智能深度學(xué)習(xí)框架產(chǎn)品的事實(shí)工業(yè)標(biāo)準(zhǔn)。
創(chuàng)始人兼CEO袁進(jìn)輝博士畢業(yè)于清華大學(xué)計(jì)算機(jī)系,師從中國科學(xué)院院士、人工智能泰斗、清華人工智能研究院院長張鈸院士(兼任公司首席科學(xué)家)。
公司自成立以來,已經(jīng)遞交人工智能操作系統(tǒng)及云計(jì)算相關(guān)核心專利申請(qǐng)34項(xiàng),獲得發(fā)明專利授權(quán)19項(xiàng),獲得注冊(cè)商標(biāo)15項(xiàng)、軟件著作權(quán)17項(xiàng),且連續(xù)完成了由九合創(chuàng)投、天目創(chuàng)投、快手戰(zhàn)投、高瓴創(chuàng)投等國內(nèi)知名投資機(jī)構(gòu)及公司的近億元風(fēng)險(xiǎn)投資。
“多年的學(xué)習(xí)經(jīng)歷,以及在微軟亞洲研究院的工作經(jīng)驗(yàn),使我在早期就敏銳地察覺到了實(shí)現(xiàn)彎道超車的突破點(diǎn);再加上團(tuán)隊(duì)的高執(zhí)行力,和善于總結(jié)、實(shí)事求是的團(tuán)隊(duì)合作思維,種種因素的作用下,我們才能得以‘創(chuàng)業(yè)團(tuán)隊(duì)’的身份立足深度學(xué)習(xí)框架賽道?!眲?chuàng)始人袁進(jìn)輝告訴創(chuàng)業(yè)邦。
一流科技創(chuàng)始人袁進(jìn)輝
首創(chuàng)四大核心技術(shù),解決異構(gòu)集群分布式擴(kuò)展挑戰(zhàn)
作為創(chuàng)業(yè)團(tuán)隊(duì),一流科技擁有的完全自主知識(shí)產(chǎn)權(quán)的分布式深度學(xué)習(xí)框架OneFlow到底有何過人之處?
資料顯示,在深度學(xué)習(xí)誕生之初,訓(xùn)練模型的數(shù)據(jù)量尚小,更多是“單機(jī)單卡”模式。隨著深度學(xué)習(xí)在各行業(yè)的廣泛應(yīng)用,訓(xùn)練模型的數(shù)據(jù)量呈指數(shù)級(jí)增長,“單機(jī)單卡”已不能提供足夠的算力,需要將計(jì)算分布在更多的機(jī)器和芯片上,即“分布式訓(xùn)練”。
而傳統(tǒng)的深度學(xué)習(xí)框架在設(shè)計(jì)之初,并未考慮到“分布式”的場景,所以在“多機(jī)多卡”的場景下,只能簡單的把機(jī)器和芯片串聯(lián)起來,在數(shù)據(jù)傳輸?shù)倪^程中算力浪費(fèi)情況嚴(yán)重,隨著芯片數(shù)量的增加,算力的邊際效益不斷下降,甚至出現(xiàn)增加機(jī)器和芯片也不能增加算力的情況。
而一流科技在最初就以“分布式”為基因研發(fā)了新一代深度學(xué)習(xí)框架OneFlow,著重解決傳統(tǒng)深度學(xué)習(xí)框架在“多機(jī)多卡”的場景下算力浪費(fèi)的問題。
作為世界首個(gè)面向大模型大數(shù)據(jù)打造的人工智能計(jì)算框架,也是世界首個(gè)專為深度學(xué)習(xí)打造的異構(gòu)分布式流式系統(tǒng),OneFlow針對(duì)超大規(guī)模訓(xùn)練、分布式、異構(gòu)等對(duì)深度學(xué)習(xí)框架帶來的挑戰(zhàn)提出了解決方案。
OneFlow圍繞提升框架性能的目標(biāo),采用靜態(tài)編譯和流式系統(tǒng)架構(gòu),首創(chuàng)自動(dòng)數(shù)據(jù)模型混合并行、靜態(tài)調(diào)度、去中心化和全鏈路異步流式執(zhí)行四大關(guān)鍵核心技術(shù),解決了動(dòng)態(tài)網(wǎng)絡(luò)下的靜態(tài)存儲(chǔ)分配機(jī)制、多流并行處理控制技術(shù)、大數(shù)據(jù)大模型的自動(dòng)分割并行技術(shù)、操作符異步消息機(jī)制、流控背壓與內(nèi)存共享機(jī)制、數(shù)據(jù)搬運(yùn)為一等公民等一系列創(chuàng)新性難題。
例如在基于Transformer的超大規(guī)模預(yù)訓(xùn)練模型研究中,如使用傳統(tǒng)深度學(xué)習(xí)框架則需要數(shù)月的時(shí)間去調(diào)試才能使其適配自身需求,且可能出現(xiàn)性能不滿足需求的情況。在選用 OneFlow的大規(guī)模預(yù)訓(xùn)練模型庫LiBai后,該研究的模型上手、算法迭代開發(fā)的周期被大幅縮減,僅需1-2周就能利用LiBai在超大規(guī)模集群上完成一個(gè)超過 130億規(guī)模參數(shù)的模型的開發(fā)和調(diào)試。
事實(shí)上,OneFlow不僅能夠大幅提升單機(jī)硬件資源利用率,而且能夠簡單方便地實(shí)現(xiàn)基于異構(gòu)集群訓(xùn)練任務(wù)的大規(guī)模分布式擴(kuò)展,將系統(tǒng)整體性能提升到極致。2020年信通院的測試證明顯示,OneFlow性能超越國外主流框架,高效性優(yōu)勢明顯。
“與谷歌的TensorFlow和臉書的PyTorch相比,后來者從完備性、易用性等角度切入市場已經(jīng)不具備任何優(yōu)勢。因此團(tuán)隊(duì)瞄準(zhǔn)技術(shù)頂點(diǎn),從高效性的角度切入賽道,直接從根源上解決技術(shù)難題,這也是OneFlow得以與國外壟斷企業(yè)相抗衡的關(guān)鍵。”袁進(jìn)輝坦言。
堅(jiān)持開源的運(yùn)營模式,打造更多的商業(yè)化產(chǎn)品
作為人工智能領(lǐng)域的“操作系統(tǒng)”,OneFlow本身并沒有應(yīng)用的局限性。在運(yùn)營上,OneFlow深度學(xué)習(xí)框架在研發(fā)之初就確認(rèn)了開源的運(yùn)營模式。
目前,已經(jīng)有開發(fā)者及企業(yè)采用OneFlow開發(fā)的應(yīng)用包括但不限于圖像識(shí)別檢測、語音識(shí)別、自然語言處理、廣告分發(fā)與推薦等。
同時(shí),基于OneFlow框架和核心技術(shù)、集成大數(shù)據(jù)、云計(jì)算等組件,一流科技除了深度學(xué)習(xí)框架OneFlow,還對(duì)外提供了商業(yè)化產(chǎn)品OF智能云,其中包括MLOps人工智能開發(fā)平臺(tái)OneBrain、強(qiáng)化學(xué)習(xí)解決方案OneAgent及AI實(shí)訓(xùn)及編程平臺(tái)OneLab。
由于OneFlow新一代深度學(xué)習(xí)框架旨在支持超大數(shù)據(jù)量、超大計(jì)算和超大模型的特點(diǎn)突出,所以其市場定位是面向整個(gè)AI行業(yè)的深度學(xué)習(xí)框架市場,尤其是具有大模型、大計(jì)算和大數(shù)據(jù)需求的AI開發(fā)者和使用者,以及對(duì)于完全自主可控AI產(chǎn)業(yè)鏈關(guān)注的企事業(yè)單位部門。
目前,已有科研、政務(wù)、軍工、金融等諸多行業(yè)客戶與一流科技建立合作關(guān)系。這些機(jī)構(gòu)和用戶均已經(jīng)建設(shè)了大數(shù)據(jù)平臺(tái),經(jīng)歷了信息化向大數(shù)據(jù)化的轉(zhuǎn)化,同時(shí)已步入數(shù)據(jù)化向人工智能化的進(jìn)程:一方面他們積累了數(shù)以PB級(jí)別的數(shù)據(jù),另一方面他們對(duì)于性能、易用性、安全可靠性等也有諸多考量。
“后續(xù)我們將開發(fā)更多的商業(yè)化產(chǎn)品,進(jìn)一步占領(lǐng)市場。另一方面,作為人工智能應(yīng)用開發(fā)的架構(gòu)層基礎(chǔ)核心軟件,OneFlow將持續(xù)使用開源的方式來運(yùn)營——這意味著越多人用OneFlow,越能完善OneFlow;而產(chǎn)品的完善又可以幫助OneFlow吸引更多的用戶,從而形成良性循環(huán),最終發(fā)展壯大?!痹M(jìn)輝表示。
從商業(yè)模式上看,OneFlow開源后,在開發(fā)者社區(qū)、頭部互聯(lián)網(wǎng)公司、頭部AI公司產(chǎn)生了較大影響,隨著使用OneFlow的開發(fā)者群體逐漸擴(kuò)大,公司由提供圍繞大規(guī)模深度學(xué)習(xí)訓(xùn)練的私有化解決方案,以及提供模型訓(xùn)練支持、運(yùn)維支持與硬件適配等項(xiàng)目制收費(fèi)商業(yè)模式逐步拓展至訂閱制、公有云服務(wù)模式,并考慮在合適的時(shí)機(jī)向軟硬一體化產(chǎn)品延伸并進(jìn)入國際市場。
附
查看更多項(xiàng)目信息,請(qǐng)前往「睿獸分析」。