近年來,人工智能在全球獲得長足發(fā)展。作為其核心驅(qū)動力之一,知識圖譜技術(shù)自谷歌2012年推出首版構(gòu)建并應(yīng)用于實(shí)際系統(tǒng)的“常識知識圖譜”以來,始終熱度不減。
這一技術(shù)在生活中最常見的應(yīng)用,莫過于我們使用搜索引擎時(shí)系統(tǒng)顯示的聯(lián)想詞——聯(lián)想詞主要是系統(tǒng)前端根據(jù)用戶輸入的信息,匹配后端知識圖譜里的字符串,再返回的一個按關(guān)聯(lián)性排序的、包含結(jié)果的數(shù)組,最終的呈現(xiàn)效果就是一個或多個與輸入內(nèi)容相關(guān)的詞條。
比如我們在百度輸入“國慶”,系統(tǒng)就會聯(lián)想出“國慶節(jié)日歷”“國慶調(diào)休安排”等詞條。甚至我們手機(jī)中經(jīng)常收到的頭條快訊、娛樂新聞、商品廣告等各種推送也都有知識圖譜的參與。
知識圖譜將存在于客觀世界的知識表達(dá)成機(jī)器能夠處理和理解的形式,讓機(jī)器具備認(rèn)知能力,進(jìn)而為人類提供更加廣泛的智能化服務(wù),現(xiàn)已廣泛應(yīng)用于金融、醫(yī)療、情報(bào)、軍工等領(lǐng)域,且華為、聯(lián)想、百度等國內(nèi)知名企業(yè)已在全行業(yè)應(yīng)用上占據(jù)相當(dāng)大的市場份額。
01
創(chuàng)業(yè)邦近期接觸的企業(yè)——南京柯基數(shù)據(jù)科技有限公司(以下簡稱:柯基數(shù)據(jù))是一家知識圖譜認(rèn)知智能方向的領(lǐng)軍企業(yè)。
公司基于一站式企業(yè)級自動化知識發(fā)現(xiàn)平臺,從細(xì)分行業(yè)著手做針對性開發(fā),致力于將企業(yè)復(fù)雜的數(shù)據(jù)及知識工作自動化,產(chǎn)品全流程低代碼,便于企業(yè)使用,幫助企業(yè)業(yè)務(wù)決策更加智能化。
柯基數(shù)據(jù)創(chuàng)始人兼CEO吳剛曾任職智能數(shù)據(jù)公司「湯森路透」首席顧問,深入醫(yī)藥、科技及金融情報(bào)的數(shù)據(jù)產(chǎn)品、售前解決方案及咨詢業(yè)務(wù),并參與湯森路透全球知識圖譜項(xiàng)目,行業(yè)資源及經(jīng)驗(yàn)豐富。
他表示:“以傳統(tǒng)情報(bào)分析為例,其大部分?jǐn)?shù)據(jù)源自輿情,數(shù)據(jù)處理的顆粒度相對較粗,比如只提取出正負(fù)面信息或?qū)嶓w信息,并沒有深入其中把這個公司、人或產(chǎn)品等各種信息關(guān)聯(lián)起來構(gòu)建一個結(jié)構(gòu)化知識圖譜,分析程度相對比較粗淺??禄鶖?shù)據(jù)重點(diǎn)開發(fā)認(rèn)知智能能力,用一套相對比較復(fù)雜的技術(shù)實(shí)現(xiàn)知識圖譜的半自動化搭建及運(yùn)維,與行業(yè)需求緊密結(jié)合,這不同于傳統(tǒng)大廠主要靠算法不斷完善感知智能的方案。”
目前,柯基數(shù)據(jù)技術(shù)已覆蓋從數(shù)據(jù)采集到數(shù)據(jù)清洗、知識提取、知識表示、動態(tài)本體建模、圖存儲、知識推理、可視化關(guān)聯(lián)分析、智能問答、語義檢索等知識圖譜全技術(shù)鏈。
在具體服務(wù)上,柯基數(shù)據(jù)分為四類:第一是知識圖譜PaaS平臺,幫助企業(yè)集成自身內(nèi)外部數(shù)據(jù)搭建知識圖譜并運(yùn)維,構(gòu)建企業(yè)自己的知識中臺;
第二,柯基數(shù)據(jù)面向市場推出DaaS產(chǎn)品,基于行業(yè)公開數(shù)據(jù)及專家經(jīng)驗(yàn)的整理構(gòu)建行業(yè)級的知識圖譜數(shù)據(jù),以及百科公開數(shù)據(jù)構(gòu)建的百科基礎(chǔ)圖譜;
第三,搭建SaaS工具及應(yīng)用,包括智能語義檢索、智能對話、智能問答、智能推薦系統(tǒng)等;
第四,基于PaaS+DaaS+SaaS的一站式企業(yè)級解決方案。
以柯基數(shù)據(jù)為某醫(yī)藥大健康企業(yè)開發(fā)的“醫(yī)學(xué)知識圖譜智能問答SaaS產(chǎn)品”為例:該產(chǎn)品基于行業(yè)知識圖譜認(rèn)知智能引擎技術(shù),通過企業(yè)FAQ咨詢數(shù)據(jù)、藥品說明書、病歷、醫(yī)學(xué)指南、醫(yī)學(xué)書籍、醫(yī)學(xué)論文、專業(yè)網(wǎng)站、專家錄入數(shù)據(jù)、可穿戴設(shè)備采集的用戶數(shù)據(jù)等數(shù)據(jù)源,構(gòu)建出“疾病-癥狀-藥品-診斷-護(hù)理-食譜-食材-營養(yǎng)素-人群-飲食禁忌-營養(yǎng)保健產(chǎn)品”知識圖譜及基于圖譜的醫(yī)藥大健康智能專家虛擬助理。
該產(chǎn)品為藥企、醫(yī)療科研機(jī)構(gòu)、醫(yī)院及營養(yǎng)健康領(lǐng)域的企業(yè),提供從藥企學(xué)術(shù)營銷、健康管理和疾病用藥專業(yè)知識咨詢、導(dǎo)診和輔助診斷、慢病護(hù)理、智能推薦的醫(yī)藥大健康全周期知識服務(wù)。
那客戶為何會選擇柯基數(shù)據(jù)呢?吳剛向創(chuàng)業(yè)邦介紹:“柯基數(shù)據(jù)在產(chǎn)品化程度、智能化體驗(yàn)、自動化運(yùn)維能力和行業(yè)知識積累上具備優(yōu)勢?!?/p>
首先,柯基數(shù)據(jù)當(dāng)前三款知識圖譜產(chǎn)品均已有落地案例,產(chǎn)品化和智能化程度高,用戶體驗(yàn)優(yōu)秀,產(chǎn)品之間均已打通形成全棧的自動化知識發(fā)現(xiàn)產(chǎn)品矩陣。
知識圖譜的最重要特點(diǎn)便是可解釋性和發(fā)現(xiàn)新知識的能力,讓“推理”轉(zhuǎn)入黑盒模型預(yù)測范式,把領(lǐng)域知識或常識結(jié)構(gòu)化并在此基礎(chǔ)上進(jìn)行推理,類似于人腦的功能,這是目前的深度學(xué)習(xí)方法很難做到的。
比如評審專家的查找推薦,如果使用深度學(xué)習(xí)的方法進(jìn)行訓(xùn)練,整個查找過程類似于黑盒操作,無法追溯推薦理由,但使用知識圖譜建立高精度專家畫像及專家關(guān)系網(wǎng)絡(luò),能夠?yàn)閷<彝扑]提供可解釋性,比如是根據(jù)評審專家的學(xué)科領(lǐng)域、學(xué)術(shù)論文發(fā)表情況等,并持續(xù)更新。
其次,自動化運(yùn)維能力是影響產(chǎn)品生命力的重要因素。在企業(yè)端,很多時(shí)候是由非技術(shù)人員來運(yùn)維,他們更多關(guān)注怎樣能簡單高效方便地進(jìn)行運(yùn)維,盡量減少人工的運(yùn)維工作,例如知識圖譜的自動更新、語料詞庫的增加、未知知識的自動識別、模型訓(xùn)練等功能,這就要求產(chǎn)品具備較高的自動化運(yùn)維程度。
柯基數(shù)據(jù)基于多年行業(yè)案例積累做了充分的優(yōu)化,全流程低代碼,豐富產(chǎn)品前端功能、降低使用門檻。醫(yī)藥知識圖譜智能問答系統(tǒng),可在較短時(shí)間內(nèi)完成模型訓(xùn)練和系統(tǒng)對接開發(fā)并上線,運(yùn)維也可由具備一定醫(yī)學(xué)背景的人員完成,大大降低了運(yùn)維的成本和迭代的速度。
最后在行業(yè)知識的積累上,柯基數(shù)據(jù)現(xiàn)已在醫(yī)藥、軍工、金融等領(lǐng)域有多年的經(jīng)驗(yàn)和行業(yè)數(shù)據(jù)積累,在項(xiàng)目涉及從多源異構(gòu)數(shù)據(jù)進(jìn)行建模、抽取數(shù)據(jù)、融合構(gòu)建圖譜、基于知識圖譜的智能問答訓(xùn)練時(shí),能快速冷啟動,不必從0開始。
同時(shí)柯基數(shù)據(jù)作為開放知識圖譜聯(lián)盟Open KG發(fā)起單位,曾獲工信部 IEEE 國際知識圖譜標(biāo)準(zhǔn)制定單位認(rèn)定,其知識圖譜平臺及智能問答產(chǎn)品也獲得工信部標(biāo)準(zhǔn)院的權(quán)威測試認(rèn)證。公司擁有30余項(xiàng)軟件著作權(quán)、8項(xiàng)發(fā)明專利。
在商業(yè)規(guī)劃上,柯基數(shù)據(jù)短期內(nèi)以大客戶整體解決方案為主,中期目標(biāo)推廣PaaS產(chǎn)品,并長期服務(wù)好行業(yè)圖譜數(shù)據(jù)生態(tài)。
其中,行業(yè)大客戶解決方案是基于PaaS、DaaS及SaaS組件為客戶定制化整體解決方案,支持私有云部署,收取“平臺產(chǎn)品+數(shù)據(jù)+定制化”綜合費(fèi)用,客單價(jià)可達(dá)千萬;PaaS平臺產(chǎn)品是直接售賣或者通過系統(tǒng)集成商渠道集成平臺產(chǎn)品進(jìn)行售賣,客單價(jià)在百萬級。以上兩種模式均后續(xù)收取每年系統(tǒng)及場景拓展費(fèi)、數(shù)據(jù)升級及運(yùn)維費(fèi)(包年)。而行業(yè)圖譜數(shù)據(jù)生態(tài)產(chǎn)品即DaaS圖譜數(shù)據(jù)及基于開源數(shù)據(jù)的SaaS產(chǎn)品,可開放API接口,按照使用次數(shù)收費(fèi)或按賬號收取年費(fèi)。
當(dāng)前柯基數(shù)據(jù)客戶總量50余家,涉及醫(yī)藥大健康、軍工政企、智慧城市、科技情報(bào)、金融等領(lǐng)域,包含吉利德、西安楊森、賽諾菲、勃林格等知名醫(yī)藥企業(yè)和中電科集團(tuán)等軍工企業(yè)、軍工科研院所。
目前公司主要營收來自軍工跟醫(yī)藥行業(yè),2020年已盈利并實(shí)現(xiàn)正向現(xiàn)金流,未來公司仍將在這兩個行業(yè)深入拓展,同時(shí)發(fā)展以上其他行業(yè)大客戶。
團(tuán)隊(duì)方面,柯基數(shù)據(jù)現(xiàn)有員工60人左右,研發(fā)人員占80%左右。公司聘請開放知識圖譜聯(lián)盟Open KG創(chuàng)始人、東南大學(xué)認(rèn)知智能研究所所長漆桂林教授擔(dān)任首席科學(xué)家,技術(shù)優(yōu)勢顯著。接下來公司將不斷完善整體團(tuán)隊(duì)架構(gòu),加大力度拓展研發(fā)團(tuán)隊(duì)和項(xiàng)目成功團(tuán)隊(duì),并引進(jìn)擁有醫(yī)藥、軍工行業(yè)背景的人才。
截至目前,柯基數(shù)據(jù)已完成A輪融資,累計(jì)獲得來自動平衡資本、創(chuàng)客邦投資、常呈益基金的數(shù)千萬元融資,并預(yù)計(jì)2022年將開啟下一輪融資,將主要用于產(chǎn)品研發(fā)、人才招募和市場拓展。