隨著生成式AI在商業(yè)方面的應用更加深入,越來越多的企業(yè)希望利用向量數(shù)據(jù)庫將自己的私有數(shù)據(jù)接入AI大模型,從而獲得更好的數(shù)據(jù)安全性以及更好的AI性能。
但在實際應用中,企業(yè)用戶會遇到一個問題:PPT、PDF、圖片和網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù)并不能通過向量數(shù)據(jù)庫直接嵌入AI大模型。將大量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成AI大模型能夠讀懂的格式,其實是一個費時的大工程。根據(jù)調(diào)查,數(shù)據(jù)科學家在準備和管理數(shù)據(jù)上花費了將近80%的時間,而在企業(yè)中大約有三分之二的數(shù)據(jù)沒有被使用。
一家新銳創(chuàng)業(yè)公司Unstructured希望解決這個問題,它們能將企業(yè)中的非結(jié)構(gòu)化數(shù)據(jù)自動轉(zhuǎn)化成AI大模型可以直接使用的數(shù)據(jù)格式(例如JSON格式)。它們的產(chǎn)品在2023年春季獲得了超過80萬次的下載,并且被GitHub上的2500多個項目使用。
近日,它獲得了2500萬美元的種子輪和A輪融資,其中種子輪融資由Bain Capital Ventures領(lǐng)投,A輪融資由Madrona領(lǐng)投,M12 Ventures、MongoDB Ventures以及LangChain創(chuàng)始人Harrison Chase、Weaviate的創(chuàng)始人Bob van Luijt也參與投資。LangChain(利用大模型構(gòu)建程序的框架)和Weaviate(向量數(shù)據(jù)庫)正是與Unstructured在AI技術(shù)棧上緊密相連的公司。
AI不能直接用非結(jié)構(gòu)化數(shù)據(jù)?那就創(chuàng)立公司解決問題
Unstructured由Brian Raymond、Matt Robinson和Crag Wolfe共同創(chuàng)立。Brian Raymond創(chuàng)業(yè)之前是Primer.ai(一家為企業(yè)提供NLP能力的公司)的副總裁,Crag Wolfe是Primer.ai的架構(gòu)和基礎設施主管,Matt Robinson是擁有博士學位的數(shù)據(jù)科學家。
Unstructured團隊
Brian Raymond在接受媒體采訪時表示:“企業(yè)每天都會產(chǎn)生大量非結(jié)構(gòu)化數(shù)據(jù),當這些數(shù)據(jù)與大語言模型相結(jié)合,可以極大提高生產(chǎn)力。但這些數(shù)據(jù)是散亂而分散的,目前數(shù)據(jù)科學家們?nèi)匀槐仨毻耆謩拥臉?gòu)建一次性的數(shù)據(jù)連接器和預處理管道。
我們在Primer.ai工作時,就反復遇到這個問題,為此,我們決定自己創(chuàng)業(yè)?,F(xiàn)在,Unstructured提供了一種全面的解決方案,可以自動搜集企業(yè)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),并轉(zhuǎn)換成AI模型直接可用的格式?!?/p>
Unstructured在2022年7月創(chuàng)立,幾個月后,ChatGPT的爆發(fā)顛覆了整個AI領(lǐng)域,生成式AI的熱潮來臨。企業(yè)使用AI的需求劇增,Unstructured在新興AI大模型技術(shù)堆棧中成為關(guān)鍵組成部分,幾個月內(nèi)獲得了超過80萬次的下載,并且被超過100家公司和2500多個GitHub上的項目使用。
Unstructured的A輪融資領(lǐng)投方Madrona表示:“一個具有清晰的視野,深入的技術(shù)洞察力和商業(yè)直覺的創(chuàng)始人是非常罕見的,Brian就是兼具這些罕見品質(zhì)的優(yōu)秀創(chuàng)始人。我們對Brian從第一性原理出發(fā)的思考方式,與大型企業(yè),公共部門,開發(fā)者社區(qū)的密切合作,以及對生成式AI技術(shù)環(huán)境的適應能力感到驚訝。
我們相信生成式AI會帶來整個技術(shù)范式的改變,它是充滿潛力的技術(shù)。Unstructured代表了市場的關(guān)鍵需求,如果沒有它,我們可能將永遠無法解鎖AI的真正潛力,如果執(zhí)行得當,將引領(lǐng)一個AI智能應用新時代。”
三個步驟,解決企業(yè)AI數(shù)據(jù)難問題
Unstructured對自己的定位是“ETL for LLMs”(ETL指數(shù)據(jù)整合),它正在建立一個企業(yè)級的提取、轉(zhuǎn)換、加載(ETL)的數(shù)據(jù)整合管道,將企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)變得能被大模型使用。它允許各種規(guī)模的公司和組織最大化利用他們的數(shù)據(jù),建立專門針對他們這些數(shù)據(jù)微調(diào)的大模型和聊天機器人。
它表示,大多數(shù)ETL產(chǎn)品能處理的是結(jié)構(gòu)化的數(shù)據(jù),少部分ETL能處理比較方便整理的非結(jié)構(gòu)化數(shù)據(jù),而Unstructured能夠處理數(shù)量占比最大的,難于處理的非結(jié)構(gòu)化數(shù)據(jù)。
它的產(chǎn)品運作模式主要分為三步:
首先是抓取數(shù)據(jù),通過企業(yè)級數(shù)據(jù)連接器,Unstructured能從企業(yè)的各種系統(tǒng)中安全地“提取”數(shù)據(jù),包括本地文件系統(tǒng)、對象存儲和數(shù)據(jù)湖。
第二步是數(shù)據(jù)轉(zhuǎn)換與預處理,Unstructured能幫助企業(yè)把抓取到的非結(jié)構(gòu)化數(shù)據(jù)“轉(zhuǎn)換”成AI大模型能夠直接讀取的數(shù)據(jù)格式。它還發(fā)布了一個專用API,能處理20多種文件類型的轉(zhuǎn)換。
第三步是加載數(shù)據(jù),Unstructured與諸如LangChain(用于創(chuàng)建大模型應用的框架)和Weaviate(向量數(shù)據(jù)庫)等公司的產(chǎn)品集成,這樣AI大模型就可以直接使用經(jīng)過轉(zhuǎn)換的數(shù)據(jù)(通過向量數(shù)據(jù)庫),開發(fā)人員也能用專有數(shù)據(jù)進行AI原生應用開發(fā)(通過LangChain)。
為完成抓取數(shù)據(jù)這個動作,Unstructured目前擁有15個數(shù)據(jù)連接器,可以從不同的軟件中抓取不同格式的數(shù)據(jù)。
為完成數(shù)據(jù)轉(zhuǎn)換這個動作,Unstructured訓練了自己的“文件轉(zhuǎn)換”AI模型,并與一些不同功能的現(xiàn)有AI模型進行整合,它們能處理約20種不同的文件。
在Unstructured的一個示例項目中,它使用了Pinecone的向量數(shù)據(jù)庫(Chroma, Weaviate, Qdrant也有類似產(chǎn)品),OpenAI(各種開源模型也可以使用)的大模型,LangChain的編程框架(Llama Index也是同類產(chǎn)品),進行了一次10萬頁PDF格式文檔數(shù)據(jù)的提取和轉(zhuǎn)換。從示意圖中,我們可以清楚的看到它在整個AI大模型技術(shù)堆棧中的位置和作用。
AI原生垂直應用新時代真的要來了
作為AI大模型技術(shù)堆棧中的重要組成部分,Unstructured不僅與下游的AI大模型,向量數(shù)據(jù)庫,LongChain等連接,也與上游的AWS、Azure、Dropbox、Office和OneDrive等產(chǎn)品集成。
Unstructured創(chuàng)始人Brian表示:“公司將繼續(xù)專注于解決影響AI系統(tǒng)的數(shù)據(jù)問題?!彪S著它在整個AI和數(shù)據(jù)生態(tài)系統(tǒng)里扎根越來越深,它也將在未來變得更重要。
兩位投資了Unstructured的企業(yè)家投資人有一個共識:“Unstructured解決了構(gòu)建AI原生應用最大的絆腳石:沒有足夠的優(yōu)質(zhì)數(shù)據(jù)?!?/p>
兩周前,開源可商用的Meta Llama 2大模型發(fā)布(請參考這篇文章),我們又為大家介紹了指數(shù)級降低大模型部署成本的Replicate(請參考這篇文章),本周則是為企業(yè)解決AI使用非結(jié)構(gòu)化數(shù)據(jù)問題的Unstructured。
可以發(fā)現(xiàn),對于AI創(chuàng)業(yè)者,訓練AI基礎大模型的巨大算力成本已經(jīng)不存在了,也不需要自建基礎設施來部署模型,將企業(yè)私有數(shù)據(jù)接入大模型的數(shù)據(jù)來源問題也已經(jīng)解決。
那么,我們可以看到一個清晰的趨勢:AI原生垂直應用的浪潮即將到來,因為創(chuàng)業(yè)者不再需要是AI專家,也不需要為AI付出高昂的模型訓練、部署、數(shù)據(jù)整理成本,只要對垂直行業(yè)有深度的認知和積累,就可以開始干,這對擁有眾多優(yōu)秀產(chǎn)品經(jīng)理的中國,尤為利好。
本文由阿爾法公社原創(chuàng)。