五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

用MoE技術和開源模型建立差異化 Mistral AI獲4.15億美元融資

合伙人
上海社區(qū)社交
一個專注于服務創(chuàng)業(yè)者的垂直社交應用
最近融資:天使輪|數(shù)百萬人民幣|2013-12-31
我要聯(lián)系

12月8日,Mistral AI在X(原Twitter)上發(fā)布了一條磁力鏈接,直接開源了自己最新的MoE(Mixture of Experts)大模型Mixtral 8x7B,這個模型不僅在測試成績上追平甚至超越了Llama 2 70B和GPT-3.5,也帶動MoE(Mixture of Experts)成為開源AI社區(qū)的最火議題。

伴隨著這個模型的開源,Mistral AI完成了自己的最新一輪融資,這輪融資由a16z和Lightspeed Venture Partners領投,金額約合4.15億美元。根據(jù)彭博社報道,英偉達和Salesforce也承諾以可轉換票據(jù)的形式進一步投資1.2億歐元。這使得Mistral AI的估值達到約20億美元,自6月份首次亮相以來,其估值已增長超過七倍,成為歐洲最成功的大模型公司。

在今年6月,Mistral AI獲得1.05億歐元(約合1.13億美元)的種子融資,由Lightspeed Venture Partners領投,眾多歐洲投資機構及前谷歌首席執(zhí)行官Eric Schmidt、法國億萬富翁Xavier Niel和法國廣告巨頭JCDecaux參投。

為什么這家22人的創(chuàng)業(yè)公司可以短時間內連獲兩輪大額融資?一方面,它由來自DeepMind和MetaAI的技術專家組建了“世界級團隊”,并用高性能和高效率的開源AI模型證明了自己的實力和潛力。另一方面,它為法國和歐洲提供了自主可控AI的機會,其開源路線也讓企業(yè)開發(fā)者有了更多的選擇。

DeepMind與llama核心技術專家聯(lián)手建立歐洲自己的OpenAI

Mistral AI的三位聯(lián)合創(chuàng)始人是來自DeepMind的Arthur Mensch(CEO)及MetaAI的兩位資深技術專家Timothée Lacroix(CTO)和Guillaume Lample(首席科學家)。

Arthur Mensch參與了Deepmind的多個經典的模型:Flamingo(重要的多模態(tài)模型)、Chinchilla、Gopher,他是Flamingo和Chinchilla的核心貢獻者,對多模態(tài)、RAG等技術有深刻的理解。

Timothée Lacroix和Guillaume Lample是MetaAI的llama系列開源大模型的核心研究人員。其中Timothée Lacroix在Meta有8年工作經歷,對于AI模型推理和嵌入模型有深入研究,Guillaume Lample則對模型的推理能力和預訓練有豐富經驗。

Mensch介紹,三位創(chuàng)始人聯(lián)合創(chuàng)立Mistral AI,其使命是讓生成式AI為所有企業(yè)所用。“目前我們已經證明了AI的能力,但是它仍然不夠普及,我們需要解決這個問題,為更多人提供易于使用的AI和工具,以創(chuàng)造自己的產品?!盡ensch表示。

Mistral AI在其博客文章中表述了做開源AI模型的初衷:“我們相信對于生成式AI,采取開放方式是必要的。

我們堅信,通過訓練我們自己的模型,公開發(fā)布它們,并促進社區(qū)貢獻,我們可以構建一個可信的替代方案,對抗正在形成的人工智能寡頭壟斷。開放權重的生成式AI模型將在人工智能革命中發(fā)揮關鍵作用。”

而OpenAI和谷歌等走閉源路線的大公司則認為,將大模型開源是有危險的,這可能導致底層大模型被“壞人”掌握,并被做成惡意工具。

OpenAI和谷歌也以身作則,花費數(shù)月時間為大模型開發(fā)安全防護措施,以確保它們不能被用來傳播虛假信息和仇恨言論,或生成有偏見的問題回答。

a16z的合伙人Anjney Midha在接受《紐約時報》采訪時表示:“我們相信人工智能應該是開放的,開源方法已成為除計算機操作系統(tǒng)、編程語言、數(shù)據(jù)庫等幾乎所有其他技術領域的常態(tài)?!?/p>

Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采訪時則說:“支持Mistral AI的一個原因是其創(chuàng)始人對生成式AI的愿景,以及知道何時何地應用這一技術。這是一個非常有才華的團隊,我們認為,目前全球只有大約70-100人擁有他們在語言模型及其優(yōu)化方面的專業(yè)知識?!?/p>

用開源的MoE模型以小博大

翻開Mistral AI的X(原Twitter)頁面,最上方的兩條內容都是磁力鏈接,這代表了他們對兩個模型的開源。

Mistral 7B初試啼聲

今年9月,Mistral AI發(fā)布了其首個語言模型Mistral 7B,擁有73億參數(shù),它在基準測試中成績超過了Meta的Llama 2等參數(shù)更大的先進開源模型。

據(jù)Mistral AI的CEO Mensch表示,他們?yōu)槠銵LM設計了一種更高效、更具成本效益的訓練方法,其模型的運營成本不到OpenAI或谷歌最佳大模型的一半。

Mistral 7B在所有基準測試中超越了Llama 2 13B ,在許多基準測試中超越了Llama 1 34B ,在代碼性能上接近CodeLlama 7B,同時在英語任務上表現(xiàn)良好。

Mistral 7B分組查詢注意力(GQA)以實現(xiàn)更快的推理 使用滑動窗口注意力(SWA)以較小的成本處理更長的序列。

最重要的是,該模型是在Apache 2.0許可下發(fā)布的,這是一種高度寬松的方案,除了歸屬之外沒有使用或復制的限制。這意味著,無論是業(yè)余愛好者、數(shù)十億美元的大公司,只要他們有能力在本地運行該系統(tǒng),或愿意支付所需的云資源費用,都可以使用該模型。還可以在HuggingFace上使用 Mistral 7B針對任何任務進行微調。

Mistral團隊表示,他們在訓練Mistral 7B的同時,重建了頂級性能的MLops堆棧,并從零開始設計了最復雜的數(shù)據(jù)處理管道。

Mixtral 8x7B展現(xiàn)實力

12月,Mistral AI再次發(fā)布一條磁力鏈接,開源了他們的MoE(Mixture of Experts)大模型Mixtral 8x7B。Mixtral 8x7B是一款具有開放權重的尖端稀疏專家混合模型(SMoE),它具有32k Tokens的上下文能力以及對包括英語、法語、意大利語、德語和西班牙語在內的多種語言的支持,它同樣采用Apache 2.0許可證進行開源。

MoE(Mixture of Experts)在Transformer模型中的應用主要是為了提高模型的處理能力和效率。MoE通過將大型模型分解為多個“專家”子模塊來實現(xiàn)這一點。每個專家負責處理輸入數(shù)據(jù)的一個特定方面或子集。

在MoE架構中,每個專家可能是一個小型的Transformer模型,專門處理特定類型的輸入數(shù)據(jù)。例如,一個專家可能專注于處理自然語言的語法結構,而另一個專家可能專注于理解語義內容。

MoE架構中的一個關鍵組成部分是門控機制,它決定了哪些專家應該被用于處理特定的輸入數(shù)據(jù)。這種機制可以基于輸入數(shù)據(jù)的特性來動態(tài)選擇最合適的專家組合。

通過使用MoE,Transformer模型可以更有效地擴展到大規(guī)模數(shù)據(jù)集和復雜任務。這是因為它允許模型僅激活和使用處理特定輸入最相關的專家部分,而不是整個模型。

具體到Mixtral 8x7B,它是一個僅限解碼器的模型,其中前饋塊從8組不同的參數(shù)集中選擇。在每一層,對于每個標記,一個路由網(wǎng)絡選擇這些組中的兩組(“專家”)來處理標記,并將它們的輸出以加法方式結合。

它擁有46.7B的總參數(shù)量,但每個token只使用其中12.9B參數(shù)。因此,Mixtral的實際執(zhí)行速度和所需的成本,都只相當于一個12.9B的模型。

在性能上,它在大多數(shù)基準測試中超越了目前開源大模型的標桿Llama 2 70B,并且與GPT3.5不相上下,在總共7項對比測試中,它獲得4項測試的最高分數(shù)。

在另一項包含Mistral 7B的測試中,可以看出,Mistral 7B的分數(shù)幾乎總是高于Llama 2 7B甚至Llama 2 13B,而Mixtral 8x7B相對Llama 2 70B也有非常明顯的優(yōu)勢,再考慮到Mixtral 8x7B在推理成本上的優(yōu)勢(比Llama 2 70B快6倍),這個對比的結果更加明顯。

大模型的幻覺和偏見內容是評判其可用性的重要指標,Mixtral 8x7B在TruthfulQA、BBQ、BOLD等相關基礎測試上獲得了比Llama 2 70B明顯更優(yōu)的結果。Mixtral在TruthfulQA基準測試中更為真實(73.9%對比50.2%),并且在BBQ基準測試中表現(xiàn)出更少的偏見,Mixtral在BOLD上展現(xiàn)出比Llama 2更多的積極情緒。

Mixtral還推出了 8x7B Instruct,這個模型通過監(jiān)督式微調和直接偏好優(yōu)化(DPO)進行了優(yōu)化,以便精確地遵循指令。在MT-Bench上,它達到了8.30的分數(shù),使其成為最好的開源模型,其性能可與GPT3.5媲美。

可用性和商業(yè)模式

目前,Mistral AI開放了首個平臺服務的測試版—la plateforme。平臺提供了三個基于指令生成文本的聊天模型,以及一個嵌入模型。

Mistral-tiny和Mistral-small已經正式發(fā)布,而性能更強的mistral-medium還處在測試階段。這些模型在開放網(wǎng)絡抽取的數(shù)據(jù)上進行預訓練,隨后通過標注進行指令微調。

Mistral-tiny基于Mistral 7B Instruct v0.2,Mistral-small基于Mixtral 8x7B,Mistral-medium還在測試中,不過其性能非常值得期待。

除此之外,MistralAI還開放了API,其模型也能在 Hugging Face、Poe、Replicate等平臺上直接使用。

那么做開源的Mistral AI商業(yè)模式是什么呢,很有可能是現(xiàn)階段開源模型可以免費使用,但是在后期可能推出更大性能更強的模型,并以API的方式收費。

鑒于Mistral AI對于底層技術的理解深度和創(chuàng)新,他們也可能搭建AI定制化平臺,為企業(yè)用戶提供微調,RAG,定制化等服務。

Mistral AI在一篇博客中寫道:“我們的商業(yè)產品將作為白盒解決方案分發(fā),使權重和代碼源都可用。我們正在積極開發(fā)托管解決方案和專門針對企業(yè)的部署?!?/p>

創(chuàng)業(yè)公司做開源大模型的意義在哪里?

創(chuàng)始人的基因決定了企業(yè)的基因,Mistral AI的創(chuàng)始人們來自llama團隊和DeepMind,本身就具有開源的基因,這一定程度上促使他們采用開源的戰(zhàn)略。而且因為創(chuàng)始團隊和技術團隊能力的強大,它們的小模型和MoE模型不僅擁有超強的性能/參數(shù)比,而且在推理成本上有明顯的優(yōu)勢。

并且這種“小模型”的策略,是有意為之,Mistral AI的創(chuàng)始人Mensch認為,小模型有助于Agents的開發(fā)和應用,因為如果在GPT-4上運行 Agents,推理成本會很高,很容易很快就耗光資金。但如果能通過小模型將Agents運行的計算成本降低100倍,那么就有機會構建很多有意思的應用了。

除了開源、小模型、MoE技術外,Mistral AI的另一個差異化是它面向的歐洲市場。

一方面,歐洲擁有超過100家的500強公司,多集中在傳統(tǒng)行業(yè)如汽車、石油和天然氣、制藥、電信、銀行等。它們擁有足夠的付費能力,且對先進技術解決方案有強烈的需求。

另一方面,歐洲有特殊的經營環(huán)境,主要表現(xiàn)在更嚴格的監(jiān)管和技術透明度要求,例如GDPR和歐盟AI法案等。身處歐洲的AI獨角獸,更有可能適應這些法規(guī),并有可能獲得更多支持。

llama2的開源本身對于生成式AI的應用生態(tài)就是利好,幫助AI應用公司節(jié)省了巨量的模型預訓練成本?,F(xiàn)在有Mistral AI這樣既開源,又能讓小模型有超強性能,還能用MoE模型去媲美更大尺寸模型的先進AI技術公司,這對于AI應用的發(fā)展將起到更大的推動作用。

本文由阿爾法公社原創(chuàng)。


反饋
聯(lián)系我們
推薦訂閱