編者按:本文來自微信公眾號 量子位(ID:QbitAI),作者:聞樂 鷺羽,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
剛剛,0產(chǎn)出估值就已沖破120億美元的Thinking Machines,終于發(fā)布首篇研究博客。
創(chuàng)始人、OpenAI前CTO Mira Murati親自宣發(fā),翁荔等一眾公司大佬紛紛轉(zhuǎn)推:
研究主題是“Defeating Nondeterminism in LLM Inference”,克服大語言模型推理中的不確定性。
主要討論的內(nèi)容就是,為什么大模型每次的推理結(jié)果總是難以復(fù)現(xiàn)?根源在于批次不變性。
不鳴則已,一鳴就是萬字長文,并且,Thinking Machines還致敬了一波“連接主義”——
Mira和她的同事們認(rèn)為,科學(xué)因分享而更加卓越。他們將保持對研究成果的分享,并與研究社區(qū)保持頻繁、開放的聯(lián)系。
而翁荔在轉(zhuǎn)發(fā)推文中,還透露了Thinking Machines的第一代旗艦產(chǎn)品名為Connection Machine。
(CloseAI膝蓋又中了一槍)
擊敗LLM推理中的非確定性
眾所周知,LLM推理中,想要獲取可復(fù)現(xiàn)結(jié)果相當(dāng)困難,比如說多次向ChatGPT提出相同問題,但結(jié)果很有可能不同。
即使將采樣溫度降至0,原則上LLM會選擇概率最高的token輸出,但實(shí)際中此時不確定性仍然存在。
過去普遍認(rèn)為這是因?yàn)?strong>浮點(diǎn)非結(jié)合性和并發(fā)執(zhí)行之間的某種組合導(dǎo)致,即GPU在執(zhí)行浮點(diǎn)數(shù)運(yùn)算時會出現(xiàn)非結(jié)合性,比如(a+b)+c不一定等于a+(b+c),然后在并行操作中則根據(jù)執(zhí)行順序的不同,產(chǎn)生不同的結(jié)果。
但其實(shí)這個說法并不完整,如果在GPU上對同一數(shù)據(jù)重復(fù)運(yùn)行相同的矩陣乘法,卻可以始終獲得確定的同一結(jié)果。
于是Thinking Machine深入研究后發(fā)現(xiàn),其實(shí)罪魁禍?zhǔn)讘?yīng)該是批次不變性。
首先浮點(diǎn)數(shù)計(jì)算存在數(shù)值差異的原因確實(shí)是浮點(diǎn)數(shù)非結(jié)合性。
因?yàn)楦↑c(diǎn)數(shù)本身在編碼中,是通過 “尾數(shù)×10^指數(shù)” 的形式表示,精度有限,所以當(dāng)兩個不同指數(shù)的浮點(diǎn)數(shù)相加時,就必須調(diào)整指數(shù)并舍棄部分精度,從而導(dǎo)致一部分信息丟失,所以后續(xù)的相加順序不同才會產(chǎn)生不同的結(jié)果,使其不滿足結(jié)合律。
但浮點(diǎn)數(shù)為什么會以不同順序相加呢?
究其根源,是因?yàn)楝F(xiàn)在的LLM推理缺乏批次不變性,單個請求的輸出受到同一批次中請求數(shù)量的影響。
主要問題是:
實(shí)際部署中,服務(wù)器會隨著負(fù)載動態(tài)調(diào)整大模型推理批次的大小,而現(xiàn)有的內(nèi)核會因批次的變化而改變矩陣乘法、RMSNorm等關(guān)鍵操作的計(jì)算順序或策略;
浮點(diǎn)運(yùn)算的非結(jié)合性使不同計(jì)算順序產(chǎn)生微小偏差,這種偏差在Transformer多層迭代中被放大,最終導(dǎo)致相同輸入正在不同批次下輸出不同,破壞了推理的一致性。
要解決這一問題,那就需要讓RMSNorm、矩陣乘法、注意力機(jī)制分別具備批次不變性。
在RMSNorm中,重點(diǎn)就是要固定好每個批次元素的歸約順序而不受批次大小影響,則需要為每個內(nèi)核分配一個批處理元素,讓每次歸約操作都能在單個核心中完成。
當(dāng)批大小增大時,核心就會依次處理多個批次元素,而保持歸約策略不變;當(dāng)批大小較小時,則可以自動忽略一些并行性優(yōu)化措施,雖然效率可能會隨之降低,但能保障批次不變性。
而矩陣乘法在實(shí)際中也與批大小有關(guān),所以可以通過將輸出張量拆分為2D塊,然后為每個塊分配不同的核心。
其中每個核心計(jì)算都屬于該塊的點(diǎn)積,再在該核心中執(zhí)行歸約操作。
但要注重在批維度(M和N)過小時,可能會被迫沿著歸約維度(K)進(jìn)行分割,也就是Split-K矩陣乘法,這樣做同樣會影響歸約順序,另外不同的張量核心指令也會導(dǎo)致結(jié)果變化。
所以更簡單的方法是為所有輸入形狀編譯統(tǒng)一的內(nèi)核配置,避免因批大小變化切換并行策略或張量核心指令。
盡管相較于CuBLAS,這樣做可能會損失約20%的性能,但是可接受的。
而注意力機(jī)制則更加特殊,首先它需要更多的歸約維度,需要沿著特征維度和序列維度雙重歸約,一些像分塊預(yù)填充(chunked prefill)、前綴緩存(prefix caching)等推理優(yōu)化也會改變序列處理方式。
所以在注意力內(nèi)核執(zhí)行前,首先要更新KV緩存和頁表,確保無論序列是否拆分處理(預(yù)填充或解碼階段),KV的存儲布局始終一致,從而保障歸約順序不變。
沿著KV維度拆分時,也不同于常規(guī)策略按照所需并行度均勻拆分KV維度,拆分?jǐn)?shù)量隨批大小變化,而是固定每個拆分塊的大?。ㄈ绻潭?56),拆分?jǐn)?shù)量隨KV長度自適應(yīng),確保歸約順序不依賴批大小。
研究人員也對此進(jìn)行了三種不同的實(shí)驗(yàn)驗(yàn)證,分別是推理確定性驗(yàn)證、性能驗(yàn)證和真實(shí)在線策略強(qiáng)化學(xué)習(xí)應(yīng)用驗(yàn)證。
首先使用Qwen/Qwen3-235B-A22B-Instruct-2507模型,在相同條件下,判斷1000個長度為1000 token的結(jié)果差異情況。
結(jié)果發(fā)現(xiàn)未使用批次不變性內(nèi)核時,共生成80個不同結(jié)果,前102個token完全一致,但到第103個token則開始分化。
如果使用批次不變性內(nèi)核,則1000個結(jié)果完全相同,實(shí)現(xiàn)了確定性推理。
而在性能上,統(tǒng)一使用單GPU部署Qwen-3-8B模型的API服務(wù)器,并處理相同問題。
結(jié)果發(fā)現(xiàn),確定性推理雖存在性能損失,但性能在可接受范圍之內(nèi),仍然具備實(shí)際應(yīng)用價(jià)值。
由于訓(xùn)練與推理的數(shù)值差異會導(dǎo)致在線策略RL變?yōu)殡x線策略RL,一般需要引入重要性加權(quán)等離線校正項(xiàng)才能穩(wěn)定訓(xùn)練。
所以通過比對校正前后的數(shù)據(jù)可以發(fā)現(xiàn),缺乏重要性加權(quán)校正時,模型獎勵將會在訓(xùn)練中途崩潰,KL散度也會大幅飆升,而校正后,訓(xùn)練變得穩(wěn)定,KL散度可以維持在0.001左右,偶有波動情況出現(xiàn)。
確定性推理則全程保持穩(wěn)定,KL散度始終為0,實(shí)現(xiàn)了真正的在線策略RL,無需離線校正。
大佬云集的Thinking Machine
再來說說Thinking Machine這支AI夢之隊(duì)。
雖然尚未有具體模型產(chǎn)品產(chǎn)出,但是人才和資本都非常豪華,小扎只能干看著,挖也挖不到。
掌舵人Mira Murati在2016年加入OpenAI,一路晉升至CTO,主導(dǎo)打造了GPT-3、GPT-4等一系列關(guān)鍵技術(shù)開發(fā)。
聯(lián)合創(chuàng)始人及首席科學(xué)家John Schulman是PPO算法的開發(fā)者,在強(qiáng)化學(xué)習(xí)領(lǐng)域舉足輕重,還主導(dǎo)了ChatGPT的研發(fā)工作。
Thinking Machine的CTO則是前OpenAI副總裁Barret Zoph,主導(dǎo)了ChatGPT的后訓(xùn)練。
聯(lián)創(chuàng)Andrew Tulloch曾經(jīng)在Meta待了11年,后來進(jìn)入OpenAI,參與了OpenAI GPT-4o到o系列,和Mira Murati創(chuàng)辦Thinking Machine后,面對小扎6年15億美元的天價(jià)薪酬,也絲毫不動搖
此外,公司還聘請了GPT的開山一作Alec Radford、OpenAI前首席研究官Bob McGrew擔(dān)任技術(shù)顧問。
△左Alec Radford右Bob McGrew
更有北大校友、前OpenAI安全團(tuán)隊(duì)負(fù)責(zé)人翁荔加盟,可以說,這支團(tuán)隊(duì)約三分之二成員都來自O(shè)penAI。
前段時間,還有蛛絲馬跡表明清華姚班校友陳丹琦也加入了這支團(tuán)隊(duì)。
融資方面,今年6月,Thinking Machines完成了20億美元的種子輪投資,由a16z領(lǐng)投,英偉達(dá)、Accel、ServiceNow、CISCO、AMD、Jane Street等各領(lǐng)域知名機(jī)構(gòu)紛紛跟投。
以有史以來最大規(guī)模的種子輪融資刷新了AI圈的融資紀(jì)錄。(雖然傳聞中該公司的融資目標(biāo)只有10億美元)
這輪融資完成后,這家沒模型沒產(chǎn)品的初創(chuàng)公司估值也達(dá)到了120億美元。
這次新研究發(fā)布后,翁荔還透露了第一個Thinking Machines產(chǎn)品名為Connection Machine,連接主義。
連接主義緣起于上世紀(jì)60年代,McCulloch和Pitts提出了人工神經(jīng)元模型,如今的深度學(xué)習(xí)可以被視為連接主義的直接延續(xù),當(dāng)下人工智能中的“神經(jīng)網(wǎng)絡(luò)”就是連接主義的實(shí)現(xiàn)形式。
這下網(wǎng)友可坐不住了:先把公司Logo發(fā)出來。
參考鏈接:
[1]https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。