五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

為什么這家公司的芯片推理速度比英偉達(dá)快20倍?

存算一體:大模型加速推理的終解

圖片

編者按:本文來自微信公眾號 騰訊研究院( ID:cyberlawrc),作者:曹士圯,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

我們平常使用 AI工具時,已經(jīng)習(xí)慣了它們逐字逐詞往外“蹦”的“講話”方式,好像也沒太注意到這些基于大模型的AI 工具,往往需要數(shù)十秒才能得到一個完整回答。好在大模型加速推理芯片的發(fā)展,正在通過另一種全新的芯片架構(gòu),解決時延的問題。當(dāng)人機(jī)交互速度能提升到原來的幾十倍,你能想象又有哪些全新的人機(jī)交互場景會出現(xiàn)在我們面前嗎?

2024 年 8 月 28 日,美國 AI 芯片獨(dú)角獸公司 Cerebras 發(fā)布了名為 Cerebras Inference 的加速推理服務(wù)?;谄洫?dú)創(chuàng)的 Wafer-Scale 引擎,該服務(wù)在 Llama 3.1 7B 和 70B 模型上分別實(shí)現(xiàn)了 1800 token/s 和 450 token/s 的超快推理速度。與市面上用英偉達(dá) GPU 構(gòu)建集群的主流推理廠商相比,Cerebras Inference 取得了 20 倍以上的速度提升,為大模型推理樹立了新的速度標(biāo)準(zhǔn)。這一進(jìn)展既為用戶帶來了接近秒速推理的極致體驗(yàn),也點(diǎn)燃了業(yè)界對存算一體技術(shù)的熱情。

大模型推理的速度妥協(xié)

在與 ChatGPT 等大語言模型應(yīng)用交互時,我們可以觀察到它們普遍采用了流式響應(yīng)模式 —— 快速輸出第一個詞,然后逐字逐詞繼續(xù),模擬人類邊思考邊說話的過程,直到數(shù)十秒后才完成整個回答。這種模式表面上帶來了動態(tài)和沉浸式的交互體驗(yàn),實(shí)則是對推理速度限制的一種妥協(xié)。本質(zhì)上,這反映了大模型時代的"智能時延"問題,即 AI 的智能表現(xiàn)受限于其推理速度。

序列生成與并行計算的錯位

圖形處理器(Graphic Processing Unit,簡稱GPU)憑借其強(qiáng)大的并行計算能力,在深度學(xué)習(xí)領(lǐng)域取得了巨大成功,也因此成為大模型推理的默認(rèn)硬件選擇。然而,基于 Transformer 架構(gòu)的大語言模型在推理過程中采用自回歸的序列生成方式,即每個詞的生成都依賴于之前生成的詞,這種順序依賴性使得計算過程難以實(shí)現(xiàn)真正的并行化。

盡管 GPU 可以通過批處理、模型并行等技術(shù)來提高效率,但這些方法主要是增加推理吞吐量,即同時響應(yīng)更多請求、服務(wù)更多用戶,而非從根本上解決單次推理的速度和時延問題。這解釋了為什么即便使用最先進(jìn)的 GPU,大模型的推理速度仍然無法滿足實(shí)時交互的需求。

圖片序列生成示意,譯自 Cerebras 博客

馮·諾依曼架構(gòu)的”存儲墻“問題

從更深層次來看,大模型推理速度的瓶頸源于底層計算架構(gòu)的固有限制,主要體現(xiàn)在存算交換帶寬方面,這就是所謂的"存儲墻"問題。在傳統(tǒng)的馮·諾依曼架構(gòu)中,計算單元和存儲單元是分離的,數(shù)據(jù)需要在這兩個單元之間不斷移動,這個過程會消耗大量時間和能源。而隨著處理器速度的不斷提升,內(nèi)存訪問速度便成為了制約系統(tǒng)性能的主要因素。

圖片馮·諾伊曼架構(gòu)示意

這種情況在大模型推理中表現(xiàn)得尤為突出。大語言模型通常包含數(shù)百億甚至上萬億參數(shù),這些參數(shù)需要頻繁地在內(nèi)存和處理器之間傳輸?,F(xiàn)代計算機(jī)系統(tǒng)多在存算鏈路上配備了高速緩存,以緩解內(nèi)存帶寬瓶頸、提升存算交換效率。但受限于性能與成本,這些緩存最大不過百兆左右,無法載入整個大模型。因此,大模型推理過程面臨不可避免的大量存算交換。頻繁的數(shù)據(jù)移動不僅帶來了性能瓶頸,還導(dǎo)致了顯著的能耗問題,既增加了運(yùn)營成本,也限制了系統(tǒng)的擴(kuò)展性。

這些挑戰(zhàn)表明,僅僅依靠提升處理器頻率或優(yōu)化軟件算法已經(jīng)難以取得突破性進(jìn)展。在當(dāng)前的硬件與算法條件下,提升大語言模型的推理速度必須通過打破計算架構(gòu)與算法設(shè)計之間的錯配,以克服硬件架構(gòu)固有的瓶頸。這給未來計算架構(gòu)的發(fā)展指明了方向,為存算一體技術(shù)的探索奠定了基礎(chǔ),也解釋了為何越來越多的企業(yè)開始投身其中。

存算一體打破帶寬魔咒

英偉達(dá)借 HBM 拉近存算距離

作為 GPU 芯片的領(lǐng)導(dǎo)者,英偉達(dá)在近兩代芯片設(shè)計中雖然仍沿用傳統(tǒng)的計算架構(gòu),但通過引入高帶寬內(nèi)存(HBM)技術(shù)實(shí)現(xiàn)了"近存計算",以緩解存儲墻問題。HBM 技術(shù)采用垂直堆疊的內(nèi)存芯片設(shè)計,配合超寬數(shù)據(jù)總線和硅中介層,顯著提升了內(nèi)存帶寬。這使得英偉達(dá)的高端 GPU,如 A100 和 H100,能夠?qū)崿F(xiàn)極高的數(shù)據(jù)吞吐量,大幅提升了大模型處理能力。

圖片存算帶寬示意,譯自 Cerebras 博客

然而,HBM 技術(shù)雖然帶來了顯著的存算帶寬提升,在一定程度上緩解了帶寬壓力,但并未從根本上改變計算和存儲分離的架構(gòu)設(shè)計。

Groq 和 Cerebras 以存內(nèi)計算破局

圖片主流推理服務(wù)商速度與價格對比,譯自 Artificial Analysis

同為芯片獨(dú)角獸,Groq 在 2024 年 2 月對外發(fā)布 GroqCloud,可以提供高達(dá) 250 token/s 的Llama 3.1 70B 推理服務(wù),速度相比 GPU 方案幾乎提升了一整個量級。之所以能達(dá)到這樣的速度提升,是因?yàn)?Groq 獨(dú)有的全新芯片設(shè)計方案 —— 語言處理單元(Language Processing Unit, 簡稱LPU)。LPU 采用了類似于超長流水線的一維處理器陣列結(jié)構(gòu),其中每個處理單元都配備了本地內(nèi)存,能夠就近獲取所需數(shù)據(jù),大大減少了模型參數(shù)的搬運(yùn)距離,使得數(shù)據(jù)可以在處理單元之間高效流動。疊加上精確的靜態(tài)調(diào)度機(jī)制,LPU 確保每個處理單元的任務(wù)被精確安排,最大限度地減少了等待和沖突。這種設(shè)計特別適合處理大語言模型中的序列生成任務(wù),因?yàn)樗軌蚋咝幚砭哂袕?qiáng)依賴性的連續(xù)操作,而且避免了頻繁訪問芯外儲存,從而帶來顯著的推理速度收益。

相比 Groq,Cerebras 的底層技術(shù)路線——Wafer-Scale Engine(WSE)——則更為激進(jìn)。WSE 可以被視為一個巨大的"計算工廠",其最大特點(diǎn)是其驚人的尺寸,單個芯片幾乎覆蓋了一整塊晶圓的面積。在這個超大芯片上,計算單元和內(nèi)存單元高度集成,形成了一個密集的網(wǎng)格結(jié)構(gòu)。這種設(shè)計使得數(shù)據(jù)可以在極短的距離內(nèi)在計算和存儲單元之間傳輸,從根本上降低了數(shù)據(jù)移動的成本。對比英偉達(dá) H100 GPU,Cerebras 第三代 WSE 可以獲得數(shù)千倍的帶寬速度提升,也解釋了 Cerebras Inference 服務(wù)為何能在 Llama 3.1 70B 上取得 450 token/s 的推理速度,達(dá)到了 GPU 方案的 20倍以上。

圖片Cerebras WSE 與 英偉達(dá) H100 存算帶寬對比,引自 Cerebras 博客

存算一體推理市場尚處孕育期

盡管存算一體推理芯片展現(xiàn)出巨大潛力,但其發(fā)展仍面臨著市場考驗(yàn)。目前,該技術(shù)面臨兩個核心挑戰(zhàn)。

推理尚非算力支出主陣地

首先,在前沿模型研發(fā)真正收斂之前,大模型相關(guān)算力的支出仍將主要集中在訓(xùn)練方面。作為大模型智能涌現(xiàn)的核心驅(qū)動力,Scaling law 尚未明顯展示出已達(dá)拐點(diǎn)的信號,而致力于多模態(tài)、復(fù)雜推理等能力的探索研究也方興未艾。按照 OpenAI 引領(lǐng)的模型迭代節(jié)奏,在可預(yù)見的三至五年內(nèi),圍繞模型能力提升的訓(xùn)練仍將吸納大部分算力資源。

雖然過去一年產(chǎn)業(yè)界對基座模型的投資熱情逐步趨于冷靜,但一二線廠商之間的競爭正在逐步加劇。無論是 Meta 引領(lǐng)的開源勢力,還是 Google 堅持不能落后的大模型軍備競賽,都在推動訓(xùn)練算力需求的持續(xù)增長。只有經(jīng)過漫長的探索期,當(dāng)基座模型的訓(xùn)練思路逐步穩(wěn)定、模型能力增長進(jìn)入平臺期時,推理與訓(xùn)練的算力支出比才可能越過拐點(diǎn)。屆時,突破推理速度瓶頸的優(yōu)先級和迫切性將會提高,推理芯片也將隨之迎來發(fā)展機(jī)遇。

超快推理的優(yōu)先級與成本

盡管以 Groq 和 Cerebras 為代表的存算一體推理服務(wù)帶來了數(shù)十倍的推理速度提升,但主流推理服務(wù)商仍幾乎清一色地在使用英偉達(dá) GPU。

這一方面是因?yàn)槟壳霸谡鎸?shí)的推理服務(wù)供應(yīng)場景中,廠商對吞吐量的追求高于超快推理。吞吐量的提升意味著在單位時間內(nèi)可響應(yīng)更多用戶請求,可直接轉(zhuǎn)化為服務(wù)收益;而更快的推理速度,當(dāng)前仍主要體現(xiàn)在對用戶體驗(yàn)的提升,僅在部分對時延有高要求的場景才能彰顯獨(dú)特優(yōu)勢。

另一方面,GPU 方案可能仍具備成本優(yōu)勢。由于“N卡生態(tài)”更為完備,組建集群、算力調(diào)配、訓(xùn)練微調(diào)各環(huán)節(jié)工具鏈相對豐富,各類提效優(yōu)化的技術(shù)方案十分成熟,針對吞吐量優(yōu)化的 GPU 方案,相比 Groq LPU 方案更具成本優(yōu)勢。

圖片Groq 與 英偉達(dá) H100 推理方案簡化 BOM 成本對比,譯自 SemiAnalysis 測算

因此,存算一體芯片既需通過技術(shù)升級不斷降低成本,也要借助超快推理服務(wù)著力培育市場,增強(qiáng)用戶的速度感知與時延厭惡。未來,爭取將超快推理推行為整個行業(yè)的默認(rèn)選項(xiàng)。

未來秒速推理帶來新的想象力

當(dāng)推理速度達(dá)到每秒近千 token 時,一個完整的模型響應(yīng)可以在眨眼間生成完畢。這相當(dāng)于將推理時延壓縮至與網(wǎng)絡(luò)傳輸延遲相當(dāng)?shù)乃?,?shí)現(xiàn)真正意義上的"秒速推理"。這一突破必將為大模型應(yīng)用開辟新的可能,也會給人機(jī)交互帶來全新的想象空間。

模型思考更敏捷

超快的推理速度首先意味著現(xiàn)有大模型交互效率的飛躍,使得開發(fā)者可以在極短時間內(nèi)完成大模型應(yīng)用的測試和調(diào)優(yōu)循環(huán),不僅能加速開發(fā)過程,還有助于更深入全面的模型評估和應(yīng)用優(yōu)化。

其次,推理速度的提升可以顯著降低模型"思考"成本。當(dāng)前,思維鏈(CoT)、思維樹(ToT)等方法可用于引導(dǎo)大模型在生成的同時思考,從而獲取更優(yōu)答案,但這些方法會顯著增加響應(yīng)時延。當(dāng)推理速度足夠快時,CoT、ToT 甚至更復(fù)雜方法的引導(dǎo)成本將變得可以忽略。甚至可以讓模型在極短時間內(nèi)生成多個備選答案,然后選擇最佳回復(fù)。這種"瞬時的深思熟慮",可以在有限的時延條件下大幅提高回答的質(zhì)量和相關(guān)性,很可能會成為模型的默認(rèn)配置。

在敏捷思考的支持下,Agent 類復(fù)雜應(yīng)用也將迎來新的發(fā)展機(jī)遇?,F(xiàn)階段 Agent 落地的主要阻力有兩個:復(fù)雜任務(wù)的拆解規(guī)劃能力和多步流程的交互響應(yīng)體驗(yàn)。前者依賴模型能力的提升和思考引導(dǎo)的輔助,后者將能在推理速度的提升下得到顯著改善。

實(shí)時交互更可及

秒速推理將大大縮小人機(jī)交互的時間差,為更自然、更流暢的交互體驗(yàn)鋪平了道路。

首先,大模型語音對話的時延將變得足夠可控?,F(xiàn)階段主流的 ASR(語音識別) - LLM - TTS(文本合成語音)三段式語音交互方案,存在不小的時延,用戶講話后往往需要數(shù)秒的等待才能收到回復(fù),難以實(shí)現(xiàn)近乎自然的對話體驗(yàn)。而當(dāng)推理速度得到十倍以上的提升,整體時延便可被壓縮至秒內(nèi),實(shí)現(xiàn)近實(shí)時的語音交互。

另一個充滿想象力的場景是應(yīng)用的實(shí)時動態(tài)生成。大模型的代碼生成能力一直在不斷提升,但受限于推理速度,應(yīng)用仍以補(bǔ)全代碼和修改代碼為主。而在實(shí)現(xiàn)了秒速推理后,代碼生成可以實(shí)現(xiàn)飛躍,在與用戶對話的過程中,大模型可以實(shí)時生成和調(diào)整用戶界面,甚至是整個軟件的功能。想象一個能根據(jù)用戶意圖即時變化的應(yīng)用界面,或是能在對話中動態(tài)創(chuàng)建的定制軟件工具,這可能會重新定義未來軟件的開發(fā)和使用方式。

如果進(jìn)一步將這樣的超快推理應(yīng)用于增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)中,AI 將可以實(shí)時生成和調(diào)整虛擬環(huán)境、角色對話和交互邏輯,創(chuàng)造出更加豐富和個性化的沉浸式體驗(yàn)。

結(jié)語

OpenAI 在 2024 年初發(fā)布的文生視頻大模型 Sora 以其驚艷的演示效果震撼了科技界。然而,由于模型復(fù)雜度帶來的巨大計算量,其推理成本難以壓縮至可控范圍,以致這一突破性技術(shù)遲遲無法公開上線。據(jù)悉,OpenAI 正在探索更先進(jìn)的芯片設(shè)計方案,以降低推理成本、提升推理速度,已初步展示出潛力的存算一體技術(shù),很可能成為其重點(diǎn)研究的方向。存算一體不僅有望大幅提升推理速度,還可能徹底改變 AI 系統(tǒng)的設(shè)計理念,使得更復(fù)雜、更強(qiáng)大的 AI 應(yīng)用成為現(xiàn)實(shí),成為撬動下一代 AI 革命的支點(diǎn),為人工智能的未來發(fā)展開辟一條全新的道路。通過持續(xù)的技術(shù)創(chuàng)新和市場驗(yàn)證,存算一體有望成為推動 AI 應(yīng)用更廣泛落地的關(guān)鍵推手,為人類社會帶來更智能、更高效的技術(shù)體驗(yàn)。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱