五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

Scaling Law或?qū)⒔K結(jié)?哈佛MIT預(yù)警:低精度量化已無路可走,重磅研究掀翻AI圈

哈佛斯坦福MIT等機(jī)構(gòu)首次提出「精度感知」scaling law,揭示了精度、參數(shù)規(guī)模、數(shù)據(jù)量之間的統(tǒng)一關(guān)系。數(shù)據(jù)量增加,模型對(duì)量化精度要求隨之提高,這預(yù)示著AI領(lǐng)域低精度加速的時(shí)代即將結(jié)束!

編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),編輯:桃子 LRS,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

就連「量化」也不管用,scaling law真的要終結(jié)了嗎?

一提scaling law,人們重點(diǎn)關(guān)注的是參數(shù)規(guī)模、數(shù)據(jù)量等因素,卻忽視了「精度」這一關(guān)鍵變量。

哈佛斯坦福MIT等機(jī)構(gòu)研究人員竟發(fā)現(xiàn),低精度訓(xùn)練會(huì)降低模型的「有效參數(shù)量」!

對(duì)此,他們提出了「精度感知(precision-aware)」scaling law。

圖片

論文地址:https://arxiv.org/pdf/2411.04330

對(duì)于推理過程來說,訓(xùn)練數(shù)據(jù)越多,量化帶來的性能損失越大。

就訓(xùn)練來說,「精度感知」scaling law能夠預(yù)測(cè)不同部分采用不同精度的模型的損失。在某些情況下,用低精度訓(xùn)練LLM可能更有效率。

論文中,作者統(tǒng)一了訓(xùn)練后和預(yù)訓(xùn)練量化的scaling law,建立了一個(gè)完整的理論框架。

這個(gè)單一函數(shù)形式可以預(yù)測(cè)在不同精度下進(jìn)行訓(xùn)練和推理時(shí)的性能降級(jí)。

基于465次以上的預(yù)訓(xùn)練實(shí)驗(yàn),在最大1.7B參數(shù),訓(xùn)練數(shù)據(jù)量達(dá)到26B token的模型上驗(yàn)證了最新的預(yù)測(cè)。

圖片

艾倫研究所科學(xué)家Tim Dettmers對(duì)此評(píng)價(jià)道,這是很長(zhǎng)時(shí)間以來,最重要的一篇論文。它以強(qiáng)有力的證據(jù)表明我們正在接近「量化」的極限。

「論文直接指出:訓(xùn)練所需的token越多,所需的精度就越高,這對(duì)整個(gè)領(lǐng)域和GPU的未來都有廣泛的影響」。

就連AI大牛Karpathy也轉(zhuǎn)發(fā)了這個(gè)帖子。

圖片

圖中可以看到,對(duì)于20Btoken訓(xùn)練,8B模型在16位精度下更有效,70B模型,8位仍然可行,但效率已經(jīng)開始降低。注:8B模型(圓形)、70B模型(三角形)、405B模型(星形)

OpenAI研究員Clive Chan表示,擁抱scaling law,看看最先進(jìn)的量化方案(mxfp,Pw≠Pkv≠Pa等)如何推進(jìn)前沿將會(huì)很有趣。另外,我個(gè)人認(rèn)為,值得花費(fèi)一半的計(jì)算預(yù)算來進(jìn)行一次大規(guī)模運(yùn)行,以驗(yàn)證這個(gè)擬合是否適用于大模型。

圖片

可以說,AI領(lǐng)域的大多數(shù)進(jìn)展,都來自計(jì)算能力的提升,這主要依賴于低精度加速(從32位到16位再到8位)。

但這種趨勢(shì)現(xiàn)在正接近尾聲。

加上物理限制,這造就了scale終結(jié)的「完美風(fēng)暴」。

LLM正接近「量化」scale極限

毋庸置疑,scale早已成為業(yè)界公認(rèn)的深度學(xué)習(xí)核心驅(qū)動(dòng)力。

2020年OpenAI團(tuán)隊(duì),以及2022年DeepMind團(tuán)隊(duì)在scaling law的論文中,研究了模型/數(shù)據(jù)集大小之間的權(quán)衡,以平衡性能和計(jì)算。

圖片

然而,模型訓(xùn)練和推理時(shí)使用的精度,是影響成本和性能的重要「第三因素」。

深度學(xué)習(xí)正在向低精度發(fā)展:當(dāng)前的前沿模型(如Llama-3)使用BF16訓(xùn)練,并且普遍努力將預(yù)訓(xùn)練范式轉(zhuǎn)向FP8。

下一代硬件將支持FP4,而僅權(quán)重量化的進(jìn)展已導(dǎo)致大規(guī)模二進(jìn)制和三進(jìn)制訓(xùn)練。

這些范式能走多遠(yuǎn)?

具體來說,論文作者提出了以下問題:

精度、參數(shù)、數(shù)據(jù)三者之間如何權(quán)衡?

它們?cè)陬A(yù)訓(xùn)練和推理階段各有什么區(qū)別?

圖片

其實(shí),研究精度scaling具有挑戰(zhàn)性,因?yàn)閟caling law的研究通常旨在放棄細(xì)節(jié)性的實(shí)現(xiàn)細(xì)節(jié),追求普遍的函數(shù)形式,而量化研究通常相反,專注于細(xì)節(jié):如何進(jìn)行量化,使用什么類型,應(yīng)用于模型的哪些部分。

為了實(shí)現(xiàn)這一點(diǎn),研究人員考慮了各種合理的函數(shù)形式,并選擇了一個(gè)將量化實(shí)施細(xì)節(jié)與損失scaling「分離」的形式,由此能夠在許多實(shí)際情況下預(yù)測(cè)損失scaling。

總的來說,作者研究了在訓(xùn)練期間和之后,隨著數(shù)據(jù)和參數(shù)的變化,精度對(duì)損失的影響如何擴(kuò)展。

圖片

研究發(fā)現(xiàn)了,在后訓(xùn)練量化的影響:量化導(dǎo)致的性能降級(jí),隨數(shù)據(jù)量增加而增加。對(duì)于固定模型,超過某個(gè)點(diǎn)后繼續(xù)訓(xùn)練可能有害,這種影響在模型后期量化時(shí)特別明顯。

針對(duì)預(yù)訓(xùn)練精度的最優(yōu)選擇,計(jì)算最優(yōu)的預(yù)訓(xùn)練精度,通常獨(dú)立于計(jì)算預(yù)算,但當(dāng)模型大小受限時(shí),這種獨(dú)立性不再成立。在這種情況下,最優(yōu)精度隨計(jì)算量緩慢增長(zhǎng)。

對(duì)于N個(gè)參數(shù)的語言模型,在D個(gè)token上進(jìn)行訓(xùn)練,訓(xùn)練精度為P_train ,訓(xùn)練后權(quán)重精度為 P_post ,最終研究人員找到了一個(gè)統(tǒng)一的scaling law:

圖片

其中,A、B、E、α、β是正擬合常數(shù),δ_PTQ是指推理前訓(xùn)練后量化引起的損失退化

Tim Dettmers在長(zhǎng)文中表示,英偉達(dá)Blackwell將通過硬件層面實(shí)現(xiàn)的塊級(jí)量化來提供出色的8位計(jì)算能力。這將使8位訓(xùn)練變得像從FP16切換到BF16一樣簡(jiǎn)單。

然而,從這篇論文可以看出,未來還需要超過8位的精度來訓(xùn)練許多模型。

相較于其他模型,運(yùn)行Llama 405B進(jìn)行推理是一個(gè)巨大的挑戰(zhàn)。但論文表明,中等參數(shù)規(guī)模模型(如70B)也難以在低精度下高效訓(xùn)練。

從Dettmers的個(gè)人經(jīng)驗(yàn)(很多失敗的研究)來看,你無法欺騙效率。

如果量化失敗,那么稀疏化也會(huì)失敗,其他效率提升機(jī)制也是如此。如果這是真的,我們現(xiàn)在已接近最優(yōu)解。在這種情況下,他只看到三條前進(jìn)的道路...

(1) scaling數(shù)據(jù)中心:這還能繼續(xù)scaling約2年。

(2) 動(dòng)態(tài)scaling:轉(zhuǎn)向更小的專業(yè)化模型或更大/更小的模型。

(3) 知識(shí)蒸餾:蒸餾的行為與其他技術(shù)不同,可能具有不同的特性。

所有這些意味著范式將很快從「scaling」轉(zhuǎn)向「如何利用現(xiàn)有資源」。Dettmers認(rèn)為「如何幫助人們通過AI提高生產(chǎn)力」這種思維方式是最好的前進(jìn)方向。這種思維方式更關(guān)注流程和人,而不是技術(shù)本身。

圖片

訓(xùn)練后量化Scaling Law

最簡(jiǎn)單,也是最常見的量化技術(shù)就是將現(xiàn)成的模型進(jìn)行訓(xùn)練后量化處理(post-train quantize)。

研究人員首先使用BF16格式訓(xùn)練的模型,并采用GPTQ技術(shù)來進(jìn)行訓(xùn)練后的量化處理,結(jié)果發(fā)現(xiàn)訓(xùn)練后的量化在數(shù)據(jù)擴(kuò)展性方面表現(xiàn)不佳。

圖片

模型在訓(xùn)練后量化以及與訓(xùn)練結(jié)束時(shí)相比,出現(xiàn)了性能退化。

可以發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)量的增加,所有尺寸模型的性能退化δPTQ都在增加;但對(duì)于固定的數(shù)據(jù)集,更大尺寸的模型性能退化更小。

圖片

上述公式中,CT、γD、γN、γpost是正的擬合常數(shù);當(dāng)token與參數(shù)的比例D/N足夠大,或者量化后的精度Ppost足夠低時(shí),模型在預(yù)訓(xùn)練時(shí)間延長(zhǎng)后,量化帶來的損失可能會(huì)增加,

還可以觀察到,當(dāng)降低量化精度時(shí),δPTQ呈指數(shù)增長(zhǎng)。

從直覺上來說,如果在更多數(shù)據(jù)上訓(xùn)練,模型會(huì)將更多信息壓縮到權(quán)重中,即量化權(quán)重的擾動(dòng)對(duì)損失的影響更大。

發(fā)現(xiàn)1:如果想將模型進(jìn)行訓(xùn)練后量化,存在某一個(gè)預(yù)訓(xùn)練數(shù)據(jù)量,如果超過這個(gè)值,再添加額外的數(shù)據(jù)會(huì)對(duì)推理時(shí)的性能產(chǎn)生負(fù)面影響。

量化訓(xùn)練Scaling Law

研究人員探索了如何在訓(xùn)練階段調(diào)整模型處理數(shù)據(jù)的精度,包括模型的權(quán)重、激活值和KV緩存,測(cè)試了3位到12位的不同精度設(shè)置,并與BF16高精度基準(zhǔn)進(jìn)行比較。

量化訓(xùn)練

研究人員在保持激活值(Pa)和KV緩存(Pkv)的精度固定在較高水平的情況下,考察了權(quán)重精度(Pw)與參數(shù)量(N)之間的權(quán)衡,其中設(shè)定D = 13B個(gè)token,并在N和Pw的不同組合上進(jìn)行了網(wǎng)格掃描。

等損失輪廓圖顯示,一個(gè)「參數(shù)量較少但權(quán)重精度較高」的模型可以達(dá)到與「參數(shù)量較多但權(quán)重精度較低」的模型相同的損失。

圖片

此外,提高權(quán)重的位精度在低位精度時(shí)收益較大,但在較高精度時(shí)(每個(gè)權(quán)重6-7位)會(huì)趨于飽和。

根據(jù)經(jīng)驗(yàn)趨勢(shì),研究人員總結(jié)了權(quán)重精度和參數(shù)之間的最佳權(quán)衡模型:

圖片

其中γw是一個(gè)擬合常數(shù),用于衡量模型權(quán)重的敏感度;A、B、E、α、β是Chinchilla規(guī)模法則中的擬合正數(shù)常數(shù)。

圖片

低精度訓(xùn)練

研究人員想要測(cè)試,在低精度訓(xùn)練中,對(duì)模型的權(quán)重、激活值和注意力進(jìn)行量化的影響是否相互疊加,即不同組件的量化效果可能會(huì)相互作用,產(chǎn)生更復(fù)雜的影響。

通過對(duì)比「邊際擬合常數(shù)」模型和「聯(lián)合擬合常數(shù)」模型的預(yù)測(cè)能力,來測(cè)試這種獨(dú)立性是否大致成立。

圖片

結(jié)果顯示,這兩種擬合常數(shù)的方法具有大致相同的預(yù)測(cè)能力,即獨(dú)立性假設(shè)是合理的。

發(fā)現(xiàn)2:在訓(xùn)練期間對(duì)權(quán)重、激活值和KV緩存進(jìn)行量化的效果,可以被建模為獨(dú)立且相乘的,因此損失函數(shù)可以表示為:

圖片

圖片

研究人員對(duì)常數(shù)γw、γa、γkv進(jìn)行擬合,如果三個(gè)精度都設(shè)置為相同的值P,與預(yù)訓(xùn)練相同,可以簡(jiǎn)化為下式子,其中γ?是三個(gè)參數(shù)的平均值。

圖片

對(duì)預(yù)訓(xùn)練的影響

當(dāng)模型以精度P進(jìn)行訓(xùn)練時(shí),意味著權(quán)重、激活值和KV緩存的精度都等于P,即 Pw = Pa = Pkv = P,計(jì)算成本與P成正比;

研究人員在16位精度下進(jìn)行了實(shí)驗(yàn),并使用成本模型C = 6ND FLOPs,考慮到計(jì)算與精度之間的線性關(guān)系,將模型進(jìn)一步推廣泛化:當(dāng)P = 16時(shí),簡(jiǎn)化為Chinchilla成本函數(shù)。

圖片

圖片

可以注意到,無論實(shí)驗(yàn)的規(guī)模如何,函數(shù)形式的含義都是正確的,但預(yù)測(cè)的數(shù)值取決于擬合的常數(shù),其中常數(shù)通常是基于小規(guī)模、整型實(shí)驗(yàn)擬合的。

1、如果必須在低精度下訓(xùn)練,先增加參數(shù)量再增加數(shù)據(jù)

圖片

在低精度訓(xùn)練時(shí),有效的參數(shù)量會(huì)大大減少,因此增加參數(shù)量可以更有效地利用有限的計(jì)算資源,因?yàn)閿?shù)據(jù)量相對(duì)于有效參數(shù)來說已經(jīng)過剩了。

2、計(jì)算最優(yōu)的預(yù)訓(xùn)練精度通常與計(jì)算預(yù)算無關(guān)

圖片

在沒有對(duì)參數(shù)N、數(shù)據(jù)D和精度P的限制,只有固定計(jì)算預(yù)算的情況下進(jìn)行預(yù)訓(xùn)練,研究人員的目標(biāo)是聯(lián)合最小化損失函數(shù)L(N, D, P),其中C與NDP成正比,并最終得到了一個(gè)關(guān)于最優(yōu)精度P*(C)的隱式方程。

圖片

圖片

結(jié)果發(fā)現(xiàn),當(dāng)在整數(shù)類型的量化運(yùn)行中擬合擴(kuò)展法則時(shí),P*大約是7位,也意味著在BF16中訓(xùn)練模型的實(shí)際操作可能是次優(yōu)的,并且向低精度訓(xùn)練的競(jìng)爭(zhēng)需要在低于4位之前停止,可能會(huì)迫使模型尺寸不成比例地(超過4倍)增大,從而保持住損失。

3、如果模型尺寸受限,計(jì)算最優(yōu)的預(yù)訓(xùn)練精度可以增加

研究人員在探討如何在有限的計(jì)算資源下,針對(duì)不同大小的智能體進(jìn)行訓(xùn)練時(shí),并發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:

不同尺寸的模型并不一定需要在相同的數(shù)值精度下訓(xùn)練,實(shí)際上,最優(yōu)的數(shù)值精度會(huì)隨著計(jì)算資源的增加而增加,而且這種增加與計(jì)算資源的對(duì)數(shù)成正比。

也就意味著,如果保持模型尺寸不變,只調(diào)整數(shù)據(jù)量和數(shù)值精度,那么可以根據(jù)數(shù)據(jù)量和智能體大小的比例來調(diào)整最優(yōu)的數(shù)值精度,能夠更有效地利用有限的計(jì)算資源,通過減少數(shù)據(jù)量與有效參數(shù)數(shù)量的比例,使智能體的訓(xùn)練效果更接近理想的狀態(tài)。

發(fā)現(xiàn)3:當(dāng)N(模型大?。?、D(數(shù)據(jù)量)和P(精度)一起優(yōu)化時(shí),計(jì)算最優(yōu)的預(yù)訓(xùn)練精度與計(jì)算資源無關(guān)。16位精度包含了許多不必要的位,而4位精度則需要不成比例地增加模型尺寸以保持損失值。

擬合結(jié)果表明,7到8位是計(jì)算最優(yōu)的精度。相比之下,當(dāng)N預(yù)先固定,例如在相似數(shù)據(jù)上訓(xùn)練一系列模型時(shí),P*(C)與C的對(duì)數(shù)成正比,也表明,對(duì)于被顯著過訓(xùn)的模型,訓(xùn)練時(shí)使用更高的精度可能是計(jì)算上最優(yōu)的選擇。

統(tǒng)一精度Scaling Law

研究人員將之前提出的兩個(gè)擴(kuò)展法則合并成統(tǒng)一的函數(shù)形式,可以預(yù)測(cè)訓(xùn)練和訓(xùn)練后量化的影響,包括兩者之間的相互作用。

研究人員發(fā)現(xiàn),在預(yù)測(cè)δPTQ時(shí)有兩種競(jìng)爭(zhēng)效應(yīng),但總體而言,以較低精度訓(xùn)練的模型對(duì)訓(xùn)練后量化更為健壯,即遭受的退化較小。

直觀上,以低精度訓(xùn)練Pw、Pa或Pkv會(huì)迫使模型學(xué)習(xí)對(duì)「量化噪聲」有魯棒性的權(quán)重,因此在PTQ下的退化較小。

然而,以低精度訓(xùn)練的模型的有效參數(shù)數(shù)量Neff減少,導(dǎo)致token量與參數(shù)量的比值增加,會(huì)導(dǎo)致退化更多,也可以稱之為「過訓(xùn)效應(yīng)」。

修改δPTQ以考慮訓(xùn)練精度

圖片

假設(shè)訓(xùn)練精度嚴(yán)格大于推理精度,如果相等則退化為零,研究人員先探索了僅在訓(xùn)練期間以權(quán)重精度Pw變化時(shí)的退化表現(xiàn)。

可以觀察到,如果訓(xùn)練和推理時(shí)精度之間有差距,退化會(huì)非常迅速地增加到指數(shù)大值,可以將擬合的初始函數(shù)形式修改為:

圖片

并可以擴(kuò)展到包含注意力機(jī)制的精度效應(yīng):

圖片

可解釋的統(tǒng)一函數(shù)形式

研究人員考慮僅以低精度訓(xùn)練權(quán)重,并將Cw = 1作為示例,以便簡(jiǎn)化上式,可以反映出由于低精度訓(xùn)練權(quán)重而降低的有效參數(shù)量:

圖片

該公式能夠清晰地反映了模型對(duì)PTQ噪聲的魯棒化程度,與在類似噪聲下的訓(xùn)練程度相匹配。

發(fā)現(xiàn)4(統(tǒng)一擴(kuò)展法則):將預(yù)訓(xùn)練期間的低精度效應(yīng)建模為獨(dú)立且相乘的噪聲累積,并包括訓(xùn)練后量化退化,可以預(yù)測(cè)具有N個(gè)參數(shù)的語言模型,在D個(gè)token上訓(xùn)練,以訓(xùn)練精度Pw、Pa、Pkv,最終達(dá)到權(quán)重精度Ppost時(shí)的損失為:

圖片

局限性

論文作者指出,當(dāng)前研究還存在幾個(gè)限制:

圖片

在實(shí)驗(yàn)過程中,使用了固定的模型架構(gòu)和設(shè)置,但在實(shí)踐中,經(jīng)常會(huì)專門進(jìn)行架構(gòu)調(diào)整以適應(yīng)低精度訓(xùn)練。

此外,作者還在相對(duì)較小的語言模型(最大約250M參數(shù))上擬合了scaling law,未能覆蓋超大規(guī)模模型情況。

下一步,研究人員將在更大規(guī)模模型上繼續(xù)研究這一效果。

圖片

論文作者

本篇論文核心貢獻(xiàn)作者是Tanishq Kumar和Zachary Ankner。

Tanishq Kumar

圖片

Tanishq是哈佛大學(xué)數(shù)學(xué)專業(yè)的大四學(xué)生,研究機(jī)器學(xué)習(xí)理論和計(jì)算神經(jīng)科學(xué)。他最感興趣的是將理論工具應(yīng)用于深度學(xué)習(xí)中鮮為人知的經(jīng)驗(yàn)主義謎題。

Zachary Ankner

圖片

Zachary Ankner是麻省理工學(xué)院的三年級(jí)本科生,目前學(xué)習(xí)計(jì)算機(jī)科學(xué)和數(shù)學(xué)。他的研究旨在通過對(duì)簡(jiǎn)單建模變化的深入實(shí)證調(diào)查來改進(jìn)LLM。

參考資料:

https://the-decoder.com/scaling-laws-for-precision-ai-researcher-sees-perfect-storm-for-the-end-of-scale/

https://x.com/Tim_Dettmers/status/1856338240099221674

https://arxiv.org/pdf/2411.04330

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱