近日,華為公開(kāi)了昇騰服務(wù)器上部署DeepSeek V3/R1推理的最佳實(shí)踐,并介紹了一系列創(chuàng)新技術(shù)。
其中,華為在降低計(jì)算資源需求方面,創(chuàng)新提出了昇騰親和的低比特量化解決方案OptiQuant,最終實(shí)現(xiàn)了INT8量化模式與FP8的模型推理精度持平。

由于DeepSeek V3/R1模型是基于英偉達(dá)生態(tài)訓(xùn)練,并推薦使用FP8精度推理,而國(guó)產(chǎn)芯片普遍沒(méi)有原生支持FP8精度,導(dǎo)致國(guó)產(chǎn)芯片對(duì)DeepSeek的適配不佳。華為昇騰的上述研究應(yīng)該就是為了解決這一問(wèn)題。
通常情況下,在模型推理階段,進(jìn)行量化(如FP8量化為INT8)可以顯著降低模型對(duì)硬件的存儲(chǔ)需求和計(jì)算復(fù)雜度,但也會(huì)造成模型推理精度的損失以及邏輯錯(cuò)誤等問(wèn)題。因此如何保持推理精度,是低比特量化滿足不同平臺(tái)部署需求時(shí)的前提。
據(jù)華為介紹,基于BF16的DeepSeek需要1.3TB的顯存空間,同時(shí)導(dǎo)致極大的算力和跨機(jī)通信開(kāi)銷(xiāo)。而校準(zhǔn)集的泛化性缺失導(dǎo)致了在很多任務(wù)上難以達(dá)到與原有模型相近的精度水平,甚至在某些場(chǎng)景下精度下降十分嚴(yán)重。同時(shí),還要考慮如何設(shè)計(jì)昇騰親和的量化算法,以發(fā)揮硬件性能。
針對(duì)上述問(wèn)題,華為提出了OptiQuant量化框架,一種高性能保精度量化方案,設(shè)計(jì)了層間自動(dòng)混精、自動(dòng)混合校準(zhǔn)、離群值抑制、可學(xué)習(xí)的截?cái)嗪蚐SZW參數(shù)量化算法。除了支持業(yè)界主流量化算法功能之外,它還新增支持三個(gè)功能:接入自定義量化算法和數(shù)值類(lèi)型,可以將多種量化算法的自由組合搭配使用;支持業(yè)內(nèi)主流評(píng)測(cè)數(shù)據(jù)集和用戶自定義的數(shù)據(jù)校準(zhǔn)集;支持?jǐn)?shù)據(jù)并行和流水并行,針對(duì)不同大小的大語(yǔ)言模型實(shí)現(xiàn)精度驗(yàn)證性能加速。
OptiQuant框架主要由以下幾個(gè)模塊組成:
量化類(lèi)型和數(shù)值類(lèi)型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類(lèi)型,支持業(yè)界的Qserve,HQQ,LUT等量化方法,在此基礎(chǔ)上提出了可學(xué)習(xí)截?cái)嗪土炕瘏?shù)優(yōu)化等算法,進(jìn)一步減少了量化誤差。
多樣化測(cè)試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:多樣化測(cè)試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:OptiQuant支持了判斷題,問(wèn)答題,代碼題和數(shù)學(xué)題等多種測(cè)試類(lèi)別,語(yǔ)種上支持了十種常見(jiàn)語(yǔ)言。此外,OptiQuant支持用戶自定義校準(zhǔn)集,提升模型量化過(guò)程中的泛化性。
量化權(quán)重生成:OptiQuant提出了自適應(yīng)層間混精算法,并且根據(jù)對(duì)應(yīng)的量化配置生成對(duì)應(yīng)的權(quán)重參數(shù),通過(guò)去冗余技術(shù)減少參數(shù)保存的參數(shù)量;OptiQuant進(jìn)一步提出了FlexSQ等算法,在數(shù)據(jù)校準(zhǔn)過(guò)程中,對(duì)大模型激活異常值進(jìn)行了平滑處理,有助于對(duì)激活做低比特量化。
最終,基于Atlas 800I A2服務(wù)器的精度測(cè)試實(shí)驗(yàn)結(jié)果顯示,對(duì)于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,實(shí)現(xiàn)了推理精度與FP8-GPU持平。


華為表示,在DeepSeek R1/V3大模型推理場(chǎng)景中,實(shí)現(xiàn)了INT8量化模式與FP8的模型推理精度持平,而且進(jìn)一步發(fā)揮了華為Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相關(guān)代碼也將逐步開(kāi)源。