是否注意到,現在的AI越來越“聰明”了?能寫小說、做翻譯,甚至幫醫生看CT片,這些能力背后離不開一個默默工作的“超級大腦工廠”——AI算力集群。隨著人工智能從簡單規則判斷進化到能處理萬億參數的大模型,單臺計算機的算力就像小舢板面對汪洋大海,而算力集群則是把上萬臺甚至幾十萬臺計算機像搭積木一樣連接起來,形成一艘能承載巨量計算任務的“算力航空母艦”。
當我們把上萬臺計算機整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘表一樣協同工作?如何在部分設備故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?接下來我們將逐一揭秘這些支撐AI算力集群的關鍵特性,看看華為團隊如何用工程智慧馴服這頭算力巨獸。
超節點高可用:
24小時不停工的智能工廠
就像醫院的急診系統必須時刻在線,AI訓練和推理也不能輕易中斷。算力集群里每臺計算機都有“備用替身”,當某臺機器出現故障(比如突然斷電或硬件損壞),系統會立刻啟動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續運行,不會因為個別設備故障而全盤停止。
針對CloudMatrix 384超節點,華為團隊提出面向整個超節點的故障容錯方案,分為“系統層容錯”“業務層容錯”,以及后續“運維層容錯”,核心思想就是將故障問題轉為亞健康問題,通過運維手段優雅消除:
系統層容錯指的是通過超時代答欺騙OS+網絡路由切換,防系統藍屏,同時避免整個超節點級故障。業務層容錯是指租戶無感知下,通過重試容忍網絡閃斷,將系統故障轉為亞健康。而運維層容錯則是指主要構筑亞健康感知和優雅恢復技術,通過主動方式消減亞健康事件影響。
集群線性度:
人多力量大的完美協作
理想情況下,100臺計算機的算力應該是1臺的100倍,1000臺就是1000倍,這就是“線性度”。算力集群通過精密的任務分配算法,讓每臺計算機都像交響樂團的樂手一樣各司其職,避免出現“三個和尚沒水喝”的混亂。比如訓練一個需要萬億次計算的模型時,萬臺計算機能像整齊劃一地劃槳的龍舟隊,讓算力隨規模增長而幾乎同步提升。
華為團隊提出拓撲感知的協同編排技術TACO、網絡級網存算融合技術NSF、拓撲感知的層次化集合通信技術NB、無侵入通信跨層測量與診斷技術AICT等四項關鍵技術,實現盤古模型訓練線性度提升。
實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix集群相比256卡基線,線性度96.48%。
萬卡集群訓練快速恢復:
帶“存檔功能”的訓練師
當用上萬個計算單元(俗稱“萬卡”)訓練超大規模模型時,偶爾有幾臺機器“罷工”是難免的。這時系統會像游戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續訓練,避免從頭再來的巨大浪費。比如訓練一個需要30天的模型,即使中間有設備故障,也能在幾分鐘內恢復進度,就像視頻播放可以隨時續播。
為了使萬卡集群訓練可以達到分鐘級快恢復,華為團隊提出了以下多個創新:
一是進程級重調度恢復。正常節點通過參數面網絡將臨終CKPT傳遞到備用節點上,完成參數狀態恢復后繼續訓練,能夠有效縮短訓練恢復時間到3min以內。
二是進程級在線恢復。針對硬件UCE故障,通過業務面昇騰CANN軟件、框架軟件、MindCluster軟件配合實現故障地址在線修復,進一步縮短訓練恢復時間到30s以內。
三是算子級在線恢復。針對CloudMatrix 384產品HCCS網絡、ROCE參數面網絡提供HCCL算子重試能力,容忍更長時間的網絡異常,實現網絡故障影響的通信算子秒級重執行,訓練任務不中斷。
超大規模MoE模型推理分鐘級恢復:
各路英豪來幫忙
隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,將多且小的專家部署在多個服務器節點上緩解顯存帶寬壓力,目前在大EP組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。
針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題,華為提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從硬件驅動層、框架層、平臺層相互協作,構筑端到端可靠性體系。在不同的故障場景下,采用不同的容錯恢復手段,可以最小化用戶損失。
實例內快速重啟恢復技術:根據實際環境測試驗證,該技術將實例恢復時間從20min降低5min。