中國儲能網(wǎng) -智能算力與基站 - 運營商智算中心建設(shè)思路及方案 }

運營商智算中心建設(shè)思路及方案

作者：童俊杰申佳赫罡張奎來源：《郵電設(shè)計技術(shù)》發(fā)布時間：2024-11-05 瀏覽：次

中國儲能網(wǎng)訊：

摘要人工智能訓(xùn)練的計算復(fù)雜度逐年猛增，所需的智能算力從每秒千萬次運算增加到數(shù)百億次，甚至進(jìn)入千億級別，促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心主要滿足智算算力的需求，其布局、建設(shè)及維護(hù)方案與傳統(tǒng)的云資源池存在較大差異，當(dāng)前運營商對智算中心的布局以及詳細(xì)方案并沒有統(tǒng)一的建議和參考。分析了大模型發(fā)展帶來的算力、存儲、組網(wǎng)的需求挑戰(zhàn)，對運營商智算布局以及算力、存儲、網(wǎng)絡(luò)、維護(hù)管理等提出了相應(yīng)的策略和方案建議。

前言人工智能聊天機器人ChatGPT、AI編程工具GitHub Copilot、圖像生成系統(tǒng)Stable Diffusion、視頻生成系統(tǒng)Sora等生成式人工智能（Generative AI，Gen-AI）應(yīng)用和工具產(chǎn)品的出現(xiàn)，為文本創(chuàng)建、圖像視頻生成、代碼生成以及研發(fā)流程等工作帶來了全新的智能體驗，極大地提升了生產(chǎn)力，提高了生產(chǎn)水平。

Gen-AI應(yīng)用的出現(xiàn)離不開大模型的支持。大模型是基于海量參數(shù)進(jìn)行自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型，憑借更強的學(xué)習(xí)能力、更高的精準(zhǔn)度以及更強的泛化能力，正在成為人工智能技術(shù)發(fā)展的焦點。隨著大模型的快速成熟，其參數(shù)規(guī)模呈百萬倍增長，隨之而來的是算力需求的劇增，芯片算力的增長速度與模型參數(shù)規(guī)模的增長存在剪刀差，推動了超大規(guī)模智算集群的建設(shè)。

作為基礎(chǔ)設(shè)施建設(shè)者和新質(zhì)生產(chǎn)力的推動者，電信運營商正積極推進(jìn)智算布局。本文基于大模型的發(fā)展趨勢和需求，結(jié)合運營商的特定優(yōu)勢，提出了智算集群布局以及算力、存儲、網(wǎng)絡(luò)和維護(hù)管理方面的策略和方案建議。

1 大模型的發(fā)展趨勢和需求分析

1.1 大模型發(fā)展的趨勢

雖然大模型的概念已經(jīng)深入人心，但是目前沒有明確界定標(biāo)準(zhǔn)來判定模型為小模型還是大模型。根據(jù)模型表現(xiàn)和模型算力需求，業(yè)界一般認(rèn)為一個經(jīng)過充分訓(xùn)練的百億參數(shù)的模型可認(rèn)定為大模型［1］。大模型遵循的三大統(tǒng)計特征如下。

a）Scaling Law。模型表現(xiàn)依賴于模型規(guī)模、計算量和數(shù)據(jù)量，這些因素之間呈現(xiàn)冪律關(guān)系［2］。

b）Chinchilla Law。模型大小和數(shù)據(jù)量要同等比例擴展，即數(shù)據(jù)量需達(dá)到參數(shù)量的20倍，模型訓(xùn)練結(jié)果才能達(dá)到飽和［3］。

c）智能涌現(xiàn)。只有訓(xùn)練計算超過1022或訓(xùn)練損失足夠低時，才會出現(xiàn)智能涌現(xiàn)，即在典型人工智能任務(wù)上的能力大幅提升，而和具體模型無關(guān)［3-4］。

上述三大統(tǒng)計特征揭示了，隨著參數(shù)模型量越來越大，模型對訓(xùn)練所需算力的需求越來越大，隨著Sora等多模態(tài)視頻模型的興起，參數(shù)量規(guī)模劇增，OpenAI的GPT-4以及Google的Gemini Ultra都宣稱達(dá)到了萬億級參數(shù)［5］。參數(shù)量劇增導(dǎo)致訓(xùn)練所需的數(shù)據(jù)量越來越大，有預(yù)測認(rèn)為，到2026年文本數(shù)據(jù)將被訓(xùn)練完，圖像數(shù)據(jù)將在2040年前后被用完，合成數(shù)據(jù)將會是未來數(shù)據(jù)的主要來源［6］，數(shù)據(jù)量規(guī)模會再一次量級躍遷，對存儲的規(guī)模和性能帶來更大的挑戰(zhàn)。此外，智算集群的規(guī)模也從百卡發(fā)展到萬卡，甚至十萬卡級別，對網(wǎng)絡(luò)通信的帶寬和時延要求越來越高。

1.2 算力需求和挑戰(zhàn)

在Transformer模型結(jié)構(gòu)中，算力需求與模型參數(shù)規(guī)模、數(shù)據(jù)量具有相關(guān)性，具體如表1所示。

表1 算力需求和模型參數(shù)規(guī)模

按照上述關(guān)系，以GPT-3 175B的參數(shù)量（1 746億）為例，其訓(xùn)練算力的需求為6×174.6B×300B=314 000 EFLOPS。若采用910B（376 TFLOPS@FP16）集群，按照GPU利用率為30%，訓(xùn)練28天，則需要約1 150張910B GPU卡。

按照上述測算，對于萬億參數(shù)模型，則需要萬卡級規(guī)模集群；對于十萬億參數(shù)模型，則需要十萬卡級規(guī)模集群。因此，為了實現(xiàn)通用人工智能AGI，國內(nèi)外互聯(lián)網(wǎng)廠商紛紛開始“囤卡”。在算力需求倍增的同時，帶來如下挑戰(zhàn)。

a）對顯存容量和性能的挑戰(zhàn)。GPU卡中的高帶寬存儲器（High Bandwidth Memory，HBM）是基于3D堆棧工藝的高性能DRAM，其本質(zhì)是將多個DDR芯片堆疊后和GPU一起封裝。目前，AI算力增長速度遠(yuǎn)高于顯存容量和性能的增長速度，以英偉達(dá)A100、H100為例，雖然H100較A100的算力增長了將近3倍，但顯存容量沒增長，帶寬只增長了近2倍，這對分布式顯存調(diào)度提出了更高的要求［8］。此外，當(dāng)前HBM的主要廠商為海力士、三星和美光，國產(chǎn)GPU卡可能無法使用最新的HBM技術(shù)，顯存能力演進(jìn)受限。

b）對散熱和資源的挑戰(zhàn)。從GPU卡的演進(jìn)來看，GPU模型的算力和功耗成比例增長，昇騰910B芯片TDP為392 W，單臺訓(xùn)練服務(wù)器功耗達(dá)到5.2 kW。以GPT-3為例，訓(xùn)練所需電量達(dá)到1 287 MW（碳排放為502 t），每天推理需要用電50萬 kWh，冷卻設(shè)備所需的水達(dá)到70萬 L，對電力資源和水資源都是巨大挑戰(zhàn)［9］。

c）對GPU跨廠家協(xié)同、跨代際演進(jìn)的挑戰(zhàn)。跨廠家GPU因為軟件生態(tài)、底層算子不同，導(dǎo)致上層模型無法一次編譯后異構(gòu)執(zhí)行。即使采用同一廠家的GPU，也因為不同型號GPU的算力、顯存和通信能力甚至算子優(yōu)化不同，共集群訓(xùn)練時面臨性能損失、無法發(fā)揮優(yōu)勢的問題。

d）對供應(yīng)鏈保障的挑戰(zhàn)。受美國芯片禁令的影響，國內(nèi)將無法購買國外先進(jìn)的GPU產(chǎn)品，國內(nèi)GPU的產(chǎn)能和生態(tài)面臨巨大挑戰(zhàn)。

1.3 存儲需求和挑戰(zhàn)

AI大模型的訓(xùn)練和推理都會涉及到數(shù)據(jù)的存取。在訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段，需要對海量數(shù)據(jù)進(jìn)行處理，包括格式對齊、歸一化、去重、隱私保護(hù)、異常值處理等。訓(xùn)練階段涉及海量小文件的訓(xùn)練數(shù)據(jù)存取和訓(xùn)練過程中參數(shù)文件的周期性保存；在推理階段，需要讀取本地存儲的模型參數(shù)，并對實時樣本進(jìn)行處理，輸出推理結(jié)果。

AI大模型的訓(xùn)練和推理對存儲帶來的挑戰(zhàn)如下。

a）對數(shù)據(jù)訪問性能的挑戰(zhàn)。一方面是大量小文件帶來的元數(shù)據(jù)訪問挑戰(zhàn)，另一方面則是海量小文件并發(fā)快速讀取、Checkpoint周期保存參數(shù)對數(shù)據(jù)存取帶來的挑戰(zhàn)。

b）多模態(tài)數(shù)據(jù)統(tǒng)一訪問的挑戰(zhàn)。對于視頻和圖片多模態(tài)數(shù)據(jù)輸入，會對原始文件進(jìn)行特征提取并以小文件的形態(tài)保存，因視頻和圖片原始特征復(fù)雜，處理后數(shù)據(jù)量倍增。此外，為便于后續(xù)對多模態(tài)原始和特征數(shù)據(jù)的存取，需要建立相應(yīng)的快速檢索機制和內(nèi)容審核能力。

c）對數(shù)據(jù)安全的挑戰(zhàn)。復(fù)雜繁多的數(shù)據(jù)處理環(huán)節(jié)，導(dǎo)致數(shù)據(jù)處理存在諸多安全風(fēng)險，包括數(shù)據(jù)隱私泄露、數(shù)據(jù)違規(guī)侵權(quán)、數(shù)據(jù)不可追溯、數(shù)據(jù)操作不合規(guī)等。

1.4 組網(wǎng)需求和挑戰(zhàn)

在大模型訓(xùn)練和推理中，主要的關(guān)鍵網(wǎng)絡(luò)和相關(guān)通信挑戰(zhàn)如下。

a）訓(xùn)練數(shù)據(jù)到訓(xùn)練計算集群的網(wǎng)絡(luò)通信。當(dāng)前數(shù)據(jù)源和數(shù)據(jù)存儲主要靠近人類居住密集和業(yè)務(wù)熱點區(qū)域，和自然土地資源、電力資源相對豐富的西部地區(qū)距離較遠(yuǎn)。在訓(xùn)練時，需將訓(xùn)練數(shù)據(jù)傳輸?shù)轿鞑抗?jié)點，這類數(shù)據(jù)對實時性要求不高，可以采用快遞硬盤或者互聯(lián)網(wǎng)專線進(jìn)行傳輸，以節(jié)約成本，但互聯(lián)網(wǎng)專線因業(yè)務(wù)模式的問題，當(dāng)前成本相對較高。以傳輸0.7 PB數(shù)據(jù)為例，采用2.5寸的3.68 TB硬盤進(jìn)行數(shù)據(jù)存儲，需要約50塊硬盤，如果采用航空快遞，1 000 km的快遞成本預(yù)計為1 000元、時間預(yù)計為24 h；若租賃1 Gbit/s有保障的互聯(lián)網(wǎng)專線，按照30 000元/月的價格（按照每月30天，每天費用為1 000元）計算，約1.5 h可完成數(shù)據(jù)傳輸。

b）訓(xùn)練時單GPU服務(wù)器的卡間通信。為提升大模型的訓(xùn)練速度，一般會采用數(shù)據(jù)并行、流水線并行和張量并行，其中張量并行的并行度一般和單GPU服務(wù)器的卡數(shù)量等同，張量并行對卡間實時通信的帶寬和時延帶來挑戰(zhàn)。當(dāng)前卡間通信的結(jié)構(gòu)主要有總線結(jié)構(gòu)（例如昇騰HNCCS通信方式）和交換結(jié)構(gòu)（例如英偉達(dá)NvLink通信方式）2種，總線結(jié)構(gòu)因布線復(fù)雜和制程工藝要求較高，帶寬和擴展性受限。國產(chǎn)卡較多采用總線結(jié)構(gòu)，卡間互聯(lián)帶寬遠(yuǎn)低于國外產(chǎn)品，同時單機內(nèi)卡規(guī)模數(shù)一般不超過8，導(dǎo)致張量并行度受限。

c）訓(xùn)練時GPU服務(wù)器集群的通信。數(shù)據(jù)并行和流水線并行對集群內(nèi)機間實時通信的帶寬和時延帶來挑戰(zhàn)。為了減少計算單元的閑置，需要在流水線單元的計算周期內(nèi)完成前序數(shù)據(jù)的同步和通信，一般要求在百毫秒級完成數(shù)據(jù)通信，按照10GB級的通信量，集群內(nèi)機間帶寬應(yīng)至少達(dá)到100 Gbit/s，且隨著單卡算力和吞吐的增加，對機間帶寬的需求也同步增加。此外，為了避免數(shù)據(jù)重傳，一般要求集群內(nèi)組網(wǎng)為無損網(wǎng)絡(luò)。

2 智算中心的部署策略和方案建議

2.1 綠色集約、高效布局

當(dāng)前智算中心有2個典型選址策略：第一，優(yōu)先選擇“東數(shù)西算”樞紐節(jié)點，尤其是西部自然資源豐富的地區(qū)，土地和電力資源優(yōu)勢明顯；第二，聚焦北、上、廣、深等業(yè)務(wù)和大模型產(chǎn)業(yè)活躍的城市與地區(qū)［10］，靠近業(yè)務(wù)和數(shù)據(jù)。運營商因可信安全優(yōu)勢和充沛的骨干傳輸資源，在布局上具有天然優(yōu)勢，且基本符合上述策略，其中中國聯(lián)通優(yōu)先在上海、北京、廣東、內(nèi)蒙古開展“一基地三高地”智算梯次布局；中國移動規(guī)劃部署“4+N+31+X”數(shù)據(jù)中心，在內(nèi)蒙和林格爾建設(shè)大型單體智算中心；在中國電信“2+4+31+X+O”的算力布局中，除了內(nèi)蒙古和貴州2個全國性云基地，還在上海臨港部署了萬卡智算集群。

除布局策略外，智算中心在散熱模式、機房部署方面還應(yīng)充分考慮低碳綠色、集群組網(wǎng)，具體策略和方案建議如下。

a）優(yōu)選液冷散熱模式。液冷技術(shù)可有效降低PUE，提升裝機密度，且液冷節(jié)點及相關(guān)器件（例如光模塊）的溫度比風(fēng)冷節(jié)點更低，可有效提升可靠性，降低數(shù)據(jù)中心的運維成本，提高整體經(jīng)濟效益。在智算資源池的建設(shè)中，智算訓(xùn)練服務(wù)器應(yīng)優(yōu)先采用液冷技術(shù)。

b）慎用風(fēng)液混合模式。GPU集群長時間運行時，GPU卡在風(fēng)冷集群的溫度可能達(dá)到100℃以上，為避免過熱帶來的故障和風(fēng)險，GPU卡會進(jìn)行降頻處理，如果風(fēng)、液冷共集群，液冷設(shè)備的GPU卡的高性能就無法發(fā)揮最大價值。因此，在智算中心建設(shè)前要做好提前規(guī)劃，避免不必要的損失。

c）單一智算集群的機房不宜過度分散。為便于無損網(wǎng)絡(luò)組網(wǎng)部署和后續(xù)故障定位，建議Leaf與GPU服務(wù)器之間的距離不超過100 m，即兩者最好同機房部署；建議Leaf與Spine之間的距離不超過2 km，當(dāng)Spine與Leaf跨機房時，建議將所有Spine部署在一側(cè)機房，盡量減少拉遠(yuǎn)的Leaf數(shù)量。

2.2 多元探索、異構(gòu)優(yōu)化

國內(nèi)外主要GPU卡的基本情況如表2所示，其中英偉達(dá)GPU卡在算力、顯存、卡間通信、生態(tài)等方面處于領(lǐng)先地位，AMD和Intel的GPU卡在算力上逐步追趕，但是在生態(tài)上仍存在短板；國內(nèi)則以昇騰GPU卡為主導(dǎo)，其他國產(chǎn)GPU卡不僅算力不足，在實際規(guī)?；渴鹕弦踩狈Φ湫桶咐?

表2 國內(nèi)外主要GPU廠家和相應(yīng)型號

受政策影響，英偉達(dá)、Intel等國外芯片廠商的芯片面臨無法在中國出售或者改版而導(dǎo)致性能下降的問題，而國產(chǎn)GPU則在能力和生態(tài)上存在差距。

根據(jù)現(xiàn)狀，在算力策略和方案上的建議如下。

a）積極發(fā)展多元算力供給。一方面，應(yīng)發(fā)展多元GPU芯片。GPU芯片影響單位智算算力，已經(jīng)成為制約大模型發(fā)展的瓶頸，鑒于當(dāng)前國內(nèi)外政策和GPU發(fā)展水平，應(yīng)積極開展多元算力芯片適配以及異構(gòu)算力的管理和調(diào)度。另一方面，智算和通算需緊密結(jié)合。AI大模型的前端訪問和上層應(yīng)用離不開通算，而在訓(xùn)練和推理過程中，AI大模型也需要通算來運行和處理任務(wù)和數(shù)據(jù)的調(diào)度訪問。

b）兼顧多元芯片和單一芯片。多元算力異構(gòu)必然帶來多個智算軟件生態(tài)，為模型適配和優(yōu)化帶來挑戰(zhàn)，需要進(jìn)行差異化考慮。對于超千億的大模型的訓(xùn)練，因集群規(guī)模大、訓(xùn)練時間長、模型復(fù)雜，建議以單一GPU芯片為主；對于百億十億等中小模型，其集群規(guī)模在百卡左右，規(guī)模相對較小、模型適配相對簡單，可以進(jìn)行多元芯片探索。

c）兼顧時效性和芯片演進(jìn)。GPU芯片在不斷迭代更新，對于跨GPU芯片型號的組網(wǎng)，因為不同型號GPU的算力、互通、顯存等能力不同，存在木桶效應(yīng)，無法發(fā)揮高性能GPU芯片的效能，建議大規(guī)模集群選擇單一芯片，同時應(yīng)充分考慮建設(shè)交付周期、未來業(yè)務(wù)發(fā)展趨勢、芯片演進(jìn)計劃等因素。對于型號落后的GPU訓(xùn)練芯片，未來隨著多模態(tài)模型推理對算力需求的增加，可用于對視頻生成的推理。

2.3 分層分級、存算協(xié)同

運營商本身擁有較為豐富的數(shù)據(jù)資源，包括內(nèi)部IT系統(tǒng)積累的數(shù)據(jù)，也包括網(wǎng)絡(luò)運行過程中海量的性能、告警、故障等運行數(shù)據(jù)和用戶運營數(shù)據(jù)。上述海量數(shù)據(jù)通過運營商骨干網(wǎng)絡(luò)進(jìn)行傳輸，在匯聚、整合之后形成了特有的數(shù)據(jù)資產(chǎn)，此過程積累了數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)傳輸?shù)确矫娴募夹g(shù)。

鑒于上述優(yōu)勢和積累，對數(shù)據(jù)存儲方面的策略建議如下。

a）充分發(fā)揮大數(shù)據(jù)技術(shù)的優(yōu)勢。運營商經(jīng)過多年技術(shù)積累，具備在異構(gòu)硬件之上搭建大數(shù)據(jù)平臺，數(shù)據(jù)離線批處理和實時流處理的能力，同時儲備了數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整、數(shù)據(jù)治理的能力。在存儲方面，運營商可形成對外開放或可授權(quán)的數(shù)據(jù)資產(chǎn)，并將數(shù)據(jù)資產(chǎn)與智算服務(wù)相結(jié)合，實現(xiàn)數(shù)據(jù)增值。

b）做好存力和運力的協(xié)同。對于用戶數(shù)據(jù)存儲熱點區(qū)域，其存力需求巨大，需要提前做好和智算中心之間的運力提升，便于訓(xùn)練數(shù)據(jù)和推理數(shù)據(jù)的傳輸。

c）在具體存儲資源和能力部署上，對于清洗后的訓(xùn)練樣本、訓(xùn)練中的Checkpoint數(shù)據(jù)等熱數(shù)據(jù)，以及未清理的海量數(shù)據(jù)、訓(xùn)練好的模型數(shù)據(jù)等溫冷數(shù)據(jù)，因為兩者的訪問頻率和性能需求不同，需分別考慮其存儲方案。

d）對于熱存儲，為保障性能，采用高性能介質(zhì)NVMe SSD，建議優(yōu)選高速并發(fā)NAS協(xié)議，高帶寬接入?？紤]到磁盤陣列性價比和擴展性的問題，后端存儲可以采用Diskless架構(gòu)，其典型整體架構(gòu)如圖1所示。以在智算中心中廣泛應(yīng)用的Lustre/GPFS等高性能、面向?qū)ο蟮牟⑿形募到y(tǒng)為例，在Diskless架構(gòu)下，Lustre/GPFS使用“盤即存儲”的新型NVMe盤框替換存儲服務(wù)器，可實現(xiàn)資源的池化共享、按需分配和擴展，從而提升資源利用率，降低整體成本，同時還可以隔離故障，簡化運維管理。另外，從可靠性的角度來說，由于Lustre的多個OSS缺少副本機制，一個客戶端或節(jié)點發(fā)生故障時，存儲在該節(jié)點上的數(shù)據(jù)在重新啟動前將不可訪問，此時Diskless架構(gòu)的高可靠優(yōu)勢就更為凸顯。

圖1 采用Diskless架構(gòu)存儲設(shè)備的熱存儲方案

e）對于溫冷存儲，主要考慮性價比，應(yīng)配置高密度、大容量的硬盤。可以選擇傳統(tǒng)的分布式對象存儲，或者采用配置多盤位大容量機械硬盤的高密度新型Diskless架構(gòu)存儲設(shè)備。

2.4 前瞻組網(wǎng)、無損傳輸

當(dāng)前運營商已經(jīng)部署了布局廣泛的通算資源以及運力充沛的網(wǎng)絡(luò)資源。在部署智算中心的過程中，運營商可充分發(fā)揮已有的資源優(yōu)勢，主要的組網(wǎng)策略如下。

a）充分考慮和東部地區(qū)數(shù)據(jù)的網(wǎng)絡(luò)通道。智算中心的數(shù)據(jù)多來自于人口密集、經(jīng)濟活躍、互聯(lián)網(wǎng)業(yè)務(wù)深入的東部熱點地區(qū)，在組網(wǎng)中，智算中心要打通和東部熱點地區(qū)的網(wǎng)絡(luò)通道，使能訓(xùn)練數(shù)據(jù)、推理數(shù)據(jù)的傳輸。

b）集群內(nèi)的組網(wǎng)以終為始，長遠(yuǎn)規(guī)劃。不同組網(wǎng)方式存在擴容上限，需以終期算力規(guī)模確定配套的網(wǎng)絡(luò)設(shè)備，形成終期規(guī)劃方案，并結(jié)合近中遠(yuǎn)期需求進(jìn)行一次性建設(shè)或分期實施，在最大限度發(fā)揮算力效能的同時，預(yù)留擴展能力。

c）廣域跨集群訓(xùn)練要慎重。為滿足訓(xùn)練時GPU服務(wù)器集群的通信，用于并行通信的網(wǎng)絡(luò)平面按照1∶1的收斂比進(jìn)行組網(wǎng)，同時也因交換機緩存的限制，交換機之間的部署距離最遠(yuǎn)為2 km。如果要開展廣域跨集群組網(wǎng)，按照1∶1的收斂比進(jìn)行拉遠(yuǎn)，以1 024 GPU卡為例，在2個訓(xùn)練中心各部署64臺GPU服務(wù)器，即512卡，按照英偉達(dá)A100或昇騰910B所需要的200G網(wǎng)絡(luò)，參數(shù)面接入交換機下行到服務(wù)器為512個200G、上行到參數(shù)面匯聚交換機為256個400G，DC間需要256條400G鏈路，成本巨大；如果按照2×400Gbit/s互聯(lián)帶寬（即有一定收斂比），則數(shù)據(jù)發(fā)送總時延將增加近12.5天，按GPT-3訓(xùn)練時間30天計算，將增加40%的訓(xùn)練時間，且未考慮網(wǎng)絡(luò)設(shè)備出現(xiàn)數(shù)據(jù)包丟失和重傳的問題。

基于大模型組網(wǎng)需求和上述策略，智算中心典型組網(wǎng)方案如圖2所示，分為參數(shù)面、樣本面、業(yè)務(wù)面和管理（存儲）面4個平面。

圖2 智算中心典型組網(wǎng)方案

a）參數(shù)面。采用RoCEv2或IB協(xié)議實現(xiàn)無損轉(zhuǎn)發(fā)，Leaf作為接入節(jié)點的網(wǎng)關(guān)獨立部署，通過200 GE鏈路與訓(xùn)練服務(wù)器互聯(lián)。Leaf之上可以部署一層或兩層Spine作為匯聚，每層網(wǎng)絡(luò)之間按1∶1進(jìn)行收斂。充分利用RoCEv2和IB協(xié)議，實現(xiàn)流量負(fù)載均衡，防止傳統(tǒng)基于流的五元組進(jìn)行hash機制失效導(dǎo)致負(fù)載不均和網(wǎng)絡(luò)吞吐下降、集群業(yè)務(wù)性能下降。

b）樣本面。采用Spine-Leaf兩級無收斂架構(gòu)以滿足帶寬需求，通信協(xié)議RoCEv2可滿足時延需求，通常樣本面接入交換機端口為100G。GPU服務(wù)器通過該網(wǎng)絡(luò)平面訪問高性能文件熱存儲。

c）業(yè)務(wù)面/管理（存儲）面。業(yè)務(wù)接入交換機端口通常為25G，且上下行收斂比一般不超過1∶2.5，業(yè)務(wù)接入交換機之間的互聯(lián)帶寬建議大于等于單臺業(yè)務(wù)接入交換機上行帶寬的1/2，業(yè)務(wù)匯聚交換機之間的互聯(lián)帶寬建議大于等于單臺業(yè)務(wù)匯聚交換機上行帶寬的1/2。

2.5 統(tǒng)一運維、全量監(jiān)控

智算中心應(yīng)具備算力、網(wǎng)絡(luò)、存儲統(tǒng)一運維能力，統(tǒng)一管理監(jiān)控集群的訓(xùn)練服務(wù)器、存儲和網(wǎng)絡(luò)交換機設(shè)備，提供資源管理、性能監(jiān)控、告警監(jiān)控、光模塊監(jiān)控、日志分析、作業(yè)路徑、健康檢查、故障診斷等集群運維功能，具體功能要求建議如表3所示。

表3 智算中心運維管理功能建議

基于上述管理能力，形成對訓(xùn)前和訓(xùn)中的有力支撐。在訓(xùn)前階段，可提前檢查運行環(huán)境和組件狀態(tài)，降低任務(wù)運行失敗的概率；在訓(xùn)中階段，具備分鐘級的故障感知以及任務(wù)隔離能力，對于中斷的任務(wù)，可聯(lián)動斷點續(xù)訓(xùn)，進(jìn)行任務(wù)恢復(fù)。

3 結(jié)束語

隨著人工智能技術(shù)的快速發(fā)展，大模型訓(xùn)練對智能算力的需求呈指數(shù)級增長，促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心與傳統(tǒng)云資源池在布局、建設(shè)及維護(hù)方案上存在顯著差異。本文針對智算中心的建設(shè)提出了一系列策略和方案建議，以應(yīng)對大模型發(fā)展帶來的算力、存儲和組網(wǎng)需求的挑戰(zhàn)。

首先，智算中心的選址應(yīng)考慮自然資源豐富的地區(qū)，同時靠近業(yè)務(wù)和數(shù)據(jù)密集區(qū)域，以確保算力資源的有效利用。其次，針對算力需求，建議發(fā)展多元算力供給，兼顧多元芯片和單一芯片的使用，同時考慮GPU芯片的迭代更新，以適應(yīng)未來業(yè)務(wù)的發(fā)展趨勢。在存儲策略方面，運營商應(yīng)充分利用大數(shù)據(jù)技術(shù)優(yōu)勢，實現(xiàn)數(shù)據(jù)資產(chǎn)的增值，并做好存力和運力的協(xié)同規(guī)劃。在組網(wǎng)方面，應(yīng)充分考慮與東部熱點地區(qū)的網(wǎng)絡(luò)通道，長遠(yuǎn)規(guī)劃集群內(nèi)組網(wǎng)，并慎重考慮廣域跨集群訓(xùn)練的可行性。最后，智算中心的運維管理應(yīng)具備算網(wǎng)存統(tǒng)一運維能力，提供資源管理、性能監(jiān)控、告警監(jiān)控等功能，以支持大模型的高效運行。

本文的分析和建議旨在為運營商智算中心的規(guī)劃和建設(shè)提供參考，推動人工智能技術(shù)的進(jìn)一步發(fā)展。

分享到：

關(guān)鍵字：智算中心

中國儲能網(wǎng)版權(quán)說明：

1、凡注明來源為“中國儲能網(wǎng)：xxx（署名）”，除與中國儲能網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外，未經(jīng)本網(wǎng)授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用上述作品。

2、凡本網(wǎng)注明“來源：xxx（非中國儲能網(wǎng)）”的作品，均轉(zhuǎn)載與其他媒體，目的在于傳播更多信息，但并不代表中國儲能網(wǎng)贊同其觀點、立場或證實其描述。其他媒體如需轉(zhuǎn)載，請與稿件來源方聯(lián)系，如產(chǎn)生任何版權(quán)問題與本網(wǎng)無關(guān)。

3、如因作品內(nèi)容、版權(quán)以及引用的圖片（或配圖）內(nèi)容僅供參考，如有涉及版權(quán)問題，可聯(lián)系我們直接刪除處理。請在30日內(nèi)進(jìn)行。

4、有關(guān)作品版權(quán)事宜請聯(lián)系：13661266197、郵箱：[email protected]

精品人妻系列无码人妻漫画,久久精品国产一区二区三区,国产精品无码专区,无码人妻少妇伦在线电影,亚洲人妻熟人中文字幕一区二区,jiujiuav在线,日韩高清久久AV

運營商智算中心建設(shè)思路及方案

關(guān)鍵字：智算中心