精品人妻系列无码人妻漫画,久久精品国产一区二区三区,国产精品无码专区,无码人妻少妇伦在线电影,亚洲人妻熟人中文字幕一区二区,jiujiuav在线,日韩高清久久AV

中國儲能網(wǎng)歡迎您!
當(dāng)前位置: 首頁 >雙碳目標(biāo)>智能算力與基站 返回

運營商智算中心建設(shè)思路及方案

作者:童俊杰 申佳 赫罡 張奎 來源:《郵電設(shè)計技術(shù)》 發(fā)布時間:2024-11-05 瀏覽:

中國儲能網(wǎng)訊:

    摘要 人工智能訓(xùn)練的計算復(fù)雜度逐年猛增,所需的智能算力從每秒千萬次運算增加到數(shù)百億次,甚至進(jìn)入千億級別,促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心主要滿足智算算力的需求,其布局、建設(shè)及維護(hù)方案與傳統(tǒng)的云資源池存在較大差異,當(dāng)前運營商對智算中心的布局以及詳細(xì)方案并沒有統(tǒng)一的建議和參考。分析了大模型發(fā)展帶來的算力、存儲、組網(wǎng)的需求挑戰(zhàn),對運營商智算布局以及算力、存儲、網(wǎng)絡(luò)、維護(hù)管理等提出了相應(yīng)的策略和方案建議。

  前言 人工智能聊天機器人ChatGPT、AI編程工具GitHub Copilot、圖像生成系統(tǒng)Stable Diffusion、視頻生成系統(tǒng)Sora等生成式人工智能(Generative AI,Gen-AI)應(yīng)用和工具產(chǎn)品的出現(xiàn),為文本創(chuàng)建、圖像視頻生成、代碼生成以及研發(fā)流程等工作帶來了全新的智能體驗,極大地提升了生產(chǎn)力,提高了生產(chǎn)水平。

  Gen-AI應(yīng)用的出現(xiàn)離不開大模型的支持。大模型是基于海量參數(shù)進(jìn)行自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型,憑借更強的學(xué)習(xí)能力、更高的精準(zhǔn)度以及更強的泛化能力,正在成為人工智能技術(shù)發(fā)展的焦點。隨著大模型的快速成熟,其參數(shù)規(guī)模呈百萬倍增長,隨之而來的是算力需求的劇增,芯片算力的增長速度與模型參數(shù)規(guī)模的增長存在剪刀差,推動了超大規(guī)模智算集群的建設(shè)。

  作為基礎(chǔ)設(shè)施建設(shè)者和新質(zhì)生產(chǎn)力的推動者,電信運營商正積極推進(jìn)智算布局。本文基于大模型的發(fā)展趨勢和需求,結(jié)合運營商的特定優(yōu)勢,提出了智算集群布局以及算力、存儲、網(wǎng)絡(luò)和維護(hù)管理方面的策略和方案建議。

  1 大模型的發(fā)展趨勢和需求分析

  1.1 大模型發(fā)展的趨勢

  雖然大模型的概念已經(jīng)深入人心,但是目前沒有明確界定標(biāo)準(zhǔn)來判定模型為小模型還是大模型。根據(jù)模型表現(xiàn)和模型算力需求,業(yè)界一般認(rèn)為一個經(jīng)過充分訓(xùn)練的百億參數(shù)的模型可認(rèn)定為大模型[1]。大模型遵循的三大統(tǒng)計特征如下。

  a)Scaling Law。模型表現(xiàn)依賴于模型規(guī)模、計算量和數(shù)據(jù)量,這些因素之間呈現(xiàn)冪律關(guān)系[2]。

  b)Chinchilla Law。模型大小和數(shù)據(jù)量要同等比例擴展,即數(shù)據(jù)量需達(dá)到參數(shù)量的20倍,模型訓(xùn)練結(jié)果才能達(dá)到飽和[3]。

  c)智能涌現(xiàn)。只有訓(xùn)練計算超過1022或訓(xùn)練損失足夠低時,才會出現(xiàn)智能涌現(xiàn),即在典型人工智能任務(wù)上的能力大幅提升,而和具體模型無關(guān)[3-4]。

  上述三大統(tǒng)計特征揭示了,隨著參數(shù)模型量越來越大,模型對訓(xùn)練所需算力的需求越來越大,隨著Sora等多模態(tài)視頻模型的興起,參數(shù)量規(guī)模劇增,OpenAI的GPT-4以及Google的Gemini Ultra都宣稱達(dá)到了萬億級參數(shù)[5]。參數(shù)量劇增導(dǎo)致訓(xùn)練所需的數(shù)據(jù)量越來越大,有預(yù)測認(rèn)為,到2026年文本數(shù)據(jù)將被訓(xùn)練完,圖像數(shù)據(jù)將在2040年前后被用完,合成數(shù)據(jù)將會是未來數(shù)據(jù)的主要來源[6],數(shù)據(jù)量規(guī)模會再一次量級躍遷,對存儲的規(guī)模和性能帶來更大的挑戰(zhàn)。此外,智算集群的規(guī)模也從百卡發(fā)展到萬卡,甚至十萬卡級別,對網(wǎng)絡(luò)通信的帶寬和時延要求越來越高。

  1.2 算力需求和挑戰(zhàn)

  在Transformer模型結(jié)構(gòu)中,算力需求與模型參數(shù)規(guī)模、數(shù)據(jù)量具有相關(guān)性,具體如表1所示。

表1 算力需求和模型參數(shù)規(guī)模

圖片

  按照上述關(guān)系,以GPT-3 175B的參數(shù)量(1 746億)為例,其訓(xùn)練算力的需求為6×174.6B×300B=314 000 EFLOPS。若采用910B(376 TFLOPS@FP16)集群,按照GPU利用率為30%,訓(xùn)練28天,則需要約1 150張910B GPU卡。

  按照上述測算,對于萬億參數(shù)模型,則需要萬卡級規(guī)模集群;對于十萬億參數(shù)模型,則需要十萬卡級規(guī)模集群。因此,為了實現(xiàn)通用人工智能AGI,國內(nèi)外互聯(lián)網(wǎng)廠商紛紛開始“囤卡”。在算力需求倍增的同時,帶來如下挑戰(zhàn)。

  a)對顯存容量和性能的挑戰(zhàn)。GPU卡中的高帶寬存儲器(High Bandwidth Memory,HBM)是基于3D堆棧工藝的高性能DRAM,其本質(zhì)是將多個DDR芯片堆疊后和GPU一起封裝。目前,AI算力增長速度遠(yuǎn)高于顯存容量和性能的增長速度,以英偉達(dá)A100、H100為例,雖然H100較A100的算力增長了將近3倍,但顯存容量沒增長,帶寬只增長了近2倍,這對分布式顯存調(diào)度提出了更高的要求[8]。此外,當(dāng)前HBM的主要廠商為海力士、三星和美光,國產(chǎn)GPU卡可能無法使用最新的HBM技術(shù),顯存能力演進(jìn)受限。

  b)對散熱和資源的挑戰(zhàn)。從GPU卡的演進(jìn)來看,GPU模型的算力和功耗成比例增長,昇騰910B芯片TDP為392 W,單臺訓(xùn)練服務(wù)器功耗達(dá)到5.2 kW。以GPT-3為例,訓(xùn)練所需電量達(dá)到1 287 MW(碳排放為502 t),每天推理需要用電50萬 kWh,冷卻設(shè)備所需的水達(dá)到70萬 L,對電力資源和水資源都是巨大挑戰(zhàn)[9]。

  c)對GPU跨廠家協(xié)同、跨代際演進(jìn)的挑戰(zhàn)。跨廠家GPU因為軟件生態(tài)、底層算子不同,導(dǎo)致上層模型無法一次編譯后異構(gòu)執(zhí)行。即使采用同一廠家的GPU,也因為不同型號GPU的算力、顯存和通信能力甚至算子優(yōu)化不同,共集群訓(xùn)練時面臨性能損失、無法發(fā)揮優(yōu)勢的問題。

  d)對供應(yīng)鏈保障的挑戰(zhàn)。受美國芯片禁令的影響,國內(nèi)將無法購買國外先進(jìn)的GPU產(chǎn)品,國內(nèi)GPU的產(chǎn)能和生態(tài)面臨巨大挑戰(zhàn)。

  1.3 存儲需求和挑戰(zhàn)

  AI大模型的訓(xùn)練和推理都會涉及到數(shù)據(jù)的存取。在訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段,需要對海量數(shù)據(jù)進(jìn)行處理,包括格式對齊、歸一化、去重、隱私保護(hù)、異常值處理等。訓(xùn)練階段涉及海量小文件的訓(xùn)練數(shù)據(jù)存取和訓(xùn)練過程中參數(shù)文件的周期性保存;在推理階段,需要讀取本地存儲的模型參數(shù),并對實時樣本進(jìn)行處理,輸出推理結(jié)果。

  AI大模型的訓(xùn)練和推理對存儲帶來的挑戰(zhàn)如下。

  a)對數(shù)據(jù)訪問性能的挑戰(zhàn)。一方面是大量小文件帶來的元數(shù)據(jù)訪問挑戰(zhàn),另一方面則是海量小文件并發(fā)快速讀取、Checkpoint周期保存參數(shù)對數(shù)據(jù)存取帶來的挑戰(zhàn)。

  b)多模態(tài)數(shù)據(jù)統(tǒng)一訪問的挑戰(zhàn)。對于視頻和圖片多模態(tài)數(shù)據(jù)輸入,會對原始文件進(jìn)行特征提取并以小文件的形態(tài)保存,因視頻和圖片原始特征復(fù)雜,處理后數(shù)據(jù)量倍增。此外,為便于后續(xù)對多模態(tài)原始和特征數(shù)據(jù)的存取,需要建立相應(yīng)的快速檢索機制和內(nèi)容審核能力。

  c)對數(shù)據(jù)安全的挑戰(zhàn)。復(fù)雜繁多的數(shù)據(jù)處理環(huán)節(jié),導(dǎo)致數(shù)據(jù)處理存在諸多安全風(fēng)險,包括數(shù)據(jù)隱私泄露、數(shù)據(jù)違規(guī)侵權(quán)、數(shù)據(jù)不可追溯、數(shù)據(jù)操作不合規(guī)等。

 1.4 組網(wǎng)需求和挑戰(zhàn)

  在大模型訓(xùn)練和推理中,主要的關(guān)鍵網(wǎng)絡(luò)和相關(guān)通信挑戰(zhàn)如下。

  a)訓(xùn)練數(shù)據(jù)到訓(xùn)練計算集群的網(wǎng)絡(luò)通信。當(dāng)前數(shù)據(jù)源和數(shù)據(jù)存儲主要靠近人類居住密集和業(yè)務(wù)熱點區(qū)域,和自然土地資源、電力資源相對豐富的西部地區(qū)距離較遠(yuǎn)。在訓(xùn)練時,需將訓(xùn)練數(shù)據(jù)傳輸?shù)轿鞑抗?jié)點,這類數(shù)據(jù)對實時性要求不高,可以采用快遞硬盤或者互聯(lián)網(wǎng)專線進(jìn)行傳輸,以節(jié)約成本,但互聯(lián)網(wǎng)專線因業(yè)務(wù)模式的問題,當(dāng)前成本相對較高。以傳輸0.7 PB數(shù)據(jù)為例,采用2.5寸的3.68 TB硬盤進(jìn)行數(shù)據(jù)存儲,需要約50塊硬盤,如果采用航空快遞,1 000 km的快遞成本預(yù)計為1 000元、時間預(yù)計為24 h;若租賃1 Gbit/s有保障的互聯(lián)網(wǎng)專線,按照30 000元/月的價格(按照每月30天,每天費用為1 000元)計算,約1.5 h可完成數(shù)據(jù)傳輸。

  b)訓(xùn)練時單GPU服務(wù)器的卡間通信。為提升大模型的訓(xùn)練速度,一般會采用數(shù)據(jù)并行、流水線并行和張量并行,其中張量并行的并行度一般和單GPU服務(wù)器的卡數(shù)量等同,張量并行對卡間實時通信的帶寬和時延帶來挑戰(zhàn)。當(dāng)前卡間通信的結(jié)構(gòu)主要有總線結(jié)構(gòu)(例如昇騰HNCCS通信方式)和交換結(jié)構(gòu)(例如英偉達(dá)NvLink通信方式)2種,總線結(jié)構(gòu)因布線復(fù)雜和制程工藝要求較高,帶寬和擴展性受限。國產(chǎn)卡較多采用總線結(jié)構(gòu),卡間互聯(lián)帶寬遠(yuǎn)低于國外產(chǎn)品,同時單機內(nèi)卡規(guī)模數(shù)一般不超過8,導(dǎo)致張量并行度受限。

  c)訓(xùn)練時GPU服務(wù)器集群的通信。數(shù)據(jù)并行和流水線并行對集群內(nèi)機間實時通信的帶寬和時延帶來挑戰(zhàn)。為了減少計算單元的閑置,需要在流水線單元的計算周期內(nèi)完成前序數(shù)據(jù)的同步和通信,一般要求在百毫秒級完成數(shù)據(jù)通信,按照10GB級的通信量,集群內(nèi)機間帶寬應(yīng)至少達(dá)到100 Gbit/s,且隨著單卡算力和吞吐的增加,對機間帶寬的需求也同步增加。此外,為了避免數(shù)據(jù)重傳,一般要求集群內(nèi)組網(wǎng)為無損網(wǎng)絡(luò)。

  2 智算中心的部署策略和方案建議

  2.1 綠色集約、高效布局

  當(dāng)前智算中心有2個典型選址策略:第一,優(yōu)先選擇“東數(shù)西算”樞紐節(jié)點,尤其是西部自然資源豐富的地區(qū),土地和電力資源優(yōu)勢明顯;第二,聚焦北、上、廣、深等業(yè)務(wù)和大模型產(chǎn)業(yè)活躍的城市與地區(qū)[10],靠近業(yè)務(wù)和數(shù)據(jù)。運營商因可信安全優(yōu)勢和充沛的骨干傳輸資源,在布局上具有天然優(yōu)勢,且基本符合上述策略,其中中國聯(lián)通優(yōu)先在上海、北京、廣東、內(nèi)蒙古開展“一基地三高地”智算梯次布局;中國移動規(guī)劃部署“4+N+31+X”數(shù)據(jù)中心,在內(nèi)蒙和林格爾建設(shè)大型單體智算中心;在中國電信“2+4+31+X+O”的算力布局中,除了內(nèi)蒙古和貴州2個全國性云基地,還在上海臨港部署了萬卡智算集群。

  除布局策略外,智算中心在散熱模式、機房部署方面還應(yīng)充分考慮低碳綠色、集群組網(wǎng),具體策略和方案建議如下。

  a)優(yōu)選液冷散熱模式。液冷技術(shù)可有效降低PUE,提升裝機密度,且液冷節(jié)點及相關(guān)器件(例如光模塊)的溫度比風(fēng)冷節(jié)點更低,可有效提升可靠性,降低數(shù)據(jù)中心的運維成本,提高整體經(jīng)濟效益。在智算資源池的建設(shè)中,智算訓(xùn)練服務(wù)器應(yīng)優(yōu)先采用液冷技術(shù)。

  b)慎用風(fēng)液混合模式。GPU集群長時間運行時,GPU卡在風(fēng)冷集群的溫度可能達(dá)到100℃以上,為避免過熱帶來的故障和風(fēng)險,GPU卡會進(jìn)行降頻處理,如果風(fēng)、液冷共集群,液冷設(shè)備的GPU卡的高性能就無法發(fā)揮最大價值。因此,在智算中心建設(shè)前要做好提前規(guī)劃,避免不必要的損失。

  c)單一智算集群的機房不宜過度分散。為便于無損網(wǎng)絡(luò)組網(wǎng)部署和后續(xù)故障定位,建議Leaf與GPU服務(wù)器之間的距離不超過100 m,即兩者最好同機房部署;建議Leaf與Spine之間的距離不超過2 km,當(dāng)Spine與Leaf跨機房時,建議將所有Spine部署在一側(cè)機房,盡量減少拉遠(yuǎn)的Leaf數(shù)量。

  2.2 多元探索、異構(gòu)優(yōu)化

  國內(nèi)外主要GPU卡的基本情況如表2所示,其中英偉達(dá)GPU卡在算力、顯存、卡間通信、生態(tài)等方面處于領(lǐng)先地位,AMD和Intel的GPU卡在算力上逐步追趕,但是在生態(tài)上仍存在短板;國內(nèi)則以昇騰GPU卡為主導(dǎo),其他國產(chǎn)GPU卡不僅算力不足,在實際規(guī)?;渴鹕弦踩狈Φ湫桶咐?

表2 國內(nèi)外主要GPU廠家和相應(yīng)型號

圖片

  受政策影響,英偉達(dá)、Intel等國外芯片廠商的芯片面臨無法在中國出售或者改版而導(dǎo)致性能下降的問題,而國產(chǎn)GPU則在能力和生態(tài)上存在差距。

  根據(jù)現(xiàn)狀,在算力策略和方案上的建議如下。

  a)積極發(fā)展多元算力供給。一方面,應(yīng)發(fā)展多元GPU芯片。GPU芯片影響單位智算算力,已經(jīng)成為制約大模型發(fā)展的瓶頸,鑒于當(dāng)前國內(nèi)外政策和GPU發(fā)展水平,應(yīng)積極開展多元算力芯片適配以及異構(gòu)算力的管理和調(diào)度。另一方面,智算和通算需緊密結(jié)合。AI大模型的前端訪問和上層應(yīng)用離不開通算,而在訓(xùn)練和推理過程中,AI大模型也需要通算來運行和處理任務(wù)和數(shù)據(jù)的調(diào)度訪問。

  b)兼顧多元芯片和單一芯片。多元算力異構(gòu)必然帶來多個智算軟件生態(tài),為模型適配和優(yōu)化帶來挑戰(zhàn),需要進(jìn)行差異化考慮。對于超千億的大模型的訓(xùn)練,因集群規(guī)模大、訓(xùn)練時間長、模型復(fù)雜,建議以單一GPU芯片為主;對于百億十億等中小模型,其集群規(guī)模在百卡左右,規(guī)模相對較小、模型適配相對簡單,可以進(jìn)行多元芯片探索。

  c)兼顧時效性和芯片演進(jìn)。GPU芯片在不斷迭代更新,對于跨GPU芯片型號的組網(wǎng),因為不同型號GPU的算力、互通、顯存等能力不同,存在木桶效應(yīng),無法發(fā)揮高性能GPU芯片的效能,建議大規(guī)模集群選擇單一芯片,同時應(yīng)充分考慮建設(shè)交付周期、未來業(yè)務(wù)發(fā)展趨勢、芯片演進(jìn)計劃等因素。對于型號落后的GPU訓(xùn)練芯片,未來隨著多模態(tài)模型推理對算力需求的增加,可用于對視頻生成的推理。

  2.3 分層分級、存算協(xié)同

  運營商本身擁有較為豐富的數(shù)據(jù)資源,包括內(nèi)部IT系統(tǒng)積累的數(shù)據(jù),也包括網(wǎng)絡(luò)運行過程中海量的性能、告警、故障等運行數(shù)據(jù)和用戶運營數(shù)據(jù)。上述海量數(shù)據(jù)通過運營商骨干網(wǎng)絡(luò)進(jìn)行傳輸,在匯聚、整合之后形成了特有的數(shù)據(jù)資產(chǎn),此過程積累了數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)傳輸?shù)确矫娴募夹g(shù)。

  鑒于上述優(yōu)勢和積累,對數(shù)據(jù)存儲方面的策略建議如下。

  a)充分發(fā)揮大數(shù)據(jù)技術(shù)的優(yōu)勢。運營商經(jīng)過多年技術(shù)積累,具備在異構(gòu)硬件之上搭建大數(shù)據(jù)平臺,數(shù)據(jù)離線批處理和實時流處理的能力,同時儲備了數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整、數(shù)據(jù)治理的能力。在存儲方面,運營商可形成對外開放或可授權(quán)的數(shù)據(jù)資產(chǎn),并將數(shù)據(jù)資產(chǎn)與智算服務(wù)相結(jié)合,實現(xiàn)數(shù)據(jù)增值。

  b)做好存力和運力的協(xié)同。對于用戶數(shù)據(jù)存儲熱點區(qū)域,其存力需求巨大,需要提前做好和智算中心之間的運力提升,便于訓(xùn)練數(shù)據(jù)和推理數(shù)據(jù)的傳輸。

  c)在具體存儲資源和能力部署上,對于清洗后的訓(xùn)練樣本、訓(xùn)練中的Checkpoint數(shù)據(jù)等熱數(shù)據(jù),以及未清理的海量數(shù)據(jù)、訓(xùn)練好的模型數(shù)據(jù)等溫冷數(shù)據(jù),因為兩者的訪問頻率和性能需求不同,需分別考慮其存儲方案。

  d)對于熱存儲,為保障性能,采用高性能介質(zhì)NVMe SSD,建議優(yōu)選高速并發(fā)NAS協(xié)議,高帶寬接入??紤]到磁盤陣列性價比和擴展性的問題,后端存儲可以采用Diskless架構(gòu),其典型整體架構(gòu)如圖1所示。以在智算中心中廣泛應(yīng)用的Lustre/GPFS等高性能、面向?qū)ο蟮牟⑿形募到y(tǒng)為例,在Diskless架構(gòu)下,Lustre/GPFS使用“盤即存儲”的新型NVMe盤框替換存儲服務(wù)器,可實現(xiàn)資源的池化共享、按需分配和擴展,從而提升資源利用率,降低整體成本,同時還可以隔離故障,簡化運維管理。另外,從可靠性的角度來說,由于Lustre的多個OSS缺少副本機制,一個客戶端或節(jié)點發(fā)生故障時,存儲在該節(jié)點上的數(shù)據(jù)在重新啟動前將不可訪問,此時Diskless架構(gòu)的高可靠優(yōu)勢就更為凸顯。

圖片

圖1 采用Diskless架構(gòu)存儲設(shè)備的熱存儲方案

  e)對于溫冷存儲,主要考慮性價比,應(yīng)配置高密度、大容量的硬盤。可以選擇傳統(tǒng)的分布式對象存儲,或者采用配置多盤位大容量機械硬盤的高密度新型Diskless架構(gòu)存儲設(shè)備。

  2.4 前瞻組網(wǎng)、無損傳輸

  當(dāng)前運營商已經(jīng)部署了布局廣泛的通算資源以及運力充沛的網(wǎng)絡(luò)資源。在部署智算中心的過程中,運營商可充分發(fā)揮已有的資源優(yōu)勢,主要的組網(wǎng)策略如下。

  a)充分考慮和東部地區(qū)數(shù)據(jù)的網(wǎng)絡(luò)通道。智算中心的數(shù)據(jù)多來自于人口密集、經(jīng)濟活躍、互聯(lián)網(wǎng)業(yè)務(wù)深入的東部熱點地區(qū),在組網(wǎng)中,智算中心要打通和東部熱點地區(qū)的網(wǎng)絡(luò)通道,使能訓(xùn)練數(shù)據(jù)、推理數(shù)據(jù)的傳輸。

  b)集群內(nèi)的組網(wǎng)以終為始,長遠(yuǎn)規(guī)劃。不同組網(wǎng)方式存在擴容上限,需以終期算力規(guī)模確定配套的網(wǎng)絡(luò)設(shè)備,形成終期規(guī)劃方案,并結(jié)合近中遠(yuǎn)期需求進(jìn)行一次性建設(shè)或分期實施,在最大限度發(fā)揮算力效能的同時,預(yù)留擴展能力。

  c)廣域跨集群訓(xùn)練要慎重。為滿足訓(xùn)練時GPU服務(wù)器集群的通信,用于并行通信的網(wǎng)絡(luò)平面按照1∶1的收斂比進(jìn)行組網(wǎng),同時也因交換機緩存的限制,交換機之間的部署距離最遠(yuǎn)為2 km。如果要開展廣域跨集群組網(wǎng),按照1∶1的收斂比進(jìn)行拉遠(yuǎn),以1 024 GPU卡為例,在2個訓(xùn)練中心各部署64臺GPU服務(wù)器,即512卡,按照英偉達(dá)A100或昇騰910B所需要的200G網(wǎng)絡(luò),參數(shù)面接入交換機下行到服務(wù)器為512個200G、上行到參數(shù)面匯聚交換機為256個400G,DC間需要256條400G鏈路,成本巨大;如果按照2×400Gbit/s互聯(lián)帶寬(即有一定收斂比),則數(shù)據(jù)發(fā)送總時延將增加近12.5天,按GPT-3訓(xùn)練時間30天計算,將增加40%的訓(xùn)練時間,且未考慮網(wǎng)絡(luò)設(shè)備出現(xiàn)數(shù)據(jù)包丟失和重傳的問題。

  基于大模型組網(wǎng)需求和上述策略,智算中心典型組網(wǎng)方案如圖2所示,分為參數(shù)面、樣本面、業(yè)務(wù)面和管理(存儲)面4個平面。

圖片

圖2 智算中心典型組網(wǎng)方案

  a)參數(shù)面。采用RoCEv2或IB協(xié)議實現(xiàn)無損轉(zhuǎn)發(fā),Leaf作為接入節(jié)點的網(wǎng)關(guān)獨立部署,通過200 GE鏈路與訓(xùn)練服務(wù)器互聯(lián)。Leaf之上可以部署一層或兩層Spine作為匯聚,每層網(wǎng)絡(luò)之間按1∶1進(jìn)行收斂。充分利用RoCEv2和IB協(xié)議,實現(xiàn)流量負(fù)載均衡,防止傳統(tǒng)基于流的五元組進(jìn)行hash機制失效導(dǎo)致負(fù)載不均和網(wǎng)絡(luò)吞吐下降、集群業(yè)務(wù)性能下降。

  b)樣本面。采用Spine-Leaf兩級無收斂架構(gòu)以滿足帶寬需求,通信協(xié)議RoCEv2可滿足時延需求,通常樣本面接入交換機端口為100G。GPU服務(wù)器通過該網(wǎng)絡(luò)平面訪問高性能文件熱存儲。

  c)業(yè)務(wù)面/管理(存儲)面。業(yè)務(wù)接入交換機端口通常為25G,且上下行收斂比一般不超過1∶2.5,業(yè)務(wù)接入交換機之間的互聯(lián)帶寬建議大于等于單臺業(yè)務(wù)接入交換機上行帶寬的1/2,業(yè)務(wù)匯聚交換機之間的互聯(lián)帶寬建議大于等于單臺業(yè)務(wù)匯聚交換機上行帶寬的1/2。

  2.5 統(tǒng)一運維、全量監(jiān)控

  智算中心應(yīng)具備算力、網(wǎng)絡(luò)、存儲統(tǒng)一運維能力,統(tǒng)一管理監(jiān)控集群的訓(xùn)練服務(wù)器、存儲和網(wǎng)絡(luò)交換機設(shè)備,提供資源管理、性能監(jiān)控、告警監(jiān)控、光模塊監(jiān)控、日志分析、作業(yè)路徑、健康檢查、故障診斷等集群運維功能,具體功能要求建議如表3所示。

表3 智算中心運維管理功能建議

圖片

  基于上述管理能力,形成對訓(xùn)前和訓(xùn)中的有力支撐。在訓(xùn)前階段,可提前檢查運行環(huán)境和組件狀態(tài),降低任務(wù)運行失敗的概率;在訓(xùn)中階段,具備分鐘級的故障感知以及任務(wù)隔離能力,對于中斷的任務(wù),可聯(lián)動斷點續(xù)訓(xùn),進(jìn)行任務(wù)恢復(fù)。

 3 結(jié)束語

  隨著人工智能技術(shù)的快速發(fā)展,大模型訓(xùn)練對智能算力的需求呈指數(shù)級增長,促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心與傳統(tǒng)云資源池在布局、建設(shè)及維護(hù)方案上存在顯著差異。本文針對智算中心的建設(shè)提出了一系列策略和方案建議,以應(yīng)對大模型發(fā)展帶來的算力、存儲和組網(wǎng)需求的挑戰(zhàn)。

  首先,智算中心的選址應(yīng)考慮自然資源豐富的地區(qū),同時靠近業(yè)務(wù)和數(shù)據(jù)密集區(qū)域,以確保算力資源的有效利用。其次,針對算力需求,建議發(fā)展多元算力供給,兼顧多元芯片和單一芯片的使用,同時考慮GPU芯片的迭代更新,以適應(yīng)未來業(yè)務(wù)的發(fā)展趨勢。在存儲策略方面,運營商應(yīng)充分利用大數(shù)據(jù)技術(shù)優(yōu)勢,實現(xiàn)數(shù)據(jù)資產(chǎn)的增值,并做好存力和運力的協(xié)同規(guī)劃。在組網(wǎng)方面,應(yīng)充分考慮與東部熱點地區(qū)的網(wǎng)絡(luò)通道,長遠(yuǎn)規(guī)劃集群內(nèi)組網(wǎng),并慎重考慮廣域跨集群訓(xùn)練的可行性。最后,智算中心的運維管理應(yīng)具備算網(wǎng)存統(tǒng)一運維能力,提供資源管理、性能監(jiān)控、告警監(jiān)控等功能,以支持大模型的高效運行。

  本文的分析和建議旨在為運營商智算中心的規(guī)劃和建設(shè)提供參考,推動人工智能技術(shù)的進(jìn)一步發(fā)展。


分享到:

關(guān)鍵字:智算中心

中國儲能網(wǎng)版權(quán)說明:

1、凡注明來源為“中國儲能網(wǎng):xxx(署名)”,除與中國儲能網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外,未經(jīng)本網(wǎng)授權(quán),任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用上述作品。

2、凡本網(wǎng)注明“來源:xxx(非中國儲能網(wǎng))”的作品,均轉(zhuǎn)載與其他媒體,目的在于傳播更多信息,但并不代表中國儲能網(wǎng)贊同其觀點、立場或證實其描述。其他媒體如需轉(zhuǎn)載,請與稿件來源方聯(lián)系,如產(chǎn)生任何版權(quán)問題與本網(wǎng)無關(guān)。

3、如因作品內(nèi)容、版權(quán)以及引用的圖片(或配圖)內(nèi)容僅供參考,如有涉及版權(quán)問題,可聯(lián)系我們直接刪除處理。請在30日內(nèi)進(jìn)行。

4、有關(guān)作品版權(quán)事宜請聯(lián)系:13661266197、 郵箱:[email protected]