中國儲能網(wǎng)訊:AI大潮下,今年的世界人工智能大會格外受到關(guān)注。大模型、人形機(jī)器人群雄并起的同時(shí),算力產(chǎn)業(yè)也在迭代升級。
會上,昇騰、摩爾線程、壁仞科技、燧原、天數(shù)智芯、浪潮、新華三等算力廠商悉數(shù)到場。從各家展臺看,相比于單體硬件,目前廠商更聚焦集群的一體化方案和實(shí)際運(yùn)營效率。
整體而言,國產(chǎn)算力正在崛起。摩爾線程創(chuàng)始人兼CEO張建中接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)談道:“幾年前對于客戶來說,國產(chǎn)只是備份,現(xiàn)在很多國產(chǎn)已經(jīng)成為首選了,因?yàn)橐WC長期供應(yīng)、本地服務(wù)?!?
近日,摩爾線程宣布其AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)升級,從當(dāng)前的千卡級別大幅擴(kuò)展至萬卡規(guī)模。當(dāng)然,摩爾線程作為GPU初創(chuàng)公司,也直面英偉達(dá)等巨頭的競爭。
談及競爭的挑戰(zhàn),張建中表示:“難點(diǎn)主要是在市場的推廣、用戶的生態(tài)適配和生態(tài)發(fā)展,肯定需要一個(gè)過程。”而能不能建好生態(tài),需要上下游生態(tài)產(chǎn)業(yè)鏈一起合力發(fā)展,包括算力的供應(yīng)商、建設(shè)方、軟件服務(wù)等等。
萬卡標(biāo)配
張建中認(rèn)為,當(dāng)前正處在生成式人工智能的黃金時(shí)代,GPU成為加速新技術(shù)浪潮來臨的創(chuàng)新引擎。
自大模型問世出圈以來,GPU的需求量就進(jìn)一步加大。比如,OpenAI的ChatGPT-4共有1.8萬億參數(shù),一次訓(xùn)練需要在大約25000個(gè)A100上訓(xùn)練90到100天。
當(dāng)前,基礎(chǔ)大模型的混戰(zhàn)還在繼續(xù),各家繼續(xù)訂購算力資源。同時(shí)從趨勢看,大模型對算力提出更高要求。比如Scaling Law將持續(xù)奏效,需要單點(diǎn)規(guī)模夠大且通用的算力才能快速跟上技術(shù)演進(jìn);Transformer架構(gòu)之外,Mamba、RWKV和RetNet等新興架構(gòu),同樣需要更高性能計(jì)算資源。
因此,在摩爾線程看來,AI模型訓(xùn)練的主戰(zhàn)場,萬卡已是標(biāo)配。隨著計(jì)算量不斷攀升,大模型訓(xùn)練亟需超級工廠,即一個(gè)“大且通用”的加速計(jì)算平臺,以縮短訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。
而科技巨頭都在通過積極部署千卡乃至超萬卡規(guī)模的計(jì)算集群,以確保大模型產(chǎn)品的競爭力。隨著模型參數(shù)量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進(jìn)一步升級,萬卡甚至超萬卡集群成為這一輪大模型競賽的入場券。
然而,構(gòu)建萬卡集群并非一萬張GPU卡的簡單堆疊,而是一項(xiàng)高度復(fù)雜的超級系統(tǒng)工程。它涉及超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計(jì)算、長期穩(wěn)定性和高可用性等諸多技術(shù)難題。
據(jù)介紹,摩爾線程夸娥(KUAE)萬卡智算集群,以全功能GPU為底座,旨在建設(shè)能夠承載萬卡規(guī)模、具備萬P級浮點(diǎn)運(yùn)算能力的國產(chǎn)通用加速計(jì)算平臺,專為萬億參數(shù)級別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。
張建中表示:“現(xiàn)在夸娥千卡集群MFU(算力利用率)有50%多,目標(biāo)是做到60%,做萬卡集群的時(shí)候,會有很多技術(shù)手段去提升MFU,包括軟件、硬件很多方面,目標(biāo)是達(dá)到業(yè)內(nèi)較好水平。”
目前,摩爾線程已經(jīng)聯(lián)合中國移動通信集團(tuán)青海有限公司、中國聯(lián)通青海公司、北京德道信科集團(tuán)、中國能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司分別就三個(gè)萬卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約。
算力競賽
近十年來,全球的算力市場經(jīng)歷了不小的變化。一方面,云計(jì)算、AI需求驅(qū)動下,算力市場規(guī)模不斷攀升;另一方面,數(shù)據(jù)中心的類型也從通用計(jì)算,拓展至更注重AI能力的智能計(jì)算,或者說加速計(jì)算。
IDC中國研究經(jīng)理索引此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道采訪時(shí)談道,中國的算力市場正在由高速增長進(jìn)入到高質(zhì)量增長的階段。過去十幾年,中國全面進(jìn)入數(shù)字化經(jīng)濟(jì)這個(gè)新的階段,對算力產(chǎn)生了大量的需求。
尤其是近兩年生成式AI,為算力產(chǎn)業(yè)帶來了新需求。在新的數(shù)據(jù)中心建設(shè)過程中,智算數(shù)據(jù)中心層出不窮,GPU則是底層的計(jì)算核心。
隨著各地智算中心的增長,業(yè)內(nèi)關(guān)注兩方面課題,其一是投資回報(bào)率,其二是需求是否會過剩。
談及投資和產(chǎn)出,張建中說道:“目前智算中心投資回報(bào)率是5年左右,根據(jù)市場的租金、使用率以及用戶愿意付的價(jià)錢,這是正常的(周期),而且資本愿意去看5年回報(bào)周期。對于我們研發(fā)一顆芯片來說,研發(fā)費(fèi)用(成本)相對美國公司來說更低,大概相當(dāng)于他們的1/10,我們在國內(nèi)可以得到更好的回報(bào)?!?
另一方面,對于智算中心的火熱建設(shè),張建中提到了兩個(gè)建議,首先是不應(yīng)盲目建設(shè),“不可能說連市場客戶都沒有就盲目建設(shè),不是所有人都應(yīng)該去建算力中心,而是應(yīng)該由專業(yè)的人干專業(yè)的事?!?
其次建集群也有風(fēng)險(xiǎn),“建完之后好不好用、是不是能夠通用、是不是能穩(wěn)定運(yùn)行、有沒有能力去運(yùn)營,都是需要考慮的事情。所以我們給用戶提供建議的時(shí)候,希望使用我們的一攬子的解決方案,采用整體解決方案可以避免風(fēng)險(xiǎn)?!睆埥ㄖ姓劦?。
有產(chǎn)業(yè)鏈人士向記者指出,去年很多客戶的業(yè)務(wù)重心都放在AI訓(xùn)練上,但今年一些頭部互聯(lián)網(wǎng)和大模型公司面臨的主要挑戰(zhàn)是落地應(yīng)用。這也意味著,除了訓(xùn)練之外,各個(gè)行業(yè)的推理的需求也將快速增長。
眼下,算力市場正在經(jīng)歷變革。未來,隨著生成式AI和智能計(jì)算的不斷發(fā)展,算力需求將持續(xù)增加。從硬件、軟件、集群、到智算中心,合理規(guī)劃和體系化建設(shè)也將愈發(fā)重要。