中國儲能網(wǎng)訊:如果想提高數(shù)據(jù)中心的正常運(yùn)行時間的話,就需要識別并減少最常見的故障源。這可能具有一定的挑戰(zhàn)性,因?yàn)閷?dǎo)致數(shù)據(jù)中心宕機(jī)的原因有很多,通常都不可能一下子解決所有的問題。數(shù)據(jù)中心運(yùn)營商需要決定優(yōu)先處理哪些正常運(yùn)行時間的威脅。
美國正常運(yùn)行時間研究所(Uptime Institute)的一份新報(bào)告在這方面提供了寶貴的指導(dǎo)。該報(bào)告詳細(xì)介紹了截至 2024 年最常見的數(shù)據(jù)中心正常運(yùn)行時間挑戰(zhàn),并對于一些會觸發(fā)數(shù)據(jù)中心中斷的事件揭示了一些令人驚訝的發(fā)現(xiàn)。
數(shù)據(jù)中心正常運(yùn)行時間的最大威脅
有些人可能會認(rèn)為,造成數(shù)據(jù)中心宕機(jī)的最常見原因是網(wǎng)絡(luò)攻擊或極端天氣之類的風(fēng)險(xiǎn),每當(dāng)這一類風(fēng)險(xiǎn)發(fā)生時往往會受到媒體的大量關(guān)注。
但實(shí)際上,從數(shù)據(jù)中心正常運(yùn)行時間的角度來看,這些風(fēng)險(xiǎn)幾乎可以忽略不計(jì)。導(dǎo)致大多數(shù)數(shù)據(jù)中心故障的核心問題可以分為以下幾類。
1、物理系統(tǒng)故障
電源問題是數(shù)據(jù)中心最常見故障的原因。根據(jù) Uptime Institute 的報(bào)告,電源問題占所有數(shù)據(jù)中心故障的 52%。
另有 19% 的故障源于數(shù)據(jù)中心的冷卻問題,Uptime Institute 將其與電力系統(tǒng)問題分開歸類。
這意味著數(shù)據(jù)中心最大的正常運(yùn)行時間風(fēng)險(xiǎn)明顯是物理系統(tǒng)故障。數(shù)據(jù)中心運(yùn)營商希望提高正常運(yùn)行時間的話,就應(yīng)該在冗余能源供應(yīng)或暖通空調(diào)系統(tǒng)等解決方案方面進(jìn)行投資。
2、第三方提供商的挑戰(zhàn)
數(shù)據(jù)中心正常運(yùn)行時間面臨的第二個最常見威脅是 Uptime Institute 稱之為有關(guān)第三方提供商的問題。這個問題指的是,企業(yè)通過外包協(xié)議或類似安排與服務(wù)提供商簽訂合同管理數(shù)據(jù)中心,而服務(wù)提供商導(dǎo)致了故障的發(fā)生。
至于轉(zhuǎn)為數(shù)據(jù)中心內(nèi)部運(yùn)營能否能緩解這一問題是很難說的。按理說,數(shù)據(jù)中心外包公司專門從事數(shù)據(jù)中心的日常運(yùn)營,其正常運(yùn)行率可能比那些不以數(shù)據(jù)中心管理為重點(diǎn)的企業(yè)要高。但每個人在這方面的體驗(yàn)可能會有所不同,這取決于企業(yè)內(nèi)部的員工是否擅長管理數(shù)據(jù)中心。
無論如何,這個數(shù)據(jù)點(diǎn)提醒我們,如果選擇第三方提供商來管理數(shù)據(jù)中心的運(yùn)營,那么就應(yīng)該詢問第三方提供商的正常運(yùn)行時間記錄,以確保提供商不會成為數(shù)據(jù)中心可用性戰(zhàn)略中最薄弱的環(huán)節(jié)。
3、IT 設(shè)備故障
IT 系統(tǒng)硬件和軟件故障是造成數(shù)據(jù)中心停機(jī)的第三大常見原因,這并不奇怪,因?yàn)樽詮臄?shù)字時代開始以來,企業(yè)就一直在為服務(wù)器的崩潰而苦惱。
沒有靈丹妙藥可以降低這種風(fēng)險(xiǎn),但還是有一些屢試不爽的策略,例如更多地在更好的監(jiān)控和可觀察性解決方案上投資,創(chuàng)建備份 IT 環(huán)境并配備自動故障轉(zhuǎn)移控制,以便在服務(wù)器崩潰時,其工作負(fù)載可以立即轉(zhuǎn)移到另一臺服務(wù)器上。
4、網(wǎng)絡(luò)故障
網(wǎng)絡(luò)故障與 IT 設(shè)備故障類似:二者導(dǎo)致數(shù)據(jù)中心宕機(jī)的比率幾乎完全相同,也是企業(yè)長期以來一直面臨的一類挑戰(zhàn)。
與增加 IT 設(shè)備正常運(yùn)行時間一樣,提升數(shù)據(jù)中心網(wǎng)絡(luò)可靠性的策略包括更好地監(jiān)控網(wǎng)絡(luò)和在網(wǎng)絡(luò)中構(gòu)建冗余,使得數(shù)據(jù)包可以在網(wǎng)絡(luò)部分出現(xiàn)故障時選擇替代路徑。
更廣泛地使用軟件定義網(wǎng)絡(luò)也可以提高網(wǎng)絡(luò)可靠性,使用軟件控制而不是物理網(wǎng)絡(luò)設(shè)備可以更容易識別和緩解故障。
其他數(shù)據(jù)中心正常運(yùn)行時間挑戰(zhàn)
火災(zāi)和信息安全事件也出現(xiàn)在Uptime Institute的數(shù)據(jù)中心停機(jī)原因排行榜上,但也只是勉強(qiáng)上榜,分別僅占所有停機(jī)事件的 3% 和 1%。
當(dāng)然,這并不是說不應(yīng)該投資防火措施和網(wǎng)絡(luò)安全保護(hù)措施。但在考慮要優(yōu)先哪些類型的數(shù)據(jù)中心正常運(yùn)行時間風(fēng)險(xiǎn)時,數(shù)據(jù)顯示這兩項(xiàng)不應(yīng)該是清單上的唯一行動。