外媒報道,目前科技大廠爭相砸大錢購買的數(shù)據(jù)中心 GPU,其壽命可能只有 1~3 年。 真實(shí)壽命會落在1~3年的哪個時間點(diǎn)上,具體取決于其利用率的狀況。
根據(jù) Tom's hardware 引用一位任職于 Alphabet 的高級專家說法,由于 GPU 承擔(dān)了 AI 訓(xùn)練和推理的所有繁重工作,它們一直處于相當(dāng)大的工作執(zhí)行狀態(tài)之下,因此比其他零部件更快地退化。
報道表示,在云服務(wù)提供商(CSP)運(yùn)營的數(shù)據(jù)中心中,用于AI工作執(zhí)行的GPU利用率約當(dāng)在60%~70%之間。 而根據(jù) Alphabet 生成式 AI 架構(gòu)師的說法,以這種利用率來計算,GPU 通??梢源婊?1~2 年,最多達(dá)到 3 年的時間。 不過,這樣的說法并沒有辦法被進(jìn)一步的確認(rèn),所以事實(shí)是不是如此還有待時間來證明。 然而,這樣的說法似乎仍有幾分可信度,因?yàn)楝F(xiàn)代用于AI和HPC應(yīng)用的數(shù)據(jù)中心GPU通常能耗達(dá)到700W或以上,這長時間工作對芯片來說是巨大的壓力。
報道指出,有一種方式可以延長 GPU 的壽命,就是減少其利用率。 然而,這意味著它們會更慢的折舊,并延長收回成本的時間,這對業(yè)務(wù)來說并不是一件好事。 因此,大多數(shù)云服務(wù)提供商更愿意以高利用率來使用他們旗下部署的 GPU。
事實(shí)上,2024年剛開始之際,Meta發(fā)表了一份研究報告指出,Llama 3 405B的模型是在由16,384個英偉達(dá)H100 80GB GPU驅(qū)動的叢集上進(jìn)行訓(xùn)練的。 而該集群的模型的浮點(diǎn)運(yùn)算利用率(MFU)約為38%(使用BF16)。 但在54天的訓(xùn)練期間,有419次不可預(yù)知的故障。 其中有有148次,占比約30.1%的故障是由各種GPU故障,其中包括NVLink故障所引起的,而有另外的占比約17.2%的72次是由HBM3內(nèi)存故障所引起。
這個Meta的設(shè)結(jié)果似乎對英偉達(dá)H100 GPU的使用狀況非常有利。 因?yàn)镚PU及其存儲器在Meta統(tǒng)計比例下的速度出現(xiàn)故障,那么這些GPU的年化故障率將約為9%,而這些GPU在3年內(nèi)的年化故障率將約為27%。 不過,要注意的是,這些GPU可能會在頻繁的使用一年后,將可能更頻繁地出現(xiàn)故障。