人工智能GPU工作壓力也很大，平均壽命落在1~3年

來源：科技新報 2024-10-29 10:28:46

外媒報道，目前科技大廠爭相砸大錢購買的數(shù)據(jù)中心 GPU，其壽命可能只有 1~3 年。真實(shí)壽命會落在1~3年的哪個時間點(diǎn)上，具體取決于其利用率的狀況。

根據(jù) Tom's hardware 引用一位任職于 Alphabet 的高級專家說法，由于 GPU 承擔(dān)了 AI 訓(xùn)練和推理的所有繁重工作，它們一直處于相當(dāng)大的工作執(zhí)行狀態(tài)之下，因此比其他零部件更快地退化。

報道表示，在云服務(wù)提供商（CSP）運(yùn)營的數(shù)據(jù)中心中，用于AI工作執(zhí)行的GPU利用率約當(dāng)在60%~70%之間。而根據(jù) Alphabet 生成式 AI 架構(gòu)師的說法，以這種利用率來計算，GPU 通?？梢源婊?1~2 年，最多達(dá)到 3 年的時間。不過，這樣的說法并沒有辦法被進(jìn)一步的確認(rèn)，所以事實(shí)是不是如此還有待時間來證明。然而，這樣的說法似乎仍有幾分可信度，因?yàn)楝F(xiàn)代用于AI和HPC應(yīng)用的數(shù)據(jù)中心GPU通常能耗達(dá)到700W或以上，這長時間工作對芯片來說是巨大的壓力。

報道指出，有一種方式可以延長 GPU 的壽命，就是減少其利用率。然而，這意味著它們會更慢的折舊，并延長收回成本的時間，這對業(yè)務(wù)來說并不是一件好事。因此，大多數(shù)云服務(wù)提供商更愿意以高利用率來使用他們旗下部署的 GPU。

事實(shí)上，2024年剛開始之際，Meta發(fā)表了一份研究報告指出，Llama 3 405B的模型是在由16,384個英偉達(dá)H100 80GB GPU驅(qū)動的叢集上進(jìn)行訓(xùn)練的。而該集群的模型的浮點(diǎn)運(yùn)算利用率（MFU）約為38%（使用BF16）。但在54天的訓(xùn)練期間，有419次不可預(yù)知的故障。其中有有148次，占比約30.1%的故障是由各種GPU故障，其中包括NVLink故障所引起的，而有另外的占比約17.2%的72次是由HBM3內(nèi)存故障所引起。

這個Meta的設(shè)結(jié)果似乎對英偉達(dá)H100 GPU的使用狀況非常有利。因?yàn)镚PU及其存儲器在Meta統(tǒng)計比例下的速度出現(xiàn)故障，那么這些GPU的年化故障率將約為9%，而這些GPU在3年內(nèi)的年化故障率將約為27%。不過，要注意的是，這些GPU可能會在頻繁的使用一年后，將可能更頻繁地出現(xiàn)故障。

微信

精彩資訊掃碼關(guān)注
新浪

成為我們的小粉絲
領(lǐng)英

成為我們的小粉絲
RSS

實(shí)時更新科技資訊

【免責(zé)聲明】

1、「DRAMeXchange-全球半導(dǎo)體觀察」包含的內(nèi)容和信息是根據(jù)公開資料分析和演釋，該公開資料，屬可靠之來源搜集，但這些分析和信息并未經(jīng)獨(dú)立核實(shí)。本網(wǎng)站有權(quán)但無此義務(wù)，改善或更正在本網(wǎng)站的任何部分之錯誤或疏失。
2、任何在「DRAMeXchange-全球半導(dǎo)體觀察」上出現(xiàn)的信息（包括但不限于公司資料、資訊、研究報告、產(chǎn)品價格等），力求但不保證數(shù)據(jù)的準(zhǔn)確性，均只作為參考，您須對您自主決定的行為負(fù)責(zé)。如有錯漏，請以各公司官方網(wǎng)站公布為準(zhǔn)。
3、「DRAMeXchange-全球半導(dǎo)體觀察」信息服務(wù)基于"現(xiàn)況"及"現(xiàn)有"提供，網(wǎng)站的信息和內(nèi)容如有更改恕不另行通知。
4、「DRAMeXchange-全球半導(dǎo)體觀察」尊重并保護(hù)所有使用用戶的個人隱私權(quán)，您注冊的用戶名、電子郵件地址等個人資料，非經(jīng)您親自許可或根據(jù)相關(guān)法律、法規(guī)的強(qiáng)制性規(guī)定，不會主動地泄露給第三方。

【版權(quán)聲明】

「DRAMeXchange-全球半導(dǎo)體觀察」所刊原創(chuàng)內(nèi)容之著作權(quán)屬于「DRAMeXchange-全球半導(dǎo)體觀察」網(wǎng)站所有，未經(jīng)本站之同意或授權(quán)，任何人不得以任何形式重制、轉(zhuǎn)載、散布、引用、變更、播送或出版該內(nèi)容之全部或局部，亦不得有其他任何違反本站著作權(quán)之行為。

相關(guān)關(guān)鍵詞:

初創(chuàng)公司Untether推出低能耗AI芯片，基于RISC-V技術(shù)

比今年多 150%！英特爾目標(biāo)2025年出貨一億臺AI PC

已经塞了八颗荔枝了窦寇儿_校园春色亚洲欧美日韩中文字幕在线观看_5678电影网午夜理论片_国内精品视频天天在线观看_国产一级二级91_女人的张开腿让男人桶爽视频_丁香婷婷深情五月丁香中文字幕_日本高清免费在线观看

人工智能GPU工作壓力也很大，平均壽命落在1~3年

相關(guān)文章

每日行情

主編推薦

研究報告

已经塞了八颗荔枝了窦寇儿_校园春色亚洲欧美日韩中文字幕在线观看_5678电影网午夜理论片_国内精品视频天天在线观看_国产一级二级91_女人的张开腿让男人桶爽视频_丁香婷婷深情五月丁香中文字幕_日本高清免费在线观看

人工智能GPU工作壓力也很大，平均壽命落在1~3年

相關(guān)文章

每日行情

主編推薦

研究報告

人工智能GPU工作壓力也很大，平均壽命落在1~3年