人工智能(AI)創(chuàng)新計(jì)算解決方案的新創(chuàng)企業(yè)Cerebras Systems表示,目前人腦包含大約100萬億個(gè)神經(jīng)元的突觸,但現(xiàn)階段最大的AI硬件叢集大約為人類大腦規(guī)模的1%,或約1萬億個(gè)神經(jīng)元突觸量,這稱為參數(shù)。而這些AI硬件中的處理器集群雖僅為人類大腦規(guī)模的一小部分,卻占用了數(shù)英畝的空間和數(shù)兆瓦的功率,并且需要專門的團(tuán)隊(duì)進(jìn)行操作。基于以上的因素,Cerebras Systems于北京時(shí)間24日推出了世界上第一個(gè)人類大腦級AI解決方案,能用以支持超過120萬億個(gè)參數(shù)的運(yùn)算模型。
Cerebras Systems強(qiáng)調(diào),世界上第一個(gè)人類大腦級AI解決方案是使單個(gè)有如小型冰箱大小,內(nèi)含CS-2運(yùn)算系統(tǒng)的AI硬件系統(tǒng)能夠支持超過120萬億個(gè)參數(shù)的模型。在此其中,Cerebras Systems采用了4項(xiàng)業(yè)界領(lǐng)先的創(chuàng)新技術(shù),包括Cerebras Weight Streaming一種新的軟件執(zhí)行架構(gòu)、Cerebras MemoryX一種內(nèi)部內(nèi)存擴(kuò)展技術(shù)、Cerebras SwarmX一種高性能互連結(jié)構(gòu)技術(shù)、以及Selectable Sparsity一種動(dòng)態(tài)收集技術(shù)。
首先在Cerebras Weight Streaming技術(shù)上,首次達(dá)成了在芯片外儲(chǔ)存模型參數(shù)的能力,同時(shí)提供與芯片上相同的訓(xùn)練和推理性能。這種新的執(zhí)行模型分解了計(jì)算和參數(shù)儲(chǔ)存,允許研究人員獨(dú)立靈活地?cái)U(kuò)展規(guī)模和速度,并消除了挑戰(zhàn)大型小型處理器叢集的延遲和內(nèi)存帶寬問題。這些設(shè)計(jì)極大的簡化了工作負(fù)載分配模型,其設(shè)計(jì)目的是讓用戶可以從使用1個(gè)CS-2運(yùn)算系統(tǒng),或擴(kuò)展到最多192個(gè)CS-2運(yùn)算系統(tǒng),而無需變更軟件。
其次,Cerebras MemoryX是一種內(nèi)存擴(kuò)展技術(shù)。MemoryX將提供高達(dá)2.4PB的高性能存儲(chǔ)器。透過MemoryX,CS-2運(yùn)算系統(tǒng)可以支持具有多達(dá)120萬億參數(shù)模型。至于Cerebras SwarmX則是是一種高性能、人工智能優(yōu)化的通信結(jié)構(gòu),其目的是使得Cerebras Systems能夠在最多192個(gè)CS-2運(yùn)算系統(tǒng)上連接多達(dá)1.63億個(gè)AI優(yōu)化核心,以進(jìn)一步協(xié)同工作以訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò)。
最后,Selectable Sparsity技術(shù)是使用戶能夠在他們的模型中選擇權(quán)重稀疏程度,并直接減少浮點(diǎn)運(yùn)算的耗費(fèi)時(shí)間(FLOPs)和解決時(shí)間。權(quán)重稀疏(weight sparsity)是機(jī)器學(xué)習(xí)研究的一個(gè)重要的領(lǐng)域,由于它在圖形處理單元上的效率極低,因此過去一直難以突破發(fā)展。如今,通過可選擇權(quán)重稀疏性使CS-2運(yùn)算系統(tǒng)能夠加速工作,并使用每種可用類型的稀疏性,包括非結(jié)構(gòu)化和動(dòng)態(tài)權(quán)重稀疏性,以在更短的時(shí)間內(nèi)生成答案。
透過這些技術(shù)的組合,Cerebras Systems表示,將使用戶能夠輕松地解鎖大腦規(guī)模的神經(jīng)網(wǎng)絡(luò),并將工作分配到大量人工智能優(yōu)化的核心集群上。而這也使得Cerebras Systems能在模型大小、計(jì)算集群能力和大規(guī)模編程的簡單性方面設(shè)定了新的基準(zhǔn)。
至于,在整個(gè)系統(tǒng)核心的Cerebras CS-2人工運(yùn)算系統(tǒng)的核心部分,則是由Wafer Scale Engine(WSE-2)處理器來提供動(dòng)力。這是款有史以來最大的芯片和最快的AI處理器,由晶圓代工龍頭臺(tái)積電7納米制程來進(jìn)行打造生產(chǎn)。WSE-2是具有2.6萬億個(gè)晶體管和850000個(gè)AI優(yōu)化核心的單個(gè)晶圓級芯片。相比之下,當(dāng)前最大的圖形處理單元只有540億個(gè)晶體管,比WSE-2少了2.55萬億個(gè)晶體管。WSE-2還擁有比圖形處理單元競爭對手多123倍的核心和1000倍的高性能內(nèi)置內(nèi)存。
而由于WSE-2處理器的大小,因此特別適用于Cerebras架構(gòu)。與圖形處理單元不同,因?yàn)樵谶@種傳統(tǒng)架構(gòu)下,少量的芯片上內(nèi)存需要跨多個(gè)芯片對大型模型進(jìn)行分區(qū)運(yùn)算,但WSE-2處理器可以適應(yīng)和執(zhí)行非常大的層面,而無需進(jìn)行傳統(tǒng)的屏斷或分區(qū)來執(zhí)行運(yùn)算。另外,在芯片上異植內(nèi)存的方式,則是適合每個(gè)模型層而不需要分區(qū)的能力,這代表著每個(gè)CS-2運(yùn)算系統(tǒng)可以被賦予相同的神經(jīng)網(wǎng)絡(luò)工作負(fù)載,并對每一層進(jìn)行相同的計(jì)算,獨(dú)立整個(gè)于網(wǎng)絡(luò)當(dāng)中。而其對于用戶來說,這種簡單性允許他們將模型從在單個(gè)CS-2運(yùn)算系統(tǒng)上運(yùn)行擴(kuò)展到任意大小的集群上,而無需任何軟件更改。
封面圖片來源:拍信網(wǎng)