伊利諾大學厄巴納-香檳分校的美國國家超級運算應用中心(NCSA)剛剛推出了備受期待的DeltaAI系統。
DeltaAI是一種先進的人工智慧運算和資料資源,將成為NCSA Delta的配套系統,Delta是一台基於HPE Cray的338節點超級計算機,安裝於2021年。新的DeltaAI由美國國家科學基金會(NSF)資助,獲得了近3000萬美元,全國各地的研究人員將透過NSF ACCESS計畫和國家人工智慧研究資源(NAIRR)試點使用該系統。
該系統將透過使用先進的人工智慧硬件,包括英偉達H100 Hopper GPU和GH200 Grace Hopper超級晶片,加速複雜的人工智慧、機器學習和運行數兆位元組資料的HPC應用程式。
媒體在亞特蘭大SC24採訪了NCSA主任Bill Gropp,了解上週五全面投入使用的新DeltaAI系統的內幕。
Gropp說,在構思和部署最初的Delta系統時,DeltaAI受到了NCSA對GPU需求不斷增長的啟發。 「Delta這個名字來自這樣一個事實,即我們看到了計算架構的這些進步,特別是在GPU和其他介面方面。一些社區已經採用了這些,但不是所有社區,我們真的覺得這是人們應該採取的一個重要方向。
「所以,我們向美國國家科學基金會提出了Delta並獲得了資助,基本上囊括幾乎所有的GPU資源。我們曾預計它將是建模模擬的混合體,如分子動力學、流體流動和人工智慧。
Gropp說,最初的Delta系統配備了Nvidia A100 GPU和更適量的GPU內存,在當時是最先進的,但在大型語言模型和其他形式的生成式人工智能(GenAI)出現和普及之後,遊戲規則發生了變化。
他說:「我們研究了人們的需求,意識到人工智慧研究對GPU資源的需求巨大,這些更大的模型將需要更多的GPU記憶體。」。
NCSA的原始Delta系統成為新DeltaAI的配對系統。
新的DeltaAI系統將提供大約兩倍於原始Delta的性能,為需要高數值精度的任務(如流體動力學或氣候建模)提供petaflops的雙精度(FP64)性能,以及驚人的633 Petaflop的半精度(FP16)效能,針對機器學習和AI工作負載進行了最佳化。
這種非凡的運算能力由320個NVIDIA Grace Hopper GPU驅動,每個GPU配備96GB內存,因此每個節點總共有384GB的GPU內存。這些節點還由高達1TB/秒頻寬的14PB儲存支持,並與高度可擴展的結構互連。
Gropp表示,NSF對Delta和DeltaAI的補充資助將使他們能夠部署每個節點具有超過1TB GPU記憶體的額外節點,這將支援AI研究,特別是專門用於理解LLM訓練和推理的研究。 Gropp希望DeltaAI研究潛力的這一方面將為可解釋AI帶來福音,因為這些巨大的記憶體資源使研究人員能夠處理更大的模型,同時處理更多的數據,並對AI系統的機制進行更深入的探索。
Gropp解釋說:「我們在可解釋的人工智慧、值得信賴的人工智慧以及理解推理是如何運作的方面做了大量的研究。」他強調了推動這項工作的關鍵問題:「為什麼模型是這樣運作的?你如何提高它們的品質和可靠性?”
了解人工智慧模型如何得出具體結論對於識別偏見以確保公平性和提高準確性至關重要,尤其是在醫療保健和金融等高風險應用中。可解釋的人工智慧是對「黑盒子」人工智慧系統和模型的回應,這些系統和模型不容易理解或訪問,並且在如何處理輸入以產生輸出方面往往缺乏透明度。
Gropp說,隨著人工智慧採用的加速,對可解釋性和準確性的需求也在同時增長,這引發了諸如「如何減少這些模型中本質上的插值誤差,以便人們可以依賴他們從中獲得的東西?」之類的問題。 “看到這一需求是我們提出這一建議的原因。我認為這就是NSF資助它的原因,也是我們如此興奮的原因。”
DeltaAI將透過NSF ACCESS計畫和國家人工智慧研究資源(NAIRR)試點計畫提供給全美國研究人員。這種廣泛的可訪問性旨在促進協作,並擴展DeltaAI先進運算能力的範圍。
Gropp說:“我們真的很期待看到越來越多的用戶利用我們最先進的GPU,以及利用我們可以提供的支持,以及與其他團體合作和共享我們資源的能力。”
Gropp表示,新系統將在推動人工智慧和更傳統的計算科學方面發揮雙重作用。雖然DeltaAI的節點針對AI特定的工作負載和工具進行了優化,但HPC用戶同樣可以訪問它們,因為該系統的設計使其成為一個多功能平台,既服務於AI研究,也服務於傳統的HPC應用程式.
HPC工作負載,如分子動力學、流體力學和結構力學,將從該系統的先進架構中受益匪淺,特別是其多GPU節點和統一記憶體。這些功能透過提供龐大的頻寬來提高運算密集型任務的效能,從而解決了HPC中的常見挑戰,例如記憶體頻寬限制。
DeltaAI與原始Delta系統整合在同一網路和共享檔案系統上,代表了一種前瞻性的基礎設施設計方法。這種相互連接的設置不僅最大限度地提高了資源效率,也為未來的可擴展性奠定了基礎。
Gropp表示,在未來一兩年內增加新系統的計畫已經到位,這反映了向持續升級模式的轉變,而不是等待當前硬體過時。雖然這種方法可能會在管理更異質的系統方面帶來挑戰,但保持在創新前沿的好處遠大於複雜性。
這種創新的基礎設施設計方法確保了傳統運算工作負載得到維護,並與人工智慧的進步無縫集成,在可能導致人工智慧疲勞的現代運算環境中創造了一個平衡和多功能的研究環境。
Gropp指出:「圍繞人工智慧的炒作可能會讓人筋疲力盡。」「我們確實必須小心,因為人工智慧可以做的事情有巨大的價值。但有很多事情是它做不到的,我認為它永遠無法做到,至少用我們現有的技術是這樣。
DeltaAI體現了NCSA致力於推動科學理解的前沿以及人工智慧和高效能運算技術的實際應用。湍流建模等科學應用正受益於HPC和AI的結合。
Gropp說:「我認為這是一個令人興奮的例子,說明了我們真正想做的事情。我們不僅想理解它並滿足我們對它的好奇心,而且我們希望能夠利用這些知識來改善人類的生活。
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。