在美國,exascale(百億億次)高性能計算系統(tǒng)的第一步始于2007年的一系列專題研討。直到15年后,橡樹嶺國家實驗室才真正上線1686 petaflops的“Frontier”系統(tǒng)。今年,阿貢國家實驗室正準備為“Aurora”啟動上線儀式,這將是美國第二或第三臺百億億級超算設備——究竟位次如何,還要看勞倫斯利弗莫爾國家實驗室的“El Capitan”何時通電。
這些百億億級超算的誕生之路充滿了延誤和挫折,期間還遭遇過技術變革、中國的競爭壓力及其他挑戰(zhàn)。阿貢國家實驗室環(huán)境與生命科學計算實驗室副主任Rick Stevens則表示,更進一步的zettascale、甚至是量子計算目標可能落地更慢,二者很可能都需要15到20年、甚至是更加漫長的開發(fā)周期。
而這,正是高性能計算的本質所在。
(資料圖)
Stevens在最近一場網絡研討會會上這樣描述HPC計算的近期和遠期發(fā)展態(tài)勢,“這將是一場持久戰(zhàn)。如果大家只關注明年會發(fā)生什么,那HPC明顯不適合你。如果你想著眼于10年甚至20年的中長周期,那HPC才是最佳選擇。至于向著其他恒星系探索,那就是超遠期的千年大計了。總之,我們目前才剛剛起步,之前還能沿著摩爾定律前進,但現(xiàn)在最重要的問題是思考10年后的高性能計算會是什么樣子?20年后呢?可能到時候情況已經完全不同的,我們當下就需要做好準備?!?
Stevens此次演講的主題在于AI。不只是HPC應用程序和研究工作能夠從AI技術中受益2,AI管理的模擬與智能體、專用AI加速器乃至AI在大型系統(tǒng)開發(fā)中的作用都有巨大的想象空間。他指出,2019年至2022年間既是COVID-19突然爆發(fā)的危機時刻,也是AI大事頻發(fā)的歷史性階段。
隨著大語言模型(廣受歡迎的ChatGPT及其他生成式AI聊天機器人都以此為基礎)和Stable Diffusion文本到圖像深度學習的起飛,AI技術已經被納入蛋白質結構預測、開放式數學問題和各類HPC開發(fā)場景。也正是在此期間,百億億次超算系統(tǒng)開始真正落地。
Stevens表示,“越來越多的機構開始構建自己的大語言模型,這波爆發(fā)式增長仍在繼續(xù),而且?guī)缀跛心P投技性谒綘I部門。其中只有少數是由非營利性組織完成的,且以GPT-4為代表的最強模型大多采取閉源模式。由此可見,AI模型的發(fā)展趨勢并未走向種類繁多的小體量模型,而是數量有限的超大模型。這也是當前階段內最重要的元事件?!?
所有這一切——模擬與智能體、新興AI應用和AI用例——都將在未來幾年內消耗更多算力。伊利諾伊州的阿貢國家實驗室的領導級計算設施(ALCF)項目考慮的正是這個問題,規(guī)劃Aurora及之后的超算設計方向。Stevens和他的同事們正在構想一套比Aurora強大8倍以上的系統(tǒng),征求建議書將于2024年秋季發(fā)布,實際裝機計劃在2028年或2029年。“對于機器學習這類低精度運算需求,這套系統(tǒng)預計將擁有近0.5 zettaflop,相當于當前系統(tǒng)的2到3倍?!?
目前一大關鍵挑戰(zhàn),就是此類系統(tǒng)到底要搭載怎樣的加速器。究竟是現(xiàn)有通用GPU的后續(xù)版本(針對AI模擬用例提供增強支持),還是面向AI優(yōu)化的其他全新引擎?
“這是最根本的問題。我們知道模擬將繼續(xù)發(fā)揮重要作用,也需要性能和精度更上一層樓的技術規(guī)范,但這項技術在AI中到底占比多少仍沒有明確的答案。世界各國都在考慮下一代超算系統(tǒng)要如何權衡,特別是要以怎樣的態(tài)度側重于AI市場或AI應用基礎。”
ALCF使用來自Cerebras Systems、SambaNova Systems、GraphCOre、英特爾Habana Labs和Groq的系統(tǒng)構建起AI測試環(huán)境,其中將采用專為AI工作負載設計的加速器,探索這些技術能否快速發(fā)展成熟并作為大規(guī)模超算系統(tǒng)的基礎,以更高效率運行HPC機器學習應用。
“問題在于,通用GPU在未來的用例下能否提供充足的性能支持并與CPU緊密耦合,證明其仍然是正確的解決方案?;蛘哒f,未來會很快出現(xiàn)其他更好的替代方案?!逼渲卸嘧鈶糁С挚赡艹蔀榕袛嗟年P鍵?!叭绻程滓嬲褂霉?jié)點內的一個子集,那要如何同時支持子集內的其他應用?如何使用補充資源支持節(jié)點上應用程序的具體占用?這類需求中仍有很多懸而未決的現(xiàn)實挑戰(zhàn)。”
目前值得考量的幾個現(xiàn)實問題:
此外,新的大系統(tǒng)該如何構建也是件麻煩事。一般來講,新的技術浪潮(例如冷卻或供電系統(tǒng)的變化)要求對整個基礎設施做出重大升級。Stevens表示,更加模塊化的設計理念(即更換組件但保留系統(tǒng)的整體架構)當然更具意義。系統(tǒng)內的模塊可能比目前的節(jié)點還更大,能夠定期更換且無需升級整個基礎設施。
“我們要構想一個包含供電、冷卻,也許還有無源光學器件的基礎設施,之后就是可以頻繁更換的模塊,它們要具備簡單接口來跟晶圓廠的制程節(jié)點對齊。另外還有電源連接器、光學連接器和冷卻連接器。我們正在認真與供應商開展討論,考慮如何開發(fā)這種模塊化設計,爭取在未來兩年、而不是五年內實現(xiàn)系統(tǒng)內的組件升級?!?
考慮到能源部各科學實驗室目前擁有的資產,包括百億億級超算系統(tǒng)和數據基礎設施、大型實驗設施和用于科學模擬的大型代碼庫,ALCF正在加緊關注這些現(xiàn)實問題。另外,原本為百億億級系統(tǒng)組建的跨領域、跨學科實驗室團隊也要利用起來;Stevens介紹稱,之前的團隊規(guī)模達到千人級別。
再來看自動化因素。阿貢和其他實驗室都掌握著超算系統(tǒng)和海量應用程序。于是問題來了:他們能不能找到覆蓋大部分工作的自動化方法,例如創(chuàng)建和管理AI智能體,從而高流程更快、更輕松、更高效?這個問題目前同樣沒有明確的答案。
以上研究工作都在不斷推進,zettascale和量子系統(tǒng)發(fā)展也在按自己的節(jié)奏同步進行。Stevens預計這兩類系統(tǒng)在未來15年到20年內都沒有廣泛落地的可能性。Zettascale恐怕要到這個十年末才能實現(xiàn)低精度部署,而64位精度的系統(tǒng)也許要到2035年才能出現(xiàn)。(英特爾則認為這個時間節(jié)點可能是2027年。)
在量子計算方面,成本的重要性與技術本身同樣重要。在exascale百億億次設備上運行應用程序兩周,大概要燒掉約700萬美元。而在擁有1000萬量子比特(目前尚不存在)的大規(guī)模量子設備上運行相同的作業(yè),可能要花掉50億至2000億美元(參見下圖)。因此,這個成本必須再降幾個數量級,才能以物有所值的方式真正幫助人們解決大規(guī)模問題。
“也就是說, 我們需要在發(fā)展量子計算的同時,在經典計算方面也取得持續(xù)進展,利用經典計算解決期間出現(xiàn)的現(xiàn)實問題。雖然預計zettascale的開發(fā)同樣需要15到20年的時間,但這是更可以把握的發(fā)展節(jié)奏,也是我們真正觸手可及的技術選項?!?
所有這一切都將回歸最初的主題:HPC創(chuàng)新需要大量時間,量子加經典的混合系統(tǒng)可能才是最終解決之道。未來的計算基板可能會以分子、光子甚至是其他未知的形式,工程師和科學家們距離正確答案還非常非常遙遠。
Stevens總結道,“目前對技術格局影響最大的仍然是AI,而且我們對于AI技術如何重構系統(tǒng)、真正為大規(guī)模AI計算打造理想平臺也只是略知皮毛。但游戲規(guī)則已經有所改變,如果我們在10年后重新討論這個話題,可能思路都將完全不同。也許我們的猜測是對的,也許并不成立。總之這將是一場漫長的競賽,期間會有很多顛覆性因素,我們要做的就是駕馭這些顛覆因素、而不是強行與之對抗。事實上,顛覆是我們的朋友,它們能讓我們在既有思路之外獲得新的啟發(fā)和能力,所以我們應當主動尋求顛覆、擁抱顛覆?!?