如何用Chiplet搭建超算系統?

文︱MARK LAPEDUS

來源︱Semiconductor Engineering

編譯 | 編輯部

為了交付和部署基於Chiplet的百億億次超級計算機,來自不同國家的公司正積極搶先佈局,展開激烈的正面交鋒。與當今現存的超級計算機相比,此新型計算系統速度提高了1,000倍。

在設計最新百億億次超級計算機的CPU和GPU時,在先進封裝中混合和匹配了複雜的晶片,為超級計算機進一步提升了靈活性和專用性。由於其優勢遠遠超出了超級計算機本身,多年來,各個國家一直在爭奪這一領域的領導地位。這些龐大而昂貴的系統為人工智慧、生物學、國防、能源和科學領域的巨大突破鋪平了道路。

當前的超級計算機,以及全新百億億次系統,都是基於傳統計算原理,這與量子計算機完全不同。在傳統計算中,資料資訊以位(bit)為基本儲存單元,每個0或1就是一個位。在量子計算中,資訊儲存在量子位中,可以是0、1或兩者兼有。疊加態使量子計算機能夠勝過傳統系統,但量子系統距離實際應用還有幾年的時間。

最先進的傳統超級計算機每秒可以執行超過1015次浮點運算(petaFLOPS或Pflop/s)。如今,由Riken和Fujitsu構建的超級計算機Fugaku是世界上最快的系統,其高效能Linpack(HPL)基準測試得分為442 Pflop/s。HPL分數反映了系統在求解某些線性方程時的效能,並不反映系統的整體效能。

速度高達百億億次級

與此同時,來自中國、歐洲、日本和美國的幾個實體一直在開發百億億次級超級計算機,每秒執行1018次計算或更多(exaFLOPS或Eflop/s)。

最近,中國的兩臺超級計算機聲稱已經突破了Eflop/s障礙,儘管這些結果仍未得到證實。今年晚些時候,預計美國將部署其第一臺百億億級超級計算機,該計算機是一個1.5Eflop/s或更快的系統,稱為Frontier。Frontier基於AMD伺服器處理器和GPU加速器,位於Oak Ridge國家實驗室。

美國還在開發另外兩臺百億億級超級計算機,包括正在阿貢國家實驗室建造的Aurora。Aurora是圍繞英特爾的伺服器處理器和GPU構建的。

從架構的角度來看,所有超級計算機都是相似的。這些系統由大量機架組成,每個機架都包含許多計算節點。每個計算節點都有多個CPU和GPU。傳統上,大部分這些晶片都是大型且複雜的片上系統(SoC),所有功能都整合在一個單片晶片上。

但這種方案逐漸發生了變化。一些(但不是全部)百億億級超級計算機正在使用Chiplet解決方案,尤其是美國的系統。這些系統中的CPU和GPU不是SoC,而是包含更小的晶片或單元,然後將其製造並重新整合到先進封裝中。簡而言之,與大型SoC相比,製造具有更高良率的小型晶片相對容易。

在一個封裝中整合多個晶片的想法並不新鮮,尤其是在高效能運算(HPC)中。“將多個晶片放在一個封裝中的想法已經存在了很長時間。IBM在1980年代初期使用多晶片載體來構建其大型主機,”Hyperion Research研究高階副總裁Bob Sorensen表示。“所以從理論上講,Chiplet只是單個封裝中多個晶片的最新化身。但是Chiplet可以讓HPC設計人員構建最適合HPC預期的工作負載,且具有精確計算、記憶體和I/O功能的處理器。”

在此領域市場中,中國正在部署百億億級超級計算機;美國也正在準備其首個百億億次系統;AMD和英特爾披露了有關其在百億億次計算時代的晶片的詳細資訊。此外,該行業還發布了一項新標準UCIe,用於封裝中Chiplet的高速互連。

圖1:Frontier超級計算機計劃在今年晚些時候部署,目標效能達1.5Eflops/s(圖源:Oak Ridge National Laboratory)

超級計算機之戰

據Hyperion Research資料顯示,整體而言,超級計算機市場預計將從2021年的66億美元增長到2022年的78億美元。該機構將超級計算機市場分為三個部分,即領導級/百億億級、大型(每個300萬美元及以上)和入門級(50萬至300萬美元)。每個百億億次系統的售價約為6億美元。

多年來,超級計算機已被廣泛應用於諸多市場領域。“很多工作都需要超級計算,包括天氣預報等海量模擬任務、加密貨幣挖掘等海量算術計算任務、衛星影象處理等海量影象處理任務,以及用於深度學習訓練的海量神經網路計算,”D2S的Aki Fujimura表示。“該技術廣泛用於半導體制造領域,用來解決逆光刻技術、掩模工藝校正、掩模和晶圓基於模擬的驗證以及掩模和晶圓檢測等問題。”

從發展歷程來看,計算領域已經取得了巨大的進步。1945年,賓夕法尼亞大學研製出第一臺通用電子數字計算機ENIAC。ENIAC使用真空管處理資料,每秒執行5,000次加法。

從1950年代開始,在許多系統中,電晶體已經取代了真空管,從而實現了更快的計算機。電晶體是晶片中的關鍵組成部分,作為器件中的開關。

1964年,現已停產的Control Data推出了世界上第一臺超級計算機CDC 6600。6600採用60位處理器,使用效能為2MIPS的電晶體。從那時起,超級計算機變得更加強大。與此同時,各個國家繼續在效能領先地位上相互超越。

例如,2008年,IBM的Roadrunner以1.026 Pflop/s的效能成為世界上最快的超級計算機。它成為第一臺達到這一里程碑的超級計算機。然後,在2010年,中國憑藉效能水平為2.57Pflop/s的超級計算機天河一號躍居領先地位。

自2020年以來,日本富嶽一直保持著超級計算第一的位置。IBM的Summit排名第二,是美國最快的超級計算機

Fugaku系統由158,976個計算節點組成,共有7,630,848個Arm處理器核心。“每個節點都配備了一個名為A64FX的處理器,它由48個通用處理器核心和四個輔助核心組成。A64FX採用7nm工藝製造,”富士通/Riken的研究員ShujiYamamura在最近的ISSCC活動上的一篇論文中表示。

Fugaku使用定製的ARM處理器,而不是Chiplet架構。相比之下,中國的超級計算機傾向於使用定製處理器。許多非百億億級超級計算機使用商用晶片。

“對於更主流的HPC領域,硬體決策主要基於更主流的大規模元件可用性,”Hyperion的Sorensen認為。“這些可能包括英特爾CPU、英偉達GPU和InfiniBand互連。它們可能被配置為最適合HPC工作負載環境,或者可能具有一些激進的封裝和冷卻功能來處理電源問題。”

CPU和GPU在HPC中都發揮著關鍵作用。“對於順序資料處理型別的程式設計,CPU往往比GPU更具成本效益。但是對於為任何給定資料單元進行大量計算的任務,GPU可以更高效,特別是如果計算任務可以轉換為單指令多資料(SIMD)問題。這是並行處理大部分資料並在不同資料上以相同指令執行的地方,”D2S的Fujimura表示。

邁入百億億次時代

展望未來,超級計算正在進入百億億次時代,有望給生物學、國防、科學等領域帶來新的突破。

百億億次系統的開發成本很高。“對於百億億次計算系統,超過5億美元的HPC可能會將其總預算20%以上專門用於開發定製晶片、互連和其他元件等特殊功能,以滿足某些目標工作負載要求。”Hyperion的Sorensen指出。

一些公司正在開發百億億級超級計算機。中國似乎以微弱優勢領先,美國緊隨其後,歐洲則略微落後。今年早些時候,歐洲高效能運算聯合企業(Euro HPC)啟動了幾個新專案,包括一個百億億級專案計劃。目前尚不清楚歐盟何時會啟動該系統。

據Hyperion Research稱,中國正在開發三臺百億億級超級計算機,分別是神威太湖之光、天河三號和曙光。神威太湖之光安裝在無錫國家超級計算機中心,於2021年完工。去年,研究人員聲稱其峰值效能達到了1.3 Eflop/s。該系統基於內部設計的SW39010 CPU。據Hyperion稱,該系統總共由超過3,800萬個CPU核心組成。

去年年底完成的天河三號已經展示了1.7 Eflop/s的效能。與此同時,曙光系統則被推遲了。

雖然中國傾向於使用傳統的定製處理器,但美國的百億億次系統正在採取另一種方法。CPU和GPU正在利用Chiplet方案,在其中混合和匹配晶片並將其整合至封裝中。

迄今為止,AMD、英特爾、Marvell等已經開發了基於Chiplet的設計,主要用於伺服器和其他高階應用。這個概念也是超級計算的理想選擇。

“小晶片將在多個受益於其特性的應用中實施,包括顯著減小尺寸、降低功耗和更好的高速效能。”QP Technologies的母公司Promex總裁兼執行長Richard Otte表示。“例如,DoD和DARPA正在努力將最快的超級計算機帶入其實驗室,而Chiplet將有助於實現這一目標。”

現階段,美國正在開發三個百億億次系統:Aurora、El Capitan和Frontier。Frontier預計將於2022年底投入運營,隨後Aurora和El Capitan將於2023年投入運營。

2019年,美國能源部(DOE)授予Cray在Oak Ridge國家實驗室建造Frontier百億億次超級計算機的合同。2019年,Cray被惠普企業(HPE)收購。

HPE為Frontier構建了平臺,該平臺支援大量計算節點。每個計算節點都支援AMD的一個伺服器CPU和四個AMDGPU加速器。

AMD的新型GPU加速器基於臺積電的6nm工藝,包含兩個晶片,總共由580億個電晶體組成。該架構的峰值效能超過了380 teraflops。

GPU架構被整合在一個2.5D封裝中。在大多數2.5D/3D封裝中,晶片堆疊或並排放置在中介層頂部,中介層包含矽通孔(TSV)。TSV提供從晶片到電路板的電氣連線。

“TSV是3D-IC的使能技術,提供堆疊晶片之間的電氣連線。採用TSV的3D-IC技術,其主要優勢在於,為不同元件之間提供了更短的互連,從而降低了阻容延遲和更小的器件佔用空間,”UMC研究員LukeHu在最近的一篇論文中表示。

圖2:高效能運算封裝的不同選擇,基於中介層的2.5D與基板上扇出晶片(FOCoS)(圖源:ASE)

在2.5D/3D封裝中,雖然中介層有效,但結構上會浪費空間。因此,幾家公司開發了一種稱為矽橋的替代方法。橋接器是帶有路由層的一小塊矽片,它將一個晶片連線到封裝中的另一個晶片。在一個示例中,英特爾開發了嵌入式多晶片互連橋(EMIB),這是一種通常嵌入在基板中的矽橋。

同時,在AMD的GPU中,該公司將GPU和高頻寬記憶體(HBM)並排堆疊在矽橋上。HBM基本上是一個DRAM記憶體堆疊。

與嵌入基板中的EMIB不同,AMD將橋接器置於基板之上。AMD將此稱為2.5D高架扇出橋(EFB)。

圖3:基於基板的橋與AMD的2.5D高架扇出橋(EFB)(圖源:AMD)

其他百億億級超級計算機也正在開發中。不久前,Lawrence Livermore國家實驗室、HPE和AMD釋出了El Capitan,這是一個預計將超過2 Eflop/s的百億億次計算系統。該系統採用了AMD基於Chiplet方案的CPU和GPU。

與此同時,2019年,美國能源部、英特爾和HPE宣佈計劃構建一個大於2 Eflop/s的系統Aurora。最初,Aurora預計將於2021年交付給Argonne,但由於英特爾的晶片延遲,該計劃被推遲。

Aurora基於HPE的超級計算機平臺,擁有9,000多個計算節點。每個節點由兩個英特爾Sapphire Rapids處理器、六個英特爾GPU加速器(代號為Ponte Vecchio)和一個統一的記憶體架構組成。它由10 PB的記憶體和230 PB的儲存空間組成。

Sapphire Rapids是下一代Xeon處理器,它在一個封裝中整合了4個較小的CPU晶片。基於英特爾的7nm finFET工藝,晶片使用EMIB連線。

該處理器由超過100MB的共享三級快取、8個DDR5通道和32 GT/s PCIe/CXL通道組成。“新技術包括英特爾高階矩陣擴充套件(AMX),一種用於加速AI工作負載的矩陣乘法功能,以及用於解決新興工作負載的新虛擬化技術,”英特爾首席工程師Nevine Nassif在最近的ISSCC上的一次演講中表示。

在Aurora中,CPU與Ponte Vecchio配合使用,這是一種基於英特爾Xe-HPC微架構的GPU。這種複雜裝置在一個封裝的五個工藝節點上包含47個單元。該裝置總共由超過1,000億個電晶體組成。

基本上,Ponte Vecchio將兩個基礎晶片堆疊在一個基板上。在每個基礎晶片上,英特爾堆疊了一個記憶體結構,然後是計算和SRAM單元。該裝置還具有8個HBM2E塊。為了使晶片能夠相互通訊,英特爾使用了專有的die-to-die互連。

基於Intel的7nm工藝,兩個基礎晶片為GPU提供了通訊網路。這些晶片包括記憶體控制器、穩壓器、電源管理和16個PCIe Gen5/CXL主機介面通道。

在每個基礎晶片上,英特爾堆疊8個計算單元和4個SRAM單元。計算單元基於臺積電的5nm工藝,而SRAM則圍繞英特爾的7nm技術構建。

該器件總共包含16個計算單元和8個SRAM單元。每個計算單元有8個核心。“每個核心包含8個向量引擎,處理512位浮點/整數運算元,以及8個矩陣引擎,其中包含執行4096位向量運算的深度為8的脈衝陣列,”英特爾研究員Wilfred Gomes在ISSCC的論文中表示。

對於供電,英特爾在基礎晶片上實施了所謂的完全整合穩壓器(FIVR)。“基礎晶片上的FIVR在0.7V電源中為每個基礎晶片提供高達300W的功率,”Gomes稱。“3D堆疊FIVR可實現對多個電壓域的高頻寬細粒度控制並降低輸入電流。”

熱管理對先進封裝提出了重大挑戰。為了解決這個問題,英特爾在GPU上放置了一個散熱器。然後,將熱介面材料(TIM)應用到頂部管芯上。

“TIM消除了由不同晶片堆疊高度引起的氣隙,以降低熱阻。除了47個功能單元外,還有16個額外的熱遮蔽晶片堆疊,以在裸露的基礎晶片區域提供散熱解決方案以傳導熱量,”Gomes指出。

如何開發Chiplet

超級計算只是Chiplet的眾多應用之一。最近,一些供應商已經為伺服器開發了類似Chiplet的設計。未來的Chiplet架構正在開發中。

開發類似Chiplet的設計很有吸引力,但也存在一些挑戰。開發Chiplet需要資源和幾個要素。

如前所述,在Chiplet中,無需設計大型SoC,而是從頭開始使用較小的晶片設計晶片。然後製造晶片並將其重新組裝成一個封裝。

“從某種意義上說,這種先進封裝或先進產品需要高密度互連,”JCET技術長Choon Lee說。“因此,在這種情況下,封裝本身不再只是將單個封裝中的單個晶片。在更先進的封裝中,必須考慮佈局、晶片和封裝的互動以及如何對這些層進行佈線。問題是如何真正優化佈局以在封裝中獲得最佳效能或最大效能。”

這不是唯一的問題。在封裝中,晶片被堆疊在一起。因此需要通過die-to-die互連將一個晶片連線到另一個晶片。

如今的Chiplet設計使用專有匯流排和介面連線晶片,這限制了該技術的採用。一些組織始終在研究開放匯流排和介面標準。

在最新的努力中,ASE、AMD、Arm、谷歌、英特爾、Meta、微軟、高通、三星和臺積電最近成立了一個聯盟,正在建立一個支援Chiplet的晶片到晶片互連標準。該組織還批准了UCIe規範,這是一種封裝級別的開放式行業互連標準。UCIe 1.0規範涵蓋die-to-die I/O物理層、die-to-die協議和軟體堆疊。

“Chiplet時代已經真正到來,推動行業從以矽為中心的思維發展到系統級規劃,並將重點放在IC和封裝的協同設計上,” ASE的營銷工程技術總監Lihong Cao表示。“我們相信,UCIe將通過多供應商生態系統中各種IP之間介面的開放標準以及先進封裝級互連的利用來降低開發時間和成本,從而在提高生態系統效率方面發揮關鍵作用。”

這並不能解決所有問題。在所有封裝中,熱預算都是一個大問題。“功耗和電源使用是巨大的挑戰,”在Amkor高階封裝開發和整合副總裁Michael Kelly看來,“由於封裝級別的整合,它在封裝行業受到歡迎。不幸的是,矽會產生大量廢熱。它的熱效率不高,需要進行散熱。對於在最終產品中進行散熱,無論是在手機殼中還是在資料中心的水冷卻器中,我們都必須使其儘可能具有熱效率。還需要注意應該為高效能封裝提供多少實際電流。功率沒有下降,但電壓正在下降。為了提供相同的總功率或更多功率,我們的電流正在上升。需要解決諸如電遷移之類的問題。可能需要在封裝中進行更多的電壓轉換和電壓調節。這樣,我們可以將更高的電壓帶入封裝,然後將它們分成更低的電壓。這意味著我們不必將盡可能多的總電流拖入封裝。因此,功率以兩種方式受到關注,散發熱量,但也在管理電力輸送網路。這迫使更多的晶片整合至封裝內,同時也不斷優化熱功耗方面的問題。”

結論

顯然,Chiplet構成了一種使能技術,並逐漸進入伺服器設計。最近,Apple推出了全新Mac桌上型電腦,搭載以Chiplet為基礎設計的處理器。現在,基於Chiplet的百億億級超級計算機已經出現。

對於百億億級超級計算機,Frontier、El Capitan和Aurora系統已經開始採用基於Chiplet的解決方案。Fugaku和神威太湖之光等其他產品繼續沿用傳統的基於SoC的方法。兩種方法均行之有效,激烈的市場競爭也正式開始。