文|半導(dǎo)體產(chǎn)業(yè)縱橫
近年來(lái),隨著人工智能和大數(shù)據(jù)的發(fā)展,產(chǎn)生了爆炸性的數(shù)據(jù)量。在過(guò)去的十多年中,CPU的內(nèi)核越來(lái)越多,但帶寬卻沒(méi)有跟上。由于CPU的整體帶寬在內(nèi)核之間進(jìn)行分配,內(nèi)核數(shù)量的增加會(huì)降低每個(gè)內(nèi)核的有效帶寬,從而降低CPU的單核性能。相比之下,內(nèi)存和存儲(chǔ)設(shè)備的帶寬在同一時(shí)期增加了2-3個(gè)數(shù)量級(jí)。這意味著CPU無(wú)法發(fā)揮真正的性能。
目前為止,只有兩種方式可以將更多的內(nèi)存附加到加速器上,一種是添加更多的DDR內(nèi)存通道以支持更多模塊,另一種是將其直接集成到加速器或CPU封裝中。
但CXL的出現(xiàn)或許可以改變這一切。
CXL的突襲
CXL是英特爾推出的標(biāo)準(zhǔn)。在2019年,英特爾推出了CXL(Compute Express Link),是高度中央處理器到設(shè)備和CPU到內(nèi)存鏈接的開放標(biāo)準(zhǔn)。其推出的目的在于簡(jiǎn)化加速器和內(nèi)存擴(kuò)展的互連和可擴(kuò)展性。
推出的同年,CXL就已經(jīng)成立了聯(lián)盟,其創(chuàng)始成員包括:英特爾、阿里巴巴、華為、思科、facebook、谷歌、惠普和微軟等。
CXL的出現(xiàn)可謂是來(lái)勢(shì)洶洶。
2021年,成立2年的CXL宣布合并Gen-Z。Gen-Z最早出現(xiàn)于2016年,同樣也是一種將多個(gè)內(nèi)存節(jié)點(diǎn)高速連接起來(lái),供數(shù)據(jù)中心使用,形成大容量?jī)?nèi)存池的架構(gòu)。參與者包括ARM、AMD、SEC和惠普等。
但如果用Gen-Z Fabric直連SCM(存儲(chǔ)級(jí)內(nèi)存)或者GPU/FPGA加速器模塊,需要在CPU一端提供Gen-Z Logic的支持。但是目前80%以上的服務(wù)器市場(chǎng)又被英特爾占據(jù),因?yàn)橛⑻貭柌](méi)有參與Gen-Z聯(lián)盟,因此Gen-Z的推廣并不特別順利。
根據(jù)兩個(gè)聯(lián)盟簽署的意向書來(lái)看,Gen-Z將所有技術(shù)規(guī)格和資產(chǎn)轉(zhuǎn)讓給CXL聯(lián)盟。兩個(gè)聯(lián)盟過(guò)去多年在相關(guān)接口協(xié)議上的進(jìn)展,最終會(huì)集中在CXL聯(lián)盟之下,并將CXL協(xié)議作為唯一的行業(yè)標(biāo)準(zhǔn)繼續(xù)推進(jìn)。
在短短三年內(nèi),CXL不但合并了Gen-Z聯(lián)盟,還擴(kuò)展出超過(guò)165個(gè)成員,幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備制造商。CXL的成員數(shù)量大大超過(guò)了其他一致的互連標(biāo)準(zhǔn),如CCIX和Open CAPI。
CXL聯(lián)盟曾表示:“行業(yè)需要能夠全面應(yīng)對(duì)人工智能、機(jī)器學(xué)習(xí)、云等新時(shí)代互連挑戰(zhàn)的開放標(biāo)準(zhǔn)——而且可以有不止一種選擇。CXL是行業(yè)形成新的開放標(biāo)準(zhǔn)的一個(gè)例子?!?/p>
OMI與CXL猛烈碰撞
隨著處理器中CPU內(nèi)核數(shù)量的增加,為CPU內(nèi)核提供更多內(nèi)存帶寬和內(nèi)存容量成為業(yè)內(nèi)的共識(shí)。CXL與OMI兩種協(xié)議的功能類似,必然會(huì)產(chǎn)生激烈的碰撞。
OMI(Open Memory Interface)是一種高度優(yōu)化的總線,專為近存儲(chǔ)器而開發(fā),可輕松遷移到新興的存儲(chǔ)器解決方案。OpenCAPI 推出的OMI重點(diǎn)關(guān)注內(nèi)存擴(kuò)展,而IBM POWER10處理器邊緣集成兩個(gè)OMI內(nèi)存單元,其思路是通過(guò)對(duì)內(nèi)存接口進(jìn)行序列化來(lái)增加處理器中可安裝的內(nèi)存量。
以POWER10為例,安裝了16個(gè)OMI通道,每個(gè)通道的帶寬為64GB/秒,所以如果完全安裝,帶寬為1TB/秒。
“OMI延遲包括通過(guò)內(nèi)存本身的延遲,這是從內(nèi)部連接到主機(jī)中的傳輸端口返回到主機(jī)中接收的內(nèi)部連接的往返讀取延遲,”O(jiān)penCAPI聯(lián)盟的董事會(huì)顧問(wèn)表示。
但OMI的劣勢(shì)在于只有POWER9/10兼容平臺(tái),但CXL同時(shí)支持x86和Arm,因此有更多的方案廠商都選擇CXL。
例如,2021年3月,美光宣布退出了3D XPoint業(yè)務(wù),但在這次發(fā)布中,美光表示:“美光看到了以內(nèi)存為中心的新型解決方案的巨大前景,這些解決方案利用CXL來(lái)擴(kuò)展所需的容量、性能和內(nèi)容。應(yīng)用程序在具有更大架構(gòu)自由度的基礎(chǔ)設(shè)施上運(yùn)行?!憋@然,美光放棄了3D XPoint,將其研發(fā)方向轉(zhuǎn)向基于CXL的產(chǎn)品。
Rambus在2021年6月宣布了一項(xiàng)名為CXL Memory InterconnectInitiative的計(jì)劃,三星去年發(fā)布了兼容PCIe Gen5的CXL內(nèi)存模塊,2022年5月10日,又再次發(fā)布了第一款CXL內(nèi)存模組產(chǎn)品。
CXL 2.0成為游戲規(guī)則的改變者
與CXL 1.0和1.1相比,CXL 2.0為CXL協(xié)議引入了切換和池化功能,這一新規(guī)范對(duì)內(nèi)存的分解和可組合性具有重要意義。
存儲(chǔ)擴(kuò)展解決方案目前基于PCIe Gen 4和NVMe。然而,在PCIe Gen5中,CXL以更高的帶寬和更低的延遲提供了更多的可能性。通過(guò)CXL協(xié)議不僅可以連接存儲(chǔ),還可以連接加速器,從而提供各種外圍資源池。
與PCIe相比,CXL可確保主機(jī)CPU和設(shè)備之間的緩存一致性。CXL是為加速器設(shè)計(jì)的,但同時(shí)也被設(shè)計(jì)為具有內(nèi)存接口。
無(wú)需使用更多或更大的內(nèi)存模塊填充系統(tǒng),而是可以通過(guò)使用PCIe和CXL通用接口的卡安裝額外的內(nèi)存。并且由于CXL 2.0規(guī)范中引入的簡(jiǎn)單交換系統(tǒng),包括內(nèi)存在內(nèi)的資源可以被多個(gè)系統(tǒng)同時(shí)池化和訪問(wèn)。
另一個(gè)用法則涉及分層內(nèi)存架構(gòu),其中系統(tǒng)利用封裝上的高帶寬內(nèi)存、直接連接到CPU的相當(dāng)大的快速DDR5內(nèi)存池,以及通過(guò)CXL模塊連接的更大的慢速內(nèi)存池。
內(nèi)存池和分層內(nèi)存對(duì)數(shù)據(jù)中心和云運(yùn)營(yíng)商有影響。云客戶面臨的最大問(wèn)題是他們的第一大支出是內(nèi)存,其一半的設(shè)備支出都是用在內(nèi)存方面。
可組合的CXL解決方案將使緩存數(shù)據(jù)在任何CPU和用戶選擇的外圍設(shè)備之間保持一致。此外,外圍設(shè)備的位置在機(jī)架級(jí)別內(nèi)變得不那么重要,從而為資源分解提供了更有效的方式。
CXL熱火朝天
CXL的出現(xiàn)早已引起諸多廠商的關(guān)注。
CPU廠商
英特爾Sapphire Rapids處理器將會(huì)支持DDR5內(nèi)存、PCIe5.0總線、CXL1.1互連協(xié)議,內(nèi)建AMX(高級(jí)矩陣擴(kuò)展)指令集用于深度學(xué)習(xí)推理與訓(xùn)練。
AMD的EPYC Genoa支持DDR5和PCIe 5.0,以及允許設(shè)備之間保持一致內(nèi)存連續(xù)性的CXL1.1接口。并且,其另一產(chǎn)品Bergamo擁有更高的電源效率和每插槽性能,它將會(huì)和Genoa采用相同的CPU接口,所以PCIe5.0和DDR5以及CXL1.1都是支持的,預(yù)計(jì)將會(huì)在2023年推出。
內(nèi)存廠商
三星電子推出業(yè)界首款512GB CXL內(nèi)存模塊
三星宣布開發(fā)出業(yè)界首款512GB Compute Express Link(CXL)DRAM,朝著CXL的商業(yè)化邁出了重要一步,這將使在IT系統(tǒng)中具有極高的內(nèi)存容量和低延遲。自2021年5月推出業(yè)界首個(gè)帶有現(xiàn)場(chǎng)可編程門陣列(FPGA)控制器的CXLDRAM原型以來(lái),三星一直與數(shù)據(jù)中心、企業(yè)服務(wù)器和芯片組公司密切合作,以開發(fā)改進(jìn)的、可定制的CXL設(shè)備。新的CXL DRAM采用ASIC CXL控制器構(gòu)建,是第一款配備512GB DDR5 DRAM的產(chǎn)品,與之前的三星CXL產(chǎn)品相比,內(nèi)存容量增加了四倍,系統(tǒng)延遲降低了五分之一。
瀾起發(fā)布全球首款CXL內(nèi)存擴(kuò)展控制器芯片
瀾起科技發(fā)布全球首款CXL內(nèi)存擴(kuò)展控制器芯片(MXC)。該MXC芯片專為內(nèi)存AIC擴(kuò)展卡、背板及EDSFF內(nèi)存模組而設(shè)計(jì),可大幅擴(kuò)展內(nèi)存容量和帶寬,滿足高性能計(jì)算、人工智能等數(shù)據(jù)密集型應(yīng)用日益增長(zhǎng)的需求。
MXC芯片是一款CXL DRAM內(nèi)存控制器,屬于CXL協(xié)議所定義的第三種設(shè)備類型。該芯片支持JEDEC DDR4和DDR5標(biāo)準(zhǔn),同時(shí)也符合CXL 2.0規(guī)范,支持PCIe 5.0的速率。該芯片可為CPU及基于CXL協(xié)議的設(shè)備提供高帶寬、低延遲的高速互連解決方案,從而實(shí)現(xiàn)CPU與各CXL設(shè)備之間的內(nèi)存共享,在大幅提升系統(tǒng)性能的同時(shí),顯著降低軟件堆棧復(fù)雜性和數(shù)據(jù)中心總體擁有成本(TCO)。
EDA廠商
新思科技提供業(yè)界首款CXLIP核解決方案
新思科技宣布推出其用于人工智能、內(nèi)存擴(kuò)展和高端云計(jì)算芯片的完整DesignWare CXL IP核解決方案,其中包含控制器、PHY和驗(yàn)證IP核。CXL協(xié)議支持芯片與通用加速器、內(nèi)存擴(kuò)展器和智能I/O設(shè)備之間的低延遲數(shù)據(jù)通信,這些設(shè)備需要用于數(shù)據(jù)密集型工作負(fù)載的高性能異構(gòu)計(jì)算。
新思科技Designware CXL IP核解決方案符合CXL1.1規(guī)范,并支持所有三種CXL協(xié)議(cxl.io、cxl.cache、cxl.mem)和設(shè)備類型,滿足特定應(yīng)用要求。CXL IP是核在新思科技用于PCI Express5.0的DesignWare IP核基礎(chǔ)上構(gòu)建而成,已被所有關(guān)鍵市場(chǎng)細(xì)分領(lǐng)域的十幾家領(lǐng)先半導(dǎo)體公司所采用,并已證明與生態(tài)系統(tǒng)中的一系列產(chǎn)品具有良好的互操作性。
羅馬不是一天建成的
根據(jù)Gartner最近的一份報(bào)告,CXL交換可能比可組合基礎(chǔ)設(shè)施具有更廣泛的吸引力,該報(bào)告預(yù)測(cè)到2025年,該部分將占企業(yè)服務(wù)器支出的不到10%。有一些市場(chǎng)適合它,也有一些市場(chǎng)不適合。在高性能計(jì)算空間和托管服務(wù)提供商或云提供商中,這是一個(gè)很好的解決方案。
基于CXL的內(nèi)存可能被視為HBM的補(bǔ)充。CXL的出現(xiàn)恰逢技術(shù)難以跟上客戶對(duì)各方面下一代性能的需求:更快的數(shù)據(jù)處理、更大的內(nèi)存容量、更大的帶寬,并且所有這些都使用標(biāo)準(zhǔn)化組件在更小、更高效的空間中實(shí)現(xiàn)。
CXL2.0還沒(méi)捂熱,CXL3.0標(biāo)準(zhǔn)的制定已經(jīng)在規(guī)劃中。CXL聯(lián)盟宣布將在今年發(fā)布CXL3.0規(guī)范。這次更新將包括從每秒32千兆傳輸?shù)?4千兆的提升,以及對(duì)許多新的內(nèi)存使用模型的支持。該規(guī)范還介紹了一種以非對(duì)稱方式實(shí)施CXL互連技術(shù)的途徑。此功能將允許GPU或NIC等設(shè)備直接與其他CXL設(shè)備交互,從而完全消除CPU作為瓶頸。
雖然CXL可以改進(jìn)數(shù)據(jù)中心,但羅馬不是一天建成的,未來(lái)幾年可能更多地是看到各種概念產(chǎn)品面世,而大規(guī)模的應(yīng)用可能尚需時(shí)日。