文|半導(dǎo)體產(chǎn)業(yè)縱橫
1947年12月23日,世界上第一個(gè)晶體管誕生。晶體管的出現(xiàn)就好像宇宙的第一次爆炸。如同大爆炸帶來(lái)的萬(wàn)千星球,75年間世界上晶體管的數(shù)量不斷增長(zhǎng)。
從一個(gè)晶體管到在一片芯片上集成800億個(gè)晶體管,當(dāng)芯片以摩爾預(yù)測(cè)的那樣成倍增長(zhǎng),“堆料”成為各個(gè)大廠實(shí)現(xiàn)性能差異化的必選之路。
那么百億級(jí)晶體管給產(chǎn)品性能帶來(lái)了多少提升?隨著摩爾定律的開(kāi)始放緩,“堆料”的難度越來(lái)越高,芯片公司又該如何突破極限?
高性能處理器的”堆料”大戰(zhàn)
3月22日,英偉達(dá)介紹了新Hopper GPU 架構(gòu)與H100 GPU。這款被稱為核彈級(jí)更新的新品將容納800億個(gè)晶體管,成為當(dāng)下性能最強(qiáng)大的GPU。在發(fā)布會(huì)上,英偉達(dá)CEO黃仁勛表示,20塊H100 GPU就可以承托全球互聯(lián)網(wǎng)的流量。
H100支持的第四代NVLink接口可以提供高128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達(dá)到128GB/s的速度,是PCIe 4.0的2倍。
內(nèi)存方面,H100還將默認(rèn)支持80GB的HBM3內(nèi)存,帶寬為3 TB/s,比A100的HBM2E 快 1.5 倍。性能方面,H100可提供高達(dá)FP64/FP32 60TFlops,F(xiàn)P162000TFlops,TF32 1000TFlops,都三倍于A100,F(xiàn)P8 4000TFlops,六倍于A100。
炸場(chǎng)的不只是新一代GPU,還有英偉達(dá)的數(shù)據(jù)中心CPU Grace。Grace是兩個(gè)Grace CPU封裝的,總計(jì)144個(gè)CPU內(nèi)核(基于ARMv9指令集),緩存容量396MB,支持LPDDR5X ECC內(nèi)存,通過(guò)每秒 900 GB 的 NVLink 芯片到芯片互連將 144 個(gè)計(jì)算核心彼此連通,內(nèi)存帶寬則為每秒 1 TB。
Grace CPU Superchip 使用 Arm v9并且該芯片使用 Neoverse N2 設(shè)計(jì)。Neoverse N2 平臺(tái)是 Arm 首個(gè)支持新發(fā)布的 Arm v9 擴(kuò)展的IP,其性能比V1 平臺(tái)高出 40%。N2 Perseus平臺(tái)采用5nm設(shè)計(jì),支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看,Grace CPU Superchip的兩個(gè)CPU和板載內(nèi)存都消耗500W的峰值功率。
而就在3月9日,蘋(píng)果在春季發(fā)布會(huì)上也推出了讓人眼前一亮的超級(jí)新品M1 Ultra,這款芯片包括20個(gè)CPU內(nèi)核,其中16個(gè)是注重性能的Firestorm核心,4個(gè)注重效率的Icestorm核心。新的SoC由1140億個(gè)晶體管組成,可配置高達(dá)128GB的高帶寬、低延遲統(tǒng)一內(nèi)存,可通過(guò)20核CPU、64核GPU和32核神經(jīng)引擎訪問(wèn),比使用帶有Afterburner的28核Mac Pro快5.6倍。
“堆料”=性能?
英特爾1971年發(fā)布4004處理器,擁有2250個(gè)晶體管;1979年8088投入生產(chǎn),包含29000個(gè)晶體管的芯片;
1986年MIPS計(jì)算機(jī)系統(tǒng)公司發(fā)布第一個(gè)商業(yè)化的RISC體系結(jié)構(gòu)包含11萬(wàn)個(gè)晶體管;
數(shù)字設(shè)備公司(DEC)于1994年發(fā)布Alpha 21164包含930萬(wàn)個(gè)晶體管;
在2006年英特爾發(fā)布了Core Duo包裝了2.91億個(gè)晶體管,同時(shí)開(kāi)啟多核時(shí)代;
2014年IBM的Power8包含了12個(gè)核心,有96個(gè)線程裝有42億個(gè)晶體管;
......
而我們回看世界上第一款商用微處理器,英特爾4004,這款51年前誕生的產(chǎn)品在3mm*4mm的面積上集成了2300個(gè)晶體管,采用五層設(shè)計(jì)、10微米制程。而這款處理器的最初的主頻是108KHz,最高時(shí)脈有740KHz,能執(zhí)行4位元運(yùn)算,支援8位元指令集及12位元位址集,使用10.8微秒和21.6微秒運(yùn)行周期。
晶體管數(shù)量的增加讓性能提升了多少呢?包含2300個(gè)晶體管的英特爾4004在使用10.8微秒運(yùn)行周期時(shí),可以每秒運(yùn)算9萬(wàn)次。作為對(duì)比,包含800億晶體管的H100最高可支持每秒4000萬(wàn)億次的浮點(diǎn)計(jì)算。我們可以看到晶體管數(shù)量與性能明顯的正相關(guān),這也是為何所有領(lǐng)先的芯片公司都在晶體管數(shù)量上下足功夫。
然而當(dāng)每一場(chǎng)新開(kāi)的發(fā)布會(huì)都在刷新大眾對(duì)晶體管數(shù)量的認(rèn)知的同時(shí),“堆料”的光環(huán)逐漸褪去。一部分人認(rèn)為,對(duì)于領(lǐng)先的芯片設(shè)計(jì)商,“堆料”顯得簡(jiǎn)單粗暴。對(duì)于個(gè)人用戶,很難100%地利用所有晶體管帶來(lái)的性能提升。更多時(shí)候,“堆料”對(duì)于芯片廠商的意義是保持市場(chǎng)地位。以熱衷堆料的蘋(píng)果為例,蘋(píng)果在最新的手機(jī)處理器上集成了150億個(gè)晶體管,采用6核CPU、4/5核GPU,讓CPU性能領(lǐng)先競(jìng)爭(zhēng)對(duì)手50%,4/5核CPU性能實(shí)現(xiàn)30%/50%的領(lǐng)先。但對(duì)于使用iPhone 12的用戶來(lái)說(shuō),這些數(shù)字似乎意義有限。
可以看到,芯片性能的發(fā)展史也是晶體管數(shù)量的變遷史。但隨著晶體管數(shù)量的增長(zhǎng),摩爾定律的放緩已經(jīng)肉眼可見(jiàn)。對(duì)于頂尖大廠來(lái)說(shuō),找尋增加晶體管數(shù)量之外的“卷法”也成為了當(dāng)務(wù)之急。
“堆料”極限如何突破?
Chiplet技術(shù)
小芯片(Chiplet)技術(shù)被視為延緩半導(dǎo)體摩爾定律的解方,它的概念其實(shí)很簡(jiǎn)單就是硅片級(jí)別重用。將一個(gè)芯片組成的處理器劃分為多個(gè)芯片,分別是:數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能,然后再將它們連接在一起形成一個(gè)小芯片的芯片網(wǎng)絡(luò)。
Marvell創(chuàng)始人周秀文博士在ISSCC2015大會(huì)上提出了提出Mochi架構(gòu)的概念,他認(rèn)為Mochi可成為諸多應(yīng)用的基礎(chǔ)架構(gòu)。而AMD在2019年通過(guò)采用Chiplet技術(shù),應(yīng)用于在Ryzen和EPYC處理器。使用7nm的Zen2 CPU內(nèi)核的CPU性能比前代產(chǎn)品提高了15%。
除了Chiplet技術(shù)可以將大型7nm設(shè)計(jì)的成本降低高達(dá)25%;在5nm及更先進(jìn)的制程的設(shè)計(jì)中,節(jié)省的成本更大。
芯原股份創(chuàng)始人、董事長(zhǎng)兼總裁戴偉民曾表示,對(duì)于產(chǎn)業(yè)來(lái)說(shuō),在標(biāo)準(zhǔn)與生態(tài)層次上,Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng);對(duì)于芯片設(shè)計(jì)來(lái)說(shuō),降低了大規(guī)模芯片設(shè)計(jì)的門(mén)檻。
英特爾、AMD、Arm、臺(tái)積電和三星等眾多行業(yè)巨頭推出了新的通用小芯片互連高速 (UCIe) 聯(lián)盟,其目標(biāo)是通過(guò)開(kāi)放的芯片間互連標(biāo)準(zhǔn)化小芯片之間的互連設(shè)計(jì)。從而降低成本并培育更廣泛的經(jīng)過(guò)驗(yàn)證的小芯片生態(tài)系統(tǒng)。
最后,UCIe 標(biāo)準(zhǔn)旨在與其他連接標(biāo)準(zhǔn)(如 USB、PCIe 和 NVMe)一樣普遍,同時(shí)為小芯片連接提供卓越的功率和性能指標(biāo)。值得注意的是,所有三個(gè)領(lǐng)先的代工廠都將采用這項(xiàng)技術(shù),以及 x86 和 Arm 生態(tài)系統(tǒng)。這是隨著摩爾定律的減弱,芯片制造商正在共同努力解決越來(lái)越困難的縮放。
在英偉達(dá)的新品上,支持UCIe的NVlink連接技術(shù)就起到重要的作用。兩個(gè) Grace CPU 通過(guò) Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進(jìn)行通信。這種互連技術(shù)支持低延遲內(nèi)存一致性,允許連接的設(shè)備同時(shí)在同一個(gè)內(nèi)存池上工作。NVLink-C2C可提供高達(dá) 25 倍的能效和 90 倍的面積效率,支持高達(dá) 900 GB/s 或更高的吞吐量。同時(shí)通過(guò)支持多種類型的聯(lián)機(jī),Grace可實(shí)現(xiàn)從 PCB 的互連到硅中介層和晶圓級(jí)的互連。
互連技術(shù)除了提高芯片性能,還可以降低成本和并支持在單個(gè)封裝中使用不同類型的工藝節(jié)點(diǎn)。
先進(jìn)封裝
當(dāng)實(shí)際芯片的密度仍以每3年約2倍的速度增長(zhǎng),摩爾定律的放緩已經(jīng)肉眼可見(jiàn)。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡,但這些問(wèn)題大多與數(shù)據(jù)的輸入和輸出有關(guān)。
芯片上數(shù)據(jù)的輸入和輸出(IO)是計(jì)算的命脈。將內(nèi)存放在芯片上有助于通過(guò)減少通信開(kāi)銷來(lái)減少IO需求。小芯片技術(shù)雖然能滿足一部分需求,但它不是孤立的解決方案。隨著每個(gè)晶體管的成本的上升,設(shè)計(jì)成本飆升,由于需要更多IO來(lái)與其他芯片接口,但I(xiàn)O的限制讓部分芯片無(wú)法拆分,因此芯片尺寸仍在達(dá)到峰值。
先進(jìn)封裝就成為了解決這方面問(wèn)題的方法。蘋(píng)果的M1 Ultra就通過(guò)2.5D先進(jìn)封裝實(shí)現(xiàn)性能超越。UltraFusion是蘋(píng)果將兩個(gè)M1 Max裸片鏈接的方法。通過(guò)將兩個(gè)M1 Max裸片封裝到一起,蘋(píng)果使他們可以使用的硬件數(shù)量翻了一番。兩倍的CPU內(nèi)核、兩倍的GPU內(nèi)核、兩倍的神經(jīng)引擎內(nèi)核、兩倍的LPDDR5內(nèi)存通道以及兩倍的外圍設(shè)備I/O。
英特爾則選擇在單個(gè)基板中可以有許多嵌入式橋接,根據(jù)需要在多個(gè)裸片之間提供極高的 I/O 和良好控制的電氣互連路徑,即EMIB封裝實(shí)現(xiàn)芯片性能的提升。
可以看到封裝、架構(gòu)種種因素在性能提升上的重要性越來(lái)越高。
“堆料”是大廠逃不過(guò)的內(nèi)卷?
雖然業(yè)界對(duì)“堆料”的褒貶不一,但現(xiàn)實(shí)仍是,可以不止于堆料,但不能不堆料。而堆料也不僅僅是形容在處理器上增加晶體管,廣義上講堆料還包括各種硬件廠商,如主板廠、手機(jī)廠為了尋求差異化,也在產(chǎn)品上增加大量的頂尖配件。
隨著汽車智能化程度的提高,汽車廠商也在用”堆料”來(lái)吸引客戶。Aquila蔚來(lái)超感系統(tǒng)配備了33個(gè)高性能感知硬件,包括1個(gè)超遠(yuǎn)距高精度激光雷達(dá)、7顆800萬(wàn)像素高清攝像頭、4顆300萬(wàn)像素高感光環(huán)視專用攝像頭、1個(gè)增強(qiáng)主駕感知、5個(gè)毫米波雷達(dá)、12個(gè)超聲波傳感器、2個(gè)高精度定位單元和V2X車路協(xié)同。
如果是自動(dòng)駕駛是智能汽車廠商們的終極目標(biāo),顯然這一配置并不足夠。更何況自動(dòng)駕駛需要的不止是汽車廠商們的突破,對(duì)交通系統(tǒng)、城市網(wǎng)聯(lián)等方面都有著很高的要求。但汽車廠商們還是在為產(chǎn)品增加非必要的配件。
換句話說(shuō),“堆料”就像是各硬件廠商的一場(chǎng)內(nèi)卷。既然逃不過(guò),就只能加入。
不過(guò)就算是內(nèi)卷,也有不同的卷法。汽車行業(yè)中,特斯拉就選擇通過(guò)優(yōu)化傳感器組合、控制傳感器數(shù)量,算法改進(jìn)等各種手段,充分發(fā)揮單個(gè)傳感器的最佳性能,而非單純的增加配件。
如果說(shuō)“堆料”是一場(chǎng)競(jìng)爭(zhēng)始終無(wú)法避免,可以確定的是最終決定勝負(fù)的“料”一定不止一面。