日韩激情视频久久,中文字幕日韩人妻在线乱码

文|半導(dǎo)體產(chǎn)業(yè)縱橫

1947年12月23日，世界上第一個(gè)晶體管誕生。晶體管的出現(xiàn)就好像宇宙的第一次爆炸。如同大爆炸帶來(lái)的萬(wàn)千星球，75年間世界上晶體管的數(shù)量不斷增長(zhǎng)。

從一個(gè)晶體管到在一片芯片上集成800億個(gè)晶體管，當(dāng)芯片以摩爾預(yù)測(cè)的那樣成倍增長(zhǎng)，“堆料”成為各個(gè)大廠實(shí)現(xiàn)性能差異化的必選之路。

那么百億級(jí)晶體管給產(chǎn)品性能帶來(lái)了多少提升？隨著摩爾定律的開(kāi)始放緩，“堆料”的難度越來(lái)越高，芯片公司又該如何突破極限？

高性能處理器的”堆料”大戰(zhàn)

3月22日，英偉達(dá)介紹了新Hopper GPU 架構(gòu)與H100 GPU。這款被稱為核彈級(jí)更新的新品將容納800億個(gè)晶體管，成為當(dāng)下性能最強(qiáng)大的GPU。在發(fā)布會(huì)上，英偉達(dá)CEO黃仁勛表示，20塊H100 GPU就可以承托全球互聯(lián)網(wǎng)的流量。

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達(dá)到128GB/s的速度，是PCIe 4.0的2倍。

內(nèi)存方面，H100還將默認(rèn)支持80GB的HBM3內(nèi)存，帶寬為3 TB/s，比A100的HBM2E 快 1.5 倍。性能方面，H100可提供高達(dá)FP64/FP32 60TFlops，F(xiàn)P162000TFlops，TF32 1000TFlops，都三倍于A100，F(xiàn)P8 4000TFlops，六倍于A100。

炸場(chǎng)的不只是新一代GPU，還有英偉達(dá)的數(shù)據(jù)中心CPU Grace。Grace是兩個(gè)Grace CPU封裝的，總計(jì)144個(gè)CPU內(nèi)核（基于ARMv9指令集），緩存容量396MB，支持LPDDR5X ECC內(nèi)存，通過(guò)每秒 900 GB 的 NVLink 芯片到芯片互連將 144 個(gè)計(jì)算核心彼此連通，內(nèi)存帶寬則為每秒 1 TB。

Grace CPU Superchip 使用 Arm v9并且該芯片使用 Neoverse N2 設(shè)計(jì)。Neoverse N2 平臺(tái)是 Arm 首個(gè)支持新發(fā)布的 Arm v9 擴(kuò)展的IP，其性能比V1 平臺(tái)高出 40%。N2 Perseus平臺(tái)采用5nm設(shè)計(jì)，支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看，Grace CPU Superchip的兩個(gè)CPU和板載內(nèi)存都消耗500W的峰值功率。

而就在3月9日，蘋(píng)果在春季發(fā)布會(huì)上也推出了讓人眼前一亮的超級(jí)新品M1 Ultra，這款芯片包括20個(gè)CPU內(nèi)核，其中16個(gè)是注重性能的Firestorm核心，4個(gè)注重效率的Icestorm核心。新的SoC由1140億個(gè)晶體管組成，可配置高達(dá)128GB的高帶寬、低延遲統(tǒng)一內(nèi)存，可通過(guò)20核CPU、64核GPU和32核神經(jīng)引擎訪問(wèn)，比使用帶有Afterburner的28核Mac Pro快5.6倍。

“堆料”=性能？

英特爾1971年發(fā)布4004處理器，擁有2250個(gè)晶體管；1979年8088投入生產(chǎn)，包含29000個(gè)晶體管的芯片；

1986年MIPS計(jì)算機(jī)系統(tǒng)公司發(fā)布第一個(gè)商業(yè)化的RISC體系結(jié)構(gòu)包含11萬(wàn)個(gè)晶體管；

數(shù)字設(shè)備公司（DEC）于1994年發(fā)布Alpha 21164包含930萬(wàn)個(gè)晶體管；

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個(gè)晶體管，同時(shí)開(kāi)啟多核時(shí)代；

2014年IBM的Power8包含了12個(gè)核心，有96個(gè)線程裝有42億個(gè)晶體管；

......

而我們回看世界上第一款商用微處理器，英特爾4004，這款51年前誕生的產(chǎn)品在3mm*4mm的面積上集成了2300個(gè)晶體管，采用五層設(shè)計(jì)、10微米制程。而這款處理器的最初的主頻是108KHz，最高時(shí)脈有740KHz，能執(zhí)行4位元運(yùn)算，支援8位元指令集及12位元位址集，使用10.8微秒和21.6微秒運(yùn)行周期。

晶體管數(shù)量的增加讓性能提升了多少呢？包含2300個(gè)晶體管的英特爾4004在使用10.8微秒運(yùn)行周期時(shí)，可以每秒運(yùn)算9萬(wàn)次。作為對(duì)比，包含800億晶體管的H100最高可支持每秒4000萬(wàn)億次的浮點(diǎn)計(jì)算。我們可以看到晶體管數(shù)量與性能明顯的正相關(guān)，這也是為何所有領(lǐng)先的芯片公司都在晶體管數(shù)量上下足功夫。

然而當(dāng)每一場(chǎng)新開(kāi)的發(fā)布會(huì)都在刷新大眾對(duì)晶體管數(shù)量的認(rèn)知的同時(shí)，“堆料”的光環(huán)逐漸褪去。一部分人認(rèn)為，對(duì)于領(lǐng)先的芯片設(shè)計(jì)商，“堆料”顯得簡(jiǎn)單粗暴。對(duì)于個(gè)人用戶，很難100%地利用所有晶體管帶來(lái)的性能提升。更多時(shí)候，“堆料”對(duì)于芯片廠商的意義是保持市場(chǎng)地位。以熱衷堆料的蘋(píng)果為例，蘋(píng)果在最新的手機(jī)處理器上集成了150億個(gè)晶體管，采用6核CPU、4/5核GPU，讓CPU性能領(lǐng)先競(jìng)爭(zhēng)對(duì)手50%，4/5核CPU性能實(shí)現(xiàn)30%/50%的領(lǐng)先。但對(duì)于使用iPhone 12的用戶來(lái)說(shuō)，這些數(shù)字似乎意義有限。

可以看到，芯片性能的發(fā)展史也是晶體管數(shù)量的變遷史。但隨著晶體管數(shù)量的增長(zhǎng)，摩爾定律的放緩已經(jīng)肉眼可見(jiàn)。對(duì)于頂尖大廠來(lái)說(shuō)，找尋增加晶體管數(shù)量之外的“卷法”也成為了當(dāng)務(wù)之急。

“堆料”極限如何突破？

Chiplet技術(shù)

小芯片（Chiplet）技術(shù)被視為延緩半導(dǎo)體摩爾定律的解方，它的概念其實(shí)很簡(jiǎn)單就是硅片級(jí)別重用。將一個(gè)芯片組成的處理器劃分為多個(gè)芯片，分別是：數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能，然后再將它們連接在一起形成一個(gè)小芯片的芯片網(wǎng)絡(luò)。

Marvell創(chuàng)始人周秀文博士在ISSCC2015大會(huì)上提出了提出Mochi架構(gòu)的概念，他認(rèn)為Mochi可成為諸多應(yīng)用的基礎(chǔ)架構(gòu)。而AMD在2019年通過(guò)采用Chiplet技術(shù)，應(yīng)用于在Ryzen和EPYC處理器。使用7nm的Zen2 CPU內(nèi)核的CPU性能比前代產(chǎn)品提高了15%。

除了Chiplet技術(shù)可以將大型7nm設(shè)計(jì)的成本降低高達(dá)25%；在5nm及更先進(jìn)的制程的設(shè)計(jì)中，節(jié)省的成本更大。

芯原股份創(chuàng)始人、董事長(zhǎng)兼總裁戴偉民曾表示，對(duì)于產(chǎn)業(yè)來(lái)說(shuō)，在標(biāo)準(zhǔn)與生態(tài)層次上，Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng)；對(duì)于芯片設(shè)計(jì)來(lái)說(shuō)，降低了大規(guī)模芯片設(shè)計(jì)的門(mén)檻。

英特爾、AMD、Arm、臺(tái)積電和三星等眾多行業(yè)巨頭推出了新的通用小芯片互連高速 (UCIe) 聯(lián)盟，其目標(biāo)是通過(guò)開(kāi)放的芯片間互連標(biāo)準(zhǔn)化小芯片之間的互連設(shè)計(jì)。從而降低成本并培育更廣泛的經(jīng)過(guò)驗(yàn)證的小芯片生態(tài)系統(tǒng)。

最后，UCIe 標(biāo)準(zhǔn)旨在與其他連接標(biāo)準(zhǔn)（如 USB、PCIe 和 NVMe）一樣普遍，同時(shí)為小芯片連接提供卓越的功率和性能指標(biāo)。值得注意的是，所有三個(gè)領(lǐng)先的代工廠都將采用這項(xiàng)技術(shù)，以及 x86 和 Arm 生態(tài)系統(tǒng)。這是隨著摩爾定律的減弱，芯片制造商正在共同努力解決越來(lái)越困難的縮放。

在英偉達(dá)的新品上，支持UCIe的NVlink連接技術(shù)就起到重要的作用。兩個(gè) Grace CPU 通過(guò) Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進(jìn)行通信。這種互連技術(shù)支持低延遲內(nèi)存一致性，允許連接的設(shè)備同時(shí)在同一個(gè)內(nèi)存池上工作。NVLink-C2C可提供高達(dá) 25 倍的能效和 90 倍的面積效率，支持高達(dá) 900 GB/s 或更高的吞吐量。同時(shí)通過(guò)支持多種類型的聯(lián)機(jī)，Grace可實(shí)現(xiàn)從 PCB 的互連到硅中介層和晶圓級(jí)的互連。

互連技術(shù)除了提高芯片性能，還可以降低成本和并支持在單個(gè)封裝中使用不同類型的工藝節(jié)點(diǎn)。

先進(jìn)封裝

當(dāng)實(shí)際芯片的密度仍以每3年約2倍的速度增長(zhǎng)，摩爾定律的放緩已經(jīng)肉眼可見(jiàn)。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡，但這些問(wèn)題大多與數(shù)據(jù)的輸入和輸出有關(guān)。

芯片上數(shù)據(jù)的輸入和輸出（IO）是計(jì)算的命脈。將內(nèi)存放在芯片上有助于通過(guò)減少通信開(kāi)銷來(lái)減少IO需求。小芯片技術(shù)雖然能滿足一部分需求，但它不是孤立的解決方案。隨著每個(gè)晶體管的成本的上升，設(shè)計(jì)成本飆升，由于需要更多IO來(lái)與其他芯片接口，但I(xiàn)O的限制讓部分芯片無(wú)法拆分，因此芯片尺寸仍在達(dá)到峰值。

先進(jìn)封裝就成為了解決這方面問(wèn)題的方法。蘋(píng)果的M1 Ultra就通過(guò)2.5D先進(jìn)封裝實(shí)現(xiàn)性能超越。UltraFusion是蘋(píng)果將兩個(gè)M1 Max裸片鏈接的方法。通過(guò)將兩個(gè)M1 Max裸片封裝到一起，蘋(píng)果使他們可以使用的硬件數(shù)量翻了一番。兩倍的CPU內(nèi)核、兩倍的GPU內(nèi)核、兩倍的神經(jīng)引擎內(nèi)核、兩倍的LPDDR5內(nèi)存通道以及兩倍的外圍設(shè)備I/O。

英特爾則選擇在單個(gè)基板中可以有許多嵌入式橋接，根據(jù)需要在多個(gè)裸片之間提供極高的 I/O 和良好控制的電氣互連路徑，即EMIB封裝實(shí)現(xiàn)芯片性能的提升。

可以看到封裝、架構(gòu)種種因素在性能提升上的重要性越來(lái)越高。

“堆料”是大廠逃不過(guò)的內(nèi)卷？

雖然業(yè)界對(duì)“堆料”的褒貶不一，但現(xiàn)實(shí)仍是，可以不止于堆料，但不能不堆料。而堆料也不僅僅是形容在處理器上增加晶體管，廣義上講堆料還包括各種硬件廠商，如主板廠、手機(jī)廠為了尋求差異化，也在產(chǎn)品上增加大量的頂尖配件。

隨著汽車智能化程度的提高，汽車廠商也在用”堆料”來(lái)吸引客戶。Aquila蔚來(lái)超感系統(tǒng)配備了33個(gè)高性能感知硬件，包括1個(gè)超遠(yuǎn)距高精度激光雷達(dá)、7顆800萬(wàn)像素高清攝像頭、4顆300萬(wàn)像素高感光環(huán)視專用攝像頭、1個(gè)增強(qiáng)主駕感知、5個(gè)毫米波雷達(dá)、12個(gè)超聲波傳感器、2個(gè)高精度定位單元和V2X車路協(xié)同。

如果是自動(dòng)駕駛是智能汽車廠商們的終極目標(biāo)，顯然這一配置并不足夠。更何況自動(dòng)駕駛需要的不止是汽車廠商們的突破，對(duì)交通系統(tǒng)、城市網(wǎng)聯(lián)等方面都有著很高的要求。但汽車廠商們還是在為產(chǎn)品增加非必要的配件。

換句話說(shuō)，“堆料”就像是各硬件廠商的一場(chǎng)內(nèi)卷。既然逃不過(guò)，就只能加入。

不過(guò)就算是內(nèi)卷，也有不同的卷法。汽車行業(yè)中，特斯拉就選擇通過(guò)優(yōu)化傳感器組合、控制傳感器數(shù)量，算法改進(jìn)等各種手段，充分發(fā)揮單個(gè)傳感器的最佳性能，而非單純的增加配件。

如果說(shuō)“堆料”是一場(chǎng)競(jìng)爭(zhēng)始終無(wú)法避免，可以確定的是最終決定勝負(fù)的“料”一定不止一面。

文|半導(dǎo)體產(chǎn)業(yè)縱橫

高性能處理器的”堆料”大戰(zhàn)

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達(dá)到128GB/s的速度，是PCIe 4.0的2倍。

“堆料”=性能？

英特爾1971年發(fā)布4004處理器，擁有2250個(gè)晶體管；1979年8088投入生產(chǎn)，包含29000個(gè)晶體管的芯片；

1986年MIPS計(jì)算機(jī)系統(tǒng)公司發(fā)布第一個(gè)商業(yè)化的RISC體系結(jié)構(gòu)包含11萬(wàn)個(gè)晶體管；

數(shù)字設(shè)備公司（DEC）于1994年發(fā)布Alpha 21164包含930萬(wàn)個(gè)晶體管；

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個(gè)晶體管，同時(shí)開(kāi)啟多核時(shí)代；

2014年IBM的Power8包含了12個(gè)核心，有96個(gè)線程裝有42億個(gè)晶體管；

......

“堆料”極限如何突破？

Chiplet技術(shù)

除了Chiplet技術(shù)可以將大型7nm設(shè)計(jì)的成本降低高達(dá)25%；在5nm及更先進(jìn)的制程的設(shè)計(jì)中，節(jié)省的成本更大。

互連技術(shù)除了提高芯片性能，還可以降低成本和并支持在單個(gè)封裝中使用不同類型的工藝節(jié)點(diǎn)。

先進(jìn)封裝

可以看到封裝、架構(gòu)種種因素在性能提升上的重要性越來(lái)越高。

“堆料”是大廠逃不過(guò)的內(nèi)卷？

換句話說(shuō)，“堆料”就像是各硬件廠商的一場(chǎng)內(nèi)卷。既然逃不過(guò)，就只能加入。

如果說(shuō)“堆料”是一場(chǎng)競(jìng)爭(zhēng)始終無(wú)法避免，可以確定的是最終決定勝負(fù)的“料”一定不止一面。

歷史搜索全部刪除

熱門(mén)搜索

800億晶體管開(kāi)啟新一輪堆料大戰(zhàn)

高性能處理器的”堆料”大戰(zhàn)

Chiplet技術(shù)

先進(jìn)封裝

英特爾

評(píng)論

800億晶體管開(kāi)啟新一輪堆料大戰(zhàn)

高性能處理器的”堆料”大戰(zhàn)

Chiplet技術(shù)

先進(jìn)封裝