正在閱讀:

1000TOPS算力時(shí)代來(lái)臨

掃一掃下載界面新聞APP

1000TOPS算力時(shí)代來(lái)臨

不斷發(fā)展的人工智能也對(duì)芯片的算力提出更高的要求。

文|半導(dǎo)體產(chǎn)業(yè)縱橫

人類(lèi)社會(huì)已經(jīng)進(jìn)入算力時(shí)代。

據(jù)中國(guó)信息通信研究院測(cè)算,截至2021年底,中國(guó)算力核心產(chǎn)業(yè)規(guī)模超過(guò)1.5萬(wàn)億元,關(guān)聯(lián)產(chǎn)業(yè)規(guī)模超過(guò)8萬(wàn)億元。其中,云計(jì)算市場(chǎng)規(guī)模超過(guò)3000億元,互聯(lián)網(wǎng)數(shù)據(jù)中心(服務(wù)器)市場(chǎng)規(guī)模超過(guò)1500億元,AI 核心產(chǎn)業(yè)規(guī)模超過(guò)4000億元。

國(guó)內(nèi)算力產(chǎn)業(yè)近五年平均增速超過(guò)30%,算力規(guī)模超過(guò)150EFlops(每秒15000京次浮點(diǎn)運(yùn)算次數(shù)),排名全球第二,第一是美國(guó)。眾多場(chǎng)景已經(jīng)進(jìn)入超越1000TOPS(Tera Operations Per Second, 處理器每秒可以進(jìn)行一萬(wàn)億次操作(1012))算力的時(shí)代。

超越1000 TOPS的高算力

數(shù)據(jù)中心和超算

一個(gè)典型的超越1000TOPS算力的場(chǎng)景就是數(shù)據(jù)中心和超算。先來(lái)看數(shù)據(jù)中心對(duì)于算力的需求,工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》明確了算力內(nèi)涵并引入測(cè)算指標(biāo)FLOPS,對(duì)數(shù)據(jù)中心發(fā)展質(zhì)量進(jìn)行評(píng)價(jià),指出到2023年底,總算力規(guī)模將超過(guò)200 EFLOPS,高性能算力占比將達(dá)到10%,到2025年,總算力規(guī)模將超過(guò)300 EFLOPS。

而超算中心也早已邁入E級(jí)算力(百億億次運(yùn)算每秒)時(shí)代,并正在向Z(千E)級(jí)算力發(fā)展。E(Exascale)級(jí)計(jì)算也就是百萬(wàn)兆級(jí)的計(jì)算,是目前全球頂尖超算系統(tǒng)新的追逐目標(biāo)。用一個(gè)不精確的說(shuō)法來(lái)解釋百萬(wàn)兆級(jí)計(jì)算,一個(gè)百萬(wàn)兆級(jí)計(jì)算機(jī)一瞬間進(jìn)行的計(jì)算,相當(dāng)于地球上所有人每天每秒都不停地計(jì)算四年。

2022年5月登頂世界超算500強(qiáng)榜單的美國(guó)國(guó)防部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室Frontier超算中心,采用AMD公司MI250X高算力芯片(可提供383 TOPS算力),達(dá)到了1.1 EOPS雙精度浮點(diǎn)算力。

人工智能

不斷發(fā)展的人工智能也對(duì)芯片的算力提出更高的要求。人工智能的應(yīng)用對(duì)于算力最大的挑戰(zhàn)依然來(lái)自于核心數(shù)據(jù)中心的模型訓(xùn)練,近年來(lái),算法模型的復(fù)雜度呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),正在不斷逼近算力的上限。

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語(yǔ)言模型為例,其擁有1750億個(gè)參數(shù),使用1000億個(gè)詞匯的語(yǔ)料庫(kù)訓(xùn)練,采用1000塊當(dāng)時(shí)最先進(jìn)的英偉達(dá)A100 GPU(圖形處理器,624 TOPS)訓(xùn)練仍需要1個(gè)月。

距離GPT-3問(wèn)世不到一年,更大更復(fù)雜的語(yǔ)言模型,即超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型Switch Transformer已問(wèn)世。目前,人工智能所需算力每?jī)蓚€(gè)月即翻一倍,承載AI的新型算力基礎(chǔ)設(shè)施的供給水平,將直接影響AI創(chuàng)新迭代及產(chǎn)業(yè)AI應(yīng)用落地。

AI模型跑步進(jìn)入萬(wàn)億級(jí)時(shí)代,深度學(xué)習(xí)發(fā)展逐步進(jìn)入大模型、大數(shù)據(jù)階段,模型參數(shù)和數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),引發(fā)的算力需求平均每2年超過(guò)算力實(shí)際增長(zhǎng)速度的375倍。

自動(dòng)駕駛

自動(dòng)駕駛?cè)蝿?wù)需要高于1000 TOPS的高算力芯片。

自動(dòng)駕駛的競(jìng)爭(zhēng)實(shí)際上是算力的競(jìng)爭(zhēng)。汽車(chē)從L1、L2向L3、L4、L5不斷推進(jìn),從某種意義上看,就是算力的競(jìng)賽,每往上進(jìn)階一級(jí)就意味著對(duì)算力的需求更高。高階自動(dòng)駕駛對(duì)算力需求呈指數(shù)級(jí)上升。

2014—2016年特斯拉ModelS的算力為0.256TOPS,2017年蔚來(lái)ES8的算力是2.5TOPS,2019年特斯拉Model3算力為144TOPS,2021年智己L71070TOPS,2022年蔚來(lái)ET7是1016 TOPS。

綜合考慮集成電路技術(shù)發(fā)展下的芯片算力現(xiàn)狀和未來(lái)人工智能、數(shù)據(jù)中心、自動(dòng)駕駛等領(lǐng)域的發(fā)展趨勢(shì),未來(lái)高算力芯片需要不低于1000 TOPS的算力水平。

市場(chǎng)對(duì)于算力需求的增長(zhǎng)遠(yuǎn)遠(yuǎn)超過(guò)摩爾定律的演進(jìn)速度。OpenAI的模型顯示,2010年以來(lái)業(yè)內(nèi)最復(fù)雜的AI模型算力需求漲了100億倍。目前解決算力的方式80%依靠并行計(jì)算和增加投資,10%依靠AI算法進(jìn)步,10%依靠芯片單位算力進(jìn)步。

1000TOPS背后的“大算力芯片”

單個(gè)芯片對(duì)于算力的追求是永無(wú)止盡的。目前來(lái)看,業(yè)內(nèi)人士認(rèn)為“單芯片算力達(dá)到100TOPS”就能稱之為“大算力芯片”。

目前能夠推出單芯片超越100TOPS的企業(yè)并不多,包括:AMD公司MI250X高算力芯片(可提供383 TOPS算力)、Mobileye EyeQ Ultra單顆芯片(算力可達(dá)176TOPS)等。

國(guó)內(nèi)方面,寒武紀(jì)2021年也接連發(fā)布2款云端AI芯片,分別是思元290和思元370。思元370是寒武紀(jì)首款采用chiplet(芯粒)技術(shù)的AI芯片,集成了390億個(gè)晶體管,最大算力高達(dá)256TOPS(INT8),是寒武紀(jì)第二代產(chǎn)品思元270算力的2倍。

此外,燧原科技、地平線、瀚博半導(dǎo)體、芯馳科技、黑芝麻智能等在2021年也都推出了大算力AI芯片,其中,燧原科技發(fā)布的“邃思2.0”,整數(shù)精度INT8算力高達(dá)320TOPS。

目前推出算力超越1000TOPS的SoC,唯有英偉達(dá)、高通,并且兩家企業(yè)推出的高算力芯片主要用于自動(dòng)駕駛領(lǐng)域。

首先來(lái)看英偉達(dá),在2021年4月,英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達(dá)直接推出芯片Thor,算力是Atlan的兩倍,達(dá)到2000TOPS,并且在2025年投產(chǎn),直接跳過(guò)了1000TOPS的DRIVE Atlan芯片。

其次是高通,今年同樣推出集成式汽車(chē)超算SoC———Snapdragon Ride Flex,包括Mid、High、Premium三個(gè)級(jí)別。最高級(jí)的Ride Flex Premium SoC再加上AI加速器,其綜合AI算力能夠達(dá)到2000TOPS。

超強(qiáng)算力的背后,是利用SoC的片上整合。異構(gòu)計(jì)算通過(guò)多種計(jì)算單元混合協(xié)作模式提升計(jì)算并行度和效率,在移動(dòng)互聯(lián)網(wǎng)、人工智能、云計(jì)算等各類(lèi)典型應(yīng)用中占比顯著提高,并主要通過(guò)芯片內(nèi)異構(gòu)、節(jié)點(diǎn)內(nèi)異構(gòu)兩種模式實(shí)現(xiàn)性能、功耗與成本間的最佳均衡。芯片內(nèi)異構(gòu)典型代表為 SoC 芯片,以英偉達(dá)的Thor為例,Thor之所以能實(shí)現(xiàn)如此高算力,主要得益于其整體架構(gòu)中的Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。

高算力芯片如何進(jìn)化

實(shí)際上,芯片的算力由數(shù)據(jù)互連、單位晶體管提供的算力(通常由架構(gòu)決定)、晶體管密度和芯片面積共同決定。因此想要實(shí)現(xiàn)算力的提高,需要從這幾個(gè)方面入手。

算力進(jìn)化的路徑一:芯片系統(tǒng)架構(gòu)的挑戰(zhàn)

200TOPS以上的芯片對(duì)于訪存能力的要求非常高,需要支持更高的帶寬,這帶來(lái)系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜度的大幅度提升。

當(dāng)前芯片主要采用馮·諾依曼架構(gòu),存儲(chǔ)和計(jì)算物理上是分離的。有數(shù)據(jù)顯示,過(guò)去二十年,處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右。結(jié)果長(zhǎng)期下來(lái),不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度,出現(xiàn)了“存儲(chǔ)墻”問(wèn)題,最終導(dǎo)致芯片性能難以跟上需求。

英偉達(dá)提出的“黃氏定律”,預(yù)測(cè)GPU將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍,采用新技術(shù)協(xié)調(diào)并控制通過(guò)設(shè)備的信息流,最大限度減少數(shù)據(jù)傳輸,來(lái)避免“存儲(chǔ)墻”問(wèn)題。

英偉達(dá)在GPGPU上迭代形成集成了張量核心(Tensor Core)的領(lǐng)域定制架構(gòu),2022年最新發(fā)布的H100 GPU基于4 nm工藝,可以提供2000 TFLOPS(萬(wàn)億次浮點(diǎn)運(yùn)算每秒)的算力。

算力進(jìn)化的路徑二:先進(jìn)工藝平臺(tái)的挑戰(zhàn)

集成電路尺寸的微縮能夠帶來(lái)單位面積算力指數(shù)的提升。在相同架構(gòu)的不同工藝下,隨著工藝節(jié)點(diǎn)的縮小,英偉達(dá)GPU單位面積芯片算力持續(xù)提升。近年來(lái),英偉達(dá)、AMD、蘋(píng)果的高算力芯片均采用7、5 nm先進(jìn)制程實(shí)現(xiàn)。本質(zhì)上,算力提升的核心是晶體管數(shù)量的增加。

作為 Intel 的創(chuàng)始人之一,Gordon Moore 在最初的模型中就指明,無(wú)論是從技術(shù)的角度還是成本的角度來(lái)看,單一芯片上的晶體管數(shù)量不能無(wú)限增加;因此,業(yè)內(nèi)在致力于提升晶體管密度的同時(shí),也在嘗試其他軟硬件方式來(lái)提高芯片運(yùn)行效率,如:異構(gòu)計(jì)算、分布式運(yùn)算等等。

算力進(jìn)化的路徑三:大尺寸芯片工程的挑戰(zhàn)

大算力芯片的尺寸非常大,其在封裝、電源和熱管理、成本控制、良率等方面都存在嚴(yán)峻的挑戰(zhàn)。芯片的價(jià)格當(dāng)然是面積越大越貴,芯片面積擴(kuò)大一倍,價(jià)格高3到5倍甚至更高。

根據(jù)近40年來(lái)芯片面積的變化趨勢(shì),可以看出隨著高算力芯片的不斷發(fā)展,面積也持續(xù)增大,當(dāng)前已接近單片集成的面積極限。既然單顆芯片的面積不能無(wú)限增加,將一顆芯片拆解為多顆芯片,分開(kāi)制造再封裝到一起是一個(gè)很自然的想法。

異構(gòu)集成+高速互聯(lián)塑造了 Chiplet 這一芯片屆的里程碑。如果使用芯粒(Chiplet)設(shè)計(jì)技術(shù),通過(guò)把不同功能芯片模塊化,利用新的設(shè)計(jì)、互連、封裝等技術(shù),在一顆芯片產(chǎn)品中使用來(lái)自不同技術(shù)、不同制程甚至不同工廠的芯片,解決了芯片制造層面的效率問(wèn)題。

結(jié)語(yǔ)

宏觀總算力 = 性能 x 數(shù)量(規(guī)模) x 利用率。

算力是由性能、規(guī)模、利用率三部分共同組成的,相輔相成,缺一不可:有的算力芯片,可能可以做到性能狂飆,但較少考慮芯片的通用性易用性,然后芯片銷(xiāo)量不高落地規(guī)模小,那就無(wú)法做到宏觀算力的真正提升。

有的算力提升方案,重在規(guī)模投入,攤大餅有一定作用,但不是解決未來(lái)算力需求數(shù)量級(jí)提升的根本。

現(xiàn)階段大國(guó)博弈加劇全球產(chǎn)業(yè)鏈、供應(yīng)鏈重構(gòu),同時(shí)中國(guó)集成電路先進(jìn)工藝的開(kāi)發(fā)受到制約,單純依靠先進(jìn)制程等技術(shù)的單點(diǎn)突破成本高、周期長(zhǎng)。

采用成熟制程和先進(jìn)集成,結(jié)合CGRA和存算一體等國(guó)內(nèi)領(lǐng)先的新型架構(gòu),在芯粒技術(shù)基礎(chǔ)上實(shí)現(xiàn)晶圓級(jí)的高算力芯片是一條可行的突破路徑,該路徑能夠利用現(xiàn)有優(yōu)勢(shì)技術(shù),在更低的成本投入下,更快地提升芯片算力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

1000TOPS算力時(shí)代來(lái)臨

不斷發(fā)展的人工智能也對(duì)芯片的算力提出更高的要求。

文|半導(dǎo)體產(chǎn)業(yè)縱橫

人類(lèi)社會(huì)已經(jīng)進(jìn)入算力時(shí)代。

據(jù)中國(guó)信息通信研究院測(cè)算,截至2021年底,中國(guó)算力核心產(chǎn)業(yè)規(guī)模超過(guò)1.5萬(wàn)億元,關(guān)聯(lián)產(chǎn)業(yè)規(guī)模超過(guò)8萬(wàn)億元。其中,云計(jì)算市場(chǎng)規(guī)模超過(guò)3000億元,互聯(lián)網(wǎng)數(shù)據(jù)中心(服務(wù)器)市場(chǎng)規(guī)模超過(guò)1500億元,AI 核心產(chǎn)業(yè)規(guī)模超過(guò)4000億元。

國(guó)內(nèi)算力產(chǎn)業(yè)近五年平均增速超過(guò)30%,算力規(guī)模超過(guò)150EFlops(每秒15000京次浮點(diǎn)運(yùn)算次數(shù)),排名全球第二,第一是美國(guó)。眾多場(chǎng)景已經(jīng)進(jìn)入超越1000TOPS(Tera Operations Per Second, 處理器每秒可以進(jìn)行一萬(wàn)億次操作(1012))算力的時(shí)代。

超越1000 TOPS的高算力

數(shù)據(jù)中心和超算

一個(gè)典型的超越1000TOPS算力的場(chǎng)景就是數(shù)據(jù)中心和超算。先來(lái)看數(shù)據(jù)中心對(duì)于算力的需求,工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》明確了算力內(nèi)涵并引入測(cè)算指標(biāo)FLOPS,對(duì)數(shù)據(jù)中心發(fā)展質(zhì)量進(jìn)行評(píng)價(jià),指出到2023年底,總算力規(guī)模將超過(guò)200 EFLOPS,高性能算力占比將達(dá)到10%,到2025年,總算力規(guī)模將超過(guò)300 EFLOPS。

而超算中心也早已邁入E級(jí)算力(百億億次運(yùn)算每秒)時(shí)代,并正在向Z(千E)級(jí)算力發(fā)展。E(Exascale)級(jí)計(jì)算也就是百萬(wàn)兆級(jí)的計(jì)算,是目前全球頂尖超算系統(tǒng)新的追逐目標(biāo)。用一個(gè)不精確的說(shuō)法來(lái)解釋百萬(wàn)兆級(jí)計(jì)算,一個(gè)百萬(wàn)兆級(jí)計(jì)算機(jī)一瞬間進(jìn)行的計(jì)算,相當(dāng)于地球上所有人每天每秒都不停地計(jì)算四年。

2022年5月登頂世界超算500強(qiáng)榜單的美國(guó)國(guó)防部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室Frontier超算中心,采用AMD公司MI250X高算力芯片(可提供383 TOPS算力),達(dá)到了1.1 EOPS雙精度浮點(diǎn)算力。

人工智能

不斷發(fā)展的人工智能也對(duì)芯片的算力提出更高的要求。人工智能的應(yīng)用對(duì)于算力最大的挑戰(zhàn)依然來(lái)自于核心數(shù)據(jù)中心的模型訓(xùn)練,近年來(lái),算法模型的復(fù)雜度呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),正在不斷逼近算力的上限。

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語(yǔ)言模型為例,其擁有1750億個(gè)參數(shù),使用1000億個(gè)詞匯的語(yǔ)料庫(kù)訓(xùn)練,采用1000塊當(dāng)時(shí)最先進(jìn)的英偉達(dá)A100 GPU(圖形處理器,624 TOPS)訓(xùn)練仍需要1個(gè)月。

距離GPT-3問(wèn)世不到一年,更大更復(fù)雜的語(yǔ)言模型,即超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型Switch Transformer已問(wèn)世。目前,人工智能所需算力每?jī)蓚€(gè)月即翻一倍,承載AI的新型算力基礎(chǔ)設(shè)施的供給水平,將直接影響AI創(chuàng)新迭代及產(chǎn)業(yè)AI應(yīng)用落地。

AI模型跑步進(jìn)入萬(wàn)億級(jí)時(shí)代,深度學(xué)習(xí)發(fā)展逐步進(jìn)入大模型、大數(shù)據(jù)階段,模型參數(shù)和數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),引發(fā)的算力需求平均每2年超過(guò)算力實(shí)際增長(zhǎng)速度的375倍。

自動(dòng)駕駛

自動(dòng)駕駛?cè)蝿?wù)需要高于1000 TOPS的高算力芯片。

自動(dòng)駕駛的競(jìng)爭(zhēng)實(shí)際上是算力的競(jìng)爭(zhēng)。汽車(chē)從L1、L2向L3、L4、L5不斷推進(jìn),從某種意義上看,就是算力的競(jìng)賽,每往上進(jìn)階一級(jí)就意味著對(duì)算力的需求更高。高階自動(dòng)駕駛對(duì)算力需求呈指數(shù)級(jí)上升。

2014—2016年特斯拉ModelS的算力為0.256TOPS,2017年蔚來(lái)ES8的算力是2.5TOPS,2019年特斯拉Model3算力為144TOPS,2021年智己L71070TOPS,2022年蔚來(lái)ET7是1016 TOPS。

綜合考慮集成電路技術(shù)發(fā)展下的芯片算力現(xiàn)狀和未來(lái)人工智能、數(shù)據(jù)中心、自動(dòng)駕駛等領(lǐng)域的發(fā)展趨勢(shì),未來(lái)高算力芯片需要不低于1000 TOPS的算力水平。

市場(chǎng)對(duì)于算力需求的增長(zhǎng)遠(yuǎn)遠(yuǎn)超過(guò)摩爾定律的演進(jìn)速度。OpenAI的模型顯示,2010年以來(lái)業(yè)內(nèi)最復(fù)雜的AI模型算力需求漲了100億倍。目前解決算力的方式80%依靠并行計(jì)算和增加投資,10%依靠AI算法進(jìn)步,10%依靠芯片單位算力進(jìn)步。

1000TOPS背后的“大算力芯片”

單個(gè)芯片對(duì)于算力的追求是永無(wú)止盡的。目前來(lái)看,業(yè)內(nèi)人士認(rèn)為“單芯片算力達(dá)到100TOPS”就能稱之為“大算力芯片”。

目前能夠推出單芯片超越100TOPS的企業(yè)并不多,包括:AMD公司MI250X高算力芯片(可提供383 TOPS算力)、Mobileye EyeQ Ultra單顆芯片(算力可達(dá)176TOPS)等。

國(guó)內(nèi)方面,寒武紀(jì)2021年也接連發(fā)布2款云端AI芯片,分別是思元290和思元370。思元370是寒武紀(jì)首款采用chiplet(芯粒)技術(shù)的AI芯片,集成了390億個(gè)晶體管,最大算力高達(dá)256TOPS(INT8),是寒武紀(jì)第二代產(chǎn)品思元270算力的2倍。

此外,燧原科技、地平線、瀚博半導(dǎo)體、芯馳科技、黑芝麻智能等在2021年也都推出了大算力AI芯片,其中,燧原科技發(fā)布的“邃思2.0”,整數(shù)精度INT8算力高達(dá)320TOPS。

目前推出算力超越1000TOPS的SoC,唯有英偉達(dá)、高通,并且兩家企業(yè)推出的高算力芯片主要用于自動(dòng)駕駛領(lǐng)域。

首先來(lái)看英偉達(dá),在2021年4月,英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達(dá)直接推出芯片Thor,算力是Atlan的兩倍,達(dá)到2000TOPS,并且在2025年投產(chǎn),直接跳過(guò)了1000TOPS的DRIVE Atlan芯片。

其次是高通,今年同樣推出集成式汽車(chē)超算SoC———Snapdragon Ride Flex,包括Mid、High、Premium三個(gè)級(jí)別。最高級(jí)的Ride Flex Premium SoC再加上AI加速器,其綜合AI算力能夠達(dá)到2000TOPS。

超強(qiáng)算力的背后,是利用SoC的片上整合。異構(gòu)計(jì)算通過(guò)多種計(jì)算單元混合協(xié)作模式提升計(jì)算并行度和效率,在移動(dòng)互聯(lián)網(wǎng)、人工智能、云計(jì)算等各類(lèi)典型應(yīng)用中占比顯著提高,并主要通過(guò)芯片內(nèi)異構(gòu)、節(jié)點(diǎn)內(nèi)異構(gòu)兩種模式實(shí)現(xiàn)性能、功耗與成本間的最佳均衡。芯片內(nèi)異構(gòu)典型代表為 SoC 芯片,以英偉達(dá)的Thor為例,Thor之所以能實(shí)現(xiàn)如此高算力,主要得益于其整體架構(gòu)中的Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。

高算力芯片如何進(jìn)化

實(shí)際上,芯片的算力由數(shù)據(jù)互連、單位晶體管提供的算力(通常由架構(gòu)決定)、晶體管密度和芯片面積共同決定。因此想要實(shí)現(xiàn)算力的提高,需要從這幾個(gè)方面入手。

算力進(jìn)化的路徑一:芯片系統(tǒng)架構(gòu)的挑戰(zhàn)

200TOPS以上的芯片對(duì)于訪存能力的要求非常高,需要支持更高的帶寬,這帶來(lái)系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜度的大幅度提升。

當(dāng)前芯片主要采用馮·諾依曼架構(gòu),存儲(chǔ)和計(jì)算物理上是分離的。有數(shù)據(jù)顯示,過(guò)去二十年,處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右。結(jié)果長(zhǎng)期下來(lái),不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度,出現(xiàn)了“存儲(chǔ)墻”問(wèn)題,最終導(dǎo)致芯片性能難以跟上需求。

英偉達(dá)提出的“黃氏定律”,預(yù)測(cè)GPU將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍,采用新技術(shù)協(xié)調(diào)并控制通過(guò)設(shè)備的信息流,最大限度減少數(shù)據(jù)傳輸,來(lái)避免“存儲(chǔ)墻”問(wèn)題。

英偉達(dá)在GPGPU上迭代形成集成了張量核心(Tensor Core)的領(lǐng)域定制架構(gòu),2022年最新發(fā)布的H100 GPU基于4 nm工藝,可以提供2000 TFLOPS(萬(wàn)億次浮點(diǎn)運(yùn)算每秒)的算力。

算力進(jìn)化的路徑二:先進(jìn)工藝平臺(tái)的挑戰(zhàn)

集成電路尺寸的微縮能夠帶來(lái)單位面積算力指數(shù)的提升。在相同架構(gòu)的不同工藝下,隨著工藝節(jié)點(diǎn)的縮小,英偉達(dá)GPU單位面積芯片算力持續(xù)提升。近年來(lái),英偉達(dá)、AMD、蘋(píng)果的高算力芯片均采用7、5 nm先進(jìn)制程實(shí)現(xiàn)。本質(zhì)上,算力提升的核心是晶體管數(shù)量的增加。

作為 Intel 的創(chuàng)始人之一,Gordon Moore 在最初的模型中就指明,無(wú)論是從技術(shù)的角度還是成本的角度來(lái)看,單一芯片上的晶體管數(shù)量不能無(wú)限增加;因此,業(yè)內(nèi)在致力于提升晶體管密度的同時(shí),也在嘗試其他軟硬件方式來(lái)提高芯片運(yùn)行效率,如:異構(gòu)計(jì)算、分布式運(yùn)算等等。

算力進(jìn)化的路徑三:大尺寸芯片工程的挑戰(zhàn)

大算力芯片的尺寸非常大,其在封裝、電源和熱管理、成本控制、良率等方面都存在嚴(yán)峻的挑戰(zhàn)。芯片的價(jià)格當(dāng)然是面積越大越貴,芯片面積擴(kuò)大一倍,價(jià)格高3到5倍甚至更高。

根據(jù)近40年來(lái)芯片面積的變化趨勢(shì),可以看出隨著高算力芯片的不斷發(fā)展,面積也持續(xù)增大,當(dāng)前已接近單片集成的面積極限。既然單顆芯片的面積不能無(wú)限增加,將一顆芯片拆解為多顆芯片,分開(kāi)制造再封裝到一起是一個(gè)很自然的想法。

異構(gòu)集成+高速互聯(lián)塑造了 Chiplet 這一芯片屆的里程碑。如果使用芯粒(Chiplet)設(shè)計(jì)技術(shù),通過(guò)把不同功能芯片模塊化,利用新的設(shè)計(jì)、互連、封裝等技術(shù),在一顆芯片產(chǎn)品中使用來(lái)自不同技術(shù)、不同制程甚至不同工廠的芯片,解決了芯片制造層面的效率問(wèn)題。

結(jié)語(yǔ)

宏觀總算力 = 性能 x 數(shù)量(規(guī)模) x 利用率。

算力是由性能、規(guī)模、利用率三部分共同組成的,相輔相成,缺一不可:有的算力芯片,可能可以做到性能狂飆,但較少考慮芯片的通用性易用性,然后芯片銷(xiāo)量不高落地規(guī)模小,那就無(wú)法做到宏觀算力的真正提升。

有的算力提升方案,重在規(guī)模投入,攤大餅有一定作用,但不是解決未來(lái)算力需求數(shù)量級(jí)提升的根本。

現(xiàn)階段大國(guó)博弈加劇全球產(chǎn)業(yè)鏈、供應(yīng)鏈重構(gòu),同時(shí)中國(guó)集成電路先進(jìn)工藝的開(kāi)發(fā)受到制約,單純依靠先進(jìn)制程等技術(shù)的單點(diǎn)突破成本高、周期長(zhǎng)。

采用成熟制程和先進(jìn)集成,結(jié)合CGRA和存算一體等國(guó)內(nèi)領(lǐng)先的新型架構(gòu),在芯粒技術(shù)基礎(chǔ)上實(shí)現(xiàn)晶圓級(jí)的高算力芯片是一條可行的突破路徑,該路徑能夠利用現(xiàn)有優(yōu)勢(shì)技術(shù),在更低的成本投入下,更快地提升芯片算力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。