正在閱讀:

摩爾定律逼近極限,未來如何提升算力?

掃一掃下載界面新聞APP

摩爾定律逼近極限,未來如何提升算力?

英偉達暴漲、ChatGPT浪潮下,一條超越摩爾定律的算力提升路徑。

文|經緯創(chuàng)投

5月29日,因為業(yè)績遠超預期,英偉達市值在一天之內暴漲了1800億美元左右(1.3萬億人民幣),這是美國歷史上第二大單日最高市值漲幅,英特爾(Intel)的市值如今只有其九分之一。

因為業(yè)績遠超預期,英偉達實現了美國歷史上第二大單日最高市值漲幅。圖片來源:WSJ

這次暴漲的推動力,是席卷全球的AI浪潮。英偉達首席執(zhí)行官黃仁勛說,人工智能應用正推動對算力的需求,而英偉達的芯片是創(chuàng)造人工智能工具的關鍵。比如OpenAI構建ChatGPT背后,可能要用到1萬枚左右英偉達GPU。

隨著叱咤多年的摩爾定律逼近極限,我們開始需要其他技術來進一步提升算力。此時,“把電換成光”,成為了一個非常重要的選項。

光芯片很早就有,已經很成熟,但絕大多數是不可編程的光學線性計算單元。要想通過光來提升算力,具有實用價值的計算單元就必須具備可編程性,這種光芯片是最近10年才逐漸取得突破性進展的,本文所指的“光芯片”都是這種可編程的光計算芯片。

英偉達的暴漲代表了AI時代對算力的絕對重視,光芯片作為重要的潛在顛覆性技術路徑,同樣值得重視。光芯片商業(yè)化的兩大思路,我們提前列在這里,本文最后一部分會詳細分析:第一大思路是短期內不尋求完全替代電,不改動基礎架構,最大化地強調通用性,形成光電混合的新型算力網絡;第二大思路是把光芯片模塊化,不僅僅追求在計算領域的應用,還追求在片上、片間的傳輸領域應用,追求光模塊的“即插即用”。

今天這篇文章主要會涉及以下幾點,當然需要多說一句的是,本文所主要介紹的思路,只是光計算芯片領域的其中一條重要路徑,其他方案也在同步發(fā)展,同樣值得關注,Enjoy:

▌摩爾定律逼近極限,未來如何提升算力?

▌一篇論文打開了光計算的大門

▌一個典型的光子計算矩陣是如何運作的?

▌光芯片的優(yōu)勢與挑戰(zhàn)

▌光芯片如何商業(yè)化?

1、摩爾定律逼近極限,未來如何提升算力?

在過去二十年中,算力發(fā)生了翻天覆地的變化。

如果你拿2010年的電腦和現在的相比,可能你會發(fā)現2010年的電腦還可以繼續(xù)跑現在的一些軟件。但如果你用2000年的電腦,去跑2010年的軟件,你會發(fā)現99%的軟件都跑不起來。

這說明了,電子芯片和算力的發(fā)展,其實是在逐漸變慢,背后的原因受制于物理極限,每一次芯片迭代所帶來的算力紅利,已經逐步減少,從16納米到7納米、再到5納米,再往下一步的增長只會越來越小。

這主要受限于功耗和晶體管本身的密度。人們發(fā)現晶體管的尺寸越來越小,但并沒有太好的辦法讓晶體管的能耗進一步下降。另外還受到銅導線的制約,因為隨著銅導線的橫截面積越來越小,電阻就會越來越高,于是發(fā)熱也不是一直能往下降的因素。

另一個登納德縮放比例定律——晶體管在密度提升的同時,功耗密度保持不變,這一定律早在2004年左右已經失效。隨著芯片集成度的提升,所需的功耗和散熱要求越來越大,產生了“功耗墻”問題。

如今從2016年、2018年到2020年,最先進的制程從16nm到7nm到5nm,性能提升實際上越來越慢,已經無法實現摩爾定律每18個月翻倍的速度。并且從研發(fā)難度和成本的角度,未來可能全球只有極少數幾家足以繼續(xù)往5nm以下發(fā)展。

從對算力的需求來看,隨著AI的爆發(fā),在未來 10 年里,用增長越來越緩慢的電子芯片,去匹配增長越來越快的數據需求,這可能是目前最大的挑戰(zhàn)。

AI模型容量和算力消耗的指數增長趨勢;來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》,Wilfred Gomes et al., "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing," ISSCC, 2022

曦智科技創(chuàng)始人兼 CEO 沈亦晨經常把芯片設計比喻成城市發(fā)展,現在的芯片面積越做越大,比如2015年英偉達的GPU芯片,整個芯片從面積上來看大概有600平方毫米,但2020年推出的深度神經網絡訓練和推理芯片A100,它的面積大約是800多平方毫米。

拿城市發(fā)展作比喻,如果在500年前,想把100萬人口的城市變成1000萬,是非常困難的,因為受限于幾個基礎設施方面的問題:一是城市交通,如果用傳統(tǒng)馬車或步行,哪怕全都是平面道路,也很難滿足交通需求。二是每棟樓房的設計,如果每棟樓房還是500年前的一層樓、兩層樓,要想支撐起更大的城市體系也非常困難,只有出現了高層樓房,城市才能提高密度。

這個比喻對應了芯片設計中的片間網絡和片上網絡,如果把現在的電換成光,能在最基礎的“基建技術”方面,幫助電子芯片進行下一代技術升級,“光替代電”能有效解決高通量和交通問題。

2、一篇論文打開了光計算的大門

廣義的光芯片,并不算是前沿技術,它存在的時間甚至比電子芯片還要久。

2000年前后的海底光纜,光通訊兩端的收發(fā)模塊都是光子芯片,甚至老師在上課時用的激光筆,里面也有激光器芯片,也是一種光子芯片。

但這些光芯片都是不可編程的,所以無法運用于計算領域。在計算方面,電子芯片獨步天下。

直到2017年,沈亦晨等人在《自然·光子》(Nature Photonics)期刊上所發(fā)表的封面論文,開創(chuàng)性地提出了一種以光學神經網絡為藍本的全新計算架構,光子計算成為可能。

圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

光學信號和光學器件與電子芯片遵循不同的物理原理。光計算理論比較復雜,簡單解釋是:光學信號與散射介質的互動在大多數情況下是線性的,因此可以被映射為一種線性計算。

生活中其實有很多光學線性計算的現象,一個典型的例子是光學照相機的鏡頭,鏡頭前的光學信號在穿過鏡頭時,完成了兩次二維空間光學傅立葉變換,然后在感光元件上成像,因此,照相機鏡頭可以被看作一種不可編程的光學線性計算單元。

但要可編程,才有實用價值。在2017年的這篇論文里,沈亦晨等研究者提出的最重要的思路,就是用一個網絡狀的干涉器,在光通過干涉器的時候,利用它們相互之間的干涉和對干涉器的控制來進行線性運算,可以總結為用一個干涉器的集聯(lián)來完成大規(guī)模的線性計算,以此應用于人工智能的矩陣計算。

當然這個是最初提出的理論,后來這個系統(tǒng)要想實際落地,遠遠比一個矩陣計算器要復雜得多。并且光還可以運用在很多方面,例如片上和片間的數據傳輸等等,之后的技術方案經歷了多次迭代,變得越來越成熟。

在光計算芯片(硅光)上,一顆芯片需要集成上萬個光器件,包括調制器、探測器、干涉器、波導、激光光源、混波器等等10種左右,這些都是納米級。

光芯片的核心是用波導來代替電芯片的銅導線,來做芯片和板卡上的信號傳輸,其實就是換了一種介質。當光在波導里面?zhèn)鬏數臅r候,波導和波導之間出現光信號干涉,用這個物理過程來模擬線性計算這一類的計算過程。

就像是光在凸透鏡鏡片里的傳播過程,其實是模擬了一個類似傅里葉變換的數學過程。在光芯片里也是一樣,光在芯片上波導傳播的時候,當兩個波導靠得很近的時候,里面的光信號就會相互干涉,這個干涉的過程就剛好模擬了一個線性計算過程。當有很多個波導,比如128根波導形成一個網絡互相干涉的時候,我們就可以通過控制這些波導的干涉,來模擬任何一個通用的矩陣運算。

可編程光學系統(tǒng)的研究突破。圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

3、一個典型的光子計算矩陣是如何運作的?

舉一個實際的例子,一個典型的光子矩陣計算是如何運作的?

首先最左邊是數據加載,中間是矩陣,最右邊是光信號接收,這個過程可總結為光信號通過矩陣接收的過程。

如果拿現實生活中的現象作類比,就類似于眼鏡,近視的朋友在沒有戴眼鏡之前,眼前的世界是不清晰的,但戴了之后就變清晰了,而這個從模糊到清晰的過程,就是眼鏡對圖像信號做了一種處理,也可以理解成一種計算。這個計算的實現方法是眼鏡前的光信號,通過眼鏡這個計算單元來完成。

可編程光子矩陣乘法器原理示意圖,在這個例子中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內存都部署在電芯片上。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

在2020年的一份視頻演示中,曦智團隊在原型產品上成功用光子芯片運行了Google Tensorflow自帶的卷積神經網絡模型,來處理MNIST數據集,這是一個使用計算機視覺識別手寫數字的基準機器學習模型,也是機器學習中最著名的基準數據集之一。在測試中,整個模型超過95%的運算是在光子芯片上完成的處理。

測試結果顯示,光子芯片處理的準確率已經接近電子芯片(97%以上),另外光子芯片完成矩陣乘法所用的時間是當時最先進的電子芯片的 1/100 以內。這也是世界上第一臺完全獨立的光學計算系統(tǒng)。

曦智科技開發(fā)的早期產品。圖片來源:曦智科技

這款初代產品正在處理MNIST數據集。圖片來源:曦智科技

4、光芯片的優(yōu)勢與挑戰(zhàn)

光芯片的優(yōu)勢可以總結為:速度快/低延遲、低能耗、擅長AI矩陣計算。

首先是速度快/低延遲。光信號意味著光速,所以光計算芯片最顯著的優(yōu)勢是速度快、延遲低,在芯片尺寸的厘米尺度上,這個延遲時間是納秒級(小于5納秒),這個速度是非常驚人的。并且這個延遲與矩陣的尺寸幾乎無關,在尺寸較大的情況下,光子矩陣計算的延遲優(yōu)勢非常明顯。

脈動矩陣計算和光子矩陣計算延遲對比示意圖。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

第二大優(yōu)勢是低能耗。鏡片折射本身是不需要能量的,是一個被動過程,不耗能。當然,在實際應用中,由于要對計算系統(tǒng)編程,其中光信號的產生和接收還是需要耗能的。在光學器件和其控制電路被較好地優(yōu)化前提下,基于相對傳統(tǒng)制程的光子計算的能效比,可媲美甚至凌駕先進制程的數字芯片。

第三大優(yōu)勢是擅長矩陣運算。光波的頻率、波長、偏振態(tài)和相位等信息,可以代表不同數據,且光路在交叉?zhèn)鬏敃r互不干擾,比如兩束手電筒的光束交叉時,會穿過對方光束形成“X”型,并不會互相干擾。這些特性使光子更擅長做矩陣計算,而AI大模型90%的計算任務都是矩陣計算。

以上我們談到了很多優(yōu)勢,但光芯片作為一項前沿技術,必然有很多挑戰(zhàn)有待克服,下面我們就聊幾個有待克服的難題。

首先由于要用于復雜計算,那么光器件的數量必然就會很多,要達到不錯的性能至少需要上萬個,這也會帶來更復雜的結構和更大的尺寸。為了實現可編程,必然要對每個器件進行控制,也會要求高集成度。

這些要求會產生一些工藝上的挑戰(zhàn),同時導致成本很高,以及整體穩(wěn)定性、生產良率都有挑戰(zhàn),所以必須找到一種低成本、高良率的方法,來控制大量光器件的技術。曦智采取的是3D堆疊的封裝技術,在光芯片上方堆疊電芯片,電芯片可以集成各種各樣的功能。電芯片、光芯片通過凸塊上的調制器進行信號轉換,把數字信號變成模擬信號去控制光器件,然后再返回。這時才能達到對復雜芯片的有效控制,最終作為一個整體集成在基板上,成為一個產品。

同時溫度也是需要一定的控制,因為環(huán)境溫度會對計算精度產生影響。因為是模擬計算,當整個環(huán)境對電芯片產生影響的時候,對光信號也會產生擾動。有一種辦法是把整個芯片放在恒溫環(huán)境下,通過溫控電路來實現。但這會犧牲一些光計算的低能耗優(yōu)勢,因為如果為了控制它的精度而消耗很多能量,會有些得不償失。

對于溫度控制,還包括芯片內部發(fā)熱,導致對周邊器件的影響問題。比如兩個器件靠很近,一個器件在發(fā)熱,旁邊會受影響。

另一個挑戰(zhàn)是應用層面的精度問題。因為光計算是模擬計算,精度受限于物理本質,同水平下精度較難與數字計算一樣。當然如果要想達到高精度(12比特、16比特等),也可以實現,但代價會非常大,所以核心是要尋求合適的應用場景,實際上在人工智能算法方面,并不需要那么高的精度。

以上這些都是可以預料到的技術挑戰(zhàn)。

5、光芯片如何商業(yè)化?

光芯片看起來是很不錯的技術路徑,但到底多久才能落地?

我們總結了當下市場中,其中一種比較快的商業(yè)化路徑思路:

第一是短期內不尋求完全替代電,不改動基礎架構,最大化地強調通用性,形成光電混合的新型算力范式。

第二是把光芯片模塊化,不僅僅追求在計算領域的應用,還追求在片間傳輸光模塊的“即插即用”。

硅光芯片不是靠尖端制程來獲勝,更多是靠速度和功耗,比如光的調制解調的速度、功耗,還有多波復用,在一個波導里面同時能通過多少路光等等。所以光芯片的“摩爾定律”不體現在制程,而是主頻和波長。

通過上文所說的商業(yè)化路徑兩點思路,可以看出硅光最大的優(yōu)勢在于技術通用性。例如在一個GPU中,有專門做線性計算的計算核部分,它可能占到整個芯片四分之一到三分之一的大小,可以優(yōu)先把這部分換成光的計算核。

同時,盡量不調整其他部分,最終對于軟件開發(fā)者或是使用芯片的人來說,甚至不會注意到這個改動。如果拿從燃油車迭代到電動車的過程來做比喻,司機不用改變駕駛習慣,油門、剎車的位置都不變,背后是發(fā)動機換成了電機。

無論是生產商還是客戶,最大的訴求之一就是要確保通用性。越大的客戶越想要這個產品實現“開箱即用”,才能夠最大限度降低學習成本,不需要對現在的底層框架進行過多修改,就能夠適配到成千上萬個當前的應用場景中。所以不動基礎架構,而是把線性計算的計算核部分用光來部分替代,形成光電混合的算力網絡新形式,是最快的商業(yè)化路徑。

從算力提升角度來看,一個計算系統(tǒng)主要有三塊計算要素:數據處理、數據傳輸、數據存儲。以上所說的是針對第一部分數據處理,可以用光代替電芯片來做大部分矩陣運算類的數據處理。

第二部分是數據傳輸,包括一塊芯片上的數據傳輸,和芯片之間的數據傳輸,也就是片上互連和片間互連,這兩部分也是光子芯片的用武之地。

我們簡單介紹一下片上光網絡和片間光網絡:

用片上光網絡(Optical Network On Chip,oNOC)來代替模塊間的電互連,可以利用光的低延遲和低能耗優(yōu)勢。如下圖所示,兩個電芯片被堆疊在同一個光芯片上,電芯片之間的數據傳輸由光芯片上的光波導鏈路實現。由于光傳輸很快,所以無所謂距離有多遠,片上光網絡可以覆蓋大量的長距離通道。光芯片能夠擴展到整個晶圓,從而實現晶圓級的光互連網絡。在這樣的狀態(tài)下,把計算任務映射到不同芯片的工作可以達到更高的利用率。

片上光網絡系統(tǒng)側視圖與俯視圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

而對于片間光網絡,目前在電芯片中,是通過以太網卡來實現互連,但它受限于互連延遲和帶寬,在整體效率上有較大提升空間。利用光的優(yōu)勢,一種優(yōu)化辦法是取消網卡,將計算芯片直接和光電轉換模塊連接,以實現低延遲、高帶寬、低能耗的片間光網絡,當然這里面需要物理層和互連協(xié)議兩方面的創(chuàng)新。

片間光網絡示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

綜合來說,結合光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)等新技術,可以構建光電混合數據中心。

片上光網絡(晶圓級)可以令光計算芯片和傳統(tǒng)電芯片有效協(xié)同,在單節(jié)點提高算力;片間光網絡支持了高效傳輸和算力池化,使得大型分布式計算系統(tǒng)可以實現前所未有的高效、靈活和節(jié)能。

光電集成技術的光電混合數據中心示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

從商業(yè)化角度,除了做整個光計算完整的解決方案以外,還可以把某些單個技術模塊化,比如剛剛所說的光計算(矩陣運算),或是光片上互連、片間互連,這些技術也可以模塊化成為產品。如果拿智能電動車行業(yè)作類比,就像除了做整車以外,電池、電機、操控系統(tǒng)等等都是單獨的模塊化產品,很多電芯片的設計公司也確實有相關需求。

總之,光子計算提供了一條超越摩爾定律的算力提升路徑。

光子計算這個方向在過去五年中逐漸變熱,除了像英偉達這樣的芯片設計巨頭有布局,最近2-3年國際上一些晶圓廠、EDA公司、封測廠等等,也開始正式布局硅光產線。硅光芯片雖然當下還主要是在光通訊、光傳感的激光雷達等領域,這部分需求也驅動了相關的供應鏈投入。雖然光計算還沒有完全落地,但硅光芯片每個產業(yè)鏈環(huán)節(jié)的全面性,是光計算芯片量產的前提。并且晶圓廠也無需為光芯片重新開發(fā)一整套工藝,很多工藝都是通用的。

展望未來,光計算芯片最大的應用場景,就是人工智能。其他的還包括自動駕駛、金融(追求低延遲的量化基金)等領域,以及未來很多科研包括對大氣、地理、新材料和藥物研發(fā),都可以通過算力更高的光電混合芯片來提高現有研發(fā)進度。

對于這種前沿技術,我們要觀察什么指標來判斷它的發(fā)展進度?其中一個核心指標是集成度,就是光電混合芯片能集成多少光器件,并且能精確控制它們。

這是一個全新的賽道,“超越摩爾定律”也是一個激動人心的口號,但幾乎沒有前路可以借鑒,開拓者們正在披荊斬棘,技術挑戰(zhàn)與商業(yè)化風險并存。但唯一可以確定的是,人類社會對提升算力的追求,正比以往任何一個時刻更加迫切。

References:

1、 曦智科技,《大規(guī)模光電集成賦能智能算力網絡白皮書》

2、 曦智科技CTO孟懷宇,《集成光子學在計算領域的機會與挑戰(zhàn)》

3、 曦智科技創(chuàng)始人兼CEO沈亦晨等,《Deep learning with coherent nanophotonic circuits》(自然·光子雜志)

4、 量子位,比RTX3080快350倍,光子芯片真的能幫我們實現“換道超車”嗎?

5、 DeepTech,曦智科技發(fā)布全球首個光子AI芯片原型

6、 智東西:掀起數據中心算力新風口!大規(guī)模光電集成有多硬核?

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

摩爾定律逼近極限,未來如何提升算力?

英偉達暴漲、ChatGPT浪潮下,一條超越摩爾定律的算力提升路徑。

文|經緯創(chuàng)投

5月29日,因為業(yè)績遠超預期,英偉達市值在一天之內暴漲了1800億美元左右(1.3萬億人民幣),這是美國歷史上第二大單日最高市值漲幅,英特爾(Intel)的市值如今只有其九分之一。

因為業(yè)績遠超預期,英偉達實現了美國歷史上第二大單日最高市值漲幅。圖片來源:WSJ

這次暴漲的推動力,是席卷全球的AI浪潮。英偉達首席執(zhí)行官黃仁勛說,人工智能應用正推動對算力的需求,而英偉達的芯片是創(chuàng)造人工智能工具的關鍵。比如OpenAI構建ChatGPT背后,可能要用到1萬枚左右英偉達GPU。

隨著叱咤多年的摩爾定律逼近極限,我們開始需要其他技術來進一步提升算力。此時,“把電換成光”,成為了一個非常重要的選項。

光芯片很早就有,已經很成熟,但絕大多數是不可編程的光學線性計算單元。要想通過光來提升算力,具有實用價值的計算單元就必須具備可編程性,這種光芯片是最近10年才逐漸取得突破性進展的,本文所指的“光芯片”都是這種可編程的光計算芯片。

英偉達的暴漲代表了AI時代對算力的絕對重視,光芯片作為重要的潛在顛覆性技術路徑,同樣值得重視。光芯片商業(yè)化的兩大思路,我們提前列在這里,本文最后一部分會詳細分析:第一大思路是短期內不尋求完全替代電,不改動基礎架構,最大化地強調通用性,形成光電混合的新型算力網絡;第二大思路是把光芯片模塊化,不僅僅追求在計算領域的應用,還追求在片上、片間的傳輸領域應用,追求光模塊的“即插即用”。

今天這篇文章主要會涉及以下幾點,當然需要多說一句的是,本文所主要介紹的思路,只是光計算芯片領域的其中一條重要路徑,其他方案也在同步發(fā)展,同樣值得關注,Enjoy:

▌摩爾定律逼近極限,未來如何提升算力?

▌一篇論文打開了光計算的大門

▌一個典型的光子計算矩陣是如何運作的?

▌光芯片的優(yōu)勢與挑戰(zhàn)

▌光芯片如何商業(yè)化?

1、摩爾定律逼近極限,未來如何提升算力?

在過去二十年中,算力發(fā)生了翻天覆地的變化。

如果你拿2010年的電腦和現在的相比,可能你會發(fā)現2010年的電腦還可以繼續(xù)跑現在的一些軟件。但如果你用2000年的電腦,去跑2010年的軟件,你會發(fā)現99%的軟件都跑不起來。

這說明了,電子芯片和算力的發(fā)展,其實是在逐漸變慢,背后的原因受制于物理極限,每一次芯片迭代所帶來的算力紅利,已經逐步減少,從16納米到7納米、再到5納米,再往下一步的增長只會越來越小。

這主要受限于功耗和晶體管本身的密度。人們發(fā)現晶體管的尺寸越來越小,但并沒有太好的辦法讓晶體管的能耗進一步下降。另外還受到銅導線的制約,因為隨著銅導線的橫截面積越來越小,電阻就會越來越高,于是發(fā)熱也不是一直能往下降的因素。

另一個登納德縮放比例定律——晶體管在密度提升的同時,功耗密度保持不變,這一定律早在2004年左右已經失效。隨著芯片集成度的提升,所需的功耗和散熱要求越來越大,產生了“功耗墻”問題。

如今從2016年、2018年到2020年,最先進的制程從16nm到7nm到5nm,性能提升實際上越來越慢,已經無法實現摩爾定律每18個月翻倍的速度。并且從研發(fā)難度和成本的角度,未來可能全球只有極少數幾家足以繼續(xù)往5nm以下發(fā)展。

從對算力的需求來看,隨著AI的爆發(fā),在未來 10 年里,用增長越來越緩慢的電子芯片,去匹配增長越來越快的數據需求,這可能是目前最大的挑戰(zhàn)。

AI模型容量和算力消耗的指數增長趨勢;來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》,Wilfred Gomes et al., "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing," ISSCC, 2022

曦智科技創(chuàng)始人兼 CEO 沈亦晨經常把芯片設計比喻成城市發(fā)展,現在的芯片面積越做越大,比如2015年英偉達的GPU芯片,整個芯片從面積上來看大概有600平方毫米,但2020年推出的深度神經網絡訓練和推理芯片A100,它的面積大約是800多平方毫米。

拿城市發(fā)展作比喻,如果在500年前,想把100萬人口的城市變成1000萬,是非常困難的,因為受限于幾個基礎設施方面的問題:一是城市交通,如果用傳統(tǒng)馬車或步行,哪怕全都是平面道路,也很難滿足交通需求。二是每棟樓房的設計,如果每棟樓房還是500年前的一層樓、兩層樓,要想支撐起更大的城市體系也非常困難,只有出現了高層樓房,城市才能提高密度。

這個比喻對應了芯片設計中的片間網絡和片上網絡,如果把現在的電換成光,能在最基礎的“基建技術”方面,幫助電子芯片進行下一代技術升級,“光替代電”能有效解決高通量和交通問題。

2、一篇論文打開了光計算的大門

廣義的光芯片,并不算是前沿技術,它存在的時間甚至比電子芯片還要久。

2000年前后的海底光纜,光通訊兩端的收發(fā)模塊都是光子芯片,甚至老師在上課時用的激光筆,里面也有激光器芯片,也是一種光子芯片。

但這些光芯片都是不可編程的,所以無法運用于計算領域。在計算方面,電子芯片獨步天下。

直到2017年,沈亦晨等人在《自然·光子》(Nature Photonics)期刊上所發(fā)表的封面論文,開創(chuàng)性地提出了一種以光學神經網絡為藍本的全新計算架構,光子計算成為可能。

圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

光學信號和光學器件與電子芯片遵循不同的物理原理。光計算理論比較復雜,簡單解釋是:光學信號與散射介質的互動在大多數情況下是線性的,因此可以被映射為一種線性計算。

生活中其實有很多光學線性計算的現象,一個典型的例子是光學照相機的鏡頭,鏡頭前的光學信號在穿過鏡頭時,完成了兩次二維空間光學傅立葉變換,然后在感光元件上成像,因此,照相機鏡頭可以被看作一種不可編程的光學線性計算單元。

但要可編程,才有實用價值。在2017年的這篇論文里,沈亦晨等研究者提出的最重要的思路,就是用一個網絡狀的干涉器,在光通過干涉器的時候,利用它們相互之間的干涉和對干涉器的控制來進行線性運算,可以總結為用一個干涉器的集聯(lián)來完成大規(guī)模的線性計算,以此應用于人工智能的矩陣計算。

當然這個是最初提出的理論,后來這個系統(tǒng)要想實際落地,遠遠比一個矩陣計算器要復雜得多。并且光還可以運用在很多方面,例如片上和片間的數據傳輸等等,之后的技術方案經歷了多次迭代,變得越來越成熟。

在光計算芯片(硅光)上,一顆芯片需要集成上萬個光器件,包括調制器、探測器、干涉器、波導、激光光源、混波器等等10種左右,這些都是納米級。

光芯片的核心是用波導來代替電芯片的銅導線,來做芯片和板卡上的信號傳輸,其實就是換了一種介質。當光在波導里面?zhèn)鬏數臅r候,波導和波導之間出現光信號干涉,用這個物理過程來模擬線性計算這一類的計算過程。

就像是光在凸透鏡鏡片里的傳播過程,其實是模擬了一個類似傅里葉變換的數學過程。在光芯片里也是一樣,光在芯片上波導傳播的時候,當兩個波導靠得很近的時候,里面的光信號就會相互干涉,這個干涉的過程就剛好模擬了一個線性計算過程。當有很多個波導,比如128根波導形成一個網絡互相干涉的時候,我們就可以通過控制這些波導的干涉,來模擬任何一個通用的矩陣運算。

可編程光學系統(tǒng)的研究突破。圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

3、一個典型的光子計算矩陣是如何運作的?

舉一個實際的例子,一個典型的光子矩陣計算是如何運作的?

首先最左邊是數據加載,中間是矩陣,最右邊是光信號接收,這個過程可總結為光信號通過矩陣接收的過程。

如果拿現實生活中的現象作類比,就類似于眼鏡,近視的朋友在沒有戴眼鏡之前,眼前的世界是不清晰的,但戴了之后就變清晰了,而這個從模糊到清晰的過程,就是眼鏡對圖像信號做了一種處理,也可以理解成一種計算。這個計算的實現方法是眼鏡前的光信號,通過眼鏡這個計算單元來完成。

可編程光子矩陣乘法器原理示意圖,在這個例子中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內存都部署在電芯片上。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

在2020年的一份視頻演示中,曦智團隊在原型產品上成功用光子芯片運行了Google Tensorflow自帶的卷積神經網絡模型,來處理MNIST數據集,這是一個使用計算機視覺識別手寫數字的基準機器學習模型,也是機器學習中最著名的基準數據集之一。在測試中,整個模型超過95%的運算是在光子芯片上完成的處理。

測試結果顯示,光子芯片處理的準確率已經接近電子芯片(97%以上),另外光子芯片完成矩陣乘法所用的時間是當時最先進的電子芯片的 1/100 以內。這也是世界上第一臺完全獨立的光學計算系統(tǒng)。

曦智科技開發(fā)的早期產品。圖片來源:曦智科技

這款初代產品正在處理MNIST數據集。圖片來源:曦智科技

4、光芯片的優(yōu)勢與挑戰(zhàn)

光芯片的優(yōu)勢可以總結為:速度快/低延遲、低能耗、擅長AI矩陣計算。

首先是速度快/低延遲。光信號意味著光速,所以光計算芯片最顯著的優(yōu)勢是速度快、延遲低,在芯片尺寸的厘米尺度上,這個延遲時間是納秒級(小于5納秒),這個速度是非常驚人的。并且這個延遲與矩陣的尺寸幾乎無關,在尺寸較大的情況下,光子矩陣計算的延遲優(yōu)勢非常明顯。

脈動矩陣計算和光子矩陣計算延遲對比示意圖。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

第二大優(yōu)勢是低能耗。鏡片折射本身是不需要能量的,是一個被動過程,不耗能。當然,在實際應用中,由于要對計算系統(tǒng)編程,其中光信號的產生和接收還是需要耗能的。在光學器件和其控制電路被較好地優(yōu)化前提下,基于相對傳統(tǒng)制程的光子計算的能效比,可媲美甚至凌駕先進制程的數字芯片。

第三大優(yōu)勢是擅長矩陣運算。光波的頻率、波長、偏振態(tài)和相位等信息,可以代表不同數據,且光路在交叉?zhèn)鬏敃r互不干擾,比如兩束手電筒的光束交叉時,會穿過對方光束形成“X”型,并不會互相干擾。這些特性使光子更擅長做矩陣計算,而AI大模型90%的計算任務都是矩陣計算。

以上我們談到了很多優(yōu)勢,但光芯片作為一項前沿技術,必然有很多挑戰(zhàn)有待克服,下面我們就聊幾個有待克服的難題。

首先由于要用于復雜計算,那么光器件的數量必然就會很多,要達到不錯的性能至少需要上萬個,這也會帶來更復雜的結構和更大的尺寸。為了實現可編程,必然要對每個器件進行控制,也會要求高集成度。

這些要求會產生一些工藝上的挑戰(zhàn),同時導致成本很高,以及整體穩(wěn)定性、生產良率都有挑戰(zhàn),所以必須找到一種低成本、高良率的方法,來控制大量光器件的技術。曦智采取的是3D堆疊的封裝技術,在光芯片上方堆疊電芯片,電芯片可以集成各種各樣的功能。電芯片、光芯片通過凸塊上的調制器進行信號轉換,把數字信號變成模擬信號去控制光器件,然后再返回。這時才能達到對復雜芯片的有效控制,最終作為一個整體集成在基板上,成為一個產品。

同時溫度也是需要一定的控制,因為環(huán)境溫度會對計算精度產生影響。因為是模擬計算,當整個環(huán)境對電芯片產生影響的時候,對光信號也會產生擾動。有一種辦法是把整個芯片放在恒溫環(huán)境下,通過溫控電路來實現。但這會犧牲一些光計算的低能耗優(yōu)勢,因為如果為了控制它的精度而消耗很多能量,會有些得不償失。

對于溫度控制,還包括芯片內部發(fā)熱,導致對周邊器件的影響問題。比如兩個器件靠很近,一個器件在發(fā)熱,旁邊會受影響。

另一個挑戰(zhàn)是應用層面的精度問題。因為光計算是模擬計算,精度受限于物理本質,同水平下精度較難與數字計算一樣。當然如果要想達到高精度(12比特、16比特等),也可以實現,但代價會非常大,所以核心是要尋求合適的應用場景,實際上在人工智能算法方面,并不需要那么高的精度。

以上這些都是可以預料到的技術挑戰(zhàn)。

5、光芯片如何商業(yè)化?

光芯片看起來是很不錯的技術路徑,但到底多久才能落地?

我們總結了當下市場中,其中一種比較快的商業(yè)化路徑思路:

第一是短期內不尋求完全替代電,不改動基礎架構,最大化地強調通用性,形成光電混合的新型算力范式。

第二是把光芯片模塊化,不僅僅追求在計算領域的應用,還追求在片間傳輸光模塊的“即插即用”。

硅光芯片不是靠尖端制程來獲勝,更多是靠速度和功耗,比如光的調制解調的速度、功耗,還有多波復用,在一個波導里面同時能通過多少路光等等。所以光芯片的“摩爾定律”不體現在制程,而是主頻和波長。

通過上文所說的商業(yè)化路徑兩點思路,可以看出硅光最大的優(yōu)勢在于技術通用性。例如在一個GPU中,有專門做線性計算的計算核部分,它可能占到整個芯片四分之一到三分之一的大小,可以優(yōu)先把這部分換成光的計算核。

同時,盡量不調整其他部分,最終對于軟件開發(fā)者或是使用芯片的人來說,甚至不會注意到這個改動。如果拿從燃油車迭代到電動車的過程來做比喻,司機不用改變駕駛習慣,油門、剎車的位置都不變,背后是發(fā)動機換成了電機。

無論是生產商還是客戶,最大的訴求之一就是要確保通用性。越大的客戶越想要這個產品實現“開箱即用”,才能夠最大限度降低學習成本,不需要對現在的底層框架進行過多修改,就能夠適配到成千上萬個當前的應用場景中。所以不動基礎架構,而是把線性計算的計算核部分用光來部分替代,形成光電混合的算力網絡新形式,是最快的商業(yè)化路徑。

從算力提升角度來看,一個計算系統(tǒng)主要有三塊計算要素:數據處理、數據傳輸、數據存儲。以上所說的是針對第一部分數據處理,可以用光代替電芯片來做大部分矩陣運算類的數據處理。

第二部分是數據傳輸,包括一塊芯片上的數據傳輸,和芯片之間的數據傳輸,也就是片上互連和片間互連,這兩部分也是光子芯片的用武之地。

我們簡單介紹一下片上光網絡和片間光網絡:

用片上光網絡(Optical Network On Chip,oNOC)來代替模塊間的電互連,可以利用光的低延遲和低能耗優(yōu)勢。如下圖所示,兩個電芯片被堆疊在同一個光芯片上,電芯片之間的數據傳輸由光芯片上的光波導鏈路實現。由于光傳輸很快,所以無所謂距離有多遠,片上光網絡可以覆蓋大量的長距離通道。光芯片能夠擴展到整個晶圓,從而實現晶圓級的光互連網絡。在這樣的狀態(tài)下,把計算任務映射到不同芯片的工作可以達到更高的利用率。

片上光網絡系統(tǒng)側視圖與俯視圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

而對于片間光網絡,目前在電芯片中,是通過以太網卡來實現互連,但它受限于互連延遲和帶寬,在整體效率上有較大提升空間。利用光的優(yōu)勢,一種優(yōu)化辦法是取消網卡,將計算芯片直接和光電轉換模塊連接,以實現低延遲、高帶寬、低能耗的片間光網絡,當然這里面需要物理層和互連協(xié)議兩方面的創(chuàng)新。

片間光網絡示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

綜合來說,結合光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)等新技術,可以構建光電混合數據中心。

片上光網絡(晶圓級)可以令光計算芯片和傳統(tǒng)電芯片有效協(xié)同,在單節(jié)點提高算力;片間光網絡支持了高效傳輸和算力池化,使得大型分布式計算系統(tǒng)可以實現前所未有的高效、靈活和節(jié)能。

光電集成技術的光電混合數據中心示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網絡白皮書》

從商業(yè)化角度,除了做整個光計算完整的解決方案以外,還可以把某些單個技術模塊化,比如剛剛所說的光計算(矩陣運算),或是光片上互連、片間互連,這些技術也可以模塊化成為產品。如果拿智能電動車行業(yè)作類比,就像除了做整車以外,電池、電機、操控系統(tǒng)等等都是單獨的模塊化產品,很多電芯片的設計公司也確實有相關需求。

總之,光子計算提供了一條超越摩爾定律的算力提升路徑。

光子計算這個方向在過去五年中逐漸變熱,除了像英偉達這樣的芯片設計巨頭有布局,最近2-3年國際上一些晶圓廠、EDA公司、封測廠等等,也開始正式布局硅光產線。硅光芯片雖然當下還主要是在光通訊、光傳感的激光雷達等領域,這部分需求也驅動了相關的供應鏈投入。雖然光計算還沒有完全落地,但硅光芯片每個產業(yè)鏈環(huán)節(jié)的全面性,是光計算芯片量產的前提。并且晶圓廠也無需為光芯片重新開發(fā)一整套工藝,很多工藝都是通用的。

展望未來,光計算芯片最大的應用場景,就是人工智能。其他的還包括自動駕駛、金融(追求低延遲的量化基金)等領域,以及未來很多科研包括對大氣、地理、新材料和藥物研發(fā),都可以通過算力更高的光電混合芯片來提高現有研發(fā)進度。

對于這種前沿技術,我們要觀察什么指標來判斷它的發(fā)展進度?其中一個核心指標是集成度,就是光電混合芯片能集成多少光器件,并且能精確控制它們。

這是一個全新的賽道,“超越摩爾定律”也是一個激動人心的口號,但幾乎沒有前路可以借鑒,開拓者們正在披荊斬棘,技術挑戰(zhàn)與商業(yè)化風險并存。但唯一可以確定的是,人類社會對提升算力的追求,正比以往任何一個時刻更加迫切。

References:

1、 曦智科技,《大規(guī)模光電集成賦能智能算力網絡白皮書》

2、 曦智科技CTO孟懷宇,《集成光子學在計算領域的機會與挑戰(zhàn)》

3、 曦智科技創(chuàng)始人兼CEO沈亦晨等,《Deep learning with coherent nanophotonic circuits》(自然·光子雜志)

4、 量子位,比RTX3080快350倍,光子芯片真的能幫我們實現“換道超車”嗎?

5、 DeepTech,曦智科技發(fā)布全球首個光子AI芯片原型

6、 智東西:掀起數據中心算力新風口!大規(guī)模光電集成有多硬核?

本文為轉載內容,授權事宜請聯(lián)系原著作權人。