正在閱讀:

摩爾定律逼近極限,未來如何提升算力?

掃一掃下載界面新聞APP

摩爾定律逼近極限,未來如何提升算力?

英偉達(dá)暴漲、ChatGPT浪潮下,一條超越摩爾定律的算力提升路徑。

文|經(jīng)緯創(chuàng)投

5月29日,因?yàn)闃I(yè)績(jī)遠(yuǎn)超預(yù)期,英偉達(dá)市值在一天之內(nèi)暴漲了1800億美元左右(1.3萬億人民幣),這是美國歷史上第二大單日最高市值漲幅,英特爾(Intel)的市值如今只有其九分之一。

因?yàn)闃I(yè)績(jī)遠(yuǎn)超預(yù)期,英偉達(dá)實(shí)現(xiàn)了美國歷史上第二大單日最高市值漲幅。圖片來源:WSJ

這次暴漲的推動(dòng)力,是席卷全球的AI浪潮。英偉達(dá)首席執(zhí)行官黃仁勛說,人工智能應(yīng)用正推動(dòng)對(duì)算力的需求,而英偉達(dá)的芯片是創(chuàng)造人工智能工具的關(guān)鍵。比如OpenAI構(gòu)建ChatGPT背后,可能要用到1萬枚左右英偉達(dá)GPU。

隨著叱咤多年的摩爾定律逼近極限,我們開始需要其他技術(shù)來進(jìn)一步提升算力。此時(shí),“把電換成光”,成為了一個(gè)非常重要的選項(xiàng)。

光芯片很早就有,已經(jīng)很成熟,但絕大多數(shù)是不可編程的光學(xué)線性計(jì)算單元。要想通過光來提升算力,具有實(shí)用價(jià)值的計(jì)算單元就必須具備可編程性,這種光芯片是最近10年才逐漸取得突破性進(jìn)展的,本文所指的“光芯片”都是這種可編程的光計(jì)算芯片。

英偉達(dá)的暴漲代表了AI時(shí)代對(duì)算力的絕對(duì)重視,光芯片作為重要的潛在顛覆性技術(shù)路徑,同樣值得重視。光芯片商業(yè)化的兩大思路,我們提前列在這里,本文最后一部分會(huì)詳細(xì)分析:第一大思路是短期內(nèi)不尋求完全替代電,不改動(dòng)基礎(chǔ)架構(gòu),最大化地強(qiáng)調(diào)通用性,形成光電混合的新型算力網(wǎng)絡(luò);第二大思路是把光芯片模塊化,不僅僅追求在計(jì)算領(lǐng)域的應(yīng)用,還追求在片上、片間的傳輸領(lǐng)域應(yīng)用,追求光模塊的“即插即用”。

今天這篇文章主要會(huì)涉及以下幾點(diǎn),當(dāng)然需要多說一句的是,本文所主要介紹的思路,只是光計(jì)算芯片領(lǐng)域的其中一條重要路徑,其他方案也在同步發(fā)展,同樣值得關(guān)注,Enjoy:

▌摩爾定律逼近極限,未來如何提升算力?

▌一篇論文打開了光計(jì)算的大門

▌一個(gè)典型的光子計(jì)算矩陣是如何運(yùn)作的?

▌光芯片的優(yōu)勢(shì)與挑戰(zhàn)

▌光芯片如何商業(yè)化?

1、摩爾定律逼近極限,未來如何提升算力?

在過去二十年中,算力發(fā)生了翻天覆地的變化。

如果你拿2010年的電腦和現(xiàn)在的相比,可能你會(huì)發(fā)現(xiàn)2010年的電腦還可以繼續(xù)跑現(xiàn)在的一些軟件。但如果你用2000年的電腦,去跑2010年的軟件,你會(huì)發(fā)現(xiàn)99%的軟件都跑不起來。

這說明了,電子芯片和算力的發(fā)展,其實(shí)是在逐漸變慢,背后的原因受制于物理極限,每一次芯片迭代所帶來的算力紅利,已經(jīng)逐步減少,從16納米到7納米、再到5納米,再往下一步的增長(zhǎng)只會(huì)越來越小。

這主要受限于功耗和晶體管本身的密度。人們發(fā)現(xiàn)晶體管的尺寸越來越小,但并沒有太好的辦法讓晶體管的能耗進(jìn)一步下降。另外還受到銅導(dǎo)線的制約,因?yàn)殡S著銅導(dǎo)線的橫截面積越來越小,電阻就會(huì)越來越高,于是發(fā)熱也不是一直能往下降的因素。

另一個(gè)登納德縮放比例定律——晶體管在密度提升的同時(shí),功耗密度保持不變,這一定律早在2004年左右已經(jīng)失效。隨著芯片集成度的提升,所需的功耗和散熱要求越來越大,產(chǎn)生了“功耗墻”問題。

如今從2016年、2018年到2020年,最先進(jìn)的制程從16nm到7nm到5nm,性能提升實(shí)際上越來越慢,已經(jīng)無法實(shí)現(xiàn)摩爾定律每18個(gè)月翻倍的速度。并且從研發(fā)難度和成本的角度,未來可能全球只有極少數(shù)幾家足以繼續(xù)往5nm以下發(fā)展。

從對(duì)算力的需求來看,隨著AI的爆發(fā),在未來 10 年里,用增長(zhǎng)越來越緩慢的電子芯片,去匹配增長(zhǎng)越來越快的數(shù)據(jù)需求,這可能是目前最大的挑戰(zhàn)。

AI模型容量和算力消耗的指數(shù)增長(zhǎng)趨勢(shì);來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》,Wilfred Gomes et al., "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing," ISSCC, 2022

曦智科技創(chuàng)始人兼 CEO 沈亦晨經(jīng)常把芯片設(shè)計(jì)比喻成城市發(fā)展,現(xiàn)在的芯片面積越做越大,比如2015年英偉達(dá)的GPU芯片,整個(gè)芯片從面積上來看大概有600平方毫米,但2020年推出的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理芯片A100,它的面積大約是800多平方毫米。

拿城市發(fā)展作比喻,如果在500年前,想把100萬人口的城市變成1000萬,是非常困難的,因?yàn)槭芟抻趲讉€(gè)基礎(chǔ)設(shè)施方面的問題:一是城市交通,如果用傳統(tǒng)馬車或步行,哪怕全都是平面道路,也很難滿足交通需求。二是每棟樓房的設(shè)計(jì),如果每棟樓房還是500年前的一層樓、兩層樓,要想支撐起更大的城市體系也非常困難,只有出現(xiàn)了高層樓房,城市才能提高密度。

這個(gè)比喻對(duì)應(yīng)了芯片設(shè)計(jì)中的片間網(wǎng)絡(luò)和片上網(wǎng)絡(luò),如果把現(xiàn)在的電換成光,能在最基礎(chǔ)的“基建技術(shù)”方面,幫助電子芯片進(jìn)行下一代技術(shù)升級(jí),“光替代電”能有效解決高通量和交通問題。

2、一篇論文打開了光計(jì)算的大門

廣義的光芯片,并不算是前沿技術(shù),它存在的時(shí)間甚至比電子芯片還要久。

2000年前后的海底光纜,光通訊兩端的收發(fā)模塊都是光子芯片,甚至老師在上課時(shí)用的激光筆,里面也有激光器芯片,也是一種光子芯片。

但這些光芯片都是不可編程的,所以無法運(yùn)用于計(jì)算領(lǐng)域。在計(jì)算方面,電子芯片獨(dú)步天下。

直到2017年,沈亦晨等人在《自然·光子》(Nature Photonics)期刊上所發(fā)表的封面論文,開創(chuàng)性地提出了一種以光學(xué)神經(jīng)網(wǎng)絡(luò)為藍(lán)本的全新計(jì)算架構(gòu),光子計(jì)算成為可能。

圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

光學(xué)信號(hào)和光學(xué)器件與電子芯片遵循不同的物理原理。光計(jì)算理論比較復(fù)雜,簡(jiǎn)單解釋是:光學(xué)信號(hào)與散射介質(zhì)的互動(dòng)在大多數(shù)情況下是線性的,因此可以被映射為一種線性計(jì)算。

生活中其實(shí)有很多光學(xué)線性計(jì)算的現(xiàn)象,一個(gè)典型的例子是光學(xué)照相機(jī)的鏡頭,鏡頭前的光學(xué)信號(hào)在穿過鏡頭時(shí),完成了兩次二維空間光學(xué)傅立葉變換,然后在感光元件上成像,因此,照相機(jī)鏡頭可以被看作一種不可編程的光學(xué)線性計(jì)算單元。

但要可編程,才有實(shí)用價(jià)值。在2017年的這篇論文里,沈亦晨等研究者提出的最重要的思路,就是用一個(gè)網(wǎng)絡(luò)狀的干涉器,在光通過干涉器的時(shí)候,利用它們相互之間的干涉和對(duì)干涉器的控制來進(jìn)行線性運(yùn)算,可以總結(jié)為用一個(gè)干涉器的集聯(lián)來完成大規(guī)模的線性計(jì)算,以此應(yīng)用于人工智能的矩陣計(jì)算。

當(dāng)然這個(gè)是最初提出的理論,后來這個(gè)系統(tǒng)要想實(shí)際落地,遠(yuǎn)遠(yuǎn)比一個(gè)矩陣計(jì)算器要復(fù)雜得多。并且光還可以運(yùn)用在很多方面,例如片上和片間的數(shù)據(jù)傳輸?shù)鹊?,之后的技術(shù)方案經(jīng)歷了多次迭代,變得越來越成熟。

在光計(jì)算芯片(硅光)上,一顆芯片需要集成上萬個(gè)光器件,包括調(diào)制器、探測(cè)器、干涉器、波導(dǎo)、激光光源、混波器等等10種左右,這些都是納米級(jí)。

光芯片的核心是用波導(dǎo)來代替電芯片的銅導(dǎo)線,來做芯片和板卡上的信號(hào)傳輸,其實(shí)就是換了一種介質(zhì)。當(dāng)光在波導(dǎo)里面?zhèn)鬏數(shù)臅r(shí)候,波導(dǎo)和波導(dǎo)之間出現(xiàn)光信號(hào)干涉,用這個(gè)物理過程來模擬線性計(jì)算這一類的計(jì)算過程。

就像是光在凸透鏡鏡片里的傳播過程,其實(shí)是模擬了一個(gè)類似傅里葉變換的數(shù)學(xué)過程。在光芯片里也是一樣,光在芯片上波導(dǎo)傳播的時(shí)候,當(dāng)兩個(gè)波導(dǎo)靠得很近的時(shí)候,里面的光信號(hào)就會(huì)相互干涉,這個(gè)干涉的過程就剛好模擬了一個(gè)線性計(jì)算過程。當(dāng)有很多個(gè)波導(dǎo),比如128根波導(dǎo)形成一個(gè)網(wǎng)絡(luò)互相干涉的時(shí)候,我們就可以通過控制這些波導(dǎo)的干涉,來模擬任何一個(gè)通用的矩陣運(yùn)算。

可編程光學(xué)系統(tǒng)的研究突破。圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

3、一個(gè)典型的光子計(jì)算矩陣是如何運(yùn)作的?

舉一個(gè)實(shí)際的例子,一個(gè)典型的光子矩陣計(jì)算是如何運(yùn)作的?

首先最左邊是數(shù)據(jù)加載,中間是矩陣,最右邊是光信號(hào)接收,這個(gè)過程可總結(jié)為光信號(hào)通過矩陣接收的過程。

如果拿現(xiàn)實(shí)生活中的現(xiàn)象作類比,就類似于眼鏡,近視的朋友在沒有戴眼鏡之前,眼前的世界是不清晰的,但戴了之后就變清晰了,而這個(gè)從模糊到清晰的過程,就是眼鏡對(duì)圖像信號(hào)做了一種處理,也可以理解成一種計(jì)算。這個(gè)計(jì)算的實(shí)現(xiàn)方法是眼鏡前的光信號(hào),通過眼鏡這個(gè)計(jì)算單元來完成。

可編程光子矩陣乘法器原理示意圖,在這個(gè)例子中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內(nèi)存都部署在電芯片上。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

在2020年的一份視頻演示中,曦智團(tuán)隊(duì)在原型產(chǎn)品上成功用光子芯片運(yùn)行了Google Tensorflow自帶的卷積神經(jīng)網(wǎng)絡(luò)模型,來處理MNIST數(shù)據(jù)集,這是一個(gè)使用計(jì)算機(jī)視覺識(shí)別手寫數(shù)字的基準(zhǔn)機(jī)器學(xué)習(xí)模型,也是機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)數(shù)據(jù)集之一。在測(cè)試中,整個(gè)模型超過95%的運(yùn)算是在光子芯片上完成的處理。

測(cè)試結(jié)果顯示,光子芯片處理的準(zhǔn)確率已經(jīng)接近電子芯片(97%以上),另外光子芯片完成矩陣乘法所用的時(shí)間是當(dāng)時(shí)最先進(jìn)的電子芯片的 1/100 以內(nèi)。這也是世界上第一臺(tái)完全獨(dú)立的光學(xué)計(jì)算系統(tǒng)。

曦智科技開發(fā)的早期產(chǎn)品。圖片來源:曦智科技

這款初代產(chǎn)品正在處理MNIST數(shù)據(jù)集。圖片來源:曦智科技

4、光芯片的優(yōu)勢(shì)與挑戰(zhàn)

光芯片的優(yōu)勢(shì)可以總結(jié)為:速度快/低延遲、低能耗、擅長(zhǎng)AI矩陣計(jì)算。

首先是速度快/低延遲。光信號(hào)意味著光速,所以光計(jì)算芯片最顯著的優(yōu)勢(shì)是速度快、延遲低,在芯片尺寸的厘米尺度上,這個(gè)延遲時(shí)間是納秒級(jí)(小于5納秒),這個(gè)速度是非常驚人的。并且這個(gè)延遲與矩陣的尺寸幾乎無關(guān),在尺寸較大的情況下,光子矩陣計(jì)算的延遲優(yōu)勢(shì)非常明顯。

脈動(dòng)矩陣計(jì)算和光子矩陣計(jì)算延遲對(duì)比示意圖。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

第二大優(yōu)勢(shì)是低能耗。鏡片折射本身是不需要能量的,是一個(gè)被動(dòng)過程,不耗能。當(dāng)然,在實(shí)際應(yīng)用中,由于要對(duì)計(jì)算系統(tǒng)編程,其中光信號(hào)的產(chǎn)生和接收還是需要耗能的。在光學(xué)器件和其控制電路被較好地優(yōu)化前提下,基于相對(duì)傳統(tǒng)制程的光子計(jì)算的能效比,可媲美甚至凌駕先進(jìn)制程的數(shù)字芯片。

第三大優(yōu)勢(shì)是擅長(zhǎng)矩陣運(yùn)算。光波的頻率、波長(zhǎng)、偏振態(tài)和相位等信息,可以代表不同數(shù)據(jù),且光路在交叉?zhèn)鬏敃r(shí)互不干擾,比如兩束手電筒的光束交叉時(shí),會(huì)穿過對(duì)方光束形成“X”型,并不會(huì)互相干擾。這些特性使光子更擅長(zhǎng)做矩陣計(jì)算,而AI大模型90%的計(jì)算任務(wù)都是矩陣計(jì)算。

以上我們談到了很多優(yōu)勢(shì),但光芯片作為一項(xiàng)前沿技術(shù),必然有很多挑戰(zhàn)有待克服,下面我們就聊幾個(gè)有待克服的難題。

首先由于要用于復(fù)雜計(jì)算,那么光器件的數(shù)量必然就會(huì)很多,要達(dá)到不錯(cuò)的性能至少需要上萬個(gè),這也會(huì)帶來更復(fù)雜的結(jié)構(gòu)和更大的尺寸。為了實(shí)現(xiàn)可編程,必然要對(duì)每個(gè)器件進(jìn)行控制,也會(huì)要求高集成度。

這些要求會(huì)產(chǎn)生一些工藝上的挑戰(zhàn),同時(shí)導(dǎo)致成本很高,以及整體穩(wěn)定性、生產(chǎn)良率都有挑戰(zhàn),所以必須找到一種低成本、高良率的方法,來控制大量光器件的技術(shù)。曦智采取的是3D堆疊的封裝技術(shù),在光芯片上方堆疊電芯片,電芯片可以集成各種各樣的功能。電芯片、光芯片通過凸塊上的調(diào)制器進(jìn)行信號(hào)轉(zhuǎn)換,把數(shù)字信號(hào)變成模擬信號(hào)去控制光器件,然后再返回。這時(shí)才能達(dá)到對(duì)復(fù)雜芯片的有效控制,最終作為一個(gè)整體集成在基板上,成為一個(gè)產(chǎn)品。

同時(shí)溫度也是需要一定的控制,因?yàn)榄h(huán)境溫度會(huì)對(duì)計(jì)算精度產(chǎn)生影響。因?yàn)槭悄M計(jì)算,當(dāng)整個(gè)環(huán)境對(duì)電芯片產(chǎn)生影響的時(shí)候,對(duì)光信號(hào)也會(huì)產(chǎn)生擾動(dòng)。有一種辦法是把整個(gè)芯片放在恒溫環(huán)境下,通過溫控電路來實(shí)現(xiàn)。但這會(huì)犧牲一些光計(jì)算的低能耗優(yōu)勢(shì),因?yàn)槿绻麨榱丝刂扑木榷暮芏嗄芰?,?huì)有些得不償失。

對(duì)于溫度控制,還包括芯片內(nèi)部發(fā)熱,導(dǎo)致對(duì)周邊器件的影響問題。比如兩個(gè)器件靠很近,一個(gè)器件在發(fā)熱,旁邊會(huì)受影響。

另一個(gè)挑戰(zhàn)是應(yīng)用層面的精度問題。因?yàn)楣庥?jì)算是模擬計(jì)算,精度受限于物理本質(zhì),同水平下精度較難與數(shù)字計(jì)算一樣。當(dāng)然如果要想達(dá)到高精度(12比特、16比特等),也可以實(shí)現(xiàn),但代價(jià)會(huì)非常大,所以核心是要尋求合適的應(yīng)用場(chǎng)景,實(shí)際上在人工智能算法方面,并不需要那么高的精度。

以上這些都是可以預(yù)料到的技術(shù)挑戰(zhàn)。

5、光芯片如何商業(yè)化?

光芯片看起來是很不錯(cuò)的技術(shù)路徑,但到底多久才能落地?

我們總結(jié)了當(dāng)下市場(chǎng)中,其中一種比較快的商業(yè)化路徑思路:

第一是短期內(nèi)不尋求完全替代電,不改動(dòng)基礎(chǔ)架構(gòu),最大化地強(qiáng)調(diào)通用性,形成光電混合的新型算力范式。

第二是把光芯片模塊化,不僅僅追求在計(jì)算領(lǐng)域的應(yīng)用,還追求在片間傳輸光模塊的“即插即用”。

硅光芯片不是靠尖端制程來獲勝,更多是靠速度和功耗,比如光的調(diào)制解調(diào)的速度、功耗,還有多波復(fù)用,在一個(gè)波導(dǎo)里面同時(shí)能通過多少路光等等。所以光芯片的“摩爾定律”不體現(xiàn)在制程,而是主頻和波長(zhǎng)。

通過上文所說的商業(yè)化路徑兩點(diǎn)思路,可以看出硅光最大的優(yōu)勢(shì)在于技術(shù)通用性。例如在一個(gè)GPU中,有專門做線性計(jì)算的計(jì)算核部分,它可能占到整個(gè)芯片四分之一到三分之一的大小,可以優(yōu)先把這部分換成光的計(jì)算核。

同時(shí),盡量不調(diào)整其他部分,最終對(duì)于軟件開發(fā)者或是使用芯片的人來說,甚至不會(huì)注意到這個(gè)改動(dòng)。如果拿從燃油車迭代到電動(dòng)車的過程來做比喻,司機(jī)不用改變駕駛習(xí)慣,油門、剎車的位置都不變,背后是發(fā)動(dòng)機(jī)換成了電機(jī)。

無論是生產(chǎn)商還是客戶,最大的訴求之一就是要確保通用性。越大的客戶越想要這個(gè)產(chǎn)品實(shí)現(xiàn)“開箱即用”,才能夠最大限度降低學(xué)習(xí)成本,不需要對(duì)現(xiàn)在的底層框架進(jìn)行過多修改,就能夠適配到成千上萬個(gè)當(dāng)前的應(yīng)用場(chǎng)景中。所以不動(dòng)基礎(chǔ)架構(gòu),而是把線性計(jì)算的計(jì)算核部分用光來部分替代,形成光電混合的算力網(wǎng)絡(luò)新形式,是最快的商業(yè)化路徑。

從算力提升角度來看,一個(gè)計(jì)算系統(tǒng)主要有三塊計(jì)算要素:數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)。以上所說的是針對(duì)第一部分?jǐn)?shù)據(jù)處理,可以用光代替電芯片來做大部分矩陣運(yùn)算類的數(shù)據(jù)處理。

第二部分是數(shù)據(jù)傳輸,包括一塊芯片上的數(shù)據(jù)傳輸,和芯片之間的數(shù)據(jù)傳輸,也就是片上互連和片間互連,這兩部分也是光子芯片的用武之地。

我們簡(jiǎn)單介紹一下片上光網(wǎng)絡(luò)和片間光網(wǎng)絡(luò):

用片上光網(wǎng)絡(luò)(Optical Network On Chip,oNOC)來代替模塊間的電互連,可以利用光的低延遲和低能耗優(yōu)勢(shì)。如下圖所示,兩個(gè)電芯片被堆疊在同一個(gè)光芯片上,電芯片之間的數(shù)據(jù)傳輸由光芯片上的光波導(dǎo)鏈路實(shí)現(xiàn)。由于光傳輸很快,所以無所謂距離有多遠(yuǎn),片上光網(wǎng)絡(luò)可以覆蓋大量的長(zhǎng)距離通道。光芯片能夠擴(kuò)展到整個(gè)晶圓,從而實(shí)現(xiàn)晶圓級(jí)的光互連網(wǎng)絡(luò)。在這樣的狀態(tài)下,把計(jì)算任務(wù)映射到不同芯片的工作可以達(dá)到更高的利用率。

片上光網(wǎng)絡(luò)系統(tǒng)側(cè)視圖與俯視圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

而對(duì)于片間光網(wǎng)絡(luò),目前在電芯片中,是通過以太網(wǎng)卡來實(shí)現(xiàn)互連,但它受限于互連延遲和帶寬,在整體效率上有較大提升空間。利用光的優(yōu)勢(shì),一種優(yōu)化辦法是取消網(wǎng)卡,將計(jì)算芯片直接和光電轉(zhuǎn)換模塊連接,以實(shí)現(xiàn)低延遲、高帶寬、低能耗的片間光網(wǎng)絡(luò),當(dāng)然這里面需要物理層和互連協(xié)議兩方面的創(chuàng)新。

片間光網(wǎng)絡(luò)示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

綜合來說,結(jié)合光子矩陣計(jì)算(oMAC)、片上光網(wǎng)絡(luò)(oNOC)和片間光網(wǎng)絡(luò)(oNET)等新技術(shù),可以構(gòu)建光電混合數(shù)據(jù)中心。

片上光網(wǎng)絡(luò)(晶圓級(jí))可以令光計(jì)算芯片和傳統(tǒng)電芯片有效協(xié)同,在單節(jié)點(diǎn)提高算力;片間光網(wǎng)絡(luò)支持了高效傳輸和算力池化,使得大型分布式計(jì)算系統(tǒng)可以實(shí)現(xiàn)前所未有的高效、靈活和節(jié)能。

光電集成技術(shù)的光電混合數(shù)據(jù)中心示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

從商業(yè)化角度,除了做整個(gè)光計(jì)算完整的解決方案以外,還可以把某些單個(gè)技術(shù)模塊化,比如剛剛所說的光計(jì)算(矩陣運(yùn)算),或是光片上互連、片間互連,這些技術(shù)也可以模塊化成為產(chǎn)品。如果拿智能電動(dòng)車行業(yè)作類比,就像除了做整車以外,電池、電機(jī)、操控系統(tǒng)等等都是單獨(dú)的模塊化產(chǎn)品,很多電芯片的設(shè)計(jì)公司也確實(shí)有相關(guān)需求。

總之,光子計(jì)算提供了一條超越摩爾定律的算力提升路徑。

光子計(jì)算這個(gè)方向在過去五年中逐漸變熱,除了像英偉達(dá)這樣的芯片設(shè)計(jì)巨頭有布局,最近2-3年國際上一些晶圓廠、EDA公司、封測(cè)廠等等,也開始正式布局硅光產(chǎn)線。硅光芯片雖然當(dāng)下還主要是在光通訊、光傳感的激光雷達(dá)等領(lǐng)域,這部分需求也驅(qū)動(dòng)了相關(guān)的供應(yīng)鏈投入。雖然光計(jì)算還沒有完全落地,但硅光芯片每個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)的全面性,是光計(jì)算芯片量產(chǎn)的前提。并且晶圓廠也無需為光芯片重新開發(fā)一整套工藝,很多工藝都是通用的。

展望未來,光計(jì)算芯片最大的應(yīng)用場(chǎng)景,就是人工智能。其他的還包括自動(dòng)駕駛、金融(追求低延遲的量化基金)等領(lǐng)域,以及未來很多科研包括對(duì)大氣、地理、新材料和藥物研發(fā),都可以通過算力更高的光電混合芯片來提高現(xiàn)有研發(fā)進(jìn)度。

對(duì)于這種前沿技術(shù),我們要觀察什么指標(biāo)來判斷它的發(fā)展進(jìn)度?其中一個(gè)核心指標(biāo)是集成度,就是光電混合芯片能集成多少光器件,并且能精確控制它們。

這是一個(gè)全新的賽道,“超越摩爾定律”也是一個(gè)激動(dòng)人心的口號(hào),但幾乎沒有前路可以借鑒,開拓者們正在披荊斬棘,技術(shù)挑戰(zhàn)與商業(yè)化風(fēng)險(xiǎn)并存。但唯一可以確定的是,人類社會(huì)對(duì)提升算力的追求,正比以往任何一個(gè)時(shí)刻更加迫切。

References:

1、 曦智科技,《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

2、 曦智科技CTO孟懷宇,《集成光子學(xué)在計(jì)算領(lǐng)域的機(jī)會(huì)與挑戰(zhàn)》

3、 曦智科技創(chuàng)始人兼CEO沈亦晨等,《Deep learning with coherent nanophotonic circuits》(自然·光子雜志)

4、 量子位,比RTX3080快350倍,光子芯片真的能幫我們實(shí)現(xiàn)“換道超車”嗎?

5、 DeepTech,曦智科技發(fā)布全球首個(gè)光子AI芯片原型

6、 智東西:掀起數(shù)據(jù)中心算力新風(fēng)口!大規(guī)模光電集成有多硬核?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

摩爾定律逼近極限,未來如何提升算力?

英偉達(dá)暴漲、ChatGPT浪潮下,一條超越摩爾定律的算力提升路徑。

文|經(jīng)緯創(chuàng)投

5月29日,因?yàn)闃I(yè)績(jī)遠(yuǎn)超預(yù)期,英偉達(dá)市值在一天之內(nèi)暴漲了1800億美元左右(1.3萬億人民幣),這是美國歷史上第二大單日最高市值漲幅,英特爾(Intel)的市值如今只有其九分之一。

因?yàn)闃I(yè)績(jī)遠(yuǎn)超預(yù)期,英偉達(dá)實(shí)現(xiàn)了美國歷史上第二大單日最高市值漲幅。圖片來源:WSJ

這次暴漲的推動(dòng)力,是席卷全球的AI浪潮。英偉達(dá)首席執(zhí)行官黃仁勛說,人工智能應(yīng)用正推動(dòng)對(duì)算力的需求,而英偉達(dá)的芯片是創(chuàng)造人工智能工具的關(guān)鍵。比如OpenAI構(gòu)建ChatGPT背后,可能要用到1萬枚左右英偉達(dá)GPU。

隨著叱咤多年的摩爾定律逼近極限,我們開始需要其他技術(shù)來進(jìn)一步提升算力。此時(shí),“把電換成光”,成為了一個(gè)非常重要的選項(xiàng)。

光芯片很早就有,已經(jīng)很成熟,但絕大多數(shù)是不可編程的光學(xué)線性計(jì)算單元。要想通過光來提升算力,具有實(shí)用價(jià)值的計(jì)算單元就必須具備可編程性,這種光芯片是最近10年才逐漸取得突破性進(jìn)展的,本文所指的“光芯片”都是這種可編程的光計(jì)算芯片。

英偉達(dá)的暴漲代表了AI時(shí)代對(duì)算力的絕對(duì)重視,光芯片作為重要的潛在顛覆性技術(shù)路徑,同樣值得重視。光芯片商業(yè)化的兩大思路,我們提前列在這里,本文最后一部分會(huì)詳細(xì)分析:第一大思路是短期內(nèi)不尋求完全替代電,不改動(dòng)基礎(chǔ)架構(gòu),最大化地強(qiáng)調(diào)通用性,形成光電混合的新型算力網(wǎng)絡(luò);第二大思路是把光芯片模塊化,不僅僅追求在計(jì)算領(lǐng)域的應(yīng)用,還追求在片上、片間的傳輸領(lǐng)域應(yīng)用,追求光模塊的“即插即用”。

今天這篇文章主要會(huì)涉及以下幾點(diǎn),當(dāng)然需要多說一句的是,本文所主要介紹的思路,只是光計(jì)算芯片領(lǐng)域的其中一條重要路徑,其他方案也在同步發(fā)展,同樣值得關(guān)注,Enjoy:

▌摩爾定律逼近極限,未來如何提升算力?

▌一篇論文打開了光計(jì)算的大門

▌一個(gè)典型的光子計(jì)算矩陣是如何運(yùn)作的?

▌光芯片的優(yōu)勢(shì)與挑戰(zhàn)

▌光芯片如何商業(yè)化?

1、摩爾定律逼近極限,未來如何提升算力?

在過去二十年中,算力發(fā)生了翻天覆地的變化。

如果你拿2010年的電腦和現(xiàn)在的相比,可能你會(huì)發(fā)現(xiàn)2010年的電腦還可以繼續(xù)跑現(xiàn)在的一些軟件。但如果你用2000年的電腦,去跑2010年的軟件,你會(huì)發(fā)現(xiàn)99%的軟件都跑不起來。

這說明了,電子芯片和算力的發(fā)展,其實(shí)是在逐漸變慢,背后的原因受制于物理極限,每一次芯片迭代所帶來的算力紅利,已經(jīng)逐步減少,從16納米到7納米、再到5納米,再往下一步的增長(zhǎng)只會(huì)越來越小。

這主要受限于功耗和晶體管本身的密度。人們發(fā)現(xiàn)晶體管的尺寸越來越小,但并沒有太好的辦法讓晶體管的能耗進(jìn)一步下降。另外還受到銅導(dǎo)線的制約,因?yàn)殡S著銅導(dǎo)線的橫截面積越來越小,電阻就會(huì)越來越高,于是發(fā)熱也不是一直能往下降的因素。

另一個(gè)登納德縮放比例定律——晶體管在密度提升的同時(shí),功耗密度保持不變,這一定律早在2004年左右已經(jīng)失效。隨著芯片集成度的提升,所需的功耗和散熱要求越來越大,產(chǎn)生了“功耗墻”問題。

如今從2016年、2018年到2020年,最先進(jìn)的制程從16nm到7nm到5nm,性能提升實(shí)際上越來越慢,已經(jīng)無法實(shí)現(xiàn)摩爾定律每18個(gè)月翻倍的速度。并且從研發(fā)難度和成本的角度,未來可能全球只有極少數(shù)幾家足以繼續(xù)往5nm以下發(fā)展。

從對(duì)算力的需求來看,隨著AI的爆發(fā),在未來 10 年里,用增長(zhǎng)越來越緩慢的電子芯片,去匹配增長(zhǎng)越來越快的數(shù)據(jù)需求,這可能是目前最大的挑戰(zhàn)。

AI模型容量和算力消耗的指數(shù)增長(zhǎng)趨勢(shì);來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》,Wilfred Gomes et al., "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing," ISSCC, 2022

曦智科技創(chuàng)始人兼 CEO 沈亦晨經(jīng)常把芯片設(shè)計(jì)比喻成城市發(fā)展,現(xiàn)在的芯片面積越做越大,比如2015年英偉達(dá)的GPU芯片,整個(gè)芯片從面積上來看大概有600平方毫米,但2020年推出的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理芯片A100,它的面積大約是800多平方毫米。

拿城市發(fā)展作比喻,如果在500年前,想把100萬人口的城市變成1000萬,是非常困難的,因?yàn)槭芟抻趲讉€(gè)基礎(chǔ)設(shè)施方面的問題:一是城市交通,如果用傳統(tǒng)馬車或步行,哪怕全都是平面道路,也很難滿足交通需求。二是每棟樓房的設(shè)計(jì),如果每棟樓房還是500年前的一層樓、兩層樓,要想支撐起更大的城市體系也非常困難,只有出現(xiàn)了高層樓房,城市才能提高密度。

這個(gè)比喻對(duì)應(yīng)了芯片設(shè)計(jì)中的片間網(wǎng)絡(luò)和片上網(wǎng)絡(luò),如果把現(xiàn)在的電換成光,能在最基礎(chǔ)的“基建技術(shù)”方面,幫助電子芯片進(jìn)行下一代技術(shù)升級(jí),“光替代電”能有效解決高通量和交通問題。

2、一篇論文打開了光計(jì)算的大門

廣義的光芯片,并不算是前沿技術(shù),它存在的時(shí)間甚至比電子芯片還要久。

2000年前后的海底光纜,光通訊兩端的收發(fā)模塊都是光子芯片,甚至老師在上課時(shí)用的激光筆,里面也有激光器芯片,也是一種光子芯片。

但這些光芯片都是不可編程的,所以無法運(yùn)用于計(jì)算領(lǐng)域。在計(jì)算方面,電子芯片獨(dú)步天下。

直到2017年,沈亦晨等人在《自然·光子》(Nature Photonics)期刊上所發(fā)表的封面論文,開創(chuàng)性地提出了一種以光學(xué)神經(jīng)網(wǎng)絡(luò)為藍(lán)本的全新計(jì)算架構(gòu),光子計(jì)算成為可能。

圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

光學(xué)信號(hào)和光學(xué)器件與電子芯片遵循不同的物理原理。光計(jì)算理論比較復(fù)雜,簡(jiǎn)單解釋是:光學(xué)信號(hào)與散射介質(zhì)的互動(dòng)在大多數(shù)情況下是線性的,因此可以被映射為一種線性計(jì)算。

生活中其實(shí)有很多光學(xué)線性計(jì)算的現(xiàn)象,一個(gè)典型的例子是光學(xué)照相機(jī)的鏡頭,鏡頭前的光學(xué)信號(hào)在穿過鏡頭時(shí),完成了兩次二維空間光學(xué)傅立葉變換,然后在感光元件上成像,因此,照相機(jī)鏡頭可以被看作一種不可編程的光學(xué)線性計(jì)算單元。

但要可編程,才有實(shí)用價(jià)值。在2017年的這篇論文里,沈亦晨等研究者提出的最重要的思路,就是用一個(gè)網(wǎng)絡(luò)狀的干涉器,在光通過干涉器的時(shí)候,利用它們相互之間的干涉和對(duì)干涉器的控制來進(jìn)行線性運(yùn)算,可以總結(jié)為用一個(gè)干涉器的集聯(lián)來完成大規(guī)模的線性計(jì)算,以此應(yīng)用于人工智能的矩陣計(jì)算。

當(dāng)然這個(gè)是最初提出的理論,后來這個(gè)系統(tǒng)要想實(shí)際落地,遠(yuǎn)遠(yuǎn)比一個(gè)矩陣計(jì)算器要復(fù)雜得多。并且光還可以運(yùn)用在很多方面,例如片上和片間的數(shù)據(jù)傳輸?shù)鹊龋蟮募夹g(shù)方案經(jīng)歷了多次迭代,變得越來越成熟。

在光計(jì)算芯片(硅光)上,一顆芯片需要集成上萬個(gè)光器件,包括調(diào)制器、探測(cè)器、干涉器、波導(dǎo)、激光光源、混波器等等10種左右,這些都是納米級(jí)。

光芯片的核心是用波導(dǎo)來代替電芯片的銅導(dǎo)線,來做芯片和板卡上的信號(hào)傳輸,其實(shí)就是換了一種介質(zhì)。當(dāng)光在波導(dǎo)里面?zhèn)鬏數(shù)臅r(shí)候,波導(dǎo)和波導(dǎo)之間出現(xiàn)光信號(hào)干涉,用這個(gè)物理過程來模擬線性計(jì)算這一類的計(jì)算過程。

就像是光在凸透鏡鏡片里的傳播過程,其實(shí)是模擬了一個(gè)類似傅里葉變換的數(shù)學(xué)過程。在光芯片里也是一樣,光在芯片上波導(dǎo)傳播的時(shí)候,當(dāng)兩個(gè)波導(dǎo)靠得很近的時(shí)候,里面的光信號(hào)就會(huì)相互干涉,這個(gè)干涉的過程就剛好模擬了一個(gè)線性計(jì)算過程。當(dāng)有很多個(gè)波導(dǎo),比如128根波導(dǎo)形成一個(gè)網(wǎng)絡(luò)互相干涉的時(shí)候,我們就可以通過控制這些波導(dǎo)的干涉,來模擬任何一個(gè)通用的矩陣運(yùn)算。

可編程光學(xué)系統(tǒng)的研究突破。圖片來源:Deep learning with coherent nanophotonic circuits,nature photonics

3、一個(gè)典型的光子計(jì)算矩陣是如何運(yùn)作的?

舉一個(gè)實(shí)際的例子,一個(gè)典型的光子矩陣計(jì)算是如何運(yùn)作的?

首先最左邊是數(shù)據(jù)加載,中間是矩陣,最右邊是光信號(hào)接收,這個(gè)過程可總結(jié)為光信號(hào)通過矩陣接收的過程。

如果拿現(xiàn)實(shí)生活中的現(xiàn)象作類比,就類似于眼鏡,近視的朋友在沒有戴眼鏡之前,眼前的世界是不清晰的,但戴了之后就變清晰了,而這個(gè)從模糊到清晰的過程,就是眼鏡對(duì)圖像信號(hào)做了一種處理,也可以理解成一種計(jì)算。這個(gè)計(jì)算的實(shí)現(xiàn)方法是眼鏡前的光信號(hào),通過眼鏡這個(gè)計(jì)算單元來完成。

可編程光子矩陣乘法器原理示意圖,在這個(gè)例子中,所有的光器件都集成在一塊光芯片上,而光芯片的控制電路和內(nèi)存都部署在電芯片上。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

在2020年的一份視頻演示中,曦智團(tuán)隊(duì)在原型產(chǎn)品上成功用光子芯片運(yùn)行了Google Tensorflow自帶的卷積神經(jīng)網(wǎng)絡(luò)模型,來處理MNIST數(shù)據(jù)集,這是一個(gè)使用計(jì)算機(jī)視覺識(shí)別手寫數(shù)字的基準(zhǔn)機(jī)器學(xué)習(xí)模型,也是機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)數(shù)據(jù)集之一。在測(cè)試中,整個(gè)模型超過95%的運(yùn)算是在光子芯片上完成的處理。

測(cè)試結(jié)果顯示,光子芯片處理的準(zhǔn)確率已經(jīng)接近電子芯片(97%以上),另外光子芯片完成矩陣乘法所用的時(shí)間是當(dāng)時(shí)最先進(jìn)的電子芯片的 1/100 以內(nèi)。這也是世界上第一臺(tái)完全獨(dú)立的光學(xué)計(jì)算系統(tǒng)。

曦智科技開發(fā)的早期產(chǎn)品。圖片來源:曦智科技

這款初代產(chǎn)品正在處理MNIST數(shù)據(jù)集。圖片來源:曦智科技

4、光芯片的優(yōu)勢(shì)與挑戰(zhàn)

光芯片的優(yōu)勢(shì)可以總結(jié)為:速度快/低延遲、低能耗、擅長(zhǎng)AI矩陣計(jì)算。

首先是速度快/低延遲。光信號(hào)意味著光速,所以光計(jì)算芯片最顯著的優(yōu)勢(shì)是速度快、延遲低,在芯片尺寸的厘米尺度上,這個(gè)延遲時(shí)間是納秒級(jí)(小于5納秒),這個(gè)速度是非常驚人的。并且這個(gè)延遲與矩陣的尺寸幾乎無關(guān),在尺寸較大的情況下,光子矩陣計(jì)算的延遲優(yōu)勢(shì)非常明顯。

脈動(dòng)矩陣計(jì)算和光子矩陣計(jì)算延遲對(duì)比示意圖。圖片來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

第二大優(yōu)勢(shì)是低能耗。鏡片折射本身是不需要能量的,是一個(gè)被動(dòng)過程,不耗能。當(dāng)然,在實(shí)際應(yīng)用中,由于要對(duì)計(jì)算系統(tǒng)編程,其中光信號(hào)的產(chǎn)生和接收還是需要耗能的。在光學(xué)器件和其控制電路被較好地優(yōu)化前提下,基于相對(duì)傳統(tǒng)制程的光子計(jì)算的能效比,可媲美甚至凌駕先進(jìn)制程的數(shù)字芯片。

第三大優(yōu)勢(shì)是擅長(zhǎng)矩陣運(yùn)算。光波的頻率、波長(zhǎng)、偏振態(tài)和相位等信息,可以代表不同數(shù)據(jù),且光路在交叉?zhèn)鬏敃r(shí)互不干擾,比如兩束手電筒的光束交叉時(shí),會(huì)穿過對(duì)方光束形成“X”型,并不會(huì)互相干擾。這些特性使光子更擅長(zhǎng)做矩陣計(jì)算,而AI大模型90%的計(jì)算任務(wù)都是矩陣計(jì)算。

以上我們談到了很多優(yōu)勢(shì),但光芯片作為一項(xiàng)前沿技術(shù),必然有很多挑戰(zhàn)有待克服,下面我們就聊幾個(gè)有待克服的難題。

首先由于要用于復(fù)雜計(jì)算,那么光器件的數(shù)量必然就會(huì)很多,要達(dá)到不錯(cuò)的性能至少需要上萬個(gè),這也會(huì)帶來更復(fù)雜的結(jié)構(gòu)和更大的尺寸。為了實(shí)現(xiàn)可編程,必然要對(duì)每個(gè)器件進(jìn)行控制,也會(huì)要求高集成度。

這些要求會(huì)產(chǎn)生一些工藝上的挑戰(zhàn),同時(shí)導(dǎo)致成本很高,以及整體穩(wěn)定性、生產(chǎn)良率都有挑戰(zhàn),所以必須找到一種低成本、高良率的方法,來控制大量光器件的技術(shù)。曦智采取的是3D堆疊的封裝技術(shù),在光芯片上方堆疊電芯片,電芯片可以集成各種各樣的功能。電芯片、光芯片通過凸塊上的調(diào)制器進(jìn)行信號(hào)轉(zhuǎn)換,把數(shù)字信號(hào)變成模擬信號(hào)去控制光器件,然后再返回。這時(shí)才能達(dá)到對(duì)復(fù)雜芯片的有效控制,最終作為一個(gè)整體集成在基板上,成為一個(gè)產(chǎn)品。

同時(shí)溫度也是需要一定的控制,因?yàn)榄h(huán)境溫度會(huì)對(duì)計(jì)算精度產(chǎn)生影響。因?yàn)槭悄M計(jì)算,當(dāng)整個(gè)環(huán)境對(duì)電芯片產(chǎn)生影響的時(shí)候,對(duì)光信號(hào)也會(huì)產(chǎn)生擾動(dòng)。有一種辦法是把整個(gè)芯片放在恒溫環(huán)境下,通過溫控電路來實(shí)現(xiàn)。但這會(huì)犧牲一些光計(jì)算的低能耗優(yōu)勢(shì),因?yàn)槿绻麨榱丝刂扑木榷暮芏嗄芰?,?huì)有些得不償失。

對(duì)于溫度控制,還包括芯片內(nèi)部發(fā)熱,導(dǎo)致對(duì)周邊器件的影響問題。比如兩個(gè)器件靠很近,一個(gè)器件在發(fā)熱,旁邊會(huì)受影響。

另一個(gè)挑戰(zhàn)是應(yīng)用層面的精度問題。因?yàn)楣庥?jì)算是模擬計(jì)算,精度受限于物理本質(zhì),同水平下精度較難與數(shù)字計(jì)算一樣。當(dāng)然如果要想達(dá)到高精度(12比特、16比特等),也可以實(shí)現(xiàn),但代價(jià)會(huì)非常大,所以核心是要尋求合適的應(yīng)用場(chǎng)景,實(shí)際上在人工智能算法方面,并不需要那么高的精度。

以上這些都是可以預(yù)料到的技術(shù)挑戰(zhàn)。

5、光芯片如何商業(yè)化?

光芯片看起來是很不錯(cuò)的技術(shù)路徑,但到底多久才能落地?

我們總結(jié)了當(dāng)下市場(chǎng)中,其中一種比較快的商業(yè)化路徑思路:

第一是短期內(nèi)不尋求完全替代電,不改動(dòng)基礎(chǔ)架構(gòu),最大化地強(qiáng)調(diào)通用性,形成光電混合的新型算力范式。

第二是把光芯片模塊化,不僅僅追求在計(jì)算領(lǐng)域的應(yīng)用,還追求在片間傳輸光模塊的“即插即用”。

硅光芯片不是靠尖端制程來獲勝,更多是靠速度和功耗,比如光的調(diào)制解調(diào)的速度、功耗,還有多波復(fù)用,在一個(gè)波導(dǎo)里面同時(shí)能通過多少路光等等。所以光芯片的“摩爾定律”不體現(xiàn)在制程,而是主頻和波長(zhǎng)。

通過上文所說的商業(yè)化路徑兩點(diǎn)思路,可以看出硅光最大的優(yōu)勢(shì)在于技術(shù)通用性。例如在一個(gè)GPU中,有專門做線性計(jì)算的計(jì)算核部分,它可能占到整個(gè)芯片四分之一到三分之一的大小,可以優(yōu)先把這部分換成光的計(jì)算核。

同時(shí),盡量不調(diào)整其他部分,最終對(duì)于軟件開發(fā)者或是使用芯片的人來說,甚至不會(huì)注意到這個(gè)改動(dòng)。如果拿從燃油車迭代到電動(dòng)車的過程來做比喻,司機(jī)不用改變駕駛習(xí)慣,油門、剎車的位置都不變,背后是發(fā)動(dòng)機(jī)換成了電機(jī)。

無論是生產(chǎn)商還是客戶,最大的訴求之一就是要確保通用性。越大的客戶越想要這個(gè)產(chǎn)品實(shí)現(xiàn)“開箱即用”,才能夠最大限度降低學(xué)習(xí)成本,不需要對(duì)現(xiàn)在的底層框架進(jìn)行過多修改,就能夠適配到成千上萬個(gè)當(dāng)前的應(yīng)用場(chǎng)景中。所以不動(dòng)基礎(chǔ)架構(gòu),而是把線性計(jì)算的計(jì)算核部分用光來部分替代,形成光電混合的算力網(wǎng)絡(luò)新形式,是最快的商業(yè)化路徑。

從算力提升角度來看,一個(gè)計(jì)算系統(tǒng)主要有三塊計(jì)算要素:數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)。以上所說的是針對(duì)第一部分?jǐn)?shù)據(jù)處理,可以用光代替電芯片來做大部分矩陣運(yùn)算類的數(shù)據(jù)處理。

第二部分是數(shù)據(jù)傳輸,包括一塊芯片上的數(shù)據(jù)傳輸,和芯片之間的數(shù)據(jù)傳輸,也就是片上互連和片間互連,這兩部分也是光子芯片的用武之地。

我們簡(jiǎn)單介紹一下片上光網(wǎng)絡(luò)和片間光網(wǎng)絡(luò):

用片上光網(wǎng)絡(luò)(Optical Network On Chip,oNOC)來代替模塊間的電互連,可以利用光的低延遲和低能耗優(yōu)勢(shì)。如下圖所示,兩個(gè)電芯片被堆疊在同一個(gè)光芯片上,電芯片之間的數(shù)據(jù)傳輸由光芯片上的光波導(dǎo)鏈路實(shí)現(xiàn)。由于光傳輸很快,所以無所謂距離有多遠(yuǎn),片上光網(wǎng)絡(luò)可以覆蓋大量的長(zhǎng)距離通道。光芯片能夠擴(kuò)展到整個(gè)晶圓,從而實(shí)現(xiàn)晶圓級(jí)的光互連網(wǎng)絡(luò)。在這樣的狀態(tài)下,把計(jì)算任務(wù)映射到不同芯片的工作可以達(dá)到更高的利用率。

片上光網(wǎng)絡(luò)系統(tǒng)側(cè)視圖與俯視圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

而對(duì)于片間光網(wǎng)絡(luò),目前在電芯片中,是通過以太網(wǎng)卡來實(shí)現(xiàn)互連,但它受限于互連延遲和帶寬,在整體效率上有較大提升空間。利用光的優(yōu)勢(shì),一種優(yōu)化辦法是取消網(wǎng)卡,將計(jì)算芯片直接和光電轉(zhuǎn)換模塊連接,以實(shí)現(xiàn)低延遲、高帶寬、低能耗的片間光網(wǎng)絡(luò),當(dāng)然這里面需要物理層和互連協(xié)議兩方面的創(chuàng)新。

片間光網(wǎng)絡(luò)示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

綜合來說,結(jié)合光子矩陣計(jì)算(oMAC)、片上光網(wǎng)絡(luò)(oNOC)和片間光網(wǎng)絡(luò)(oNET)等新技術(shù),可以構(gòu)建光電混合數(shù)據(jù)中心。

片上光網(wǎng)絡(luò)(晶圓級(jí))可以令光計(jì)算芯片和傳統(tǒng)電芯片有效協(xié)同,在單節(jié)點(diǎn)提高算力;片間光網(wǎng)絡(luò)支持了高效傳輸和算力池化,使得大型分布式計(jì)算系統(tǒng)可以實(shí)現(xiàn)前所未有的高效、靈活和節(jié)能。

光電集成技術(shù)的光電混合數(shù)據(jù)中心示意圖。來源:曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

從商業(yè)化角度,除了做整個(gè)光計(jì)算完整的解決方案以外,還可以把某些單個(gè)技術(shù)模塊化,比如剛剛所說的光計(jì)算(矩陣運(yùn)算),或是光片上互連、片間互連,這些技術(shù)也可以模塊化成為產(chǎn)品。如果拿智能電動(dòng)車行業(yè)作類比,就像除了做整車以外,電池、電機(jī)、操控系統(tǒng)等等都是單獨(dú)的模塊化產(chǎn)品,很多電芯片的設(shè)計(jì)公司也確實(shí)有相關(guān)需求。

總之,光子計(jì)算提供了一條超越摩爾定律的算力提升路徑。

光子計(jì)算這個(gè)方向在過去五年中逐漸變熱,除了像英偉達(dá)這樣的芯片設(shè)計(jì)巨頭有布局,最近2-3年國際上一些晶圓廠、EDA公司、封測(cè)廠等等,也開始正式布局硅光產(chǎn)線。硅光芯片雖然當(dāng)下還主要是在光通訊、光傳感的激光雷達(dá)等領(lǐng)域,這部分需求也驅(qū)動(dòng)了相關(guān)的供應(yīng)鏈投入。雖然光計(jì)算還沒有完全落地,但硅光芯片每個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)的全面性,是光計(jì)算芯片量產(chǎn)的前提。并且晶圓廠也無需為光芯片重新開發(fā)一整套工藝,很多工藝都是通用的。

展望未來,光計(jì)算芯片最大的應(yīng)用場(chǎng)景,就是人工智能。其他的還包括自動(dòng)駕駛、金融(追求低延遲的量化基金)等領(lǐng)域,以及未來很多科研包括對(duì)大氣、地理、新材料和藥物研發(fā),都可以通過算力更高的光電混合芯片來提高現(xiàn)有研發(fā)進(jìn)度。

對(duì)于這種前沿技術(shù),我們要觀察什么指標(biāo)來判斷它的發(fā)展進(jìn)度?其中一個(gè)核心指標(biāo)是集成度,就是光電混合芯片能集成多少光器件,并且能精確控制它們。

這是一個(gè)全新的賽道,“超越摩爾定律”也是一個(gè)激動(dòng)人心的口號(hào),但幾乎沒有前路可以借鑒,開拓者們正在披荊斬棘,技術(shù)挑戰(zhàn)與商業(yè)化風(fēng)險(xiǎn)并存。但唯一可以確定的是,人類社會(huì)對(duì)提升算力的追求,正比以往任何一個(gè)時(shí)刻更加迫切。

References:

1、 曦智科技,《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

2、 曦智科技CTO孟懷宇,《集成光子學(xué)在計(jì)算領(lǐng)域的機(jī)會(huì)與挑戰(zhàn)》

3、 曦智科技創(chuàng)始人兼CEO沈亦晨等,《Deep learning with coherent nanophotonic circuits》(自然·光子雜志)

4、 量子位,比RTX3080快350倍,光子芯片真的能幫我們實(shí)現(xiàn)“換道超車”嗎?

5、 DeepTech,曦智科技發(fā)布全球首個(gè)光子AI芯片原型

6、 智東西:掀起數(shù)據(jù)中心算力新風(fēng)口!大規(guī)模光電集成有多硬核?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。