正在閱讀:

強攻GPU,TPU芯片一夜躥紅

掃一掃下載界面新聞APP

強攻GPU,TPU芯片一夜躥紅

蘋果放棄英偉達 GPU 轉向谷歌 TPU 的戰(zhàn)略選擇,在科技界投下了一枚震撼彈,當日英偉達股價應聲下跌超 7%,創(chuàng)下三個月來最大跌幅,市值蒸發(fā) 1930 億美元。

文|半導體產業(yè)縱橫

?自ChatGPT爆火之后,AI大模型的研發(fā)層出不窮,而在這場“百模大戰(zhàn)”激戰(zhàn)正酣之際,美國芯片公司英偉達卻憑借其GPU在大模型計算中的出色發(fā)揮賺得盆滿缽滿。

然而,近日蘋果的一項舉動,給英偉達的火熱稍稍降溫。

01、AI模型訓練,蘋果選擇TPU而非GPU

英偉達一直是 AI 算力基礎設施領域的領導者,在 AI 硬件市場,尤其是 AI 訓練領域,其市場份額在 80% 以上,英偉達GPU一直是亞馬遜、微軟、Meta、OpenAI 等眾多科技巨頭在 AI 和機器學習領域的首選算力解決方案。

因此,英偉達也持續(xù)遭遇行業(yè)內多元挑戰(zhàn),競爭對手中不乏自主研發(fā)GPU的強者,亦有探索創(chuàng)新架構的先驅。谷歌的TPU也憑借其獨特優(yōu)勢,成為英偉達不容忽視的強大對手。

7月30日,蘋果公司發(fā)布了一篇研究論文。在論文中,蘋果介紹了給Apple Intelligence提供支持的兩個模型——AFM-on-device(AFM是蘋果基礎模型的縮寫)和 AFM-server(一個基于服務器的大語言模型),前者是一個30億參數的語言模型,后者則是一個基于服務器的語言模型。

蘋果在論文中表示,為了訓練其AI模型,使用了谷歌的兩種張量處理器(TPU),這些單元被組成大型芯片集群。為了構建可在iPhone和其他設備上運行的AI模型AFM-on-device,蘋果使用了2048個TPUv5p芯片。對于其服務器AI模型AFM-server,蘋果部署了8192個TPUv4處理器。

蘋果放棄英偉達 GPU 轉向谷歌 TPU 的戰(zhàn)略選擇,在科技界投下了一枚震撼彈,當日英偉達股價應聲下跌超 7%,創(chuàng)下三個月來最大跌幅,市值蒸發(fā) 1930 億美元。

業(yè)內人士表示,蘋果的決定表明一些大型科技公司在人工智能訓練方面可能正在尋找英偉達圖形處理單元的替代品。

02、TPU VS GPU,誰更適合大模型?

在討論TPU與GPU誰更適合大模型之前,我們需要對這兩者有一個初步的了解。

TPU與GPU對比

TPU全稱Tensor Processing Unit,是谷歌專門為加速機器學習工作負載而設計的專用芯片,它主要應用于深度學習模型的訓練和推理。值得注意的是,TPU也屬于 ASIC芯片的一類,而ASIC是一種為了某種特定的需求而專門定制的芯片。

GPU大家就比較熟悉了,GPU是最初為圖形渲染設計的處理器,后來廣泛用于并行計算和深度學習。它具有強大的并行處理能力,經過優(yōu)化后的GPU,也非常適合深度學習和科學計算等并行任務。

可以看到,這兩種不同的芯片在初始設計時便有著各自不同的目標。

與傳統(tǒng)的 CPU 相比,GPU 的并行計算能力使其特別適合處理大規(guī)模數據集和復雜計算任務,于是在 AI 大模型爆發(fā)的近幾年,GPU 一度成為 AI 訓練的算力硬件首選。

然而,隨著AI大模型的不斷發(fā)展,計算任務在指數級地日益龐大與復雜化,這對計算能力與計算資源提出了全新的要求,GPU 用于 AI 計算時的算力利用率較低、能耗較高的能效比瓶頸,以及英偉達 GPU 產品的價格高昂和供貨緊張,讓本就是為深度學習和機器學習而生的 TPU 架構受到更多的關注。GPU在這一領域的霸主地位開始面臨挑戰(zhàn)。

據悉,谷歌早在 2013 年就開始在內部研發(fā)專用于 AI 機器學習算法的芯片,直到 2016 年這款自研的名叫 TPU 的芯片才被正式公開。在 2016 年 3 月打敗李世石和 2017 年 5 月打敗柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片訓練而成。

如果說TPU更適合用作AI大模型訓練,不具體說明它的“本領”恐怕難以令眾人信服。

TPU如何適合大模型訓練?

首先,TPU具有多維度的計算單元提高計算效率。相較于 CPU 中的標量計算單元和 GPU 中的矢量計算單元,TPU 使用二維乃至更高維度的計算單元完成計算任務,將卷積運算循環(huán)展開的方式實現最大限度的數據復用,降低數據傳輸成本,提升加速效率。

其次,TPU具有更省時的數據傳輸和高效率的控制單元。馮諾依曼架構帶來的存儲墻問題在深度學習任務當中尤為突出,而 TPU 采用更為激進的策略設計數據傳輸,且控制單元更小,給片上存儲器和運算單元留下了更大的空間。

最后,TPU具有設計面向 AI 的加速,強化 AI/ML 計算能力。定位準確,架構簡單,單線程控制,定制指令集,TPU 架構在深度學習運算方面效率極高,且易于擴展,更適合超大規(guī)模的 AI 訓練計算。

據悉,谷歌 TPUv4 與英偉達 A100 相比的功耗低 1.3-1.9 倍,在 Bert、ResNet等多類工作模型中,效率高于A100 1.2- 1.9 倍;同時其 TPUv5/TPU Trillium產品相比 TPUv4,能夠進一步提升 2 倍/接近 10 倍的計算性能??梢钥吹焦雀鑄PU產品相比英偉達的產品在成本與功耗上存在更多優(yōu)勢。

在今年5月的I / O 2024 開發(fā)者大會上,Alphabet首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)宣布了第六代數據中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,稱該產品的速度幾乎是上一代產品的五倍,并表示將于今年晚些時候推出交付。

谷歌表示,第六代Trillium芯片的計算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。這款芯片旨在為從大模型中生成文本和其他內容的技術提供動力。谷歌還表示,第六代Trillium芯片將在今年年底可供其云客戶使用。

谷歌的工程師通過增加高帶寬內存容量和整體帶寬實現了額外的性能提升。人工智能模型需要大量的高級內存,而這一直是進一步提高性能的瓶頸。

值得注意的是,谷歌并不會以獨立產品的形態(tài)單獨出售自己的TPU 芯片,而是通過谷歌云平臺( Google Cloud Platform,簡稱 GCP)向外部客戶提供基于 TPU 的算力服務。

在這一方案上也可窺見谷歌的聰明之處:直接銷售硬件涉及高昂的開銷和復雜的供應鏈管理。而通過云服務提供TPU,谷歌可以簡化安裝、部署和管理過程,減少不確定性和額外開銷。這樣的模式也簡化了銷售流程,無需額外建立硬件銷售團隊。另外,谷歌正在與OpenAI就生成性AI進行激烈的競爭,如果谷歌開始銷售TPU,它將同時與兩個強大的對手競爭:英偉達和OpenAI,這可能不是目前最明智的策略。

文章說到這里,可能會有人發(fā)問:既然TPU具有如此出色的性能優(yōu)勢,是否會在很快的未來取代GPU?

03、現在談取代GPU?或許為時尚早

這一問題也并沒有這么簡單。

只說TPU的優(yōu)勢,不講GPU的優(yōu)勢,可謂是一葉障目。接下來我們還要了解一下相比TPU,GPU又是如何適用于當前的AI大模型訓練。

我們看到TPU的優(yōu)勢在于出眾的能效比與單位成本算力指標,然而作為一種ASIC芯片,其試錯成本高的劣勢也較為明確。

此外,在生態(tài)系統(tǒng)的成熟度方面。GPU 經過多年的發(fā)展,擁有龐大且成熟的軟件和開發(fā)工具生態(tài)。眾多的開發(fā)者和研究機構長期基于 GPU 進行開發(fā)和優(yōu)化,積累了豐富的庫、框架和算法。而 TPU 的生態(tài)相對較新,可用的資源和工具可能不如 GPU 豐富,這對于開發(fā)者來說可能增加了適配和優(yōu)化的難度。

在通用性方面。GPU 最初是為圖形渲染設計,但其架構具有較高的靈活性,能夠適應多種不同類型的計算任務,不僅僅局限于深度學習。這使得 GPU 在面對多樣化的應用場景時具有更強的適應性。相比之下,TPU 是專為機器學習工作負載定制設計的,對于其他非機器學習相關的計算任務,可能無法像 GPU 那樣有效地處理。

最后,GPU 市場競爭激烈,各廠商不斷推動技術創(chuàng)新和產品更新,新的架構和性能提升較為頻繁。而 TPU 的發(fā)展主要由谷歌主導,其更新和演進的節(jié)奏可能相對較慢,

整體來說,英偉達和谷歌在 AI 芯片上的策略各有側重:英偉達通過提供強大的算力和廣泛的開發(fā)者支持,推動 AI 模型的性能極限;而谷歌則通過高效的分布式計算架構,提升大規(guī)模 AI 模型訓練的效率。這兩種不同的路徑選擇,使得它們在各自的應用領域中都展現出了獨特的優(yōu)勢。

蘋果選擇谷歌TPU的原因可能在于以下幾點:首先,TPU在處理大規(guī)模分布式訓練任務時表現出色,提供高效、低延遲的計算能力;其次,使用Google Cloud平臺,蘋果可以降低硬件成本,靈活調整計算資源,優(yōu)化AI開發(fā)的總體成本。此外,谷歌的AI開發(fā)生態(tài)系統(tǒng)還提供了豐富的工具和支持,使得蘋果能夠更高效地開發(fā)和部署其AI模型。

蘋果的實例證明了TPU在大模型訓練上的能力。但相比于英偉達,TPU目前在大模型領域的應用依舊還是太少,背后更多的大模型公司,包括OpenAI、特斯拉、字節(jié)跳動等巨頭,主力AI數據中心依然是普遍采用英偉達GPU。

因此,現在就下定義說谷歌的TPU可以打敗英偉達的GPU或許為時尚早,不過TPU一定是一個具有極強挑戰(zhàn)力的選手。

04、GPU的挑戰(zhàn)者,不只TPU

在如今人工智能淘金熱,但英偉達H100芯片供不應求、價格昂貴的背景下,大大小小的企業(yè)都在尋求替代英偉達的AI芯片產品,其中包括走傳統(tǒng)GPU路線的公司,也包括探尋新型架構的企業(yè)。

GPU面臨的挑戰(zhàn)者,可遠不止TPU。

在GPU路徑研發(fā)中,英偉達的勁敵莫過于AMD,今年一月有研究人員在Frontier超算集群上,利用其中8%左右的GPU,訓練出一個GPT 3.5級別規(guī)模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888個MI250X GPU和9472個Epyc 7A53 CPU組成,這次研究也突破了在AMD硬件上突破了先進分布式訓練模型的難點,為AMD平臺訓練大模型驗證了可行性。

同時,CUDA生態(tài)也在逐步擊破,今年7月英國公司Spectral Compute推出了可以為AMD GPU原生編譯CUDA源代碼的方案,大幅提高了AMD GPU對CUDA的兼容效率。

英特爾的Gaudi 3 也在發(fā)布時直接對標英偉達H100。今年4月,英特爾就推出用于深度學習和大型生成式AI模型的Gaudi 3,英特爾稱,對比前代,Gaudi 3可提供四倍的浮點格式BF16 AI計算能力,內存帶寬提升1.5倍,服務于大規(guī)模系統(tǒng)擴展的網絡帶寬提升兩倍。對比英偉達的芯片H100,如果應用于7B和13B參數的Meta Llama2 模型以及175B參數的OpenAI GPT-3模型中,Gaudi 3預計可以讓這些模型的訓練時間平均縮短50%。

此外,應用于7B和70B參數的Llama以及180B參數的開源Falcon模型時,Gaudi 3的推理吞吐量預計將比H100平均高50%,推理功效平均高40%。而且,在較長的輸入和輸出序列上,Gaudi 3有更大的推理性能優(yōu)勢。

應用于7B和70B參數的Llama以及180B參數的Falcon模型時,Gaudi 3的推理速度相比英偉達H200提高30%。

英特爾稱,Gaudi 3將在今年第三季度向客戶供應,二季度向包括戴爾、HPE、聯想和Supermicro在內的 OEM 廠商提供,但并未公布Gaudi 3的售價范圍。

去年11月,微軟在Ignite技術大會上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100,以及應用于云端軟件服務的芯片Azure Cobalt。兩款芯片將由臺積電代工,采用5nm制程技術。

據悉,英偉達的高端產品一顆有時可賣到3萬到4萬美元,用于ChatGPT的芯片被認為大概就需要有1萬顆,這對AI公司是個龐大成本。有大量AI芯片需求的科技大廠極力尋求可替代的供應來源,微軟選擇自行研發(fā),便是希望增強ChatGPT等生成式AI產品的性能,同時降低成本。

Cobalt是基于Arm架構的通用型芯片,具有128個核心,Maia 100是一款專為 Azure 云服務和 AI 工作負載設計的 ASIC 芯片,用于云端訓練和推理的,晶體管數量達到1050億個。這兩款芯片將導入微軟Azure數據中心,支持OpenAI、Copilot等服務。

負責Azure芯片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產品測試Maia 100芯片,微軟主要AI合作伙伴、ChatGPT開發(fā)商OpenAI,也在進行測試中。有市場評論認為,微軟 AI 芯片立項的時機很巧,正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經開始騰飛之際。

不過,微軟并不認為自己的 AI 芯片可以廣泛替代英偉達的產品。有分析認為,微軟的這一努力如果成功的話,也有可能幫助它在未來與英偉達的談判中更具優(yōu)勢。

除了芯片巨頭外,也不乏來自初創(chuàng)公司的沖擊。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。

當下,英偉達大約掌控著 80%的人工智能數據中心芯片市場,而其余 20%的大部分則由不同版本的谷歌 TPU 把控。未來,TPU 所占的市場份額會不會持續(xù)上揚?會增長幾何?是否會有其他架構的 AI 芯片將現有的市場格局一分為三?這些懸念預計在接下來的數年間將逐步揭曉。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

強攻GPU,TPU芯片一夜躥紅

蘋果放棄英偉達 GPU 轉向谷歌 TPU 的戰(zhàn)略選擇,在科技界投下了一枚震撼彈,當日英偉達股價應聲下跌超 7%,創(chuàng)下三個月來最大跌幅,市值蒸發(fā) 1930 億美元。

文|半導體產業(yè)縱橫

?自ChatGPT爆火之后,AI大模型的研發(fā)層出不窮,而在這場“百模大戰(zhàn)”激戰(zhàn)正酣之際,美國芯片公司英偉達卻憑借其GPU在大模型計算中的出色發(fā)揮賺得盆滿缽滿。

然而,近日蘋果的一項舉動,給英偉達的火熱稍稍降溫。

01、AI模型訓練,蘋果選擇TPU而非GPU

英偉達一直是 AI 算力基礎設施領域的領導者,在 AI 硬件市場,尤其是 AI 訓練領域,其市場份額在 80% 以上,英偉達GPU一直是亞馬遜、微軟、Meta、OpenAI 等眾多科技巨頭在 AI 和機器學習領域的首選算力解決方案。

因此,英偉達也持續(xù)遭遇行業(yè)內多元挑戰(zhàn),競爭對手中不乏自主研發(fā)GPU的強者,亦有探索創(chuàng)新架構的先驅。谷歌的TPU也憑借其獨特優(yōu)勢,成為英偉達不容忽視的強大對手。

7月30日,蘋果公司發(fā)布了一篇研究論文。在論文中,蘋果介紹了給Apple Intelligence提供支持的兩個模型——AFM-on-device(AFM是蘋果基礎模型的縮寫)和 AFM-server(一個基于服務器的大語言模型),前者是一個30億參數的語言模型,后者則是一個基于服務器的語言模型。

蘋果在論文中表示,為了訓練其AI模型,使用了谷歌的兩種張量處理器(TPU),這些單元被組成大型芯片集群。為了構建可在iPhone和其他設備上運行的AI模型AFM-on-device,蘋果使用了2048個TPUv5p芯片。對于其服務器AI模型AFM-server,蘋果部署了8192個TPUv4處理器。

蘋果放棄英偉達 GPU 轉向谷歌 TPU 的戰(zhàn)略選擇,在科技界投下了一枚震撼彈,當日英偉達股價應聲下跌超 7%,創(chuàng)下三個月來最大跌幅,市值蒸發(fā) 1930 億美元。

業(yè)內人士表示,蘋果的決定表明一些大型科技公司在人工智能訓練方面可能正在尋找英偉達圖形處理單元的替代品。

02、TPU VS GPU,誰更適合大模型?

在討論TPU與GPU誰更適合大模型之前,我們需要對這兩者有一個初步的了解。

TPU與GPU對比

TPU全稱Tensor Processing Unit,是谷歌專門為加速機器學習工作負載而設計的專用芯片,它主要應用于深度學習模型的訓練和推理。值得注意的是,TPU也屬于 ASIC芯片的一類,而ASIC是一種為了某種特定的需求而專門定制的芯片。

GPU大家就比較熟悉了,GPU是最初為圖形渲染設計的處理器,后來廣泛用于并行計算和深度學習。它具有強大的并行處理能力,經過優(yōu)化后的GPU,也非常適合深度學習和科學計算等并行任務。

可以看到,這兩種不同的芯片在初始設計時便有著各自不同的目標。

與傳統(tǒng)的 CPU 相比,GPU 的并行計算能力使其特別適合處理大規(guī)模數據集和復雜計算任務,于是在 AI 大模型爆發(fā)的近幾年,GPU 一度成為 AI 訓練的算力硬件首選。

然而,隨著AI大模型的不斷發(fā)展,計算任務在指數級地日益龐大與復雜化,這對計算能力與計算資源提出了全新的要求,GPU 用于 AI 計算時的算力利用率較低、能耗較高的能效比瓶頸,以及英偉達 GPU 產品的價格高昂和供貨緊張,讓本就是為深度學習和機器學習而生的 TPU 架構受到更多的關注。GPU在這一領域的霸主地位開始面臨挑戰(zhàn)。

據悉,谷歌早在 2013 年就開始在內部研發(fā)專用于 AI 機器學習算法的芯片,直到 2016 年這款自研的名叫 TPU 的芯片才被正式公開。在 2016 年 3 月打敗李世石和 2017 年 5 月打敗柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片訓練而成。

如果說TPU更適合用作AI大模型訓練,不具體說明它的“本領”恐怕難以令眾人信服。

TPU如何適合大模型訓練?

首先,TPU具有多維度的計算單元提高計算效率。相較于 CPU 中的標量計算單元和 GPU 中的矢量計算單元,TPU 使用二維乃至更高維度的計算單元完成計算任務,將卷積運算循環(huán)展開的方式實現最大限度的數據復用,降低數據傳輸成本,提升加速效率。

其次,TPU具有更省時的數據傳輸和高效率的控制單元。馮諾依曼架構帶來的存儲墻問題在深度學習任務當中尤為突出,而 TPU 采用更為激進的策略設計數據傳輸,且控制單元更小,給片上存儲器和運算單元留下了更大的空間。

最后,TPU具有設計面向 AI 的加速,強化 AI/ML 計算能力。定位準確,架構簡單,單線程控制,定制指令集,TPU 架構在深度學習運算方面效率極高,且易于擴展,更適合超大規(guī)模的 AI 訓練計算。

據悉,谷歌 TPUv4 與英偉達 A100 相比的功耗低 1.3-1.9 倍,在 Bert、ResNet等多類工作模型中,效率高于A100 1.2- 1.9 倍;同時其 TPUv5/TPU Trillium產品相比 TPUv4,能夠進一步提升 2 倍/接近 10 倍的計算性能??梢钥吹焦雀鑄PU產品相比英偉達的產品在成本與功耗上存在更多優(yōu)勢。

在今年5月的I / O 2024 開發(fā)者大會上,Alphabet首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)宣布了第六代數據中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,稱該產品的速度幾乎是上一代產品的五倍,并表示將于今年晚些時候推出交付。

谷歌表示,第六代Trillium芯片的計算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。這款芯片旨在為從大模型中生成文本和其他內容的技術提供動力。谷歌還表示,第六代Trillium芯片將在今年年底可供其云客戶使用。

谷歌的工程師通過增加高帶寬內存容量和整體帶寬實現了額外的性能提升。人工智能模型需要大量的高級內存,而這一直是進一步提高性能的瓶頸。

值得注意的是,谷歌并不會以獨立產品的形態(tài)單獨出售自己的TPU 芯片,而是通過谷歌云平臺( Google Cloud Platform,簡稱 GCP)向外部客戶提供基于 TPU 的算力服務。

在這一方案上也可窺見谷歌的聰明之處:直接銷售硬件涉及高昂的開銷和復雜的供應鏈管理。而通過云服務提供TPU,谷歌可以簡化安裝、部署和管理過程,減少不確定性和額外開銷。這樣的模式也簡化了銷售流程,無需額外建立硬件銷售團隊。另外,谷歌正在與OpenAI就生成性AI進行激烈的競爭,如果谷歌開始銷售TPU,它將同時與兩個強大的對手競爭:英偉達和OpenAI,這可能不是目前最明智的策略。

文章說到這里,可能會有人發(fā)問:既然TPU具有如此出色的性能優(yōu)勢,是否會在很快的未來取代GPU?

03、現在談取代GPU?或許為時尚早

這一問題也并沒有這么簡單。

只說TPU的優(yōu)勢,不講GPU的優(yōu)勢,可謂是一葉障目。接下來我們還要了解一下相比TPU,GPU又是如何適用于當前的AI大模型訓練。

我們看到TPU的優(yōu)勢在于出眾的能效比與單位成本算力指標,然而作為一種ASIC芯片,其試錯成本高的劣勢也較為明確。

此外,在生態(tài)系統(tǒng)的成熟度方面。GPU 經過多年的發(fā)展,擁有龐大且成熟的軟件和開發(fā)工具生態(tài)。眾多的開發(fā)者和研究機構長期基于 GPU 進行開發(fā)和優(yōu)化,積累了豐富的庫、框架和算法。而 TPU 的生態(tài)相對較新,可用的資源和工具可能不如 GPU 豐富,這對于開發(fā)者來說可能增加了適配和優(yōu)化的難度。

在通用性方面。GPU 最初是為圖形渲染設計,但其架構具有較高的靈活性,能夠適應多種不同類型的計算任務,不僅僅局限于深度學習。這使得 GPU 在面對多樣化的應用場景時具有更強的適應性。相比之下,TPU 是專為機器學習工作負載定制設計的,對于其他非機器學習相關的計算任務,可能無法像 GPU 那樣有效地處理。

最后,GPU 市場競爭激烈,各廠商不斷推動技術創(chuàng)新和產品更新,新的架構和性能提升較為頻繁。而 TPU 的發(fā)展主要由谷歌主導,其更新和演進的節(jié)奏可能相對較慢,

整體來說,英偉達和谷歌在 AI 芯片上的策略各有側重:英偉達通過提供強大的算力和廣泛的開發(fā)者支持,推動 AI 模型的性能極限;而谷歌則通過高效的分布式計算架構,提升大規(guī)模 AI 模型訓練的效率。這兩種不同的路徑選擇,使得它們在各自的應用領域中都展現出了獨特的優(yōu)勢。

蘋果選擇谷歌TPU的原因可能在于以下幾點:首先,TPU在處理大規(guī)模分布式訓練任務時表現出色,提供高效、低延遲的計算能力;其次,使用Google Cloud平臺,蘋果可以降低硬件成本,靈活調整計算資源,優(yōu)化AI開發(fā)的總體成本。此外,谷歌的AI開發(fā)生態(tài)系統(tǒng)還提供了豐富的工具和支持,使得蘋果能夠更高效地開發(fā)和部署其AI模型。

蘋果的實例證明了TPU在大模型訓練上的能力。但相比于英偉達,TPU目前在大模型領域的應用依舊還是太少,背后更多的大模型公司,包括OpenAI、特斯拉、字節(jié)跳動等巨頭,主力AI數據中心依然是普遍采用英偉達GPU。

因此,現在就下定義說谷歌的TPU可以打敗英偉達的GPU或許為時尚早,不過TPU一定是一個具有極強挑戰(zhàn)力的選手。

04、GPU的挑戰(zhàn)者,不只TPU

在如今人工智能淘金熱,但英偉達H100芯片供不應求、價格昂貴的背景下,大大小小的企業(yè)都在尋求替代英偉達的AI芯片產品,其中包括走傳統(tǒng)GPU路線的公司,也包括探尋新型架構的企業(yè)。

GPU面臨的挑戰(zhàn)者,可遠不止TPU。

在GPU路徑研發(fā)中,英偉達的勁敵莫過于AMD,今年一月有研究人員在Frontier超算集群上,利用其中8%左右的GPU,訓練出一個GPT 3.5級別規(guī)模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888個MI250X GPU和9472個Epyc 7A53 CPU組成,這次研究也突破了在AMD硬件上突破了先進分布式訓練模型的難點,為AMD平臺訓練大模型驗證了可行性。

同時,CUDA生態(tài)也在逐步擊破,今年7月英國公司Spectral Compute推出了可以為AMD GPU原生編譯CUDA源代碼的方案,大幅提高了AMD GPU對CUDA的兼容效率。

英特爾的Gaudi 3 也在發(fā)布時直接對標英偉達H100。今年4月,英特爾就推出用于深度學習和大型生成式AI模型的Gaudi 3,英特爾稱,對比前代,Gaudi 3可提供四倍的浮點格式BF16 AI計算能力,內存帶寬提升1.5倍,服務于大規(guī)模系統(tǒng)擴展的網絡帶寬提升兩倍。對比英偉達的芯片H100,如果應用于7B和13B參數的Meta Llama2 模型以及175B參數的OpenAI GPT-3模型中,Gaudi 3預計可以讓這些模型的訓練時間平均縮短50%。

此外,應用于7B和70B參數的Llama以及180B參數的開源Falcon模型時,Gaudi 3的推理吞吐量預計將比H100平均高50%,推理功效平均高40%。而且,在較長的輸入和輸出序列上,Gaudi 3有更大的推理性能優(yōu)勢。

應用于7B和70B參數的Llama以及180B參數的Falcon模型時,Gaudi 3的推理速度相比英偉達H200提高30%。

英特爾稱,Gaudi 3將在今年第三季度向客戶供應,二季度向包括戴爾、HPE、聯想和Supermicro在內的 OEM 廠商提供,但并未公布Gaudi 3的售價范圍。

去年11月,微軟在Ignite技術大會上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100,以及應用于云端軟件服務的芯片Azure Cobalt。兩款芯片將由臺積電代工,采用5nm制程技術。

據悉,英偉達的高端產品一顆有時可賣到3萬到4萬美元,用于ChatGPT的芯片被認為大概就需要有1萬顆,這對AI公司是個龐大成本。有大量AI芯片需求的科技大廠極力尋求可替代的供應來源,微軟選擇自行研發(fā),便是希望增強ChatGPT等生成式AI產品的性能,同時降低成本。

Cobalt是基于Arm架構的通用型芯片,具有128個核心,Maia 100是一款專為 Azure 云服務和 AI 工作負載設計的 ASIC 芯片,用于云端訓練和推理的,晶體管數量達到1050億個。這兩款芯片將導入微軟Azure數據中心,支持OpenAI、Copilot等服務。

負責Azure芯片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產品測試Maia 100芯片,微軟主要AI合作伙伴、ChatGPT開發(fā)商OpenAI,也在進行測試中。有市場評論認為,微軟 AI 芯片立項的時機很巧,正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經開始騰飛之際。

不過,微軟并不認為自己的 AI 芯片可以廣泛替代英偉達的產品。有分析認為,微軟的這一努力如果成功的話,也有可能幫助它在未來與英偉達的談判中更具優(yōu)勢。

除了芯片巨頭外,也不乏來自初創(chuàng)公司的沖擊。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。

當下,英偉達大約掌控著 80%的人工智能數據中心芯片市場,而其余 20%的大部分則由不同版本的谷歌 TPU 把控。未來,TPU 所占的市場份額會不會持續(xù)上揚?會增長幾何?是否會有其他架構的 AI 芯片將現有的市場格局一分為三?這些懸念預計在接下來的數年間將逐步揭曉。

本文為轉載內容,授權事宜請聯系原著作權人。