文丨獵云網(wǎng) 邵延港
市值超1.7萬億美元的AI軍火商英偉達, 開始感覺到“危機”,需要警惕各路“對手”們了。
幾天前,孫正義被曝計劃籌資1000億美元,創(chuàng)立一家AI芯片企業(yè),旨在挑戰(zhàn)英偉達。近日,一家AI芯片創(chuàng)業(yè)公司Groq,也透露了要顛覆的英偉達的意愿。
英偉達在AI芯片市場如入無人之境,2024財年,英偉達的銷售額已經(jīng)連續(xù)三個季度實現(xiàn)三位數(shù)的同比增長。毫無疑問,能夠讓英偉達近一年多瘋狂的資本,來自當前市場中持續(xù)高漲AI大模型風口。連續(xù)多個季度的亮眼財報,英偉達的市值一路狂飆,近一年的區(qū)間漲幅超過2.3倍。
這一切都與數(shù)據(jù)中心人工智能驅(qū)動的支出速度有關(guān),因為英偉達的GPU是運行生成式人工智能應用程序的唯一選擇。
但“市場苦英偉達久矣”,憑借超高的算力性能和量產(chǎn)交付能力,英偉達獨占全球90%的AI芯片市場份額,遙遙領(lǐng)先競爭對手,很多時候還“一卡難求”。
現(xiàn)在,不光是AMD、英特爾等傳統(tǒng)芯片巨頭在籌劃搶占英偉達的市場,微軟、Open AI、谷歌等AI巨頭,以及像Groq、Cerebras等這樣實力強勁的初創(chuàng)公司也在劍走偏鋒,與英偉達一較高下。
現(xiàn)在,又一個能夠讓英偉達警惕的對手出現(xiàn)了。
近日,一家名為Groq的美國AI芯片企業(yè)站在聚光燈下,推出來當前最快的大模型推理芯片LPU。從數(shù)據(jù)來看,Groq自研LPU推理速度是英偉達GPU的10倍,甚至成本只有其1/10。
很對,Groq就在國內(nèi)外網(wǎng)絡上刷屏,使用者的直觀反饋就是快?;贕roq自研芯片可以做到在大模型推理時每秒處理將近500個token,幫助Groq的大模型輸出速度比GPT-3.5快18倍。
的橫空出世打了英偉達一個出其不意。美東時間2月20日,英偉達股價收報694.52美元/股,跌4.35%,盤中跌幅接近7%。
英偉達現(xiàn)在已經(jīng)在對手的包圍圈中,Groq出其不意地給了當頭一棒,那它能成為英偉達的替代嗎?
比英偉達速度快10倍,能替代英偉達嗎?
Groq能夠刷屏的重要原因,就是快。
今年1月份,Groq進行了大模型推理性能的首次測試,Meta AI 的 Llama 2 70B 大模型在 Groq LPU推理引擎上運行,其性能優(yōu)于所有其他基于云的推理提供商,輸出token量提高了 18 倍。
2月份,Groq進行了第二次大模型基準測試,這次是 Artificial Analysis.ai,測試顯示,Groq 在幾乎所有類別中都優(yōu)于其他推理引擎提供商。
目前,Groq已經(jīng)在官網(wǎng)開放免費使用,從社交平臺上使用者的反饋來看,確實很快。此前的AI生成內(nèi)容需要一些時間緩沖,但在Groq開放的云服務體驗平臺上,幾乎感覺不到卡頓。
Groq能做到這一點,依靠的是其自研的特殊芯片,這款芯片是Groq專為大模型而研制,團隊將其定義為語言處理單元,即LPU。
據(jù)悉,LPU不同于英偉達的GPU,它是專為圖形渲染而設計、包含數(shù)百個核心的并行處理器,能夠為AI計算提供穩(wěn)定的性能。其核心技術(shù)是TSP微架構(gòu)設計,全稱叫做張量流處理器,TSP通過獨特的功能切片設計、確定性執(zhí)行以及軟件定義的方法來實現(xiàn)高性能和高效率的張量計算。
Groq的思路是通過TSP設計專用于AI推理的芯片,業(yè)界叫ASIC。由于工作原理與主流的GPU不同,LPU無需像GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù),它使用的是SRAM,其速度比GPU所用的存儲器快約20倍。
根據(jù)相關(guān)報道,Groq設計的第一款TSP ASIC實現(xiàn)了超過每平方毫米硅片1萬億次操作/秒的計算密度,在900 MHz的標稱時鐘頻率下,這款25×29 mm的14nm芯片運行時表現(xiàn)卓越。在ResNet50圖像分類任務上,TSP能夠在批次大小為1的情況下達到每秒處理20.4K張圖片的速度,相較于現(xiàn)代GPU和其他加速器,性能提升了4倍。
據(jù)Groq的測試結(jié)果,其LPU運行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度。極限情況下,Groq的Llama2 7B甚至能實現(xiàn)每秒750 tokens,為GPT-3.5的18倍。
雖說天下武功唯快不破,但只是快,并不能讓Groq將英偉達挑于馬下。
AI科學家賈揚清近日在社交平臺上發(fā)文稱,因為Groq小得可憐的內(nèi)存容量(230MB),在運行Llama-2 70b模型時,需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
Groq背后:谷歌TPU團隊離職創(chuàng)業(yè)
對于創(chuàng)業(yè)者來說,想要與巨頭競爭,更好的方式是差異化競爭,盡管在顛覆英偉達的實力上還遭受質(zhì)疑,但Groq也為“挑戰(zhàn)英偉達的算力霸權(quán)”提供了思路。
Groq作為一家在加州山景城創(chuàng)立8年的初創(chuàng)公司,很早之前便是芯片市場備受矚目的存在。
Groq的CEO是被稱為“TPU之父”的前谷歌員工喬納森·羅斯。喬納森·羅斯參與的谷歌TPU項目,曾開發(fā)了谷歌的張量處理器。2016年,谷歌將該芯片用于其數(shù)據(jù)中心使用的定制機器學習芯片。后來,該芯片幫助谷歌的AlphaGo擊敗了韓國圍棋選手李世石。
從那場“人機大戰(zhàn)”起,AI闖入更多普通人的世界,全球包括中國也掀起了一輪AI浪潮。
2016年,喬納森·羅斯從谷歌離職,在加州創(chuàng)辦了Groq。值得注意的是,Google TPU項目的十個原始成員中,有八個人也加入了Groq團隊。喬納森·羅斯等人的目標是在Groq復制他在谷歌的成功經(jīng)驗。
來源:Groq官網(wǎng)截圖
這支團隊實力強勁卻非常低調(diào)。2017年4月,才有媒體報道稱,Groq拿到了風險投資家查瑪斯·帕里哈皮迪亞等人投資的的1030萬美元的啟動資金,Groq才漸漸出現(xiàn)在公眾視野。
這支團隊也很任性,敢直接放市場“鴿子”。2017年,Groq宣布將在次年,也就是2018年發(fā)布第一代AI芯片產(chǎn)品,當時這款芯片號稱運算速度將可以達到400 TOPS,每瓦特能進行8萬億次的運算。而當時谷歌最新一代的TPU算力才達到180TOPS,這意味著Groq性能將超谷歌TPU兩倍還多。
由于創(chuàng)始團隊都出自谷歌TPU團隊,當時谷歌也是在約14個月的時間里發(fā)布首個TPU,所以對于Groq的flag并沒有質(zhì)疑。
但2018年,Groq并沒有拿出自己的芯片產(chǎn)品。
2019年9月,Groq被曝將參展美國計算機歷史博物館舉辦的AI硬件峰會,人們正期待Groq成為這場峰會的焦點時,Groq卻放了鴿子,沒有出席。喬納森·羅斯當時的解釋是:他們本打算在AI硬件峰會上做演示,但他們不得不將資源轉(zhuǎn)移給客戶,無法進行演示,因此他們決定退出。
好在在創(chuàng)立的前5年中,Groq順利開發(fā)出了第一款人工智能芯片,并將其投入市場,客戶遍及數(shù)據(jù)中心和自動駕駛領(lǐng)域,推進了商業(yè)化進程。
來源:Groq官網(wǎng)截圖
Groq再次吸引目光,是在2021年4月,彼時,Groq宣布籌集到3億美元融資,由Tiger Global Management和億萬富翁投資者丹·桑德海姆的D1 Capital領(lǐng)投。該輪融資使Groq的估值超過10億美元,而當時,Groq的團隊才只有100多人。
近年來,資本市場一直在證明新的產(chǎn)品路徑比英偉達的GPU更適合于AI,Groq也一直被推為挑戰(zhàn)英偉達的主力軍之一。對于能否超越并替代英偉達,Groq似乎也有信心,因為一名自稱Groq工作人員的用戶在互動時表示,要在3年內(nèi)趕超英偉達。
對于英偉達來說,獨特的市場地位,讓其一直處在被圍攻的地位,不知道這次黃仁勛能扛過來嗎?