文|藍洞商業(yè) 郭朝飛
云計算進入調(diào)整期,騰訊云改變模式、注重盈利,阿里云則強調(diào)要回歸技術(shù)。
「今年我們最重要的策略是B2B,就是Back to Basic,回到云計算的本質(zhì),云計算的核心競爭力是技術(shù),堅持在技術(shù)的長征路上,不斷取得新的突破?!拱⒗镌浦悄芸偛脧埥ㄤh在2022阿里云峰會上說。
同時,阿里云發(fā)布一款云數(shù)據(jù)中心專用處理器CIPU(Cloud Infrastructure Processing Units 云基礎(chǔ)設(shè)施處理器),其向下接入物理的計算、存儲、網(wǎng)絡(luò)資源,快速云化并進行硬件加速;向上接入飛天云操作系統(tǒng),管控阿里云上百萬臺的服務(wù)器。
對此,張建鋒的解釋是,云計算進入一個新的發(fā)展階段,需要定義全新的技術(shù)體系,從數(shù)據(jù)中心的內(nèi)部體系結(jié)構(gòu)里做一些創(chuàng)新,體系架構(gòu)從以CPU為中心轉(zhuǎn)變?yōu)樵撇僮飨到y(tǒng)+CIPU為中心。
強調(diào)底層技術(shù),并不意味著阿里云準備放棄收入與利潤。
5月底,阿里發(fā)布截至2022年3月31日的2022財年財報,本財年阿里云在抵銷跨分部交易前全年收入為1001.8億元,抵銷后為745.68億元,13年來首次實現(xiàn)年度盈利,經(jīng)調(diào)整EBITA盈利11.46億元,上年虧損22.51億元。
張建鋒將之視為自然而然的結(jié)果,「這是對阿里云長期堅持技術(shù)投資的回報?!?/p>
阿里云的邏輯是,當規(guī)模足夠大時,就可以攤銷相對固定的研發(fā)與技術(shù)成本,從而實現(xiàn)盈利。但做大規(guī)模的前提是深耕技術(shù),實現(xiàn)技術(shù)突破才可能有好的市場表現(xiàn),繼而做大規(guī)模。
如此看來,回歸技術(shù)也是瞄準利潤,這本來就是一回事。
01 新的爭奪點
阿里云已經(jīng)進入第13年。在這十幾年中,從行業(yè)與技術(shù)來看,云計算也走過了兩個不同的發(fā)展階段。
在第一階段,互聯(lián)網(wǎng)企業(yè)大量出現(xiàn)并高速成長,以分布式和虛擬化為代表的云計算技術(shù)出現(xiàn),并逐漸替代大型機和小型機,滿足企業(yè)業(yè)務(wù)擴展帶來的算力彈性需求。
進入第二階段,在以CPU為中心的分布式架構(gòu)下,云計算公司通過軟件定義的方法,將計算、存儲資源池化,構(gòu)建計算存儲分離的架構(gòu),規(guī)模化編排和調(diào)度,形成超大規(guī)模的計算和存儲資源池。
「兩個階段有共同的特點,都是通過軟件定義的方法,基于傳統(tǒng)的、以CPU為中心的計算體系架構(gòu)去做優(yōu)化,已經(jīng)觸及瓶頸?!箯埥ㄤh說。
阿里云基礎(chǔ)產(chǎn)品首席架構(gòu)師黃瑞瑞向「藍洞商業(yè)」等分析了當前資源池化面臨的巨大考驗。
作為云計算廠商,資源池化的同時,要服務(wù)大量不同客戶。拿阿里云來說,其在全球有上百萬臺服務(wù)器,資源池化出算力后,其挑戰(zhàn)在于如何對大量的計算、存儲、網(wǎng)絡(luò)等資源,進行統(tǒng)一的管理、調(diào)度、編排,并且有效地發(fā)揮性價比。
「這個是非常關(guān)鍵的點,而且是個非常巨大的挑戰(zhàn)點?!裹S瑞瑞坦承,這也正是云計算第三階段,CIPU的一個非常重要的職責。
同時,用戶對低時延、高帶寬的需求也越來越高,以CPU為中心的計算體系架構(gòu)已無法滿足。
事實上,2015年阿里云就有團隊開始著手解決這些問題。兩年后,阿里云發(fā)布神龍云服務(wù)器,其實現(xiàn)虛擬化損耗為零。此后,神龍、彈性RDMA等核心技術(shù)被垂直整合,形成以CIPU為中心的架構(gòu)。
在這個全新體系架構(gòu)下,CIPU向下對數(shù)據(jù)中心的計算、存儲、網(wǎng)絡(luò)資源快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺服務(wù)器連成一臺超級計算機。
從全球范圍來看,一些科技巨頭亦有布局。比如亞馬遜推出Nitro系統(tǒng),英特爾與英偉達分別做出IPU(Infrastructure Processing Units基礎(chǔ)設(shè)施處理器)與DPU(Data Processing Unit 數(shù)據(jù)處理器),后兩者的目的都是分擔CPU的網(wǎng)絡(luò)控制、存儲管理和安全等工作負載,提高數(shù)據(jù)中心效能。
阿里云虛擬化技術(shù)負責人蔣林泉告訴「藍洞商業(yè)」等,英特爾、英偉達是供應(yīng)商,與阿里云不是對手關(guān)系,阿里云是云服務(wù)商,CIPU是為云而生。「我們認為跟AWS其實都邁入到了類似的一個新階段,只是說有些區(qū)別,因為我們在不同的市場里面,看到的風景不太一樣?!?/p>
云計算技術(shù)進入新的爭奪點。
02 獲取后坐力
阿里云一直走的都是做深基礎(chǔ)、技術(shù)變現(xiàn)的路線。
在阿里云早期,曾被質(zhì)疑過「明明可以坐高鐵,卻偏偏要騎自行車」,但依然堅持核心技術(shù)自研。
阿里云技術(shù)產(chǎn)品負責人蔣江偉向「藍洞商業(yè)」等回憶,2009年前后阿里云就開始做基礎(chǔ)底層產(chǎn)品相關(guān)的工作,比如研發(fā)數(shù)據(jù)庫、存儲系統(tǒng),阿里云的第一行代碼就是盤古存儲的代碼。在硬核技術(shù)上投入,是阿里云的基因。
神龍計算、盤古存儲、洛神網(wǎng)絡(luò)等是阿里云產(chǎn)品的核心。
為了解決服務(wù)器的虛擬化性能損耗的問題,阿里云自主研發(fā)了神龍架構(gòu)。該架構(gòu)通過把虛擬化轉(zhuǎn)移到專用硬件中進行加速,其將物理機的高性能與虛擬機的靈活性相融合,虛擬化損耗幾乎為零,性能又比傳統(tǒng)物理機更強勁,還可隨時擴容,極大降低了客戶成本。
盤古存儲則是將所有的磁盤虛擬成一個超大規(guī)模、穩(wěn)定可靠的磁盤。實際上從用戶角度,形象地說面對的是一個超大的存儲湖、存儲池或者存儲海,也并不用搞清楚存儲的物理位置或者具體的機器類型。隨著數(shù)據(jù)的增長,用戶隨時可以申請到更大規(guī)模的存儲。
洛神網(wǎng)絡(luò)是基于軟硬一體的云網(wǎng)絡(luò)系統(tǒng)??蛻羯显茣r,洛神可以快速構(gòu)建一張全球化網(wǎng)絡(luò),根據(jù)業(yè)務(wù)需求隨時獲取各種網(wǎng)絡(luò)服務(wù)。同時,用戶可以實現(xiàn)云上和云下業(yè)務(wù)的一鍵打通,通過多種方式將IDC、客戶站點、分支站點接入阿里云,享受統(tǒng)一的管理和一致性的業(yè)務(wù)體驗。
此外,阿里云還自研數(shù)據(jù)庫,這與當年阿里的「去IOE( IBM的小型機、Oracle數(shù)據(jù)庫、EMC存儲設(shè)備)」有關(guān)。
2013年7月10日,淘寶核心系統(tǒng)中的最后一臺Oracle數(shù)據(jù)庫下線。三年多以后,阿里云自研的云原生數(shù)據(jù)庫PolarDB發(fā)布,2018年4月正式商用。此后,阿里云針對不同應(yīng)用場景,開發(fā)出多款數(shù)據(jù)庫產(chǎn)品。
正是有了自研技術(shù)、做深基礎(chǔ)的積累,幾年后,阿里云逐漸進入越來越多的行業(yè),規(guī)模越做越大。數(shù)據(jù)顯示,2014年~2018年4年間,阿里云增長約20倍,曾連續(xù)12個季度營收翻番。
2020年12月,阿里云首次實現(xiàn)盈虧平衡,在2021財年第三季度實現(xiàn)營收161億元,調(diào)整后EBITA盈利2400萬元。張建鋒很清楚,這是阿里11年來長期投入的結(jié)果,他表態(tài)「會繼續(xù)加碼技術(shù)投入,深耕產(chǎn)業(yè)數(shù)字化?!?/p>
飛天系統(tǒng)+CIPU的體系架構(gòu)將讓阿里云實現(xiàn)更大規(guī)模的增長。
數(shù)據(jù)顯示,CIPU與計算結(jié)合,快速接入不同類型資源的服務(wù)器,可以實現(xiàn)算力「0」損耗,硬件級安全的加固隔離;CIPU與存儲結(jié)合,對存算分離架構(gòu)的塊存儲接入進行硬件加速,云盤存儲IOPS最高可達300萬,長尾時延降低50%;CIPU與網(wǎng)絡(luò)結(jié)合,可對高帶寬物理網(wǎng)絡(luò)進行硬件加速,構(gòu)建大規(guī)模彈性RDMA高性能網(wǎng)絡(luò),時延最低可達5us。
此外,基于CIPU和飛天的新一代云計算架構(gòu)體系,在通用計算、大數(shù)據(jù)、人工智能等核心場景的計算測試中展現(xiàn)了優(yōu)越的性能。
張建鋒給出一組數(shù)據(jù):在通用分布式計算領(lǐng)域,Redis性能提升68%、MySQL提升60%,Nginx提升30%;高吞吐類的互聯(lián)網(wǎng)業(yè)務(wù)上云之后,比自建物理機的集群吞吐量提升30%,業(yè)務(wù)高峰期延遲下降了90%;在大數(shù)據(jù)和AI等計算與數(shù)據(jù)雙密集場景下,相比傳統(tǒng)的TCP網(wǎng)絡(luò),彈性RDMA高性能網(wǎng)絡(luò)的吞吐能力提升30%以上;云原生方面,容器啟動速度快了350%,在Serverless 場景下6秒可拉起3000個彈性容器實例。
阿里云回歸技術(shù),可以獲取更大的后坐力,打向更遠更大的市場。