正在閱讀:

大廠系統(tǒng)崩潰,“中臺(tái)”背鍋?

掃一掃下載界面新聞APP

大廠系統(tǒng)崩潰,“中臺(tái)”背鍋?

技術(shù)歸咎,架構(gòu)設(shè)計(jì)和運(yùn)維制度欠考量。

文|IT時(shí)報(bào)見(jiàn)習(xí)記者 孫永會(huì)

編輯|郝俊慧 孫妍

2023年年末,“崩”似乎成了部分互聯(lián)網(wǎng)大廠的收尾詞,前有阿里云“史詩(shī)級(jí)”的故障,后有滴滴大范圍宕機(jī),再如近日騰訊視頻會(huì)員的崩潰,皆在網(wǎng)上掀起熱議波瀾。

近期,大廠頻繁故障上演的“連續(xù)劇”,不禁讓人心生疑問(wèn):它們?cè)趺戳耍?/p>

業(yè)內(nèi)專家汪斌(化名)告訴《IT時(shí)報(bào)》記者,系統(tǒng)出現(xiàn)Bug并不奇怪,但持續(xù)時(shí)間過(guò)長(zhǎng),意味著應(yīng)急預(yù)案相關(guān)手冊(cè)并沒(méi)有完全覆蓋問(wèn)題。

另一位從大廠“畢業(yè)”的資深技術(shù)員工則將原因歸咎于前幾年流行的“中臺(tái)”,“一旦中臺(tái)存在設(shè)計(jì)缺陷和設(shè)計(jì)冗余,管理者與執(zhí)行者之間割裂,很容易形成事故?!?/p>

管理背鍋,強(qiáng)推中臺(tái)留隱患

最近一個(gè)月內(nèi)的連續(xù)故障,之所以引起喧嘩,在于其有著新特征:一損俱損。

阿里和滴滴都是旗下相關(guān)App出現(xiàn)了故障,意味著在核心層或底層出現(xiàn)問(wèn)題,也有人將原因歸咎于這兩年大廠降本增效、技術(shù)型人才缺失,影響業(yè)務(wù)穩(wěn)定開(kāi)展。

技術(shù)研發(fā)者鄧為(化名)此前在某大廠架構(gòu)部門任職,親歷過(guò)公司內(nèi)部的業(yè)態(tài)無(wú)序后,他無(wú)奈離開(kāi)。

“真的很離譜。”在他看來(lái),近期大廠頻繁出問(wèn)題與人員變動(dòng)有不可分割的關(guān)系,近三年來(lái),互聯(lián)網(wǎng)大廠的人員規(guī)模經(jīng)歷了從擴(kuò)張到縮減的過(guò)程,也留下了不少業(yè)務(wù)黑洞。

“技術(shù)腐敗”是他對(duì)自己在大廠工作期間經(jīng)歷、見(jiàn)聞的總結(jié)?!扒皫啄晷蝿?shì)好的時(shí)候,大廠紛紛擴(kuò)招,‘搶占’業(yè)務(wù)高地,但人員膨脹后,實(shí)際的需求規(guī)劃未準(zhǔn)時(shí)到位,結(jié)果人招進(jìn)來(lái)卻沒(méi)活干,需要自己找活,或者自己建項(xiàng)目?!编嚍楸硎荆饲肮緝?nèi)部有很多項(xiàng)目屬于“巧立名目”,有的把簡(jiǎn)單問(wèn)題復(fù)雜化以消化多余人力,有的將外部項(xiàng)目拿進(jìn)公司稍作修改,換個(gè)名字便視作新項(xiàng)目,還有的人將已有項(xiàng)目不斷合并、組合后成立新項(xiàng)目。

此外,幾年前興起的中臺(tái)概念也并不完美,并不是中臺(tái)設(shè)計(jì)動(dòng)機(jī)有問(wèn)題,而是打造中臺(tái)的過(guò)程需要行政強(qiáng)制要求配合搭建。但在執(zhí)行過(guò)程中,缺失技術(shù)管理和決策問(wèn)責(zé)機(jī)制,即使中臺(tái)存在設(shè)計(jì)缺陷和設(shè)計(jì)冗余,也沒(méi)有太好的修改機(jī)制。

“公司執(zhí)行層和管理層的割裂是這種情況發(fā)生的關(guān)鍵所在?!编嚍檎f(shuō),執(zhí)行層維持實(shí)際業(yè)務(wù)的運(yùn)轉(zhuǎn),管理層傾向于操控項(xiàng)目的概念和方案來(lái)維持績(jī)效,“決策一旦發(fā)生錯(cuò)誤,最終復(fù)盤問(wèn)責(zé)卻不會(huì)對(duì)管理層形成威脅,因?yàn)楣芾韺硬粌H掌握人事權(quán),也具有解釋權(quán),結(jié)果最后故障出現(xiàn)后,關(guān)鍵技術(shù)人員往往是首先被追責(zé)的人,然后形成惡性循環(huán)?!?/p>

技術(shù)歸咎,架構(gòu)設(shè)計(jì)和運(yùn)維制度欠考量

當(dāng)然,多次宕機(jī)事件背后,仍然有技術(shù)問(wèn)題。

詳看阿里云此前公布的問(wèn)題報(bào)告——AK在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整的白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控API服務(wù)出現(xiàn)異常,同時(shí)部分依賴AK服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)而運(yùn)行異常。

如何理解?“AK是一個(gè)服務(wù)功能,是構(gòu)成阿里云平臺(tái)的基礎(chǔ)?!蓖舯笳J(rèn)為,下層服務(wù)的服務(wù)能力類似于中臺(tái),可以為上層服務(wù)提供數(shù)據(jù)庫(kù)、存儲(chǔ)等功能,但會(huì)導(dǎo)致下層“變重”,即架構(gòu)變得冗余和復(fù)雜,“當(dāng)架構(gòu)中的設(shè)計(jì)邏輯不清楚時(shí),極容易出現(xiàn)問(wèn)題,這對(duì)上層來(lái)說(shuō)亦是災(zāi)難。該企業(yè)頻繁發(fā)生故障,或因架構(gòu)過(guò)于集中?!?/p>

再來(lái)看滴滴事故,官方宣稱是“底層系統(tǒng)發(fā)生故障”。據(jù)有關(guān)媒體報(bào)道,造成此次事故的原因是由升級(jí)K8S集群導(dǎo)致,即本應(yīng)升級(jí)到1.12,但升級(jí)到了1.20,協(xié)議不兼容而引發(fā)連鎖反應(yīng)。“這個(gè)問(wèn)題則應(yīng)該是運(yùn)維制度管理欠缺考量,在操作過(guò)程中并未考慮災(zāi)難發(fā)生的可能?!蓖舯蟊硎?。

大大小小的宕機(jī)事件讓人產(chǎn)生此類事故是否無(wú)法避免的疑問(wèn)。

據(jù)《北京日?qǐng)?bào)》報(bào)道,無(wú)論是本地計(jì)算還是云計(jì)算,互聯(lián)網(wǎng)的服務(wù)數(shù)據(jù)終究要流向數(shù)據(jù)中心,匯集到幾個(gè)中心節(jié)點(diǎn),這種物理屬性決定了數(shù)據(jù)中心無(wú)法規(guī)避外界因素,也就無(wú)法做到永不宕機(jī),而企業(yè)的安全冗余和災(zāi)備能力受“投入產(chǎn)出比”影響,也不可能無(wú)限進(jìn)行備份。

“企業(yè)多數(shù)的規(guī)章制度多‘脫胎’于日常的經(jīng)驗(yàn)教訓(xùn),從這些事件中,我們能獲得的啟發(fā)是,一方面要健全運(yùn)維制度,另一方面是強(qiáng)化操作流程,從中總結(jié)經(jīng)驗(yàn)?!蓖舯笳f(shuō)道。

排版/ 季嘉穎

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

滴滴出行

748
  • 滴滴自動(dòng)駕駛完成C輪融資,廣汽集團(tuán)領(lǐng)投
  • 滴滴回應(yīng)非法測(cè)繪事件:與滴滴無(wú)關(guān)

阿里巴巴

5.8k
  • 關(guān)注乳腺癌復(fù)發(fā)防治,諾華聯(lián)合阿里健康上線乳腺關(guān)愛(ài)中心
  • 飛豬雙11開(kāi)售53秒活動(dòng)商品成交額破10億元

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大廠系統(tǒng)崩潰,“中臺(tái)”背鍋?

技術(shù)歸咎,架構(gòu)設(shè)計(jì)和運(yùn)維制度欠考量。

文|IT時(shí)報(bào)見(jiàn)習(xí)記者 孫永會(huì)

編輯|郝俊慧 孫妍

2023年年末,“崩”似乎成了部分互聯(lián)網(wǎng)大廠的收尾詞,前有阿里云“史詩(shī)級(jí)”的故障,后有滴滴大范圍宕機(jī),再如近日騰訊視頻會(huì)員的崩潰,皆在網(wǎng)上掀起熱議波瀾。

近期,大廠頻繁故障上演的“連續(xù)劇”,不禁讓人心生疑問(wèn):它們?cè)趺戳耍?/p>

業(yè)內(nèi)專家汪斌(化名)告訴《IT時(shí)報(bào)》記者,系統(tǒng)出現(xiàn)Bug并不奇怪,但持續(xù)時(shí)間過(guò)長(zhǎng),意味著應(yīng)急預(yù)案相關(guān)手冊(cè)并沒(méi)有完全覆蓋問(wèn)題。

另一位從大廠“畢業(yè)”的資深技術(shù)員工則將原因歸咎于前幾年流行的“中臺(tái)”,“一旦中臺(tái)存在設(shè)計(jì)缺陷和設(shè)計(jì)冗余,管理者與執(zhí)行者之間割裂,很容易形成事故?!?/p>

管理背鍋,強(qiáng)推中臺(tái)留隱患

最近一個(gè)月內(nèi)的連續(xù)故障,之所以引起喧嘩,在于其有著新特征:一損俱損。

阿里和滴滴都是旗下相關(guān)App出現(xiàn)了故障,意味著在核心層或底層出現(xiàn)問(wèn)題,也有人將原因歸咎于這兩年大廠降本增效、技術(shù)型人才缺失,影響業(yè)務(wù)穩(wěn)定開(kāi)展。

技術(shù)研發(fā)者鄧為(化名)此前在某大廠架構(gòu)部門任職,親歷過(guò)公司內(nèi)部的業(yè)態(tài)無(wú)序后,他無(wú)奈離開(kāi)。

“真的很離譜?!痹谒磥?lái),近期大廠頻繁出問(wèn)題與人員變動(dòng)有不可分割的關(guān)系,近三年來(lái),互聯(lián)網(wǎng)大廠的人員規(guī)模經(jīng)歷了從擴(kuò)張到縮減的過(guò)程,也留下了不少業(yè)務(wù)黑洞。

“技術(shù)腐敗”是他對(duì)自己在大廠工作期間經(jīng)歷、見(jiàn)聞的總結(jié)?!扒皫啄晷蝿?shì)好的時(shí)候,大廠紛紛擴(kuò)招,‘搶占’業(yè)務(wù)高地,但人員膨脹后,實(shí)際的需求規(guī)劃未準(zhǔn)時(shí)到位,結(jié)果人招進(jìn)來(lái)卻沒(méi)活干,需要自己找活,或者自己建項(xiàng)目?!编嚍楸硎荆饲肮緝?nèi)部有很多項(xiàng)目屬于“巧立名目”,有的把簡(jiǎn)單問(wèn)題復(fù)雜化以消化多余人力,有的將外部項(xiàng)目拿進(jìn)公司稍作修改,換個(gè)名字便視作新項(xiàng)目,還有的人將已有項(xiàng)目不斷合并、組合后成立新項(xiàng)目。

此外,幾年前興起的中臺(tái)概念也并不完美,并不是中臺(tái)設(shè)計(jì)動(dòng)機(jī)有問(wèn)題,而是打造中臺(tái)的過(guò)程需要行政強(qiáng)制要求配合搭建。但在執(zhí)行過(guò)程中,缺失技術(shù)管理和決策問(wèn)責(zé)機(jī)制,即使中臺(tái)存在設(shè)計(jì)缺陷和設(shè)計(jì)冗余,也沒(méi)有太好的修改機(jī)制。

“公司執(zhí)行層和管理層的割裂是這種情況發(fā)生的關(guān)鍵所在?!编嚍檎f(shuō),執(zhí)行層維持實(shí)際業(yè)務(wù)的運(yùn)轉(zhuǎn),管理層傾向于操控項(xiàng)目的概念和方案來(lái)維持績(jī)效,“決策一旦發(fā)生錯(cuò)誤,最終復(fù)盤問(wèn)責(zé)卻不會(huì)對(duì)管理層形成威脅,因?yàn)楣芾韺硬粌H掌握人事權(quán),也具有解釋權(quán),結(jié)果最后故障出現(xiàn)后,關(guān)鍵技術(shù)人員往往是首先被追責(zé)的人,然后形成惡性循環(huán)?!?/p>

技術(shù)歸咎,架構(gòu)設(shè)計(jì)和運(yùn)維制度欠考量

當(dāng)然,多次宕機(jī)事件背后,仍然有技術(shù)問(wèn)題。

詳看阿里云此前公布的問(wèn)題報(bào)告——AK在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整的白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控API服務(wù)出現(xiàn)異常,同時(shí)部分依賴AK服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)而運(yùn)行異常。

如何理解?“AK是一個(gè)服務(wù)功能,是構(gòu)成阿里云平臺(tái)的基礎(chǔ)?!蓖舯笳J(rèn)為,下層服務(wù)的服務(wù)能力類似于中臺(tái),可以為上層服務(wù)提供數(shù)據(jù)庫(kù)、存儲(chǔ)等功能,但會(huì)導(dǎo)致下層“變重”,即架構(gòu)變得冗余和復(fù)雜,“當(dāng)架構(gòu)中的設(shè)計(jì)邏輯不清楚時(shí),極容易出現(xiàn)問(wèn)題,這對(duì)上層來(lái)說(shuō)亦是災(zāi)難。該企業(yè)頻繁發(fā)生故障,或因架構(gòu)過(guò)于集中?!?/p>

再來(lái)看滴滴事故,官方宣稱是“底層系統(tǒng)發(fā)生故障”。據(jù)有關(guān)媒體報(bào)道,造成此次事故的原因是由升級(jí)K8S集群導(dǎo)致,即本應(yīng)升級(jí)到1.12,但升級(jí)到了1.20,協(xié)議不兼容而引發(fā)連鎖反應(yīng)。“這個(gè)問(wèn)題則應(yīng)該是運(yùn)維制度管理欠缺考量,在操作過(guò)程中并未考慮災(zāi)難發(fā)生的可能?!蓖舯蟊硎?。

大大小小的宕機(jī)事件讓人產(chǎn)生此類事故是否無(wú)法避免的疑問(wèn)。

據(jù)《北京日?qǐng)?bào)》報(bào)道,無(wú)論是本地計(jì)算還是云計(jì)算,互聯(lián)網(wǎng)的服務(wù)數(shù)據(jù)終究要流向數(shù)據(jù)中心,匯集到幾個(gè)中心節(jié)點(diǎn),這種物理屬性決定了數(shù)據(jù)中心無(wú)法規(guī)避外界因素,也就無(wú)法做到永不宕機(jī),而企業(yè)的安全冗余和災(zāi)備能力受“投入產(chǎn)出比”影響,也不可能無(wú)限進(jìn)行備份。

“企業(yè)多數(shù)的規(guī)章制度多‘脫胎’于日常的經(jīng)驗(yàn)教訓(xùn),從這些事件中,我們能獲得的啟發(fā)是,一方面要健全運(yùn)維制度,另一方面是強(qiáng)化操作流程,從中總結(jié)經(jīng)驗(yàn)。”汪斌說(shuō)道。

排版/ 季嘉穎

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。