混沌工程案例探討─中國案例篇


 

混沌工程自Netflix帶領風潮後,包含Linkedin、AWS、Azure等國際知名IT業者也跟進採用,來解決效能瓶頸、服務中斷等議題;此外,中國身為新興IT強權之一,其國內部分IT龍頭如阿里巴巴、字節跳動等,藉由導入混沌工程為自身巨大運算能量維持穩定運作。

案例服務說明

中國電商龍頭阿里巴巴集團,為因應雙11等購物節龐大流量,必須講求系統服務不中斷,而阿里巴巴團隊推出了「Chaos Blade」混沌工程工具,上可銜接各種「故障輸入模型(模擬攻擊模式)」、下可整合阿里巴巴自有的高容錯性IaaS平台,建立針對電商情境客製化的混沌工程模型。

 

 

資料來源: (周洋、肖長軍, 2019)

圖 1 阿里巴巴Chaos Blade

 

此外,以知名短片分享平台「抖音」著稱的字節跳動,起初也有自建故障演練平台,但架構過於原始,無法滿足實際上線需求;因此字節跳動則導入混沌工程,建立業界等級的故障測試能量,更進一步結合紅隊演練,來找出影響效能的危險因子,也減少了實際上線時,因為不穩定危險因子發作導致的停機業務衝擊。 

 

 

資料來源: (字節跳動技術團隊, 2020)

圖 2 字節跳動混沌工程─模擬攻擊示意圖

FIND觀點

自從各先進國家的IT龍頭,乃至於中國的同級對手,陸續導入混沌工程後,使得企業具有因應潛在效能威脅的事前應變與事後補救方針,讓這些IT業者所依存的軟體服務與基礎設施平台,具備比以往更穩定、更堅韌的服務能量。

正因為有中國IT龍頭導入混沌工程並運用到相當規模、累積實際經驗,台灣方面也應考慮適時導入混沌工程,尤其台灣更容易受到天災、跳電等另類停運因素,需要花費的復原時間成本頗為可觀,應藉由混沌工程來評估台灣IT業界依存的系統體質,來降低突發危險因子帶來的業務衝擊,保障使用者權益和福祉。

 

 

 

參考來源:

封面圖片來源:123RF圖庫授權

參考資料

  1. 字節跳動技術團隊. (2020年5月2日). 字節跳動混沌工程實踐總結. 擷取自 infoQ: https://www.infoq.cn/article/gsqtykoa3uvrtqi1kkmo
  2. 周洋, & 肖長軍. (2019年3月28日). 好玩又實用,阿里巴巴開源混沌工程工具 擷取自 阿里巴巴: https://developer.aliyun.com/article/695674

 

 

 

延伸閱讀