全球知名CDN與資安廠商Cloudflare昨(19)日發生長達數小時大規模服務中斷,導致X(前Twitter)、Uber、Canva、ChatGPT等數千萬網站與服務無法正常存取。Cloudflare創辦人兼執行長Matthew Prince今凌晨在官方部落格親自說明,事件並非外界最初猜測的DDoS攻擊,而是例行性資料庫權限調整出錯,造成Bot Management系統的特徵檔(feature file)暴增兩倍,超過軟體上限導致全球節點連環崩潰。對台灣而言,逾30%電商、媒體與金融網站仰賴Cloudflare服務,此次當機讓大量本地用戶一度見到「502 Bad Gateway」或「Internal Server Error」,凸顯第三方雲服務單點失效的系統性風險,企業界呼籲加速建置多CDN與災難復原機制。
事件從格林威治時間19日11:20(台灣時間19日晚間7:20)開始,Cloudflare監控系統偵測到5xx錯誤碼暴增並劇烈波動,最初懷疑是超大規模DDoS攻擊。Prince表示,真正元兇是ClickHouse資料庫叢集正在分批升級權限管理,卻意外讓查詢指令在已升級節點產生重複資料,導致每5分鐘一次的特徵檔產生流程「抽籤式」輸出錯誤檔。一旦壞檔被推送,全網數萬台邊緣節點的Bot Management軟體因檔案過大直接當機,進而影響核心代理服務。
「這種反覆當機又復原的現象極不尋常,才會第一時間誤判為攻擊。」Prince解釋。直到所有ClickHouse節點都完成升級,壞檔才穩定輸出,全網才徹底陷入失效狀態。Cloudflare工程團隊於14:30左右鎖定問題,手動停止壞檔產生、注入已知良好檔並強制重啟核心代理,至17:06才完全恢復。這是Cloudflare自2019年以來最嚴重的全網流量阻斷事件,影響全球約20%網站。
台灣受波及程度不輕。根據Cloudflare公開儀表板,台北、台中、高雄三個資料中心皆出現紅色警示,包含蝦皮、PChome、ETtoday、鏡週刊、台新銀行Richart、ChatGPT台灣流量等均短暫癱瘓。網友在PTT、Dcard怒刷「Cloudflare 502」「ChatGPT又掛了」,許多電商訂單無法結帳,損失難以估計。台灣雲端協會理事長詹姆斯表示,「Cloudflare在台市佔率高達35%,此次事件等同單點失效影響全國,企業不能再把雞蛋放同一個籃子。」
這起事故再度敲響第三方依賴警鐘。2024年CrowdStrike更新失誤導致全球8.5百萬台Windows藍屏,估計損失54億美元;10月AWS DNS問題也讓美國東岸大當機。Prince坦承,「任何系統中斷都是不可接受的,今天我們讓大家失望了。」他承諾未來將:
- 比照使用者輸入般嚴格驗證內部產生的設定檔;
- 增設更多全球一鍵停用開關;
- 防止核心傾印或錯誤報告耗盡資源;
- 全面檢視所有核心代理模組的失敗模式。
-
資安專家指出,Cloudflare這次雖非攻擊,卻暴露雲原生架構的脆弱面:一次權限變更就能引發連鎖效應。趨勢科技台灣區總經理張裕敏表示,「現代企業已深度綁定少數雲服務巨頭,單一廠商失誤即成國家級災難。」他建議台灣企業:
- 立即啟用多CDN策略(如Cloudflare+Akamai+Fastly);
- 建置DNS層級容錯(如Route 53+Cloudflare DNS);
- 定期演練第三方失效情境,將RTO壓至分鐘級;
- 關鍵服務(如付款、登入)改用自建邊緣節點或本地快取。
-
數位發展部(數發部)資安署已緊急聯繫Cloudflare台灣團隊,要求提交完整事後報告,並將於下週召集國內主要CDN用戶舉辦「第三方服務韌性座談會」。資安署長高欽國表示,「台灣關鍵資訊基礎設施高度依賴國際雲服務,這次事件是活生生的教材,必須加速修訂《關鍵基礎設施資安管理辦法》,強制業者制定第三方失效應變計畫。」
Cloudflare雖以99.99%可用率自豪,此次仍難逃「太重要而不能倒」的宿命。Prince在文末寫道:「我們知道自己是網際網路的命脈,今天的疼痛會轉化成更強壯的明天。」對台灣數百萬依賴Cloudflare的網站與使用者而言,這句話聽來熟悉卻又無奈——在雲端時代,穩定從來不是天經地義,而是無數工程師與企業共同承擔的風險。
出處:本新聞參考自Elizabeth Montalbano於2025年11月19日發表於Dark Reading的報導《Cloudflare Blames Outage on Internal Configuration Error》。