Cloudflare全球大當機原來是內部設定失誤

2025-11-20

全球知名CDN與資安廠商Cloudflare昨（19）日發生長達數小時大規模服務中斷，導致X（前Twitter）、Uber、Canva、ChatGPT等數千萬網站與服務無法正常存取。Cloudflare創辦人兼執行長Matthew Prince今凌晨在官方部落格親自說明，事件並非外界最初猜測的DDoS攻擊，而是例行性資料庫權限調整出錯，造成Bot Management系統的特徵檔（feature file）暴增兩倍，超過軟體上限導致全球節點連環崩潰。對台灣而言，逾30%電商、媒體與金融網站仰賴Cloudflare服務，此次當機讓大量本地用戶一度見到「502 Bad Gateway」或「Internal Server Error」，凸顯第三方雲服務單點失效的系統性風險，企業界呼籲加速建置多CDN與災難復原機制。

事件從格林威治時間19日11:20（台灣時間19日晚間7:20）開始，Cloudflare監控系統偵測到5xx錯誤碼暴增並劇烈波動，最初懷疑是超大規模DDoS攻擊。Prince表示，真正元兇是ClickHouse資料庫叢集正在分批升級權限管理，卻意外讓查詢指令在已升級節點產生重複資料，導致每5分鐘一次的特徵檔產生流程「抽籤式」輸出錯誤檔。一旦壞檔被推送，全網數萬台邊緣節點的Bot Management軟體因檔案過大直接當機，進而影響核心代理服務。

「這種反覆當機又復原的現象極不尋常，才會第一時間誤判為攻擊。」Prince解釋。直到所有ClickHouse節點都完成升級，壞檔才穩定輸出，全網才徹底陷入失效狀態。Cloudflare工程團隊於14:30左右鎖定問題，手動停止壞檔產生、注入已知良好檔並強制重啟核心代理，至17:06才完全恢復。這是Cloudflare自2019年以來最嚴重的全網流量阻斷事件，影響全球約20%網站。

台灣受波及程度不輕。根據Cloudflare公開儀表板，台北、台中、高雄三個資料中心皆出現紅色警示，包含蝦皮、PChome、ETtoday、鏡週刊、台新銀行Richart、ChatGPT台灣流量等均短暫癱瘓。網友在PTT、Dcard怒刷「Cloudflare 502」「ChatGPT又掛了」，許多電商訂單無法結帳，損失難以估計。台灣雲端協會理事長詹姆斯表示，「Cloudflare在台市佔率高達35%，此次事件等同單點失效影響全國，企業不能再把雞蛋放同一個籃子。」

這起事故再度敲響第三方依賴警鐘。2024年CrowdStrike更新失誤導致全球8.5百萬台Windows藍屏，估計損失54億美元；10月AWS DNS問題也讓美國東岸大當機。Prince坦承，「任何系統中斷都是不可接受的，今天我們讓大家失望了。」他承諾未來將：

比照使用者輸入般嚴格驗證內部產生的設定檔；
增設更多全球一鍵停用開關；
防止核心傾印或錯誤報告耗盡資源；
全面檢視所有核心代理模組的失敗模式。

資安專家指出，Cloudflare這次雖非攻擊，卻暴露雲原生架構的脆弱面：一次權限變更就能引發連鎖效應。趨勢科技台灣區總經理張裕敏表示，「現代企業已深度綁定少數雲服務巨頭，單一廠商失誤即成國家級災難。」他建議台灣企業：

立即啟用多CDN策略（如Cloudflare+Akamai+Fastly）；
建置DNS層級容錯（如Route 53+Cloudflare DNS）；
定期演練第三方失效情境，將RTO壓至分鐘級；
關鍵服務（如付款、登入）改用自建邊緣節點或本地快取。

數位發展部（數發部）資安署已緊急聯繫Cloudflare台灣團隊，要求提交完整事後報告，並將於下週召集國內主要CDN用戶舉辦「第三方服務韌性座談會」。資安署長高欽國表示，「台灣關鍵資訊基礎設施高度依賴國際雲服務，這次事件是活生生的教材，必須加速修訂《關鍵基礎設施資安管理辦法》，強制業者制定第三方失效應變計畫。」

Cloudflare雖以99.99%可用率自豪，此次仍難逃「太重要而不能倒」的宿命。Prince在文末寫道：「我們知道自己是網際網路的命脈，今天的疼痛會轉化成更強壯的明天。」對台灣數百萬依賴Cloudflare的網站與使用者而言，這句話聽來熟悉卻又無奈——在雲端時代，穩定從來不是天經地義，而是無數工程師與企業共同承擔的風險。

出處：本新聞參考自Elizabeth Montalbano於2025年11月19日發表於Dark Reading的報導《Cloudflare Blames Outage on Internal Configuration Error》。

安睿資安股份有限公司

Cloudflare全球大當機原來是內部設定失誤