人工智慧(AI)頂尖大廠 Anthropic 於本週正式發表了最新一代 Claude 系列模型——「Mythos 5」與「Fable 5」,將更為強大的前沿(Frontier)AI 能力推向市場。然而,資安業界對於這款被宣稱具備極高「漏洞挖掘與自動化攻擊」能力的模型,普遍抱持謹慎觀望態度。多位資安專家指出,雖然新模型的釋出代表技術的重大突破,但對整體企業而言,資安防禦的底層邏輯並未發生本質上的改變。面對這波 AI 巨浪,企業的策略應是「保持冷靜、積極準備」,而非過度恐慌。
技術背景:雙子模型定位與「翼鏡計畫」的初衷
根據 Anthropic 釋出的官方技術文件,本次發表的兩款模型在核心能力上互為表裡,但面向不同的應用場景與安全層級:
Claude Mythos 5: 這是今年 4 月向少數組織夥伴開放的「Claude Mythos Preview」之直系升級版。Anthropic 宣稱,Mythos 5 具備極其驚人的程式碼稽核與威脅分析能力,甚至能在廣為流行、發展數十年的成熟開源軟體中,精準找出潛在的關鍵零日漏洞(Zero-day vulnerabilities)。
Claude Fable 5: 與 Mythos 5 共享相同的底層大模型架構,但經過了嚴格的「安全過濾與大眾化微調」。Anthropic 將其形容為「為了讓社會大眾安全使用而設計的 Mythos 模型」,旨在將前沿的 multidisciplinary reasoning(多學科推理)與編碼能力釋放給大眾的同時,遏止惡意濫用的可能性。
鑑於 Mythos 類別模型在網路攻防(特別是自動化駭客攻擊,Agentic Hacking)上的巨大潛力,Anthropic 其實早在兩個月前便秘密啟動了名為「Project Glasswing(翼鏡計畫)」的限閱防線。該計畫旨在將 Mythos 模型優先提供給特定的政府單位、資安防禦機構及受信任的合作夥伴,讓防禦者在駭客掌握此類工具前,能擁有至少數個月的時間差來進行系統修補與超前部署。即使在該計畫保護下,所有使用者的存取權限依然受到極其嚴密的審查與全程監控。
隨後,雲端安全聯盟(Cloud Security Alliance, CSA)在 Mythos 預覽版問世一週後,便集結多位高階資安長與學者發表了專題研究報告,警告全球組織必須儘速調校其防禦模型,以應對未來可能由 AI 所主導的漏洞利用浪潮。甚至連美國政府也對此高度重視,總統川普近期簽署了一項全新的行政命令,正式確立了一套自願性框架,要求頂尖 AI 實驗室在釋出前沿模型前,必須優先讓聯邦政府評估其國家安全風險。
安全機制剖析:防篡改分類器與自動「降級」防線
為了能讓 Fable 5 順利進入通用市場,Anthropic 投入了大量資源構建防篡改(Anti-tampering)與防越獄(Jailbreak)的防禦機制。
Fable 5 的核心防禦仰賴一套「獨立的安全分類器(Safety Classifiers)系統」。這套系統就像是主模型的「資安守門員」,會在使用者輸入提示詞(Prompts)的當下進行即時審查。當分類器偵測到使用者的查詢涉及高度敏感的資安領域(例如嘗試要求模型編寫針對特定弱點的 Exploit,或是執行攻擊性資安任務時),系統便會啟動自動防護機制,將該次對話的後台引擎從 Fable 5 直接「降級」切換為上一代的舊模型 Claude Opus 4.8。
Anthropic 官方表示: 「Mythos 等級的模型在發現和利用軟體漏洞方面極為出色,這可能會大幅降低發動網路攻擊的門檻與成本。因此,我們重新設計了資安分類器,使其涵蓋範圍不僅包含具體的惡意代碼生成,更廣泛包含所有進攻型的駭客任務。」
雖然這種降級機制有時會引發「誤判(False Positives)」,但官方強調誤判率已被壓低在 5% 以下。當系統決定降級至 Opus 4.8 時,使用者介面也會跳出明確提示,確保流程的透明度。
在防越獄測試方面,Anthropic 宣稱結合了內部與外部的專業紅隊(Red Teaming)演練,進行了超過 1,000 個小時的壓力測試。官方部落格指出,在常規的長篇自動化任務中,外部滲透測試專家至今「未能找到任何能一勞永逸的通用越獄手法(Universal jailbreaks)」。雖然英國 AI 安全研究所(UK AI Security Institute)在極短的初步測試窗口中取得了部分突破,但總體而言,Fable 5 的防線被認為是目前市面上最難被攻破的模型之一。
業界專家發聲:防禦高牆還是短暫的減速丘?
然而,面對 Anthropic 在安全防護上的自信,第一線的資安實務界卻給出了更為現實的批判。
應用程式偵測與回應(Application Detection and Response, ADR)頂尖大廠 Miggo 的執行長 Daniel Shechter 在接受《Dark Reading》專訪時直言,Anthropic 這種限制訪問和分類器攔截的方法雖然聰明,但本質上「只是一個減速丘,而不是一面無法逾越的高牆」。
「這款模型的底層能力已經存在了,其他商業實驗室很快就會複製出來,緊接著開源(Open-source)社群的仿製版本也會傾巢而出,」Shechter 警告道:「如果企業將自己整套資安防護計畫,完全賭在『大廠的防越獄保護在未來大規模應用時不會崩潰』這個假設上,那絕對是押錯了注。在我看來,Anthropic 只是在幫防禦者爭取一個短暫的時間窗口(Window of opportunity),讓我們去理解跟這種等級的 AI 模型對抗時,防禦工作究竟該長成什麼樣子。」
資安培訓權威機構 SANS Institute 的首席 AI 官 Rob T. Lee 則提出了更具侵略性的觀點。他認為,資安人員在操作上應該直接假定「等同於 Mythos 實力的前沿模型,早已經落入不法份子手中」。
Lee 舉例說明限制性措施對防禦端的副作用:「任何擁有數千名員工的 Glasswing 合作機構,都可能面臨員工因利益誘惑而外流存取權限的風險,甚至內部可能早就潛伏了北韓(DPRK)的國家級駭客。過去每次我們以為某個技術被嚴格封鎖時,最後都證實對手早就拿到了。」
此外,Lee 也抱怨 Fable 5 的防護機制因過於敏感,反而「誤傷」了正當的防禦研究:「我曾嘗試用 Fable 5 來建立數位鑑識(Digital Forensics)的自動化技能,但系統立刻判定敏感並將我降級到 Opus 4.8。這種做法阻絕了惡意份子,卻也同時把嶄新的防禦研究能力,擋在那些正要開發下一代資安防護工具的專家門外。」
企業實戰指南:如何迎戰 AI 驅動的「漏洞暴風雨」?
既然實力匹敵 Mythos 5 的工具普及化只是時間問題,企業究竟該如何自處?雲端安全聯盟(CSA)在先前的指南中,便為面對這場「AI 漏洞暴風雨」的IT主管們列出了四大核心防禦轉型建議:
1. 動態風險與修補時程調整
企業必須重新評估資安風險模型。過去,一個公開漏洞從揭露到駭客寫出 Exploit 的時間(Time to Exploit)可能長達數天或數週;但在 AI 代理(AI Agents)能夠自動化進行漏洞尋找與利用的時代,這個時間差可能會縮短到幾小時甚至幾分鐘。企業必須大幅縮短關鍵系統的補丁(Patch)週轉時間。
2. 回歸並落實基礎資安架構
當外圍防禦(邊界防火牆、端點防毒)可能被 AI 輕易找出弱點突破時,內網的防護架構就成了關鍵。企業必須徹底落實:
網路微切分(Segmentation): 阻止駭客橫向移動。
出口流量過濾(Egress Filtering): 阻斷受駭主機與 C2 伺服器的異常連線。
多因素驗證(MFA): 嚴格控管身分存取。
縱深防禦(Defense in Depth): 不仰賴單一防線。
3. 引入軟體供應鏈自動化管理
由於 AI 尋找老舊、開源組件漏洞的速度極快,企業應優先引進強大的軟體依賴性管理(Dependency Management),並導入以 LLM 為基礎的自動化代碼安全審查,在系統開發階段就借助 AI 的力量將漏洞清洗乾淨。
4. 以 AI 對抗 AI(引進資安 AI 代理)
要跟上駭客利用 AI 發動攻擊的速度,單靠傳統人力編寫規則或看日誌已經不切實際。企業防禦端也必須逐步將「AI 代理(AI Agents)」引進日常的網路安全維運中心(SOC),讓 AI 負責第一線的威脅狩獵(Threat Hunting)與自動化事件應變。
結論:技術在變 防禦初衷不變
CSA 首席分析師 Rich Mogull 總結道,對於一般資安從業人員而言,Claude 5 的問世確實證明了攻擊技術的演進,但並沒有改變防禦者的工作日常。「這一切都在我們的意料之中,Fable 的正式推出,並沒有讓你今天過得比昨天更不安全。與其恐慌,不如現在就動手,把那些該做的基礎防禦工事一件件做好。」
在這場由生成式 AI 所加速的攻防軍備競賽中,工具的升級是必然的趨勢。台灣的企業與資安長們應看清「分類器防線」的局限性,將重心放在提升自身架構的韌性上,方能在 AI 時代立於不敗之地。
引用來源