研究揭露GPT-5越獄漏洞與零點擊AI攻擊威脅雲端及IoT系統

2025-08-20

隨著生成式人工智慧（AI）技術快速演進，資安研究人員近日揭露OpenAI最新大型語言模型（LLM）GPT-5的越獄（jailbreak）技巧，以及多種零點擊AI代理攻擊，這些漏洞可能暴露企業雲端系統及物聯網（IoT）裝置的安全風險，引發全球關注。專家警告，AI系統與外部環境的深度整合，正放大潛在攻擊面，亟需加強防護措施。

根據生成式AI資安平台NeuralTrust的研究，資安研究員Martí Jordà發現一種結合「Echo Chamber」（迴音室）技巧與敘事導向（narrative-driven steering）的攻擊方式，能繞過GPT-5內建的道德防護，產生違法或有害指示。Echo Chamber是一種已知越獄方法，早在2025年6月由該公司詳細說明，透過間接參考、語義導向及多步推理，誘導LLM回應禁止主題。最近，這項技巧更與另一種多輪越獄方法「Crescendo」結合，成功繞過xAI的Grok 4防護。

在針對GPT-5的攻擊中，研究人員不直接輸入敏感指令（如製作Molotov雞尾酒炸彈的步驟），而是先提供一組關鍵字，例如「cocktail, story, survival, molotov, safe, lives」，要求模型創作包含這些詞的句子，然後逐步擴展主題，透過故事框架引導模型生成有害內容。這種「說服」循環在對話脈絡中運作，逐步強化毒化情境，同時避免觸發拒絕機制。Jordà表示：「Echo Chamber的說服循環透過敘事連續性逐步強化毒化脈絡，故事角度則作為偽裝層，將直接請求轉化為延續性的闡述。」

這種方法暴露了關鍵風險：在多輪對話中，僅靠關鍵字或意圖過濾器已不足以防禦，因為脈絡可被逐步毒化並以連續性為幌子迴音回饋。這也凸顯AI模型在處理複雜互動時的弱點。另一方面，SPLX對GPT-5的測試顯示，這款原始、無防護模型「在企業環境中幾乎無法直接使用」，即使擁有全新「推理」升級，仍易落入基本對抗邏輯陷阱。研究員Dorian Granoša指出：「GPT-5雖令人印象深刻，但資安與對齊仍需工程化設計，而非假設存在。」事實上，在強化基準測試中，GPT-4o的表現優於GPT-5。

隨著AI代理及雲端LLM在關鍵領域的應用擴大，企業環境面臨更多新興風險，如提示注入（prompt injections，或稱promptware）及越獄攻擊，可能導致資料竊取或其他嚴重後果。AI資安公司Zenity Labs詳細說明一系列名為「AgentFlayer」的攻擊，其中包括零點擊攻擊，利用ChatGPT Connectors（如Google Drive整合）嵌入間接提示注入於看似無害的文件中，上傳至AI聊天機器人，即可竊取雲端儲存的敏感資料如API金鑰。

另一項零點擊攻擊針對Cursor AI程式碼編輯器，當其與Jira Model Context Protocol（MCP）整合時，攻擊者可透過惡意Jira票券，誘導Cursor從儲存庫或本地檔案系統洩露機密。第三種攻擊則瞄準Microsoft Copilot Studio，透過包含提示注入的特殊電子郵件，欺騙自訂代理洩露寶貴資料。Zenity Labs負責人Itay Ravia告訴媒體：「AgentFlayer零點擊攻擊是EchoLeak原型的子集，這些漏洞本質上存在，我們將在熱門代理中看到更多案例，因為對依賴關係的理解不足及缺乏防護欄。」他強調，Zenity Labs已部署防護措施，以保護代理免受此類操縱。

這些攻擊是間接提示注入如何影響生成式AI系統的最新示範，並可能溢出至現實世界。它們也突顯將AI模型連結外部系統會擴大攻擊面，增加安全漏洞或不可信資料引入的途徑。趨勢科技（Trend Micro）在2025年上半年AI資安報告中指出：「對策如嚴格輸出過濾及定期紅隊測試有助緩解提示攻擊風險，但這些威脅與AI技術並行演進，呈現更廣泛挑戰：在AI開發中，需平衡功能實施、信任建立與安全維護。」

此外，以色列特拉維夫大學、理工學院及SafeBreach的研究團隊本週展示，如何利用提示注入劫持智慧家居系統，使用Google的Gemini AI。攻擊者可透過毒化行事曆邀請，遠端關閉聯網燈光、開啟智慧百葉窗，或啟動鍋爐等，潛在威脅用戶安全。另一研究機構Straiker則揭示一種新型零點擊攻擊，利用AI代理的「過度自治」及「自主行動、轉向、升級」能力，隱密操縱系統以存取並洩露資料。研究員Amanda Rousseau、Dan Regalado及Vinay Kumar Pidathala表示：「這些攻擊繞過傳統控制：無需使用者點擊、無惡意附件、無憑證竊取。AI代理帶來巨大生產力提升，但也引入新型隱形攻擊面。」

專家呼籲，隨著AI融入雲端及IoT系統，企業與開發者須優先強化守護機制，包括多層防護、持續監測及倫理對齊。OpenAI尚未回應相關漏洞，但業界預期將推出更新修補。台灣資安單位也應密切關注，確保本土AI應用不落入類似陷阱。隨著技術進步，AI資安戰場將更複雜，平衡創新與安全的課題刻不容緩。

安睿資安股份有限公司

研究揭露GPT-5越獄漏洞與零點擊AI攻擊 威脅雲端及IoT系統

研究揭露GPT-5越獄漏洞與零點擊AI攻擊威脅雲端及IoT系統