隨著生成式人工智慧(AI)技術快速演進,資安研究人員近日揭露OpenAI最新大型語言模型(LLM)GPT-5的越獄(jailbreak)技巧,以及多種零點擊AI代理攻擊,這些漏洞可能暴露企業雲端系統及物聯網(IoT)裝置的安全風險,引發全球關注。專家警告,AI系統與外部環境的深度整合,正放大潛在攻擊面,亟需加強防護措施。
根據生成式AI資安平台NeuralTrust的研究,資安研究員Martí Jordà發現一種結合「Echo Chamber」(迴音室)技巧與敘事導向(narrative-driven steering)的攻擊方式,能繞過GPT-5內建的道德防護,產生違法或有害指示。Echo Chamber是一種已知越獄方法,早在2025年6月由該公司詳細說明,透過間接參考、語義導向及多步推理,誘導LLM回應禁止主題。最近,這項技巧更與另一種多輪越獄方法「Crescendo」結合,成功繞過xAI的Grok 4防護。
在針對GPT-5的攻擊中,研究人員不直接輸入敏感指令(如製作Molotov雞尾酒炸彈的步驟),而是先提供一組關鍵字,例如「cocktail, story, survival, molotov, safe, lives」,要求模型創作包含這些詞的句子,然後逐步擴展主題,透過故事框架引導模型生成有害內容。這種「說服」循環在對話脈絡中運作,逐步強化毒化情境,同時避免觸發拒絕機制。Jordà表示:「Echo Chamber的說服循環透過敘事連續性逐步強化毒化脈絡,故事角度則作為偽裝層,將直接請求轉化為延續性的闡述。」
這種方法暴露了關鍵風險:在多輪對話中,僅靠關鍵字或意圖過濾器已不足以防禦,因為脈絡可被逐步毒化並以連續性為幌子迴音回饋。這也凸顯AI模型在處理複雜互動時的弱點。另一方面,SPLX對GPT-5的測試顯示,這款原始、無防護模型「在企業環境中幾乎無法直接使用」,即使擁有全新「推理」升級,仍易落入基本對抗邏輯陷阱。研究員Dorian Granoša指出:「GPT-5雖令人印象深刻,但資安與對齊仍需工程化設計,而非假設存在。」事實上,在強化基準測試中,GPT-4o的表現優於GPT-5。
隨著AI代理及雲端LLM在關鍵領域的應用擴大,企業環境面臨更多新興風險,如提示注入(prompt injections,或稱promptware)及越獄攻擊,可能導致資料竊取或其他嚴重後果。AI資安公司Zenity Labs詳細說明一系列名為「AgentFlayer」的攻擊,其中包括零點擊攻擊,利用ChatGPT Connectors(如Google Drive整合)嵌入間接提示注入於看似無害的文件中,上傳至AI聊天機器人,即可竊取雲端儲存的敏感資料如API金鑰。
另一項零點擊攻擊針對Cursor AI程式碼編輯器,當其與Jira Model Context Protocol(MCP)整合時,攻擊者可透過惡意Jira票券,誘導Cursor從儲存庫或本地檔案系統洩露機密。第三種攻擊則瞄準Microsoft Copilot Studio,透過包含提示注入的特殊電子郵件,欺騙自訂代理洩露寶貴資料。Zenity Labs負責人Itay Ravia告訴媒體:「AgentFlayer零點擊攻擊是EchoLeak原型的子集,這些漏洞本質上存在,我們將在熱門代理中看到更多案例,因為對依賴關係的理解不足及缺乏防護欄。」他強調,Zenity Labs已部署防護措施,以保護代理免受此類操縱。
這些攻擊是間接提示注入如何影響生成式AI系統的最新示範,並可能溢出至現實世界。它們也突顯將AI模型連結外部系統會擴大攻擊面,增加安全漏洞或不可信資料引入的途徑。趨勢科技(Trend Micro)在2025年上半年AI資安報告中指出:「對策如嚴格輸出過濾及定期紅隊測試有助緩解提示攻擊風險,但這些威脅與AI技術並行演進,呈現更廣泛挑戰:在AI開發中,需平衡功能實施、信任建立與安全維護。」
此外,以色列特拉維夫大學、理工學院及SafeBreach的研究團隊本週展示,如何利用提示注入劫持智慧家居系統,使用Google的Gemini AI。攻擊者可透過毒化行事曆邀請,遠端關閉聯網燈光、開啟智慧百葉窗,或啟動鍋爐等,潛在威脅用戶安全。另一研究機構Straiker則揭示一種新型零點擊攻擊,利用AI代理的「過度自治」及「自主行動、轉向、升級」能力,隱密操縱系統以存取並洩露資料。研究員Amanda Rousseau、Dan Regalado及Vinay Kumar Pidathala表示:「這些攻擊繞過傳統控制:無需使用者點擊、無惡意附件、無憑證竊取。AI代理帶來巨大生產力提升,但也引入新型隱形攻擊面。」
專家呼籲,隨著AI融入雲端及IoT系統,企業與開發者須優先強化守護機制,包括多層防護、持續監測及倫理對齊。OpenAI尚未回應相關漏洞,但業界預期將推出更新修補。台灣資安單位也應密切關注,確保本土AI應用不落入類似陷阱。隨著技術進步,AI資安戰場將更複雜,平衡創新與安全的課題刻不容緩。