美國政府近期下令 AI 公司 Anthropic 立即暫停外籍人士使用其最先進的模型 Fable 5 與 Mythos 5。這起事件不僅是單純的出口管制,更揭示了現代 AI 模型在網路安全領域所帶來的毀滅性影響,以及 AI 安全防護機制在實務上的侷限性。
AI 模型的能力分級與安全分層
在理解此次事件前,需要先區分 Fable 5 與 Mythos 5 這兩個模型的定位。Fable 5 是面向大眾的商業模型,內建了嚴格的安全護欄(Guardrails),當使用者詢問關於網路攻擊或漏洞利用的敏感問題時,系統會透過安全分類器(Safety Classifiers)攔截請求,並將對話轉接給能力較低但較安全的舊版模型。
而 Mythos 5 則是基於相同底層技術,但移除了部分安全限制的版本。它的設計初衷是提供給經過審核的資安防禦者與關鍵基礎設施操作員,用以強化防禦能力。然而,這也意味著 Mythos 5 具備極強的漏洞挖掘與攻擊代碼生成能力。
從 N-Day 到 N-Hour 的威脅升級
這起事件的核心在於 AI 改變了漏洞利用的生命週期。在傳統的資安維運中,當一個軟體漏洞被公開(稱為 N-Day 漏洞)後,攻擊者通常需要數週的時間來研究並編寫可運行的漏洞利用程式(Exploit),而開發者則利用這段時間發布補丁並讓用戶更新。
但根據 Anthropic 紅隊(Red Team,負責模擬攻擊以測試系統弱點的團隊)的發現,Mythos 級別的模型能將這個過程從數週縮短至數小時甚至數分鐘。這意味著只要漏洞一公開,AI 就能迅速將其武器化。對於企業而言,傳統的每月更新週期或分階段部署策略已完全失效,因為攻擊者可以在一個下午內將整個月的補丁轉化為攻擊工具,且不需要深厚的專業技術背景。
關於 Jailbreak 越獄與安全防護的爭議
美國政府採取強制停權行動的原因,是認為 Fable 5 存在被越獄(Jailbreak)的風險。所謂越獄,是指透過特殊的提示詞工程(Prompt Engineering)或誘導技巧,繞過 AI 的安全過濾機制,使其輸出被禁止的有害內容。
政府指出的越獄方式相對單一且狹義,例如要求模型閱讀特定程式碼並修復其中的缺陷,進而讓模型在不自覺中揭露漏洞利用方法。
對此,Anthropic 提出了兩個關鍵的技術觀點。首先,他們認為不存在完美的越獄防禦,任何工業級的防護措施都可能在極少數特定情境下被突破。其次,他們主張這種能力並非 Fable 5 獨有,許多其他公開模型(如 GPT-5.5)也能達成類似效果,且這些能力在日常的資安防禦工作中是被允許且必要的。
實務影響與反思
這次事件對工程師與資安從業人員的啟示在於,AI 已經將漏洞利用的門檻降低到極限。當 AI 能在短時間內完成武器化過程時,被動的補丁管理已不足以應對威脅。
同時,這也顯示了 AI 公司與政府在國家安全定義上的分歧。AI 公司傾向於透過技術手段(如分類器)來管控輸出,而政府則傾向於透過行政手段(如禁止特定國籍使用)來切斷風險。對於開發者而言,依賴 AI 協助審核程式碼時,必須意識到同樣的工具也可能被對手用來快速定位系統漏洞。
來源:thehackernews.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。