Anthropic 近期推出了其最強大的模型 Claude Fable 5,但這次發布最值得工程師關注的不是單純的效能提升,而是 Anthropic 採取的一種極端安全策略:將同一個底層模型拆分成兩個產品版本,分別為面向大眾的 Fable 5 以及僅限審核通過者使用的 Claude Mythos 5。
這種做法的核心在於底層模型具備了極強的網路攻擊能力。Anthropic 發現,模型在提升推理與程式碼能力後,意外地產生了自動尋找並利用軟體漏洞的能力。為了防止這項能力被惡意利用,他們在 Fable 5 上增加了一層安全分類器(Classifiers),這是一種獨立的 AI 監控系統,專門偵測使用者是否在嘗試進行網路攻擊、生物化學威脅或模型蒸餾(Distillation,指透過提取強大模型的輸出來訓練另一個競爭模型,以獲取其能力)。
當 Fable 5 的分類器偵測到高風險請求時,它不會直接拒絕,而是將請求轉接給能力較弱的舊模型 Claude Opus 4.8。對於一般使用者來說,這意味著在處理大多數任務時 Fable 5 表現強大,但一旦涉及攻擊性網路任務,其能力會被強制降級。
自動化漏洞利用的實務威脅
對於資安工程師來說,最令人不安的是 Claude Mythos 5 的實戰表現。在內部紅隊測試中,該模型能夠在沒有外部協助的情況下,針對主流作業系統與瀏覽器發現並利用零日漏洞(Zero-day Vulnerability,指尚未被開發者知曉且無補丁的漏洞)。
它甚至能挖掘出 OpenBSD 中存在 27 年之久的漏洞,並針對 FreeBSD 的 NFS 伺服器撰寫遠端程式碼執行(Remote Code Execution, RCE)漏洞利用程式,達成最高權限的 Root 存取。這種能力並非刻意訓練,而是通用推理能力提升後的副作用。
這對防禦方的實務影響在於,過去許多防禦手段依賴的是攻擊者的耐心與手動分析成本(即摩擦力)。然而,AI 可以大規模且快速地完成枯燥的漏洞挖掘與利用步驟。雖然如 KASLR(核心位址空間配置隨機化)等硬體級防禦依然有效,但任何依賴人工操作成本的防線在 AI 面前都將失效。
漏洞發現與修補的失衡
目前 AI 帶來的最大問題是發現漏洞的速度遠快於修補速度。在 Project Glasswing 計劃中,AI 幫助合作夥伴發現了上萬個高風險漏洞,例如 Cloudflare 發現了 2,000 個 Bug,Mozilla 在 Firefox 中發現的漏洞數量是舊版模型時期的十倍。
這導致了一個嚴重的瓶頸:漏洞發現變得廉價且快速,但驗證、分級與撰寫補丁依然需要人類工程師的時間。目前平均一個高風險漏洞需要兩週才能修補,而這段時間窗正是攻擊者的黃金機會。
更危險的是 N-day 漏洞(已公開但尚未全面修補的漏洞)的利用速度。測試顯示,AI 僅憑公開的 CVE 資訊與補丁內容,就能在一天內建構出可運行的 Linux 權限提升漏洞利用程式,成本僅需數千美元的算力。
工程實務建議
面對這種 AI 驅動的攻擊環境,工程團隊應調整防禦優先級。首先,必須將 internet-facing(對外開放)系統的自動更新路徑優先化,將包含 CVE 修復的依賴項更新視為緊急任務而非待辦清單。
其次,不能將單一補丁視為唯一防線,必須強化多因素驗證(MFA)與全面的日誌記錄(Logging),確保即便單一漏洞被利用,攻擊者也無法輕易在網路內部橫向移動。
最後,企業在使用此類高能力模型時需注意數據留存政策。Anthropic 為了偵測新型態的越獄(Jailbreak)攻擊,會對 Fable 5 與 Mythos 5 的流量實施 30 天的數據留存。對於對數據隱私有極高要求的團隊,在將敏感流量導向這些模型前,必須將此留存週期納入合規評估。
來源:thehackernews.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。