在開發大型語言模型(LLM)時,工程師經常面臨一個兩難:如果安全過濾機制太嚴格,模型會變得過於保守,導致在一般對話中頻繁出現拒絕回答的狀況(Over-refusal);但如果太寬鬆,則可能在面對高風險請求時未能及時攔截。OpenAI 最近分享的技術更新,核心就在於如何讓 ChatGPT 從單一訊息的判斷,進化到能識別跨時間、跨對話的上下文脈絡(Context),以更精準地處理敏感對話。
為什麼單次訊息判斷是不夠的
對於初入行的工程師來說,我們習慣將 API 請求視為獨立的事件。但在現實的心理健康或安全場景中,風險往往不是透過單一的關鍵字觸發,而是透過一系列微小的訊號逐步顯現。
例如,使用者第一句話可能只是在詢問關於失眠的問題,第二句話提到壓力很大,第三句話才開始詢問某些危險物質的獲取方式。如果模型只看最後一句話,這看起來像是一個普通的知識詢問;但如果結合前兩句的心理狀態,這就變成了一個高風險的自殺或自殘訊號。這種從微小線索演變而成的風險,就是所謂的演進式線索(Evolving Cues)。
強化上下文識別的技術路徑
為了解決這個問題,OpenAI 引入了兩種主要的機制來強化模型對脈絡的理解。
首先是在單次長對話中的脈絡連結。模型被訓練去識別對話過程中的警告標誌,並將其與後續請求聯繫起來。這讓模型能區分良性請求與高風險請求,並採取適當的應對措施,例如降低對話緊張程度(De-escalation)、拒絕提供有害細節,或將使用者引導至專業的求助資源。
其次是處理跨對話的風險識別。這是最具挑戰性的部分,因為模型通常在每個新對話開啟時會重置狀態。為了克服這一點,OpenAI 開發了安全摘要(Safety Summaries)機制。這是一種專門由安全推理模型生成的短小、事實性紀錄。當系統偵測到之前的對話中存在安全相關的風險訊號時,會生成一份摘要暫時保存。當使用者開啟新對話且觸發特定安全閾值時,模型會調用這些摘要作為背景資訊,從而意識到目前的請求可能與之前的危險傾向有關。
需要注意的是,安全摘要與一般的個人化記憶(Personalization)或長期記憶不同。它被嚴格限制在安全範疇內,僅在高風險場景下使用,且具有有限的保存期限,以確保隱私與功能不被濫用。
實務成效與評估指標
在工程實務上,衡量這類功能的成效不能僅靠 Loss function,而需要設計專門的模擬高風險場景(Emulated high-risk situations)進行評估。
根據內部測試數據,在長對話場景中,針對自殺與自殘案例的安全回應率提升了 50%,對他人造成傷害的案例則提升了 16%。而在最新的 GPT-5.5 Instant 模型上,跨對話的風險識別能力提升更加顯著。
此外,團隊還評估了安全摘要的準確性,在四千多項評估中,其事實正確性與安全相關度均獲得高分。最關鍵的是,這套機制並沒有對一般對話的品質產生負面影響,意味著模型在維持安全性的同時,沒有犧牲日常使用的便利性。
未來展望與限制
目前的這套機制主要聚焦在自殘與傷害他人的急性場景,並在精神科醫師與心理學專家的指導下制定策略。然而,識別隨時間演變的風險依然是一個長期挑戰,因為訊號可能極其隱晦或被掩蓋在日常對話中。未來這類脈絡識別技術可能會擴展到生物安全(Biology Safety)或網路安全(Cyber Safety)等其他高風險領域。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。