當我們在開發 AI 產品時,最常討論的是功能實作或效能優化,但對於像 ChatGPT 這種用戶量極大且涉及深層層心理互動的產品,安全機制(Safety Mechanism)的設計就變得至關重要。OpenAI 最近推出的 Trusted Contact(信任聯絡人)功能,其實是一個將 AI 偵測能力與現實世界社會支持系統結合的實務案例。對於工程師來說,這不僅是一個功能,更是一套關於隱私、自動化偵測與人工審核的工作流設計。
為什麼需要這個功能?
許多用戶會將 ChatGPT 當作思考、學習甚至情感宣洩的對象。然而,當用戶在對話中表現出嚴重的自我傷害傾向或心理危機時,單純由 AI 提供建議(例如提供求助熱線)往往不足以挽救生命。心理學研究指出,社會連結(Social Connection)是降低自殺風險最重要的保護因素。因此,Trusted Contact 的核心目標是:在危機時刻,將用戶從封閉的 AI 對話環境中,導向他們在現實生活中真正信任的人。
Trusted Contact 的運作流程與技術邏輯
這套機制並非簡單的關鍵字觸發,而是一個結合了自動化監控與人工介入的多層次過濾系統。
首先是設定階段。這是一個選擇性(Optional)的功能,僅限 18 歲以上成年人使用。用戶需在設定中指定一名信任聯絡人,且該聯絡人必須在收到邀請後一週內接受,功能才會正式生效。這種雙向確認機制確保了聯絡人是有意願承接此責任的。
接下來是偵測與觸發階段。當 ChatGPT 的自動化監控系統偵測到用戶的對話內容涉及嚴重的自我傷害風險時,系統不會立刻發送通知,而是會先告知用戶:系統可能需要通知其信任聯絡人,並建議用戶主動與對方聯繫,甚至提供對話開場白來降低溝通門檻。
最關鍵的步驟是人工審核(Human Review)。為了避免 AI 誤判導致的隱私洩漏或不必要恐慌,所有觸發的警訊都會交由經過專業訓練的小組進行審查。只有當審核人員認定該情況確實存在嚴重安全疑慮時,系統才會向信任聯絡人發送通知。OpenAI 的目標是將此審核過程控制在一個小時內,以確保救援的及時性。
隱私保護與通知內容的限制
在設計這類功能時,隱私與安全的權衡(Trade-off)是最大的挑戰。如果通知內容太詳細,會侵犯用戶隱私;如果太模糊,聯絡人可能不會重視。
因此,Trusted Contact 的通知採取了最小化原則。通知僅會告知對方:用戶在對話中出現了可能令人擔心的自我傷害傾向,並鼓勵聯絡人主動關心。通知內容絕對不會包含任何對話紀錄或截圖。此外,通知中會附上專業的指導指南,教導聯絡人如何處理這類敏感對話。
完整的安全防禦體系
Trusted Contact 只是 OpenAI 安全策略的一環,它與其他層級的防禦機制共同作用:
第一層是拒絕有害請求。AI 被訓練為絕對拒絕提供任何關於自殺或自殘的指令或方法,並直接導向求助資源。
第二層是情感偵測與緩解。透過與心理健康專家合作,優化 AI 偵測心理困擾的能力,嘗試在對話中降低情緒張力並引導至現實世界的支持。
第三層是外部資源導引。在敏感時刻,系統會主動提供在地化的危機熱線或緊急服務資訊。
第四層則是 Trusted Contact,將 AI 的數位偵測轉化為現實的人際救援。
總結與實務思考
對於開發者而言,Trusted Contact 的設計給了我們一個啟發:面對高風險的 AI 應用場景,不能僅依賴自動化模型。透過設計 偵測 $\rightarrow$ 人工審核 $\rightarrow$ 最小化通知 $\rightarrow$ 現實介入 的閉環流程,可以在保障隱私的前提下,將 AI 的能力延伸到實體世界的安全保障中。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。