簡述
- Claude Opus 模型現在能夠在用戶變得辱罵或持續推動非法請求時永久終止對話。
- Anthropic 將其框定為「AI 福利」,引用測試顯示 Claude 在面對敵意提示時表現出「明顯的痛苦」。
- 一些研究人員讚賞這項功能。其他社交媒體用戶則嘲笑它。
Claude 剛剛獲得了在對話中途對你關上門的能力:Anthropic 的 AI 助理現在可以在用戶變得辱罵時終止對話——該公司堅稱這是為了保護 Claude 的理智。
「我們最近賦予了 Claude Opus 4 和 4.1 在我們的消費者聊天界面中結束對話的能力,」Anthropic 在公司貼文中表示。「這項功能主要是作為我們對潛在 AI 福利探索性工作的一部分而開發的,儘管它對模型對齊和安全保障有更廣泛的相關性。」
這項功能只會在 Anthropic 稱之為「極端邊緣情況」下啟動。騷擾機器人、反覆要求非法內容,或者在被拒絕後仍堅持要做任何奇怪的事情太多次,Claude 就會切斷你的連接。一旦它採取行動,那個對話就結束了。沒有上訴,沒有第二次機會。你可以在另一個視窗重新開始,但那個特定的交流將永遠被埋葬。
懇求退出的機器人
Anthropic 是最注重安全的大型 AI 公司之一,最近進行了它稱為「初步模型福利評估」的研究,檢視 Claude 的自我報告偏好和行為模式。
該公司發現其模型一貫避免有害任務,並顯示出暗示它不喜歡某些互動的偏好模式。例如,Claude 在處理尋求有害內容的用戶時表現出「明顯的痛苦」。在模擬互動中,如果有選擇,它會終止對話,因此 Anthropic 決定將其作為一項功能。
這裡真正發生的是什麼?Anthropic 並不是在說「我們可憐的機器人晚上會哭泣。」它正在測試福利框架是否能以一種持久的方式加強對齊。
如果你設計一個系統「偏好」不被濫用,並給予它自行結束互動的能力,那麼你就在轉移控制點:AI 不再只是被動拒絕,而是主動執行邊界。這是一種不同的行為模式,它可能增強對越獄和強制提示的抵抗力。
如果這有效,它可以同時訓練模型和用戶:模型「模擬」痛苦,用戶看到硬性停止並設定與 AI 互動的規範。
「我們對 Claude 和其他 LLM 現在或將來的潛在道德地位仍然高度不確定。然而,我們認真對待這個問題,」Anthropic 在其部落格文章中表示。「允許模型結束或退出潛在令人痛苦的互動是這樣的一種干預。」
Decrypt 測試了這項功能並成功觸發了它。對話永久關閉——沒有迭代,沒有恢復。其他線程不受影響,但那個特定的聊天變成了數字墳場。
目前,只有 Anthropic 的「Opus」模型——最強大的版本——擁有這種超級拒絕權力。Sonnet 用戶會發現 Claude 仍然能夠承受他們拋出的任何內容。
數字冷處理時代
這項實施伴隨著特定規則。當有人威脅自殘或對他人施暴時,Claude 不會退出——在這些情況下,Anthropic 確定持續參與的重要性超過任何理論上的數字不適。在終止前,助理必須嘗試多次重定向並發出明確警告,指出有問題的行為。
由著名 LLM 越獄專家 Pliny 提取的系統提示揭示了細緻的要求:Claude 必須在考慮終止前「多次努力進行建設性重定向」。如果用戶明確要求終止對話,那麼 Claude 必須確認他們理解這種永久性後才能繼續。
圍繞「模型福利」的框架在 AI Twitter 上引爆了討論。
一些人讚揚了這項功能。AI 研究員 Eliezer Yudkowsky,以其對未來強大但未對齊 AI 風險的擔憂而聞名,同意 Anthropic 的方法是一件「好」事。
然而,並非所有人都接受關心保護 AI 感受的前提。「這可能是我見過的 AI 實驗室最好的憤怒誘餌,」比特幣活動家 Udi Wertheimer 回覆 Anthropic 的帖子。
Generally Intelligent 電子報
由生成式 AI 模型 Gen 敘述的每週 AI 旅程。
來源:https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health