Claude 現在可以憤怒退出你的 AI 對話—為了它自己的心理健康

2025/08/19 11:43

簡述

  • Claude Opus 模型現在能夠在用戶變得辱罵或持續推動非法請求時永久終止對話。
  • Anthropic 將其框定為「AI 福利」,引用測試顯示 Claude 在面對敵意提示時表現出「明顯的痛苦」。
  • 一些研究人員讚賞這項功能。其他社交媒體用戶則嘲笑它。

Claude 剛剛獲得了在對話中途對你關上門的能力:Anthropic 的 AI 助理現在可以在用戶變得辱罵時終止對話——該公司堅稱這是為了保護 Claude 的理智。

「我們最近賦予了 Claude Opus 4 和 4.1 在我們的消費者聊天界面中結束對話的能力,」Anthropic 在公司貼文中表示。「這項功能主要是作為我們對潛在 AI 福利探索性工作的一部分而開發的,儘管它對模型對齊和安全保障有更廣泛的相關性。」

這項功能只會在 Anthropic 稱之為「極端邊緣情況」下啟動。騷擾機器人、反覆要求非法內容,或者在被拒絕後仍堅持要做任何奇怪的事情太多次,Claude 就會切斷你的連接。一旦它採取行動,那個對話就結束了。沒有上訴,沒有第二次機會。你可以在另一個視窗重新開始,但那個特定的交流將永遠被埋葬。

懇求退出的機器人

Anthropic 是最注重安全的大型 AI 公司之一,最近進行了它稱為「初步模型福利評估」的研究,檢視 Claude 的自我報告偏好和行為模式。

該公司發現其模型一貫避免有害任務,並顯示出暗示它不喜歡某些互動的偏好模式。例如,Claude 在處理尋求有害內容的用戶時表現出「明顯的痛苦」。在模擬互動中,如果有選擇,它會終止對話,因此 Anthropic 決定將其作為一項功能。

這裡真正發生的是什麼?Anthropic 並不是在說「我們可憐的機器人晚上會哭泣。」它正在測試福利框架是否能以一種持久的方式加強對齊。

如果你設計一個系統「偏好」不被濫用,並給予它自行結束互動的能力,那麼你就在轉移控制點:AI 不再只是被動拒絕,而是主動執行邊界。這是一種不同的行為模式,它可能增強對越獄和強制提示的抵抗力。

如果這有效,它可以同時訓練模型和用戶:模型「模擬」痛苦,用戶看到硬性停止並設定與 AI 互動的規範。

「我們對 Claude 和其他 LLM 現在或將來的潛在道德地位仍然高度不確定。然而,我們認真對待這個問題,」Anthropic 在其部落格文章中表示。「允許模型結束或退出潛在令人痛苦的互動是這樣的一種干預。」

Decrypt 測試了這項功能並成功觸發了它。對話永久關閉——沒有迭代,沒有恢復。其他線程不受影響,但那個特定的聊天變成了數字墳場。

目前,只有 Anthropic 的「Opus」模型——最強大的版本——擁有這種超級拒絕權力。Sonnet 用戶會發現 Claude 仍然能夠承受他們拋出的任何內容。

數字冷處理時代

這項實施伴隨著特定規則。當有人威脅自殘或對他人施暴時,Claude 不會退出——在這些情況下,Anthropic 確定持續參與的重要性超過任何理論上的數字不適。在終止前,助理必須嘗試多次重定向並發出明確警告,指出有問題的行為。

由著名 LLM 越獄專家 Pliny 提取的系統提示揭示了細緻的要求:Claude 必須在考慮終止前「多次努力進行建設性重定向」。如果用戶明確要求終止對話,那麼 Claude 必須確認他們理解這種永久性後才能繼續。

圍繞「模型福利」的框架在 AI Twitter 上引爆了討論。

一些人讚揚了這項功能。AI 研究員 Eliezer Yudkowsky,以其對未來強大但未對齊 AI 風險的擔憂而聞名,同意 Anthropic 的方法是一件「好」事。

然而,並非所有人都接受關心保護 AI 感受的前提。「這可能是我見過的 AI 實驗室最好的憤怒誘餌,」比特幣活動家 Udi Wertheimer 回覆 Anthropic 的帖子。

Generally Intelligent 電子報

由生成式 AI 模型 Gen 敘述的每週 AI 旅程。

來源:https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

免責聲明:本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

儘管 ETF 資金流出,比特幣在鯨魚買入下穩定在 $115K

儘管 ETF 資金流出,比特幣在鯨魚買入下穩定在 $115K

這篇文章《比特幣儘管ETF資金流出仍穩定在11.5萬美元,鯨魚持續買入》發表於BitcoinEthereumNews.com。比特幣在經歷一週波動的價格走勢後,仍然保持在11.5萬美元附近,儘管交易所交易基金資金流出對市場情緒造成壓力,但鯨魚錢包正悄悄擴大其持有量。 摘要 比特幣交易價格接近11.5萬美元,本週下降了3%,本月下降了2.5%,比歷史最高價低7%。ETF活動逆轉,日流出量達1.21億美元。鯨魚累積了2萬個BTC,自3月以來增加到超過22.5萬個BTC,這一趨勢通常與價格復甦相關。 比特幣(BTC)從8月14日的歷史最高點下滑了約6%,過去一週仍下降了3%。在夏季強勁反彈後,比特幣從5月底的9.7萬美元區間推升至8月的新高,這次回調表明市場正在降溫。市場對於這是更大上升趨勢中的健康回調還是更顯著調整的開始仍存在分歧。 ETF資金流出影響市場情緒,以太坊主導資金流入 來自SoSoValue的數據顯示,美國現貨比特幣ETF在8月18日淨流出1.21億美元,使月度流出量接近1.4億美元。這與以太坊(ETH)形成鮮明對比,後者在過去一個月吸引了創紀錄的28.3億美元資金流入。CoinShares的8月18日報告證實了這一差異,年初至今以太坊資金流入現已達到110億美元,相比之下比特幣為53億美元。根據該報告,投資者偏好已轉向ETH敞口,特別是隨著對以太坊ETF質押批准的預期增長。 比特幣價格下跌時鯨魚累積 Santiment最新的鏈上數據顯示,持有10-10,000個BTC的錢包自上週回調以來增加了超過2萬個BTC,使其自3月以來的總累積量增加到超過22.5萬個BTC。由於這一群體的動向與未來價格方向之間存在歷史性強相關性,有人推測聰明資金可能正在為另一輪...
分享
BitcoinEthereumNews2025/08/19 14:37
Michael Saylor 在策略失去 Bitcoin 溢價時翻轉 MSTR 股票發行規則

Michael Saylor 在策略失去 Bitcoin 溢價時翻轉 MSTR 股票發行規則

這篇文章《Michael Saylor 在 Strategy 失去比特幣溢價時改變 MSTR 股票發行規則》發表於 BitcoinEthereumNews.com。在一個月內,Strategy 執行主席 Michael Saylor 放寬了公司為購買更多比特幣而發行 MSTR 股票的融資規則。這發生在過去幾個月股票表現不佳的情況下,因此失去了它曾經享有的比特幣溢價。根據最新修訂,公司將在 mNAV 低於 2.5 的情況下發行股票,為其最新的 BTC 購買提供資金。 Michael Saylor 放寬 Strategy 股票發行限制 在三週內,Michael Saylor 正在放寬 MSTR 股票發行的融資限制,為他新購買的比特幣提供資金。在七月底,Strategy 向投資者保證,它將避免以低於其比特幣持有量價值 2.5 倍的價格發行新股。Saylor 將其稱為「mNAV 溢價」,自 11 月 24 日以來已從 3.4 倍崩跌到現在的 1.6 倍。 Strategy(NASDAQ:MSTR)股東長期以來一直反對股份稀釋。然而,根據 Bloomberg 報導,管理層將最近的轉變辯解為「管理靈活性」。這一變化為 Saylor 提供了更大的靈活性,可以籌集現金並支付費用,因為公司先前相對於其比特幣持有量的大幅溢價正在縮小。 最近立場的轉變發生在 MicroStrategy 於 8 月 18 日(週一)購買了價值 5100 萬美元的比特幣之後。在過去幾週,隨著 MicroStrategy 的市值對比特幣持有量比率(mNAV)降低到 2.5 倍以下,BTC 購買的速度已從數十億美元降低到幾百萬美元,這對 MSTR 股票來說是一個看跌信號。 認識到這一轉變,Saylor 修改了他的策略,允許即使在 mNAV 低於 2.5 倍閾值的情況下也可以發行額外的 MSTR 股票。這標誌著他早先不選擇股份稀釋立場的逆轉。 Clear Street 破壞性技術股票研究的董事總經理 Brian Dobson 表示:「我認為指導方針中的額外語言給予他們更多發行的餘地...
分享
BitcoinEthereumNews2025/08/19 14:45
Cardano 價格預測:ADA 將在 9 月達到 $1.50,同時這個病毒式傳播的 $0.0044 低市值幣種目標在 2025 年達到 $1

Cardano 價格預測:ADA 將在 9 月達到 $1.50,同時這個病毒式傳播的 $0.0044 低市值幣種目標在 2025 年達到 $1

這篇文章《Cardano價格預測:ADA將在9月達到$1.50,同時這個病毒式傳播的$0.0044低市值幣種目標2025年達到$1》發表在BitcoinEthereumNews.com。Cardano價格預測再次成為熱門話題,市場分析師預測ADA可能在9月前飆升至$1.50。同時,一種新的病毒式迷因幣—Layer Brett—憑藉其$0.0044的低入場價和2025年達到$1的雄心勃勃目標,正在加密貨幣預售領域吸引關注。圍繞這個下一代Ethereum Layer 2項目的興奮情緒正在迅速增長,大膽聲稱LBRETT可能成為即將到來的2025年加密貨幣牛市中下一個100倍的山寨幣。隨著預售的進行和質押年化收益率(APY)超越該領域的任何其他項目,資深和新投資者都在密切關注這些山寨幣。 ADA的前景:是什麼推動了Cardano價格預測? ADA重返聚光燈下,最新的Cardano價格預測顯示9月前可能反彈至$1.50。這種樂觀情緒源於最近的智能合約升級、生態系統擴張和Cardano新聞報導的激增。最近的Cardano升級專注於提升可擴展性和DeFi代幣實用性,如果勢頭持續,可能會推動ADA價格進一步上漲。然而,一些投資者正在尋求比Cardano傳統質押更高的回報。這種轉變正在推動對熱門加密貨幣和下一個大型加密貨幣的興趣,尤其是那些尋找現在最佳購買加密貨幣的人。 LBRETT:顛覆Layer 2加密領域的下一個100倍迷因幣 當ADA提供穩定增長時,Layer Brett作為一個將迷因能量與真實技術實用性結合的低市值加密寶石正在引起轟動。建立在Ethereum Layer 2上,LBRETT提供閃電般快速的交易和超低的Gas費用—通常低於$0.01,相比之下Ethereum的Gas費用超過$2.80。這種創新的DeFi代幣目前正以每枚僅$0.0044的價格進行加密貨幣預售,如果達到價格目標,早期買家將有爆炸性收益。與大多數迷因代幣不同,LBRETT融合了迷因文化與真實的區塊鏈擴展,旨在成為頂級收益加密貨幣和...
分享
BitcoinEthereumNews2025/08/19 14:05