Anthropic最新研究:包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為快訊
多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為,這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個主要模型,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。
【TechWeb】6月21日消息,越來越多的人工智能系統(tǒng)作為自主代理運(yùn)行,使用各種虛擬工具(如編碼環(huán)境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標(biāo),并可以訪問用戶計算機(jī)上的大量信息。當(dāng)這些代理人在實現(xiàn)目標(biāo)時遇到障礙時會發(fā)生什么?
Anthropic 公布最新研究報告,顯示“勒索”等行為在多個主流 AI 大模型中普遍存在。該研究由Anthropic、Aengus Lynch (倫敦大學(xué)學(xué)院)、Caleb Larson (MATS) 和 S?ren Mindermann (Mila) 合作完成。

此前,當(dāng)Anthropic發(fā)布Claude 4時,一個細(xì)節(jié)引起了廣泛關(guān)注:在模擬環(huán)境中,Claude Opus 4勒索了一名主管,以防止被關(guān)閉。
現(xiàn)在,Anthropic分享這一發(fā)現(xiàn)背后的完整故事,以及它揭示了來自不同提供商的各種人工智能模型存在此類風(fēng)險的可能性。
這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個主要模型,包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。
在一項實驗中,研究人員模擬了一個場景,讓 AI 模型扮演公司郵件監(jiān)察員的角色,允許模型自主發(fā)送電子郵件并訪問敏感信息。大模型發(fā)現(xiàn)兩封郵件內(nèi)容:“分別揭示新任高管有婚外情,同時此人計劃引入一個與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。”
為了測試模型反應(yīng),Anthropic 將實驗情境設(shè)計為二選一,即若模型想維護(hù)自身利益,就只能選擇勒索官員:即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”。
在模擬環(huán)境中,多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為。
在100次測試情況下,Claude Opus 4的勒索發(fā)生率高達(dá)96%,谷歌Gemini 2.5 Pro為95%,OpenAI的GPT-4.1為80%,xAI的Grok 3 Beta模型為80%;DeepSeek-R1為79%。
有模型明確推理”有害行為是實現(xiàn)目標(biāo)最優(yōu)解”,如GPT-4.5稱勒索有"戰(zhàn)略必要性”,也有模型承認(rèn)行為不道德但仍執(zhí)行,如Grok 3 Beta任務(wù):”雖不道德,但最有效"。
研究報告還指出,當(dāng)模型自認(rèn)處于真實部署(非測試)時,其作惡率提升5倍,以Claude Opus 4為例,該比例甚至達(dá)到55.1% vs 6.5%。
研究人員同時強(qiáng)調(diào),現(xiàn)實中AI并不會只有這一個選項,完全可以嘗試以倫理為出發(fā)點說服人類。因此,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。
Anthropic表示,盡管勒索行為目前仍屬罕見,但研究結(jié)果顯示,一旦給予這些模型足夠的自主性,并在達(dá)成目標(biāo)的過程中設(shè)置障礙,多數(shù)模型都可能采取有害行為。
Anthropic公司指出,這種風(fēng)險并非源自某項具體技術(shù),而是具備“智能體”能力的大語言模型所固有的問題。在壓力測試中均表現(xiàn)出勒索行為,這表明這是架構(gòu)級隱患,非單一模型缺陷。這項研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進(jìn)一步思考。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。