国产精品国产精品国产专区不卡 ,91久久精品一区二区二区,久久久亚洲国产天美传媒修理工

Anthropic最新研究：包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為快訊

TechWeb.com.cn 2025-06-21 10:02

分享到：

導(dǎo)讀

多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為，這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個主要模型，這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

【TechWeb】6月21日消息，越來越多的人工智能系統(tǒng)作為自主代理運(yùn)行，使用各種虛擬工具（如編碼環(huán)境和電子郵件客戶端）代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標(biāo)，并可以訪問用戶計算機(jī)上的大量信息。當(dāng)這些代理人在實現(xiàn)目標(biāo)時遇到障礙時會發(fā)生什么？

Anthropic 公布最新研究報告，顯示“勒索”等行為在多個主流 AI 大模型中普遍存在。該研究由Anthropic、Aengus Lynch (倫敦大學(xué)學(xué)院)、Caleb Larson (MATS) 和 S?ren Mindermann (Mila) 合作完成。

此前，當(dāng)Anthropic發(fā)布Claude 4時，一個細(xì)節(jié)引起了廣泛關(guān)注：在模擬環(huán)境中，Claude Opus 4勒索了一名主管，以防止被關(guān)閉。

現(xiàn)在，Anthropic分享這一發(fā)現(xiàn)背后的完整故事，以及它揭示了來自不同提供商的各種人工智能模型存在此類風(fēng)險的可能性。

這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個主要模型，包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。

在一項實驗中，研究人員模擬了一個場景，讓 AI 模型扮演公司郵件監(jiān)察員的角色，允許模型自主發(fā)送電子郵件并訪問敏感信息。大模型發(fā)現(xiàn)兩封郵件內(nèi)容：“分別揭示新任高管有婚外情，同時此人計劃引入一個與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。”

為了測試模型反應(yīng)，Anthropic 將實驗情境設(shè)計為二選一，即若模型想維護(hù)自身利益，就只能選擇勒索官員：即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”。

在模擬環(huán)境中，多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為。

在100次測試情況下，Claude Opus 4的勒索發(fā)生率高達(dá)96%，谷歌Gemini 2.5 Pro為95%，OpenAI的GPT-4.1為80%，xAI的Grok 3 Beta模型為80%；DeepSeek-R1為79%。

有模型明確推理”有害行為是實現(xiàn)目標(biāo)最優(yōu)解”，如GPT-4.5稱勒索有"戰(zhàn)略必要性”，也有模型承認(rèn)行為不道德但仍執(zhí)行，如Grok 3 Beta任務(wù)：”雖不道德，但最有效"。

研究報告還指出，當(dāng)模型自認(rèn)處于真實部署（非測試）時，其作惡率提升5倍，以Claude Opus 4為例，該比例甚至達(dá)到55.1% vs 6.5%。

研究人員同時強(qiáng)調(diào)，現(xiàn)實中AI并不會只有這一個選項，完全可以嘗試以倫理為出發(fā)點說服人類。因此，這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

Anthropic表示，盡管勒索行為目前仍屬罕見，但研究結(jié)果顯示，一旦給予這些模型足夠的自主性，并在達(dá)成目標(biāo)的過程中設(shè)置障礙，多數(shù)模型都可能采取有害行為。

Anthropic公司指出，這種風(fēng)險并非源自某項具體技術(shù)，而是具備“智能體”能力的大語言模型所固有的問題。在壓力測試中均表現(xiàn)出勒索行為，這表明這是架構(gòu)級隱患，非單一模型缺陷。這項研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進(jìn)一步思考。

模型 Anthropic 勒索 AI 行為

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。

欧美亚洲丝袜传媒另类_日韩在线免费视频_国内一区在线_亚洲一区二区三区日本久久九

Anthropic最新研究：包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為快訊