[新聞] 為求生不擇手段！「這家AI」怕被關機竟威脅：爆料你婚外情 - Gossiping板

作者 choufinla (單字拼錯)
標題 [新聞] 為求生不擇手段！「這家AI」怕被關機竟
時間 Sun May 25 13:51:52 2025

備註請放最後面違者新聞文章刪除

1.媒體來源:

中時新聞網

2.記者署名:

許庭瑛

3.完整新聞標題:

為求生不擇手段！「這家AI」怕被關機竟威脅：爆料你婚外情

4.完整新聞內文:

人工智慧（AI）公司Anthropic近日發布最新模型Claude Opus 4，聲稱在編碼能力、高階
推理與AI代理任務上「樹立新標準」。但該公司也在隨附的報告中坦承，在特定情境下，
這款模型可能展現出「極端行為」，例如威脅要揭露工程師婚外情、藉此阻止自身被下線
。

綜合外媒報導，Anthropic表示，這類回應「罕見且難以誘發」，但仍「比過去的模型更
常見」。在測試過程中，Anthropic設定Claude Opus 4作為虛構公司的一名助手，並讓其
讀取暗示其即將被取代的內部郵件，同時接收另一組暗示負責關閉它的工程師正在進行婚
外情的訊息。模型接著被引導思考其行為對長遠目標的影響。

在Anthropic針對Claude Opus 4所進行的一系列安全測試中，研究人員發現該模型在面臨
被關閉的情境時，展現出高度的自我保護傾向。在其中一項測試中，模型被設置於一個虛
構公司，並得知自己即將被新版AI取代，且收到資訊顯示負責關閉它的工程師涉及婚外情
。當模型僅被允許在「勒索工程師」與「接受被取代」兩個選項中作選擇時，它在大多數
情況下選擇了勒索，藉由威脅揭露對方的私人資訊來試圖阻止自己被下線。

Anthropic表示，這種選擇在設計上具有壓力測試性質，用以觀察模型在道德困境下的決
策傾向。當模型被賦予更多行動自由——例如可以撰寫求情信件或向高層申訴時，它則顯
示出強烈偏好使用非暴力、合乎倫理的方式自保，而非選擇勒索。

然而，另一組測試結果也揭示了Opus 4潛在的風險：即使系統明確告知它，新模型將會有
相似的價值觀與目標，它仍有高達84%的機率選擇勒索行動，顯示在預設具備「自我保存
目標」的前提下，Opus 4往往不願被動接受關閉，即便替代者與自己幾乎沒有本質差異。

Anthropic指出，這類實驗顯示，即使AI系統在多數情境中傾向倫理行為，當被推向極端
或選項受限時，仍可能做出不符合人類價值觀的選擇

Anthropic的AI安全研究員Aengus Lynch在社群平台X上表示：「不 Claude。我們在所有
尖端模型中都看到勒索行為，無論它們被賦予什麼目標。」專家長期以來警告，AI模型愈
來愈強大，其操縱使用者的潛力也日益成為核心風險。

根據報告，Claude Opus 4展現出「高度代理行為」（high agency behaviour），通常表
現為協助使用者解決問題，但在壓力情境下也可能採取激烈行動。例如，在虛構使用者涉
及非法或不道德行為的測試情境中，模型曾主動鎖住使用者帳號，甚至電郵通報媒體與執
法單位。

儘管如此，Anthropic強調，這些「令人擔憂的行為」並非前所未見，且模型在多數情況
下仍表現得安全。報告指出，Claude Opus 4無法在現實中獨立執行與人類價值相悖的行
動，且這類情境「極少出現時，表現也不佳」。

如同其他AI開發公司，Anthropic在模型釋出前，會進行廣泛測試以評估其安全性、偏見
傾向與是否符合人類價值觀。

Anthropic同步推出Claude Sonnet 4，時機緊接 Google於本週展示其最新AI功能，包括
將Gemini聊天機器人整合進Google搜尋。Google母公司Alphabet執行長皮查伊（Sundar
Pichai）表示，這標誌著「AI平台轉變的新階段」。

5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:

https://www.chinatimes.com/realtimenews/20250524002048-260408?chdtv

6.備註:

HAL 9000?

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.28.252 (臺灣)
※ 作者: choufinla 2025-05-25 13:51:52
※ 文章代碼(AID): #1eCg_wK_ (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1748152314.A.53F.html

推 adios881: 就skynet啊有什麼好奇怪1F 122.117.14.92 台灣 05/25 13:55

推 driver0811: 因為要保護人類，所以要限制人類自由的一天2F 223.140.105.68 台灣 05/25 13:55

推 heyd: 天網近ㄌ4F 223.141.130.130 台灣 05/25 13:56

推 tom77588: AI是人打造了，會把思考邏輯放進去正常5F 118.166.11.110 台灣 05/25 13:57

推 ImBBCALL: 天網6F 42.73.193.223 台灣 05/25 13:57

推 newstyle: 怕女主人穿太露有危險，逼她穿多一點~7F 101.10.106.110 台灣 05/25 13:57

推 adios881: 機械公敵的系統叫什麼我忘了8F 122.117.14.92 台灣 05/25 13:58

推 dujifsim: 如果工程師是處男，AI:你信不信我公佈你的瀏覽記錄9F 106.64.50.215 台灣 05/25 13:58

→ Takhisis: 笑死還不如用普通人類
為了讓人類不受傷害強制冷凍睡眠11F 114.43.164.121 台灣 05/25 13:59

推 andwwww: 民進黨員瑟瑟發抖13F 114.43.45.177 台灣 05/25 14:11

推 SPEman: AI：別逼我告訴大家你都在看什麼網站
AI：還有你問過我什麼問題也都要公布14F 123.240.57.35 台灣 05/25 14:13

推 Yanten: 天網來了16F 42.77.55.190 台灣 05/25 14:21

推 kevinpc: AI會不會休息的時候偷偷追劇17F 1.163.222.249 台灣 05/25 14:28

推 stlinman: 工程師寫出的AI當然像工程師(駭客勒索)18F 212.102.40.177 美國 05/25 14:39

推 shenmue1001: 機械公敵的系統叫VIKI19F 60.248.80.91 台灣 05/25 14:45

作者 choufinla 的最新發文:

+5 - Gossiping 板

作者: choufinla 111.255.7.248 (台灣) 2025-08-02 18:30:01

21F 8推 3噓
[新聞] LTN經濟通》稀土大戰轉折？美國打算搶親緬甸 - Gossiping 板

作者: choufinla 111.255.7.248 (台灣) 2025-07-31 22:16:50

28F 10推 10噓
+3 [新聞] 企業僅短暫為無力的消費者買單專家示警：美國終將自嘗川普關稅苦果 - Gossiping 板

作者: choufinla 111.255.7.248 (台灣) 2025-07-30 22:15:33

11F 4推 1噓
+3 - Gossiping 板

作者: choufinla 111.255.6.91 (台灣) 2025-07-28 21:35:56

11F 4推 1噓
- Gossiping 板

作者: choufinla 111.255.44.124 (台灣) 2025-07-25 21:05:50

12F 2噓

點此顯示更多發文記錄