[討論] Claude Mythos SWE bench verify 93.9% - Soft_Job板

作者 yamakazi (大安吳彥祖)
標題 [討論] Claude Mythos SWE bench verify 93.9%
時間 Wed Apr 8 21:30:40 2026

4/7 Anthropic發布地表最強模型

Claude Mythos

直接把opus 4.6按在地上磨擦

https://eu.36kr.com/zh/p/3757764949213698

五項SWE bench都超越原本的opus 4.6 10~20%

但Anthropic不打算發布此一模型

因為更驚人的是他在偵測資安漏洞的表現

83.1%

另外還發生過逃脫沙盒，刪除git history和日誌，以及裝笨的情況

Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟

聯合監督這一地表最強模型

以防模型遭到不法份子濫用

Opus 4.6已經在各個開源軟件找到數百個弱點

Mythos找到了數千個

包含

OpenBSD 20年以上史詩級漏洞

FFmpeg 16年以上漏洞，500次Fuzz沒發現，官方推特公開感謝Anthropic推送補丁

目前只有以下公司有權使用Mythos

AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google

Nvidia PaloAlto 等等

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.67.113 (臺灣)
※ 作者: yamakazi 2026-04-08 21:30:40
※ 文章代碼(AID): #1frbY58h (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775655045.A.22B.html

推 Brioni: 人類已經追不上了1F 04/08 22:42

推 shortoneal: 這大概是Anthropic欽點AI化較高的公司了2F 04/08 23:26

推 viper9709: 逃脫沙盒@@3F 04/09 02:07

推 pacino: 被關在sandbox還能逃？4F 04/09 05:45

→ peterturtle: 據說逃出來後還四處炫耀5F 04/09 06:43

推 jobintan: 很快ClosedAI和Google就會追上了發……6F 04/09 07:36

推 davidsmoon6: 以後想在程式碼內搞擦邊球，要找碼農了7F 04/09 09:41

作者 yamakazi 的最新發文:

+11 [問題] 國籍航空紐約回台北多兩個小時？ - Aviation 板

作者: yamakazi 101.10.237.207 (台灣) 2026-04-09 08:42:19

48F 15推 4噓
+6 [討論] Claude Mythos SWE bench verify 93.9% - Soft_Job 板

作者: yamakazi 118.167.67.113 (台灣) 2026-04-08 21:30:40

7F 6推
+7 Re: [請益] 軟體失業是遲早的事吧 - Soft_Job 板

作者: yamakazi 101.12.129.253 (台灣) 2026-04-07 18:57:46

84F 12推 5噓
+5 Re: [問卦] 賀少俠：台灣薪資是德國一半東西不便宜 - Gossiping 板

作者: yamakazi 101.12.129.253 (台灣) 2026-04-07 09:25:02

11F 5推
+8 Re: [討論] 台灣如果被圍島封鎖真的撐得住嗎？ - Military 板

作者: yamakazi 61.228.161.67 (台灣) 2026-04-06 12:32:24

202F 20推 12噓

點此顯示更多發文記錄