作者 yamakazi (大安吳彥祖)標題 [討論] Claude Mythos SWE bench verify 93.9%時間 Wed Apr 8 21:30:40 2026
4/7 Anthropic發布地表最強模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五項SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算發布此一模型
因為更驚人的是他在偵測資安漏洞的表現
83.1%
另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況
Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
聯合監督這一地表最強模型
以防模型遭到不法份子濫用
Opus 4.6已經在各個開源軟件找到數百個弱點
Mythos找到了數千個
包含
OpenBSD 20年以上史詩級漏洞
FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁
目前只有以下公司有權使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.67.113 (臺灣)
※ 作者: yamakazi 2026-04-08 21:30:40
※ 文章代碼(AID): #1frbY58h (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775655045.A.22B.html
推 Brioni: 人類已經追不上了1F 04/08 22:42
推 shortoneal: 這大概是Anthropic欽點AI化較高的公司了2F 04/08 23:26
推 pacino: 被關在sandbox還能逃?4F 04/09 05:45
推 jobintan: 很快ClosedAI和Google就會追上了發……6F 04/09 07:36
--