Re: [請益] 軟體失業是遲早的事吧 - Soft_Job板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2025-10-18 14:33:07

看板 Soft_Job

作者 oopFoo (3d)
標題 Re: [請益] 軟體失業是遲早的事吧
時間 Fri Oct 17 08:01:49 2025

※ 引述《SkankHunt42 (凱子爸)》之銘言：
: 推 yamakazi: 人類方也沒提數據啊，人類有SWE bench可以看分數？ 10/15 09:36
: → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
: → yamakazi: 才奇怪吧 10/15 09:36
: 沒有要ㄉ一ㄤ誰的意思
: 就是這benchmark到底存不存在

現在的llms是以人類為基準做測試。swe-bench 就是人類做過了，看llms可不可以做。

https://github.com/SWE-bench/SWE-bench

GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language Models Resolve Real-world Github Issues? SWE-bench: Can Language Models Resolve Real-world Github Issues? - SWE-bench/SWE-bench ...

swe-bench是拿github已解決的issues來作為測試。

https://openai.com/index/introducing-swe-bench-verified/
swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。

測試的題目，大部分都非常簡單。15分鐘內解決
例如variable referenced before assignment
或者parameter ignored。deprecation warning

普通有程度的人，大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。

例如

有些matrix的問題，你如果不熟，那不會做是正常的。

老實說，連東西的內容都不了解，就大談特談，我無話可講

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣)
※ 作者: oopFoo 2025-10-17 08:01:49
※ 文章代碼(AID): #1eyOTpY8 (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760659315.A.888.html

※ 同主題文章:

　 09-30 22:24 isaacting. ■ Re: [請益] 軟體失業是遲早的事吧

● 10-17 08:01 oopFoo. ■ Re: [請益] 軟體失業是遲早的事吧

→ DrTech: 專業。swe-bench就是人先做過的issue。swe-bench verified1F 10/17 08:34
→ DrTech: 就是人再過濾一次，認為適合公平測試AI能力的工作。

推 yamakazi: 本來就是拿有人做過的沒問題啊，不然要怎麼對答案？3F 10/17 08:40
→ yamakazi: 問題是沒有拿來測人類平均解題水平
→ yamakazi: 我當然知道這是有人做過的XD
→ yamakazi: 你知道就連大學聯考題目，也是給大一生做過才拿來考的嗎
→ yamakazi: XD
→ yamakazi: 然後那個考的大一生，還要待在圍場裡等聯考結束才跟出題
→ yamakazi: 老師一起出闈

推 DrTech: yamakazi說的對。問題在於swe-bench verified沒看過單一測10F 10/17 08:49
→ DrTech: 試者人類的解題成績。不過好笑的又來了，swe-bench verifi
→ DrTech: ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認
→ DrTech: 定人解得一定比較差？自打嘴巴。

推 yamakazi: 因為我用過ai工作跟我之前自己工作比較。之前比較難的功14F 10/17 09:15
→ yamakazi: 能或蟲都好幾天才解完，現在有AI真的五到十分鐘搞定
推 yamakazi: 單算行數的話，我2018年左右平均一年進扣九千行，今年九
→ yamakazi: 月我用claude 4 sonnet一個月進扣五萬行
→ yamakazi: 如果我下去跟AI比benchmark，我覺得我會慘敗
推 yamakazi: 我自己以前一年如果進超過一萬五千行扣，就覺得蠻操的了
→ yamakazi: ，現在一個月進口五萬行還不覺得累
推 yamakazi: 就像是你各位在高中大學時期，班上就是有那種強者，你從
→ yamakazi: 日常跟他上課考試就知道這個人很強，我跟他比完全慘敗，
→ yamakazi: 不用等到比完聯考你就知道他一定上台大醫學系一樣
→ yamakazi: 那五萬行我幾乎每行都有review，幾乎沒有太大問題，光re
→ yamakazi: view code比自己手刻輕鬆多了
→ yamakazi: 而且他會自己make run，自己檢查log完後出報告，很多時
→ yamakazi: 候只要看他下個指令，看完他準備要下的指令後沒問題按ye
→ yamakazi: s就可以了

→ brucetu: 能像你的專案一個月進扣五萬行的應該不多，照你這速度五29F 10/17 10:07
→ brucetu: 個人一個月異動二十萬行怎麼維護？你只是無腦用大量程
→ brucetu: 式碼把功能做過去自己看不到問題就說AI沒問題，老闆會
→ brucetu: 很喜歡你這種因為你交差快，反正爆掉的時候你就知道，
→ brucetu: 希望半年後你還有辦法維護六個月前的那幾十顆commit
→ brucetu: 如果我的同事裡面有人一個月進五萬行扣我會直接跟老闆
→ brucetu: 說這個超人把整份程式改寫了現在只有他看得懂這五萬行
→ brucetu: 我們其他人要花兩個月研究，還是我們就讓他一個人接手整
→ brucetu: 個系統好了？

推 Suleika: y說llm進code很快沒說錯阿，但這版很少提到真正會遇到問38F 10/17 10:11
→ Suleika: 題的一直是全局trade off，效能調教，安全性檢查......

→ brucetu: 哦而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯40F 10/17 10:15
→ brucetu: 錯誤所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒
→ brucetu: 有問題的程式碼，我感覺你要不是下指令之神應該出來開課
→ brucetu: ，不然就是你真的看不到程式碼裡面的問題

→ Suleika: 只要llm沒有fine-tune過，不能靠reasoning解題，就還是工44F 10/17 10:16
→ Suleika: 具
→ Suleika: 還有他說的是一年5萬...反駁都沒看清楚

推 richardz: 他明明說一個月五萬...到底誰沒看清楚...47F 10/17 10:20

→ Suleika: 拍謝我沒看清楚第二行，一個月5萬是有點誇張就是了48F 10/17 10:21
→ Suleika: 要看寫的是啥

→ brucetu: 我就是看到一個月五萬怕是我看錯，反覆看了三五次他的留50F 10/17 10:27
→ brucetu: 言，確定他是說本來一年九千現在一個月五萬，如果他是寫
→ brucetu: 錯了我會更懷疑他有好好地看AI產出的扣嗎？還是瞄一眼好
→ brucetu: 像沒大問題而且功能可以動就commit了

推 yamakazi: 寫systemC，就是要拼多啊，而且也沒什麼安全性問題54F 10/17 10:29
推 yamakazi: 我們有給他MD檔，md 檔裡面有範例程式，你光下prompt當
→ yamakazi: 然沒那麼精準
→ yamakazi: 我們各種md檔加起來可能也快萬行了，你prompt不可能講那
→ yamakazi: 麼詳細
推 yamakazi: 如果你發現AI常犯的錯誤，或是這次試錯了好幾次才正確，
→ yamakazi: 你要叫他學起來就是叫他把這次的經驗寫進去md 檔，大部
→ yamakazi: 分md內容也是叫AI寫不是我自己寫

推 selfvalue: 這串我關注很久你跟Skaut大大討論的內容都很不錯有62F 10/17 10:57
→ selfvalue: 興趣可以來我們網站發
→ selfvalue: lesswrong.com
→ selfvalue: jaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都
→ selfvalue: 有在網站寫過相關的討論串可以註冊後開一個討論很多
→ selfvalue: 人會回
→ selfvalue: 上來看看

推 yamakazi: 一個月五萬沒錯，不過把md檔也算進去了，沒特別分開算69F 10/17 11:14
推 yamakazi: 舉個例子，他以前常常忘了先make all就直接跑程式，可能
→ yamakazi: 以為自己寫的是python，我就叫他寫在自己的md檔裡，以後
→ yamakazi: 他改完扣就會自己make all and run了，不用特別再下prom
→ yamakazi: pt

→ selfvalue: 我們網站科技公司的老闆(航太耳機等等)跟頂尖科學家74F 10/17 11:34
→ selfvalue: 工程師很多但網站人數很少歡迎來發言

推 MoonCode: lesswrong 相比 reddit hackernews 有什麼特別的？76F 10/17 12:00

推 selfvalue: lesswrong跟許多機構有直接的關係像是miri/ open phi77F 10/17 12:19
→ selfvalue: lanthropy

→ MoonCode: 有關係能幹嘛不太懂79F 10/17 12:19

→ selfvalue: 像是我們網站的成員Vitalik Buterin(大家應該都知道他80F 10/17 12:20
→ selfvalue: 是誰)就有直接資持這些機構
→ selfvalue: 他在上面叫vbuterin 可以看我們的排行榜
→ selfvalue: https://www.lesswrong.com/leaderboard
→ selfvalue: https://en.wikipedia.org/wiki/Vitalik_Buterin
推 selfvalue: Artificial intelligence
→ selfvalue: edit
→ selfvalue: In May 2021, Buterin donated $665 million to the F
→ selfvalue: uture of Life Institute, a nonprofit which, amongs
→ selfvalue: t other things, seeks to mitigate the existential
→ selfvalue: risk from artificial intelligence. Buterin worries
→ selfvalue: that AI could become the new dominant species on
→ selfvalue: Earth, and may "end humanity for good".[45]
推 selfvalue: Future of Life Institute
→ selfvalue: Logo of the Future of Life Institute
→ selfvalue: Abbreviation
→ selfvalue: FLI
→ selfvalue: Formation
→ selfvalue: March 2014; 11 years ago
→ selfvalue: Founders
→ selfvalue: Jaan Tallinn
推 selfvalue: vitalik捐了六億多美金的機構 founders 可以看看第一
→ selfvalue: 個也是lw活躍用戶
→ selfvalue: 就是skype創辦人之一的jaan
→ selfvalue: 他在網站上面叫jaan
→ selfvalue: 在科技工作上的影響比較直接
→ selfvalue: 我也很喜歡hackernews 那邊也不錯
→ selfvalue: 上面討論的比較傾向數學可以看看網站介紹比較奇怪一
→ selfvalue: 點
→ selfvalue: https://www.lesswrong.com/w/bayes-theorem
→ selfvalue: https://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/
→ selfvalue: e-t-jaynes-probability-theory-the-logic-of-science
→ selfvalue: -i
→ selfvalue: 我們網站歡迎數學好的朋友
→ selfvalue: 上面的文章都很樸實也有比較普通的人上去聊數學跟科
→ selfvalue: 技
→ selfvalue: 不要看上面用戶有人捐了幾百億台幣那些話題跟用戶本
→ selfvalue: 身沒有什麼關係大家都在聊數學相關話題
→ selfvalue: vitalik是比較出色的網站成員之一
→ selfvalue: 數學才是最重要的

Vitalik Buterin - Wikipedia
Vitaly Dmitrievich Buterin (Russian: Вита́лий Дми́триевич Буте́рин; born 31 January[1] 1994), better known as Vitalik Buterin (Russian: Вита́лик Буте́рин), is a Canadian computer programmer and co-founder of Ethereum. Buterin became involved with cryptocurrency early in its inception, co-fou ...

→ MoonCode: xD 好吧我沒有被說服謝啦120F 10/17 13:48
推 MoonCode:

推 selfvalue: 上面有定期的聊天聚會如果你是在歐美日本可以上去看122F 10/17 13:57
→ selfvalue: 日期去聊天
→ selfvalue: 一個Nasa的工作人員很愛辦可以去吃東西帶小狗過去玩
→ selfvalue: 聊數學
→ selfvalue: 比較小的溫馨的
→ selfvalue: 我去過幾次看過不少同行 jaan, 火箭公司的老闆那些
→ selfvalue: 人比較溫馨
→ selfvalue: hackernews比較大
→ selfvalue: 可以上去聊數學模型論文那些

→ viper9709: 一個月五萬行@@131F 10/17 17:56

推 selfvalue: 上這網站我覺不錯132F 10/17 18:35
→ selfvalue: 上去寫怎麼想還有你怎麼用專業知識
→ selfvalue: 然後在去見面會
→ selfvalue: 這網站成員很多公司的外部專家== openai, Microsoft
→ selfvalue: 那些
→ selfvalue: 在上面答題也滿有趣的
→ selfvalue: 專業非常強可以去玩
→ selfvalue: ^tesla也有
→ selfvalue: 十年前網站討論的事情不少都陸陸續續被網站成員解決/
→ selfvalue: 實現
→ selfvalue: 這一串很像上面會討論的很多人答的不錯

推 Romulus: 我家的Claude 4.5才一週進四千行我大概要手動修五批143F 10/17 23:45
→ Romulus: 眾所皆知一定是我prompt下太爛……XD
→ Romulus: 我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責

→ SkankHunt42: Claude 我已經棄了聽說現在其他工具更好用146F 10/17 23:58
→ SkankHunt42: 而且Claude 訂價偏貴就算了還不誠實高級模型也是用
→ SkankHunt42: 一下就沒了

→ Romulus: 都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣149F 10/18 00:00
→ Romulus: 從來不覺得各主流模型間有什麼很本質上的差異
→ Romulus: 頂多就偶而這題A解的比較好那題只有B解的出來之類的

推 art1: 高見龍下班後用 AI 兩個月產出十八萬行程式碼，一個月五萬好152F 10/18 00:44
→ art1: 像也還好，AI 產程式碼的速度跟人比起來真是天上飛比地上爬

推 quickey: 產歸產，還是要review啊XD154F 10/18 07:20

※ 看板: Soft_Job　文章推薦值: 0 目前人氣: 0 累積人氣: 47　

作者 oopFoo 的最新發文:

+20 [新聞] 白銀供應充足：我們正努力滿足市場需求 - Stock 板

作者: oopFoo 58.114.66.74 (台灣) 2026-01-26 07:40:58

珀斯鑄幣廠首席商務官薩萬·坦納致辭貴金屬市場正經歷非凡的時期。黃金和白銀價格持續創下新紀錄，截至2025年12月31日的一年中，黃金以美元計價上漲了65%，白銀以美元計價上漲了近150%。這一增長勢 …

38F 22推 2噓
+6 Re: [請益] 黃金白銀我已經有點看不懂了 - Stock 板

作者: oopFoo 58.114.66.74 (台灣) 2025-12-27 08:00:04

20F 6推
+10 Re: [新聞] 甲骨文股價暴跌超10%！訂單積壓越來越多「燒錢」砸AI - Stock 板

作者: oopFoo 58.114.66.74 (台灣) 2025-12-14 05:40:05

43F 10推
+16 Re: [新聞] 川普點頭！同意輝達出售H200晶片給中國 - Stock 板

作者: oopFoo 58.114.66.74 (台灣) 2025-12-09 07:53:07

39F 19推 3噓
+6 Re: [新聞] 大賣空貝瑞再發聲：OpenAI 是下一個網景 - Stock 板

作者: oopFoo 114.45.185.58 (台灣) 2025-12-07 17:01:48

13F 6推

點此顯示更多發文記錄

分享網址: 複製

DispBBS

回到看板(←)《Soft_Job》

→

guest

x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享