作者 SkankHunt42 (凱子爸)
標題 Re: [請益] 軟體失業是遲早的事吧
時間 Wed Oct 15 11:19:56 2025


yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數?
人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好才奇怪吧10/15 09:36


沒有要ㄉ一ㄤ誰的意思

就是這benchmark到底存不存在

小弟我相信 這一定是有論文的

找了一下

還真的有

https://arxiv.org/html/2501.16857v1

 

以下為AI翻譯 並由我這個人腦節錄:

1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024 年 4 月前兩週提供的版本)作為代表
性 LLM,針對 LLM 與人類生成的 Python 程式碼,在各項效能指標上進行比較。

2. 該研究採用包含 72 項 Python 編碼任務的基準數據集,這些任務涵蓋了來自先前研究
[7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生(人類程式設計
師)為這 72 項編碼任務開發了程式碼,同時使用 GPT-4(即 2024 年 4 月可用版本)
生成程式碼樣本,以產生對等的 LLM 輸出。

3. 在編碼標準評估中,Pylint 和 Radon 分析顯示,雖然 LLM 生成與人工編寫的程式碼都
存在缺陷,但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕,
但研究中的 LLM(以及人類)有時會忽略編碼風格和標準程序中的重要細節,這些細節對
於維護可讀性和程式碼品質至關重要。


4. 與人工生成的程式碼相比,LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表
明,LLM 傾向過度設計解決方案,這可能導致程式碼更難維護,且在軟體開發後期階段更
容易出現錯誤。

5. LLM 生成的程式碼在功能正確性測試中經常表現良好,證明了 LLMs 在自動化執行簡單且
定義明確的編碼任務上的實用性。相反地,在需要深厚領域專業知識或複雜問題解決能力
的任務中,人類程式設計師往往比 LLMs 表現更出色。
(編註:人類編寫的程式碼通過率為 54.9%,而 LLM 生成的程式碼通過率達 87.3%)




要說這篇論文缺點是什麼的話

就是他只有一個大四學生當作人類基準

所以樣本數非常不足 另外用的模型也是稍舊

歡迎質疑paper的人花錢花精力自己去做一次benchmark

學術界本來就是這樣


總之結論大概就是: 就該文獻的場景與數據來看 人類與LLM擅長的不同 優缺點不同

不過當手裡只有錘子時,在某些人看起來,所有東西都像是釘子

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 84.17.34.45 (日本)
※ 作者: SkankHunt42 2025-10-15 11:19:56
※ 文章代碼(AID): #1exnBU1L (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760498398.A.055.html
※ 同主題文章:
Re: [請益] 軟體失業是遲早的事吧
10-15 11:19 SkankHunt42
zyxx: 推1F 10/15 12:02
SuGK: 推最後一句2F 10/15 12:10
oopFoo: https://github.com/SWE-bench/SWE-bench/issues/465
swe是蠻有參考性的。但還是有各種作弊方式,像上面就是某個漏洞,被claude,qwen跟其它llms利用來獲取更高分數。但設計者說,分數其實不要互比,要自己比自己,互比參考意義不大。因為....(原因太多,我懶的打了)3F 10/15 13:44
Repo State Loopholes During Agentic Evaluation ·  Issue #465 ·  SWE-bench/SWE-bench ·  GitHub We've identified multiple loopholes with SWE Bench Verified where agents may look at future repository state (by querying it directly or through a var ...

 
DrTech: 你是在反串搞笑嗎,這篇論文又不是 swe-bench verified8F 10/15 16:05

你有閱讀障礙嗎? 我可沒說這是SWE bench啊XD

他推文寫「人類自己都沒有benchmark」我就找一個人機對比的benchmark paper來舉例囉

DrTech: 大廠用swe-bench verified是因為,這些題目才是真實工作時會遇到的情況。拿一篇品質更爛的論文,難以說明什麼新發現9F 10/15 16:29


benchmark的方式又不只一種

重點是你今天到底是要比對人與模型的差異 還是要比對模型與模型的差異

所以我不知道你拘泥於單一觀點想說明什麼 還是你也只會揮舞槌子而已


還有人與LLM比較benchmark的論文難寫 估計就是實驗難做&經費問題

用dataset去讓各模型跑分比較更容易些

你覺得論文爛 論文作者至少還有實驗精神

反而是某些人只會出一張嘴@@
※ 編輯: SkankHunt42 (146.70.205.60 日本), 10/15/2025 17:11:45
yamakazi: XD
我體感覺得啦,本科剛畢業新人去做這個benchmark大概30分左右12F 10/15 17:29
viper9709: 最後一句XD15F 10/16 01:07
DrTech: 論文就是拿一個沒有參考價值不知名的題目,測一個大四學生,連研討會都投不上。結果你把這種學生報告當成寶。
會引用這種爛論文的人也只是出張嘴而已。外行人。
第一句:沒有要ㄉ一ㄤ誰的意思,結果推文拼命ㄉ一ㄤ。果然你手裡有錘子的你,看到誰都在捶。
拿出正常一點的論文,再來討論啦,外行人又愛ㄉ一ㄤ別人。不知道原PO堅持發引用一篇,連研討會都沒上的低品質論文,是要強調或能證明什麼?還是純粹故意引戰ㄉ一ㄤ人?16F 10/16 08:36

我比較好奇DrTech是在哪高就 一定很內行

小弟不才 公司就賣賣顯卡的上市公司而已

你待的公司一定很屌你職位一定很內行對吧


我覺得我上面已經說得很清楚了 為什麼這樣的論文難找

就是經費問題 大部分學生連填問券抽獎做論文 參與的人都興致缺缺了

首先你要找多少工程師?這些工程師要代表怎樣的群體?

要付你多少錢你才願意抽空做題目只為了讓人發論文?

題目是否具有公平性能準確涵蓋這些工程師的能力範圍又不失偏頗?




SWE-bench是gold standard沒錯 但目前就是沒有找到人類參與比較的數據
(甚至要怎麼比才有代表性都有問題)

我提這篇論文 是看過這篇論文覺得滿有趣的 至少是一個方法

也可能我爛 我找不到好的論文

當我們在討論有沒有benchmark可以比較人類與LLM解決工程問題時

我確實拿了一篇不怎樣的論文 雖然樣本數只有一 但至少是一個實驗、一個方向

不過我現在只看到一個巨嬰躺在地上打滾

這不是SWE-bench~ 這不是SWE-bench~ 哇~~~~~ 哇~~~~ ToT


然後轉頭又要別人找論文

奇怪 現在網路打臉人的方式已經不是自己找到更好、更具參考價值的論文或數據

而是一直叫人舉證 好像他是我指導教授還口委一樣

他作為質疑者唯一的工作就是在推文裡出一張嘴

這就是所謂的內行嗎


angusyu: 我聽到玻璃碎掉的聲音,不知道怎麼回事24F 10/16 09:58
jack0204: 我有點看不懂在吵什麼?感覺主題歪了25F 10/16 10:12
Romulus: 人類沒辦法copy而且方差太大 測benchmark就沒啥意義這樣把可以複製並且表現都差不多的工具和不具備重現性的人類用同一種評估方式就沒啥實用價值 俗稱做身體健康的
本質應該和試證明理科生已墜入情網差不多
一本正經講幹話 但是其實也沒那麼幹話那種感覺(26F 10/16 10:59
※ 編輯: SkankHunt42 (154.47.23.99 日本), 10/16/2025 12:32:55
cc2006: 原po找一個沒什麼參考價值的論文來說服別人,別人提出反對意見也很合理吧31F 10/16 12:56

我是對y的推文「是否存在對人類的benchmark」做出回應

考慮到這是在討論LLM與人類性能的比較 所以我認為題目具體為

「是否存在於同時能同時評估LLM與人類解決工程問題的benchmark」

有沒有這樣的benchmark存在?

答案是: 有

而該論文的題目來源是參考自:
Y. Feng et al. (2023). ”Investigating Code Generation Performance of ChatGPT
with Crowdsourcing Social Data,” in Proceedings of the IEEE 47th Annual
Computers, Software, and Applications Conference (COMPSAC), Torino, Italy,
pp. 876-885.
這是一篇被引用172次的的論文所用的dataset

72筆prompt的題目 dataset在這裡:
https://yunhefeng.me/research/Compsac_ChatGPT_Python_Prompt_Code/

 


老實講前一篇推文吵得那一串我根本沒打算說服哪一方

我原文也講了 人與LLM擅長的不同 在我看來這跟吵腳踏車跟機車哪個好差不多


那現在問題來了 這篇論文爛在哪?總要有個具體論述吧

除了我原文已經提到的人類樣本數只有一以外

我好像找不到其他任何具體的批判

是對實驗方法有具體的批判?

還是對一篇被被引用172次的論文的dataset有具體的批判?




SWE-bench的題目數量有兩千多筆 lite版有300道

不拿full 你拿lite 你要找好幾個工程師去做300道題目

我只能講這如果有這樣的數據那還滿屌的 我也很想看




不要講300題 72道題目請板上各位年薪三百萬的工程師 大家要怎樣的條件才會用心寫完

抽150元點卡或兩百元711禮券好不好

就.... 腦袋能不能實際一點?

※ 編輯: SkankHunt42 (146.70.205.140 日本), 10/16/2025 14:03:51
Romulus: 就研究沒啥問題 只是沒辦法應用而已
DrTech什麼時候會給你具體的批評了33F 10/16 14:24

--
作者 SkankHunt42 的最新發文:
點此顯示更多發文記錄