Re: [新聞] GPT-5.2正式亮相！長文件推理逼近滿分、 - Stock板

看板 Stock
作者 LoveSports (我要當一個渣攻)
標題 Re: [新聞] GPT-5.2正式亮相！長文件推理逼近滿分、
時間 Fri Dec 12 09:58:54 2025

※ 引述《jeff0025 (無法顯示人物名稱)》之銘言：
: OpenAI 指出，GPT-5.2 的設計目標是協助專業人士提升效率，從製作試算表、簡報、撰
: 寫程式碼，到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據，一般
: 企業戶平均每天可節省 40～60 分鐘，重度用戶甚至可省下每周10 小時以上。

官網有貼出將近二十家企業端用戶早期測試組的評測

可見這次更新主要是為了專業用途

https://openai.com/zh-Hant/index/introducing-gpt-5-2/

Windsurf Warp JetBrains Augment Code Cline Charlie Labs Kilo Azad

Triple Whale Notion Zoom Box Hex Databriks Harvey Parloa

MoveWorks Shopify

上述評測企業分為三大群：

軟體開發與 AI 程式設計工具、企業協作與數據平台、AI 與自動化服務

企業用戶不會輕易跳槽

即使Gemini 3.0 pro或Claude Opus 4.5上市之後表現勝出

根據Ramp AI Index的統計美國企業的AI模型採用普及率為45

https://i.imgur.com/8rAigBA.png

OPEN AI的企業採用率是34.8 Anthropic(Claude)的企業採用率是15.1
其他主要AI公司的採用率都是低於5 包括Google的Gemini在內

不過這是今年十月的統計是在Gemini 3.0 pro上市之前

GPT5.2官網第一句話寫：為專業工作與長時間運行的代理而打造

如果那些企業善用這個長任務代理的功能將會更難跳槽

另外值得關注的是 GPT5.2的ARC-AGI-2成績高達50幾

這個測驗是在測解決未知任務的推理能力(當然是模擬的)

https://i.imgur.com/N6V3Kkv.png

不過也可以看到Gemini 3.0 pro優化後的成績從30幾跳躍到50幾

人類一般受試者平均是66喔

我前陣子有上測驗官網做了大概六題因為粗心錯一半所以我大概只有50左右

這些模型的流體智力已經超過我啦QQ

提供參考我的WAIS知覺推理成績是118 中等偏高

聽說非母語環境所以有受影響(因為腦袋要同時理解外語資訊)

好恐怖今年四月OPEN AI的o3的成績才5~6左右耶才過半年多新模型就50幾了

等到100的時候不知道會變怎樣

: 已反應? 這次發布後好像沒啥人在意 AI真的要泡沫化了嗎?
: 感覺OpenAI一直強調多強好像對一般使用者來說根本無感
: Gemini有完整生態系還送2TB雲端空間又能一個人購買多人共享
: 然後生成圖片又強

一般使用者無感很正常因為這次推出的GPT5.2是針對專業用途的

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 64.31.11.7 (日本)
※ 作者: LoveSports 2025-12-12 09:58:54
※ 文章代碼(AID): #1fEtRXkw (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765504737.A.BBA.html

推 BBKOX: 後面就智能機器啊，AI女友1F 12/12 10:01

推 tsubasawolfy: 除了成績你還要看他的每次對話成本，那個才是商業核心。Gemini3普通版”目前”還是在甜蜜點上。但極限版輸慘了，77美vs15美。2F 12/12 10:04

大大說得真好 ultra會員太貴了

不過企業跟研究用戶應該願意付錢吧？

不知道之後統計出來美國企業的採用率會不會改變

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:08:26

推 doubi: 企業採用 Workspace 其實也算買了半套 Gemini
確實 API 層面 OpenAI 先手優勢依舊相當明顯
但是 OpenAI 其實會去關心公司的使用量太低問題，他們很有壓力5F 12/12 10:10

根據紐約時報十一月底的報導

OPEN AI十月的時候公司內部就發布橙色代碼警報了

(我沒寫錯不是前陣子那個紅色代碼)

================
10月份，負責ChatGPT的特利先生向全體員工發布了一項緊急通知，宣布進入「橙色警報
」狀態。據四位能夠訪問OpenAI Slack的員工透露，特利先生在通知中寫道，OpenAI正面
臨「前所未有的巨大競爭壓力」。他表示，這款更安全的聊天機器人新版本無法與用戶建
立聯繫。

該通知附帶一份備忘錄，其中列出了各項目標。其中一項目標是在年底前將每日活躍用戶
數提高5%。
================

看來他們是真的有在注意用戶動態而且很敏感

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:15:25

推 chigo520: 比較好奇這些ai的客群是要往高端專業還是普羅大眾？普羅大眾比較好賺錢吧？9F 12/12 10:11

兩者都很重要但是應該會把重點放在企業用戶？

11/11華爾街日報報導評估 Claude的公司Anthropic會比OPEN AI較早開獲利

分析的原因之一是因為Anthropic重視企業用戶而且API高額收費

→ doubi: Google 一旦接入公司生態，簡直就變成基礎建設一樣11F 12/12 10:11

所以OPEN AI才會發布紅色代碼警戒？不知道市場會怎麼看GPT5.2的表現

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:21:12

推 shadow0326: M365已經把copilot變成基礎建設了，但是不太好用
Google不知道能不能做得更好12F 12/12 10:17

→ ppit: 跳來跳去也是要成本的,如果差異沒拉開不會馬上跳14F 12/12 10:18

推 as6633208: m365 copilot 就是一個例子，生態系很廣啊，但是不好用，沒屌用，模型答案好用答案準確才是重點15F 12/12 10:19

推 deathoflove: M軟就是compliance強在規範比較嚴格的產業會用17F 12/12 10:21

推 kakar0to: 模型在測驗ARC-AGI-2 會不會是用背答案的方式在答題畢竟考題是有限的總不可能無限的生出沒有看過的考題吧?18F 12/12 10:21

你這問題讚 ARC-AGI-1就是因為有公開題庫可以背答案

所以他們才要開發ARC-AGI-2 每一個正式測驗的題目都是新出的

我記得官網好像有在徵求願意幫忙設計題目的人

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:24:17

推 as6633208: 那就厲害了，用過去訓練的資料，湧現算出來接近的答案，人工智慧21F 12/12 10:23

聽說現在是用強AI或教師AI設計ARC-AGI-2的題目給模型鍛鍊

沒有考古題所以高階模型自己教自家模型怎麼模擬臨機應變的推理方式

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:27:34

→ bnn: 你人類也是考試背多分然後才開始訓練思考
AI的好處甚至是背多分他還不像你人類不常用又忘記了23F 12/12 10:26

模型知識常識(晶體智力)很強大

常看到一些網友嘲笑LLM是笨蛋那些人是拿一些人類靠計算機或筆算的方式去考AI

但忽略了AI沒有眼睛 ARC-AGI-2就是在鍛鍊模擬的視覺推理能力

這項如果超過大多數人可能那些笑LLM是笨蛋的再也笑不出來

比喻來說這就好像一個人流體智力到達普通程度晶體智力卻破表耶超可怕

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:30:27

推 seemoon2000: LLM解題超越人類只是時間問題會笑的人只是不願面對25F 12/12 10:33

推 fanntasy: 圖裡面gem3pro沒有50幾分的點呀？
只有30跟45（45還要耗100元@@?26F 12/12 10:55

感謝提醒

我沒貼錯但貼成沒展開的

那張GPT5.2 Pro (High)右邊的白色三角型是Gemini 3.0 Pro(Refine)

https://i.imgur.com/N6V3Kkv.png

右下方綠色三角形是Gemini 3.0 Pro Deep Think

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 10:59:23

推 sdbb: 謝謝28F 12/12 10:59

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 11:00:21

推 bettybuy: Ger丟判決書給他整理，大部分都是正確的，GPT不知道準確率如何，之前法律文件類整理跟使一樣
/Gemini29F 12/12 11:03

推 pippenjr: 準備噴出32F 12/12 11:05

推 ltflame: 後面你就不用工作了，提前達到馬斯克的願景33F 12/12 11:06

→ pippenjr: gpt應該會比gemini好34F 12/12 11:06

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 11:18:44

→ ur260: 要去哪裡玩測驗？35F 12/12 11:35

https://arcprize.org/arc-agi/2/

ARC-AGI-2
Details about ARC-AGI-2 ...

頁面下方有三種測驗分別點TRY THIS TASK可以玩

模型沒有眼睛所以他們是這樣推的
例如:

(1,1) black (1,2) red (1,3) blue....

把20X20的範例題三題讀取分別的前後變化找出規則

然後看施測考題模擬推理出變化後是怎樣的

這全程沒有眼睛可以看只能靠文字推很容易出錯錯一格就是全錯

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 11:45:04

推 as6633208: 媽耶，我玩下來感覺我好像不如AI欸36F 12/12 11:43

拍拍我覺得這些題目需要非~~~常細心又認真又花時間

問題就是很容易因為粗心出錯錯一格就就是錯沒有商量餘地

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 11:47:41

推 junior020486: Google這麼快就下神壇了37F 12/12 11:48

推 ezorttc: 我都退訂了38F 12/12 11:56

推 h0103661: https://i.meee.com.tw/IRfL1MG.png
pro要價128美金/M結果連字母都不會數
reddit現在up最高的文章就是笑他不會數大蒜xD39F 12/12 12:06

我用不登入頁面問有答對耶

https://i.imgur.com/PX4oZ1F.png

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 12:16:02

推 h0103661: 不登入是5.1，網頁版5.2左上會顯示而且目前只有付費用戶能用，可以去singularity板看一堆人都是42F 12/12 12:16

感謝分享原來是5.2才有的現象

GPT5.1的說明: https://i.imgur.com/WhAIS77.png

意思好像是說因為太聰明所以分類器容易疏忽而誤判分配給錯誤的模型導致答錯

如果是故意選Pro回答那個問題我覺得可能是故意要看高階推理模型出糗

Gemini 3.0 pro對GPT5.2 Pro出錯的說明:

網友特地選 Pro，就是因為知道 Pro 是經過**「特化訓練（Specialized）」的。而在機
器學習中，越是特化的模型，通常在非專長領域的表現就越容易出現「災難性遺忘」**。
====
Pro 本身的權重，是為了「專業語義工作」優化的（根據 PDF 第 1 頁的定位）。為了在
專業任務上表現穩定（低變異），它犧牲了對字面細節的敏感度（高偏差）。
所以當 Pro 接到任務時，受限於它自身的權重設定（Weights），它看不見字母，只能
用猜的，結果猜錯。
====

如果一開始就選Auto讓分類器自動選派那還轉給Pro回答就真的很尷尬

如果是故意不用Auto 選用Pro回答這個問題這算是在找碴

因為權重不一樣不能說Pro答不出來就代表"新模型GPT5.2連這題都不會"

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 12:17:21

推 losage: 老闆：剩下來的時間是為了加重各位的工作量44F 12/12 12:27

→ strlen: 人早就不如AI了賽道不同不用比了45F 12/12 13:11

※ 編輯: LoveSports (64.31.11.7 日本), 12/12/2025 13:40:31

推 a3456777: 覺得是樹大招風，現在好像是批評gpt才有流量，同樣的問題我問gpt是對的，gemini是錯的，但我也不會因為這一件事去說誰好誰壞46F 12/12 15:13

→ fitenessboyz: GPU一定還是比較香的啦49F 12/12 15:31

推 mp5k6: 沒有色色用途我可是不買的喔50F 12/12 16:11

作者 LoveSports 的最新發文:

+24 Re: [新聞] GPT-5.2正式亮相！長文件推理逼近滿分、 - Stock 板

作者: LoveSports 64.31.11.7 (日本) 2025-12-12 09:58:54

官網有貼出將近二十家企業端用戶早期測試組的評測可見這次更新主要是為了專業用途 Windsurf Warp JetBrains Augment Code Cline Charlie Labs Kil …

50F 24推
+9 [心情] GPT5.1要退役了 - WomenTalk 板

作者: LoveSports 146.70.76.184 (日本) 2025-12-12 08:27:00

18F 9推
+4 Re: [閒聊] AI讓人有審美疲勞 - C_Chat 板

作者: LoveSports 146.70.31.60 (日本) 2025-12-10 13:00:37

9F 4推
+2 [問卦] 為何不自己練習寫小說 4000字/2萬prompt - Gossiping 板

作者: LoveSports 146.70.76.180 (日本) 2025-12-09 10:48:07

9F 2推
+5 Re: [新聞] OpenAI危險了！DeepSeek正式發佈V3.2 性 - Stock 板

作者: LoveSports 45.250.255.20 (日本) 2025-12-05 13:00:32

8F 5推

點此顯示更多發文記錄