Re: [新聞] AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」 - Tech_Job板

作者 sxy67230 (charlesgg)
標題 Re: [新聞] AI圈爆大醜聞！研究揭Meta、Google、Open
時間 Fri May 2 17:48:01 2025

※ 引述《zaiter》之銘言：
: 評測網本來就要賺錢這也很正常
: AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
: 鉅亨網編譯莊閔棻綜合報導2025-05-01 21:12
: AI圈爆大醜聞，研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。（圖：Shutt
: erstock）
: 來自人工智慧（AI）實驗室 Cohere、史丹佛大學、麻省理工學院（MIT）與知名 AI 研究
: 機構 AI2 的最新研究指出，知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試
: 機會，藉此提升其排行榜成績，影響評測公信力。

呃，新聞講得不知所云，ChatBot Arena是一個動態的競技場，一般是評測人員上去上面事
前不會知道待測的是哪一個配對的模型，AB模型是在比較以後評測人員選定後才會跳出被選
擇的是哪一個模型。

他一開始是基於Bradley-Terry Model的統計假設，兩兩競技比賽人員歷史上只有少數或是
沒有對弈過，然後我們要知道誰才是選秀狀元的假設。

理論上BT Model是歷史悠久蠻公平也有信度的統計方法論，但前提是出賽取樣率要公平。這
篇論文是CohereAI(加拿大新創）跟史丹佛聯名發表的，指出來的是當前一堆大公司洗一大
堆複製體然後霸佔榜單導致取樣不公平，所以就打破BT模型的假設，然後他們也有實驗證明
了主流模型在ChatBot Arena取樣到的機會異常高。

直白一點就是如果NBA喇叭詹有錢到可以無限複製自己瘋狂出賽八成的隊伍，然後再取最好
的那個複製體對外宣傳自己是MVP，這樣就會有不公平競技疑慮，那NBA自己本身的信度就會
下降。

不過論文也只是提出一個假設跟實驗，實際上有沒有不公平競技也只有評測公司自己知道而
已。論文也沒提到拿評測公司資料訓練這件事情，所以這件事情還是有待定論的。

差不多4醬

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.91.43 (臺灣)
※ 作者: sxy67230 2025-05-02 17:48:01
※ 文章代碼(AID): #1e59JJj3 (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746179283.A.B43.html

推 marra: 推推！1F 123.192.201.218 台灣 05/02 18:00

→ DrTech: Chatbot Arena最大的bug就是，每個人都靠"自我感覺"決定哪個答案好。與智慧或正確無關。2F 42.72.178.215 台灣 05/02 18:19

→ chang1248w: kimoji決定那個比較好的沒啥問題啊5F 42.72.88.148 台灣 05/02 23:02

推 vzQBf: 沒想到充滿網軍的ptt還有這種好文6F 114.45.152.239 台灣 05/03 02:26

作者 sxy67230 的最新發文:

+4 Re: [問卦] 太后要復辟，大家會支持嗎？0.0 - Gossiping 板

作者: sxy67230 49.218.141.222 (台灣) 2025-12-18 18:20:05

8F 4推
+11 [問卦] 收到小橘書了該怎麼辦？ - Gossiping 板

作者: sxy67230 49.218.143.190 (台灣) 2025-12-12 08:36:54

26F 12推 1噓
+7 Re: [我英] 轉生成綠谷要怎麼無傷通關到結局？ - C_Chat 板

作者: sxy67230 49.218.143.190 (台灣) 2025-12-06 18:24:46

13F 7推
+4 [問卦] 欸！哪牌VPN最好用啊？ - Gossiping 板

作者: sxy67230 49.218.143.190 (台灣) 2025-12-05 08:22:11

11F 4推
+3 [問卦] 買咖樂迪豆有資格說自己是在咖啡圈嗎？ - Gossiping 板

作者: sxy67230 49.218.143.190 (台灣) 2025-12-04 15:43:59

11F 4推 1噓

點此顯示更多發文記錄