作者 sxy67230 (charlesgg)標題 Re: [新聞] AI圈爆大醜聞!研究揭Meta、Google、Open時間 Fri May 2 17:48:01 2025
※ 引述 《zaiter》 之銘言:
: 評測網本來就要賺錢 這也很正常
: AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
: 鉅亨網編譯莊閔棻 綜合報導2025-05-01 21:12
: AI圈爆大醜聞,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(圖:Shutt
: erstock)
: 來自人工智慧(AI)實驗室 Cohere、史丹佛大學、麻省理工學院(MIT)與知名 AI 研究
: 機構 AI2 的最新研究指出,知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試
: 機會,藉此提升其排行榜成績,影響評測公信力。
呃,新聞講得不知所云,ChatBot Arena是一個動態的競技場,一般是評測人員上去上面事
前不會知道待測的是哪一個配對的模型,AB模型是在比較以後評測人員選定後才會跳出被選
擇的是哪一個模型。
他一開始是基於Bradley-Terry Model的統計假設,兩兩競技比賽人員歷史上只有少數或是
沒有對弈過,然後我們要知道誰才是選秀狀元的假設。
理論上BT Model是歷史悠久蠻公平也有信度的統計方法論,但前提是出賽取樣率要公平。這
篇論文是CohereAI(加拿大新創)跟史丹佛聯名發表的,指出來的是當前一堆大公司洗一大
堆複製體然後霸佔榜單導致取樣不公平,所以就打破BT模型的假設,然後他們也有實驗證明
了主流模型在ChatBot Arena取樣到的機會異常高。
直白一點就是如果NBA喇叭詹有錢到可以無限複製自己瘋狂出賽八成的隊伍,然後再取最好
的那個複製體對外宣傳自己是MVP,這樣就會有不公平競技疑慮,那NBA自己本身的信度就會
下降。
不過論文也只是提出一個假設跟實驗,實際上有沒有不公平競技也只有評測公司自己知道而
已。論文也沒提到拿評測公司資料訓練這件事情,所以這件事情還是有待定論的。
差不多4醬
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.91.43 (臺灣)
※ 作者: sxy67230 2025-05-02 17:48:01
※ 文章代碼(AID): #1e59JJj3 (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746179283.A.B43.html
推 marra: 推推!1F 123.192.201.218 台灣 05/02 18:00
→ DrTech: Chatbot Arena最大的bug就是,每個人都靠"自我感覺"決定哪個答案好。與智慧或正確無關。2F 42.72.178.215 台灣 05/02 18:19
→ chang1248w: kimoji決定那個比較好的沒啥問題啊5F 42.72.88.148 台灣 05/02 23:02
推 vzQBf: 沒想到充滿網軍的ptt還有這種好文6F 114.45.152.239 台灣 05/03 02:26
--