看板 NBA作者 timmyen (Ako)標題 [外絮] 用機器學習模型預估MVP得主時間 Fri Apr 30 09:43:54 2021
今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。
小弟不是學資料科學的,如果內文有誤也請不吝指正
原文:https://perthirtysix.com/essay/2021-nba-mvp-race
懶人包:
作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果(包含排名及票數)
建造了一個預估球員得到MVP的機率以及MVP得主的模型,
利用這個模型,在過去38年中可以正確的計算出32年的得主。
在這個模型中,各項球員數據的權重(也就是這個模型認為影響MVP票選最重要的數據)
依序如下:
https://imgur.com/33ouqUG
球隊勝率%
每場上場時間
球隊種子序
WS/48
每場得分
出賽場次
VORP
2分命中率
罰球次數
助攻數
每場籃板
整體命中率
BPM
Usage%
每場失誤數
真實命中率
(以下不列,可以自己看圖)
模型利用以上數據算出每一個球員的candidacy score
這個分數越高者,即是模型認為越有可能得到MVP的人選
要特別說的是,某些數據本身是互相有關聯性的(譬如:兩分/三分命中率及整體命中率,
或是整體命中率跟一大堆進階數據),由於已經被重複計算過,因此單項的權重會降低,
不代表這項數據就不重要。
===
幾個有趣的結果
1. 誰是這38年來MVP分數最高的球員?
答案是08-09年的姆斯,分數高達4.49
2. 那最低分的MVP得主又是誰?
答案是04-05年的Nash,他當年的分數只有1.09
3. 誰的MVP被偷了?(誤)
剛剛提到38年中這個模型成功預測出32年的MVP得主,
這也代表其中有6年模型預測跟最終的結果是不一致的,
(1) 2016-2017年的MVP,模型預測得主是Harden(2.73),最終由當年拿下平均大三元
的Westbrook(2.44, 第二)拿走MVP
(2) 2010-2011年,當年分數最高的是LBJ(2.37),最終MVP被Rose(2.23)拿走。
(3) 2004-2005年,也就是上面提到,Nash以史上最低分(1.09)拿下MVP的那年。
當年屈居第二的是Shaq (1.12,其實沒差很多),也難怪他老人家到現在還在記仇
另外,隔年(05-06)Nash連莊時MVP分數也不是第一(1.8),
當年分數第一的是LBJ(2.25),只能說Nash真的是這個模型的outlier
4. Kobe到底有沒有偷了CP3一個MVP?
如果用這個模型看,答案是沒有,當年(07-08)Kobe以2.62分拿下MVP,
屈居第二的CP3分數是2.2分
5. 38年來最大的一二名差距發生在1999-2000年,當年大歐以3.71分拿下MVP,
分數第二的是Alonzo Mourning -- 0.7分 (票選第二的是KG,分數0.55)
另外,Curry全票MVP那年分數是3.47分,第二名的可愛1.89分,也是不小的差距
6. 那今年的MVP會是誰呢?
模型預測今年的MVP會是阿肥Jokic
https://imgur.com/KRIWmS9
本賽季截至目前為止,MVP分數最高的三人分別是
Jokic (2.02)
字母哥(0.26)
Embiid(0.04)
非常巨大的差距
====
有興趣的版友可以去看看這個模型是怎麼建出來的
裡面有個"Explore 1984 - 2020"可以拉出這38年間所有模型跑出來的結果
https://imgur.com/ZU04aVC
Reddit討論:
https://www.reddit.com/r/nba/comments/n150xj/
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.194.238 (臺灣)
※ 文章代碼(AID): #1WYs3Uo8 (NBA)
※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619747038.A.C88.html
※ 同主題文章:
[外絮] 用機器學習模型預估MVP得主
04-30 09:43 timmyen.
推 depo: 推數據化4F 04/30 09:47
推 lienray: 這不難就machine learning。python簡單寫11F 04/30 09:49
推 tingx2: COOL~15F 04/30 09:50
推 TWN56ers: 有趣喔 這個
不過真的有看球的就知道CP3那年MVP沒被偷17F 04/30 09:51
推 AtDe: 今年jokic是真的夠強,重點是幾乎沒缺陣19F 04/30 09:52
推 icou: 完了完了 這預測結果 幾個可戰的點都戰了(誤
現在MVP啊肥的國外賭盤是多少啊? 1.01?20F 04/30 09:53
推 kkb512sk: 濤哥的雞排我還沒領到有人知道他在那嗎?22F 04/30 09:55
推 zephry: all in 阿肥了23F 04/30 09:55
推 MrSatan: 2008 每周MVPRank 倒數二周CP3第1 最後一周Kobe超車24F 04/30 09:55
→ icou: 濤哥的宇宙艇論我猶言在耳25F 04/30 09:55
推 IAMGRICE: 喔喔喔這modeling 屌喔26F 04/30 09:56
→ icou: 不過我還以為分數最高會是73的咖哩27F 04/30 09:56
→ IAMGRICE: (1)當年雷霆西區第六,龜拿真的是偷鬍子,不然就2連霸了
(2)姆斯當年有拿下,是MVP五連霸...29F 04/30 09:58
推 ke1210: LBJ被偷兩次 好衰32F 04/30 09:58
推 william7497: 剛好在吵Nash的兩屆MVP,結果都不是該年最高分33F 04/30 09:59
推 turnpoint: 分數測不準的那幾年幾乎都是因為所謂話題性頒獎的38F 04/30 10:01
推 Kappa: 引戰模型 我詹又要出來炒一波話題了41F 04/30 10:02
推 jardon: 說好的美國選舉人團支持咖哩勒42F 04/30 10:02
推 cp3bg32: 人看得出來組團抱腿 機器看不出來46F 04/30 10:04
推 IAMGRICE: 所以這個model的結果,應該也間接可以選出年度隊伍了47F 04/30 10:04
推 sunnyyoung: 不過光勝率和排名 這模型就不夠客觀 如果要加入不客觀因子 那完成特殊成就也該列為一個50F 04/30 10:05
→ kevin0733: 是不是可以增加參數 讓回測38次都符合最後結果
這樣用來預測之後才會更準確53F 04/30 10:05
噓 sxzc: 金筆還有什麼話要說嗎 差這麼多還是好好打自己的東部賽程吧 MVP沒你的事 別放話了55F 04/30 10:06
→ kevin0733: 有六次不符合 表示當年投票的人考慮其他因素57F 04/30 10:06
推 society: 勝率跟排名一直以來MVP投票都會考慮,也不能說不客觀61F 04/30 10:07
→ society: 反而是破數十年紀錄,審美疲勞跟小人物出頭天這種很難量化66F 04/30 10:09
推 samzi: 誰是史上最弱mvp呢?68F 04/30 10:10
推 coox: 絕對是阿肥69F 04/30 10:10
推 RBC54321: Shaq那年也差距太大了吧71F 04/30 10:11
→ kevin0733: 已經明顯會那就影響結果了 那就更應該加進去73F 04/30 10:11
→ kevin0733: 誰當年有特殊成就(場均大三元) 連莊多次沒特別突出75F 04/30 10:12
推 kiralin: 誰敢偷我肥的MVP !阿肥加油拿下它80F 04/30 10:15
推 elvis047: 數據視覺化 簡單明瞭 推推81F 04/30 10:15
推 turnpoint: 年度大三元這個明顯是話題性考量,不然龜龜之後兩年也有年度大三元,MVP票選卻都沒票了,就是沒話題性了......82F 04/30 10:15
推 mirac1e: LBJ每年都被偷吧85F 04/30 10:16
→ jardon: 龜龜那年好歹模型算出來還是第二+大三元,拿沒很過分吧86F 04/30 10:16
推 fjuheadache: 用被偷走的講法好奇怪 依據合理解釋應該是模型預測失準 用被偷走感覺是肯定自己模型沒有錯88F 04/30 10:16
推 sxzc: 推回來91F 04/30 10:17
→ Pinka5566: 應該說姆斯偷了好幾年MVP吧 每年都抱團組三巨頭 最好笑的是11年熱火戰績輸公牛93F 04/30 10:18
→ jardon: 所以就引戰模型阿 紛爭是不可能停止的95F 04/30 10:18
→ kevin0733: 如上面fj所說 應先以事實來建立模型100F 04/30 10:19
→ Pinka5566: 抱腿組巔峰三王 然後戰績輸單核的Rose 這樣叫偷101F 04/30 10:20
→ EEzionT: 想不通為啥要捧老衲 膚色不正確102F 04/30 10:20
噓 WO0820: 是不是沒在看防守??105F 04/30 10:21
推 jardon: 權重也是可以調整的 呵呵106F 04/30 10:21
推 CMPunk: 阿肥早就穩了107F 04/30 10:22
推 lylu: 用了38年的資料結果只中32年聽起來很怪108F 04/30 10:23
→ tyrone0923: Nash那兩年給他也沒懸念,在平均得分95的年代,太陽109F 04/30 10:23
推 mc2834: 美國ptt好強111F 04/30 10:23
→ tyrone0923: 平均得分110,讓NBA在湖人王朝後不至於沒話題112F 04/30 10:24
→ Aggro: 同意fj的說法 用偷走是表示這模型是計算定律了?113F 04/30 10:24
→ proter: 0.04114F 04/30 10:25
推 icou: 如果要以事實去設計model,那很多感官或是特殊紀錄118F 04/30 10:29
→ icou: 像是龜的得分王場均大三元,要怎麼設定就是問題120F 04/30 10:29
→ icou: ?? 38年正確跑出和事實相同的32年 不算低了耶123F 04/30 10:30
→ nastycurry: 以前都說要看戰績(最大受益人Nash,Rose)然後西河打出場均大三元又是另一回事了....124F 04/30 10:31
→ icou: 當年龜那平均大三元 板上也都覺得MVP機會很高 所以這種因為特殊條件的加分要怎麼設也是問題127F 04/30 10:32
推 k7202001: Nash傳統數據不出色阿 姆斯是審美疲勞+抱團太難看才輸Rose 龜則是第一次場均大三元131F 04/30 10:33
→ k7202001: 對pg沒不利吧 咖哩兩屆都是符合阿??134F 04/30 10:34
推 arbee: 會有結果不合 代表不夠精準 再想一下136F 04/30 10:34
推 AHEAD099: 有無法量化的因素 就無法做到100%準確啊137F 04/30 10:35
推 TimmyJiang: 被Rose偷?你說CP3就算了起碼他當年第二名,姆斯當年是第三名然後抱怨第一名在偷?
那第二名的魔獸是什麼,隱形人嗎140F 04/30 10:37
推 purification: kobe cp3那年最後兩隊對決,賽前就有不少風向是說哪隊西一,mvp機會就大增,最後湖人贏了就這樣144F 04/30 10:38
說一下我自己的感覺:
1. 原文有說,他們考量的結果並不只是得獎/沒得獎,而是把MVP票數、名次都有考量進去
因此就算是"失準"那幾年,可以發現其實一二名結果差距也不大
2. 預測投票不是預測氣象,太多人的主觀情感在裡面,我覺得能有這樣的準確度應該是
可以參考了
3. 當然這個東西只是模型,不是定理,100個人會做出100個不一樣的模型,就跟BBRef
上面一堆的XX probilities一樣,參考一下就好
寫個"被偷"只是想增加娛樂效果,若有冒犯敬請見諒
推 reihane: 用過去38年資料訓練的模型,預測過去38年的資料,準度會高也是正常...146F 04/30 10:40
推 MaxwellsEQ: 38中32很不錯了,硬要都中會有overfit風險150F 04/30 10:41
推 redsa12: 結果很有趣 但想糾正一個語病 這個不叫回測 你只能152F 04/30 10:41
→ redsa12: 說是模型預測的結果和現實符不符合
回測必須要有明確的in-sample out-of-sample154F 04/30 10:42
那如果用"驗證"可以嗎?
推 COTOYO: 姆斯都被控衛偷157F 04/30 10:44
噓 tim900127: 照某些人的這講法加今年龜龜應該有四座Mvp了159F 04/30 10:45
→ kai08130623: 因為得獎的是Rose才說偷啊,如果當初是DH拿也會被說偷160F 04/30 10:46
噓 tim900127: 龜龜連續三年場均大三元怎麼沒給他三座再加上今年應該要四座MVP了 把龜龜的給我還來162F 04/30 10:49
推 redsa12: 就說"預測"就好啦 別說"回測"166F 04/30 10:50
推 GaryOp: 居然有學店GPA 1.9的說模型簡單168F 04/30 10:52
推 tomoti: 推模型,還我老大一個清白(誤169F 04/30 10:52
推 kevinlook: 笑死一堆人捧金筆結果跟阿肥差距超大 哈哈176F 04/30 11:03
推 cama: Nash就白人加權保障名額 季後賽就穿幫了179F 04/30 11:10
另外補充幾點在討論中看到的:
1. 跟PTT鄉民一樣,Reddit鄉民普遍認為narratives(風向)是一個重要但是難以量化
計算的參數
2. 由於NBA的球風不斷地在改變,投票者的口味也可能跟30年前大不同,有人建議應該給
予較近期的投票結果比較高的權重。也有鄉民建議可以分析並考量30年前跟現在投票
者看重的數據的差異(例如:會不會30年前的投票者比較看重籃板,而現在的投票者
比較看重三分命中率?)
原作者有說會把這些東西放入to-do list,就看看之後會不會有更好的模型出來囉
推 yj80039: 哈登那年真的被偷180F 04/30 11:13
推 fsttt: 如果模型用過去38年的資料訓練模型,然後又拿同樣的資料驗證模型表現,那為何準確率不是100%啊?有資料科學大師願意解惑嗎184F 04/30 11:16
推 cktony: 推喔,感謝分享以及建模的天才188F 04/30 11:17
推 matsuwu: 上面因為實際上選MVP是「人選」不是跑數字出來決定用人選自然不會是100%統一的標準189F 04/30 11:19
→ matsuwu: 但這模型算是非常好預估未來人選的方式192F 04/30 11:20
推 a3221715: 金筆這麼低喔? PER數據很好欸193F 04/30 11:20
推 edq02yc: 叫濤哥來看看,這才是真的大數據195F 04/30 11:21
→ a3221715: 如果老漢受傷 他沒受傷的話8成是他 結果跑個模型那麼低198F 04/30 11:22
推 wind1193: 這頂多能說用來解釋過去怎麼評斷的 但是過去不代表未來200F 04/30 11:22
推 iamgoodboy: Nash真是白人膚色加持,總教練
也是空降,mvp也是空降202F 04/30 11:22
推 roger2623900: 11年這模型算出來也超接近啊 姆斯2.37 Rose2.23 把勝率加權多一點不就是Rose贏了XD 組三巨頭勝率輸公牛還能說被偷喔?205F 04/30 11:24
※ 編輯: timmyen (111.248.194.238 臺灣), 04/30/2021 11:26:13
推 TVXFQ: 身家歐印阿肥208F 04/30 11:25
推 swwf: 這很讚啊 ^^210F 04/30 11:31
推 job3904: 這學期做project 也用了簡單的ML預測UFC對戰214F 04/30 11:35
推 sk050607: Nash是以退役、且得超過一個MVP,但唯一沒打過總冠軍賽的球員,這程式的準確度,我覺得還是有的215F 04/30 11:36
→ sk050607: 丹東尼小球最大化了Nash,但也就只有摸到西冠而已218F 04/30 11:38
推 zakijudelo: joker不是說他今年得分、籃板、助攻都排在前五,抄截也在前十,沒給他說不過去吧219F 04/30 11:38
推 dynamis: nash史上第一控,年度mvp兩顆221F 04/30 11:39
推 gunies1111: 準確率不是100%是在overfitting與underfitting之間的trade-off 當然你可以訓練模型讓它在“既有的”資料準確率100% 但這可能會讓你的模型過度擬合訓練資料 反而在面對我們真正感興趣的預測未知資料時失去準確度223F 04/30 11:39
推 sasewill: 冷笑話這麼厲害,怎麼在尼克湖人都玩不起來還要等到有幫主,反而Nash還是能進西決,誰罩誰還不好說229F 04/30 11:43
推 dynamis: 推nash這輩子沒打過冠軍戰,年度mvp兩顆231F 04/30 11:43
→ scratch01: 今年金筆應該還是出不了東部,MVP就別肖想了234F 04/30 11:46
→ gowaa: 1984前的不去算嗎235F 04/30 11:49
推 thenick: 這個換個模型結果就完全不一樣了236F 04/30 11:50
→ GABA: 肥VP237F 04/30 11:52
推 AHEAD099: 這是把38年票選結果和可量化數據丟進去train出一個最符合票選結果的各項數據權重 無法考量人為主觀因素 結果有些誤差是正常的238F 04/30 11:55
噓 njunju: 結果沒看Nash打球的Nash粉跟你說就是這兩座MVP>Kidd&CP3241F 04/30 11:55
推 smith2012: 怎麼能把training data和testing data混在一起阿,這樣就跟球員兼裁判一樣243F 04/30 11:56
→ njunju: Nash那兩座也吃不少香妹、阿罵的buff
當時太陽各項最大貢獻指標 Nash也沒第一 防守又是洞246F 04/30 11:57
推 b2209187: Nash當年是真的有偷了大歐MVP的感覺248F 04/30 12:02
推 somanyee: 這才是有價值的文章!立馬all in251F 04/30 12:06
推 gunies1111: 這種資料量這麼少的可能是用LOOCV吧 不太可能直接切training testing data252F 04/30 12:09
→ ghostxx: MDA把能力夠強的持球者極大化對於這種競爭真有效益254F 04/30 12:09
推 lulululula: 拿training data verify 還只有32/38,這model感覺不太行欸256F 04/30 12:11
噓 ziggyzzz: 一堆人根本沒點進去看演算法ㄏㄏ259F 04/30 12:17
推 jason770301: 去賭博網站all in 阿肥了!!!! 翻身就靠這一發!260F 04/30 12:19
推 chriscko: 感覺這套數據對前場有利一點點267F 04/30 12:28
推 OyAlbert: 哇,這戰點好足,偷mvp的原來是268F 04/30 12:33
推 PizzaKK: 我先 狗鼻偷MVP269F 04/30 12:34
推 ksuenjjr: 板上一堆機器學習大師,看來要看李宏毅學學了270F 04/30 12:38
→ efoxx1155: 內文是說用decision tree?272F 04/30 12:40
→ karmel: 該修林軒田機器學習了QQ273F 04/30 12:42
推 hyc0725zz: 推量化!老詹原來有兩座寄放在別人那276F 04/30 12:57
→ wseb: 38年樣本算少嗎?..就幾乎所有的記者投票都算進來了281F 04/30 13:12
推 kei1823: 是只有算有得票的嗎?282F 04/30 13:16
→ Noxus: 詳細欸283F 04/30 13:29
推 xman262: 罰球次數也算?難怪一堆碰瓷mvp284F 04/30 13:29
我覺得罰球這數據蠻有趣的,我猜測是聯盟捧的球星通常罰球多,通常也同時是MVP熱門
罰球多是果不是因
推 pp3435: 看來這模型挺客觀的286F 04/30 13:37
噓 leo19841010: 那幹嘛還票選,跑數據就知道MVP了,整天偷不偷一點意義都沒有,難不成還要打星號287F 04/30 13:37
推 HsiangFly: 這數據少了 聲量 跟 連莊遞減效應289F 04/30 13:41
推 kuiyy: 有趣290F 04/30 13:41
推 ivo88114: 38年就出錯6年 還不用修正嗎291F 04/30 13:42
→ mbmh: MVP很重話題的印象分啊,不然也不會雷霆全隊配合龜龜刷場均大三元了292F 04/30 13:43
※ 編輯: timmyen (111.248.194.238 臺灣), 04/30/2021 13:45:01
→ mbmh: 話題熱度延續到季末 MVP就get了294F 04/30 13:44
噓 justice0926: 明明就有答案了 就不準確啊 明顯少了一些無法量化的數值(外部因素 如 審美疲勞)297F 04/30 13:53
推 eric6616: 兩個姆斯都被偷兩座mvp 摳憐299F 04/30 13:56
推 Tawara: 他的“預測”是指預測訓練集裡面的數據?301F 04/30 14:09
→ banker5566: AI是需要資料去學習,數據量越多會越準確,mvp才幾個還有需要考慮投票者突然腦袋斷線因素303F 04/30 14:16
→ shifa: 首先要思考的是基本上不存在數據不夠漂亮結果拿MVP的狀況。所以這一篇夯不啷噹列了25個指標,也就是更加強「堆數據=MVP」的推論。所以可以玩味的是這模型的6個例外是不是有什麼重要資訊是沒有涵蓋在在25項指標內。306F 04/30 14:32
推 peadon: 原PO在心得&回覆上的見解與氣度令人欽佩312F 04/30 14:44
推 a123456cg: 這個不會過度耦合嗎?如果用訓練資料的模型再去跑測試資料?314F 04/30 14:49
推 IRPT001: 史上最__mvp316F 04/30 14:50
推 AnnaOuO: 還我姆斯2座MVP獎杯==319F 04/30 15:02
推 sakura8: 很有趣又有深度,謝謝原po分享。希望以後能多點這種文章320F 04/30 15:20
推 VVinSaber: 羅斯那個就聯盟捧加姆斯那年是反派 不算偷吧324F 04/30 15:42
推 sck921: 就說LBJ被Rose偷MVP325F 04/30 15:59
推 gcar: 所以以數據化來看,cp3表現最好的那年其實不輸給Nash331F 04/30 17:24
推 bighead7987: 全票MVP沒毛病,差距那麼大,我阿嬤都知道要給Curry~335F 04/30 18:47
推 drajan: 38個資料點 恐怕很難做什麼有意義的學習337F 04/30 18:52
噓 trayman: 數據都出來了 老詹就真的數據疲勞被偷至少兩座mvp 幸好真的夠猛 現在成就還是聯盟第一339F 04/30 19:29
推 lunkk: 西強東弱的因素也沒有放進模組342F 04/30 20:26
推 homenet9: 該戰的全戰了,機器學習真的好棒棒346F 05/01 00:35
推 kobe7785075: nash拿是因為太陽戰績好 外加帶起小球球風 有時mvp真的蠻印象派350F 05/01 08:48
--