看板 NBA作者 timmyen (Ako)標題 [外絮] 用機器學習模型預估MVP得主時間 Fri Apr 30 09:43:54 2021
今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。
小弟不是學資料科學的,如果內文有誤也請不吝指正
原文:https://perthirtysix.com/essay/2021-nba-mvp-race
懶人包:
作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果(包含排名及票數)
建造了一個預估球員得到MVP的機率以及MVP得主的模型,
利用這個模型,在過去38年中可以正確的計算出32年的得主。
在這個模型中,各項球員數據的權重(也就是這個模型認為影響MVP票選最重要的數據)
依序如下:
https://imgur.com/33ouqUG
球隊勝率%
每場上場時間
球隊種子序
WS/48
每場得分
出賽場次
VORP
2分命中率
罰球次數
助攻數
每場籃板
整體命中率
BPM
Usage%
每場失誤數
真實命中率
(以下不列,可以自己看圖)
模型利用以上數據算出每一個球員的candidacy score
這個分數越高者,即是模型認為越有可能得到MVP的人選
要特別說的是,某些數據本身是互相有關聯性的(譬如:兩分/三分命中率及整體命中率,
或是整體命中率跟一大堆進階數據),由於已經被重複計算過,因此單項的權重會降低,
不代表這項數據就不重要。
===
幾個有趣的結果
1. 誰是這38年來MVP分數最高的球員?
答案是08-09年的姆斯,分數高達4.49
2. 那最低分的MVP得主又是誰?
答案是04-05年的Nash,他當年的分數只有1.09
3. 誰的MVP被偷了?(誤)
剛剛提到38年中這個模型成功預測出32年的MVP得主,
這也代表其中有6年模型預測跟最終的結果是不一致的,
(1) 2016-2017年的MVP,模型預測得主是Harden(2.73),最終由當年拿下平均大三元
的Westbrook(2.44, 第二)拿走MVP
(2) 2010-2011年,當年分數最高的是LBJ(2.37),最終MVP被Rose(2.23)拿走。
(3) 2004-2005年,也就是上面提到,Nash以史上最低分(1.09)拿下MVP的那年。
當年屈居第二的是Shaq (1.12,其實沒差很多),也難怪他老人家到現在還在記仇
另外,隔年(05-06)Nash連莊時MVP分數也不是第一(1.8),
當年分數第一的是LBJ(2.25),只能說Nash真的是這個模型的outlier
4. Kobe到底有沒有偷了CP3一個MVP?
如果用這個模型看,答案是沒有,當年(07-08)Kobe以2.62分拿下MVP,
屈居第二的CP3分數是2.2分
5. 38年來最大的一二名差距發生在1999-2000年,當年大歐以3.71分拿下MVP,
分數第二的是Alonzo Mourning -- 0.7分 (票選第二的是KG,分數0.55)
另外,Curry全票MVP那年分數是3.47分,第二名的可愛1.89分,也是不小的差距
6. 那今年的MVP會是誰呢?
模型預測今年的MVP會是阿肥Jokic
https://imgur.com/KRIWmS9
本賽季截至目前為止,MVP分數最高的三人分別是
Jokic (2.02)
字母哥(0.26)
Embiid(0.04)
非常巨大的差距
====
有興趣的版友可以去看看這個模型是怎麼建出來的
裡面有個"Explore 1984 - 2020"可以拉出這38年間所有模型跑出來的結果
https://imgur.com/ZU04aVC
Reddit討論:
https://www.reddit.com/r/nba/comments/n150xj/
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.194.238 (臺灣)
※ 文章代碼(AID): #1WYs3Uo8 (NBA)
※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619747038.A.C88.html
※ 同主題文章:
[外絮] 用機器學習模型預估MVP得主
04-30 09:43 timmyen.
推 depo: 推數據化4F 04/30 09:47
推 lienray: 這不難就machine learning。python簡單寫11F 04/30 09:49
推 tingx2: COOL~15F 04/30 09:50
推 TWN56ers: 有趣喔 這個
不過真的有看球的就知道CP3那年MVP沒被偷17F 04/30 09:51
推 AtDe: 今年jokic是真的夠強,重點是幾乎沒缺陣19F 04/30 09:52
推 icou: 完了完了 這預測結果 幾個可戰的點都戰了(誤
現在MVP啊肥的國外賭盤是多少啊? 1.01?20F 04/30 09:53
推 kkb512sk: 濤哥的雞排我還沒領到有人知道他在那嗎?22F 04/30 09:55
推 zephry: all in 阿肥了23F 04/30 09:55
推 MrSatan: 2008 每周MVPRank 倒數二周CP3第1 最後一周Kobe超車24F 04/30 09:55
→ icou: 濤哥的宇宙艇論我猶言在耳25F 04/30 09:55
推 IAMGRICE: 喔喔喔這modeling 屌喔26F 04/30 09:56
→ icou: 不過我還以為分數最高會是73的咖哩27F 04/30 09:56
→ IAMGRICE: (1)當年雷霆西區第六,龜拿真的是偷鬍子,不然就2連霸了
(2)姆斯當年有拿下,是MVP五連霸...29F 04/30 09:58
推 ke1210: LBJ被偷兩次 好衰32F 04/30 09:58
推 william7497: 剛好在吵Nash的兩屆MVP,結果都不是該年最高分33F 04/30 09:59
推 turnpoint: 分數測不準的那幾年幾乎都是因為所謂話題性頒獎的38F 04/30 10:01
推 Kappa: 引戰模型 我詹又要出來炒一波話題了41F 04/30 10:02
推 jardon: 說好的美國選舉人團支持咖哩勒42F 04/30 10:02
推 cp3bg32: 人看得出來組團抱腿 機器看不出來46F 04/30 10:04
推 IAMGRICE: 所以這個model的結果,應該也間接可以選出年度隊伍了47F 04/30 10:04
推 sunnyyoung: 不過光勝率和排名 這模型就不夠客觀 如果要加入不客觀因子 那完成特殊成就也該列為一個50F 04/30 10:05
→ kevin0733: 是不是可以增加參數 讓回測38次都符合最後結果
這樣用來預測之後才會更準確53F 04/30 10:05
噓 sxzc: 金筆還有什麼話要說嗎 差這麼多還是好好打自己的東部賽程吧 MVP沒你的事 別放話了55F 04/30 10:06
→ kevin0733: 有六次不符合 表示當年投票的人考慮其他因素57F 04/30 10:06
推 society: 勝率跟排名一直以來MVP投票都會考慮,也不能說不客觀61F 04/30 10:07
→ society: 反而是破數十年紀錄,審美疲勞跟小人物出頭天這種很難量化66F 04/30 10:09
推 samzi: 誰是史上最弱mvp呢?68F 04/30 10:10
推 coox: 絕對是阿肥69F 04/30 10:10
推 RBC54321: Shaq那年也差距太大了吧71F 04/30 10:11
→ kevin0733: 已經明顯會那就影響結果了 那就更應該加進去73F 04/30 10:11
→ kevin0733: 誰當年有特殊成就(場均大三元) 連莊多次沒特別突出75F 04/30 10:12
推 kiralin: 誰敢偷我肥的MVP !阿肥加油拿下它80F 04/30 10:15
推 elvis047: 數據視覺化 簡單明瞭 推推81F 04/30 10:15
推 turnpoint: 年度大三元這個明顯是話題性考量,不然龜龜之後兩年也有年度大三元,MVP票選卻都沒票了,就是沒話題性了......82F 04/30 10:15
推 mirac1e: LBJ每年都被偷吧85F 04/30 10:16
→ jardon: 龜龜那年好歹模型算出來還是第二+大三元,拿沒很過分吧86F 04/30 10:16
推 fjuheadache: 用被偷走的講法好奇怪 依據合理解釋應該是模型預測失準 用被偷走感覺是肯定自己模型沒有錯88F 04/30 10:16
推 sxzc: 推回來91F 04/30 10:17
→ Pinka5566: 應該說姆斯偷了好幾年MVP吧 每年都抱團組三巨頭 最好笑的是11年熱火戰績輸公牛93F 04/30 10:18
→ jardon: 所以就引戰模型阿 紛爭是不可能停止的95F 04/30 10:18
推 homenet9: 該戰的全戰了,機器學習真的好棒棒346F 05/01 00:35
推 kobe7785075: nash拿是因為太陽戰績好 外加帶起小球球風 有時mvp真的蠻印象派350F 05/01 08:48
--