看板 NBA作者 y800122155 (@__@)標題 Re: [外絮] 用機器學習模型預測MVP得主時間 Fri Apr 30 13:33:16 2021
大略看了一下原文
提供我的一點淺見
首先
使用機器學習處理問題
是假設實際存在一個真實的模型
接著透過資料訓練出一個模型盡可能接近真實的模型
然後我們就可以拿訓練出來的模型對新的資料做預測
但是在這個問題上面
MVP票選並不是一個固定的模型
投票的人不一樣 投票的思維也不一樣
即便是同一批人 重新投一次票結果可能也不會一樣
因此
在這種問題上使用機器學習
甚至是各種資料科學的方法都可能存在不小的問題
資料的選取也很奇怪
作者的目的是建構一個
預測MVP得主的模型
但實際上
他建構的是
預測MVP得票排序的模型
作者為了讓訓練資料更多
把資料做了一個特別的調整
將原本的
單一年度單一球員的資料(features)+是否為MVP(label)
調整成
整個MVP票選結果排序中任意兩兩一組+誰的票多
具體詳細做法也沒有揭露
這樣的做法存在非常大的問題
因為同類型的球員會有分票效應
你不會知道把第一名的球員抽出之後
原本投給他的票會如何地分配給後面的球員
整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果
但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料
然後最重要的是模型訓練方式跟模型評估
除了揭示使用了 XGBoost與LambdaMART 外
其他
所有重要資訊都沒有揭露
我們無法得知所有的38年之中
哪些年份被拿來做為訓練資料
或是每個年份中哪些兩兩成對的組合是訓練資料
當然更不會知道訓練出來的模型評估結果好或壞
也不無可能作者把訓練資料跟測試資料反覆做各種分切
最後選取一種最滿意的切法做最後的建模
這樣做就會造成 data leakage 的問題
大概先這樣
---
如果有太複雜的ML問題
建議寄站內信給前站長 CharlieL
XD
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣)
※ 文章代碼(AID): #1WYvQV57 (NBA)
※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619760799.A.147.html
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15
→ shifa: 原來他不是用38年來的所有球員數據去跑的喔6F 04/30 13:46
推 somanyee: 身為外行人,這篇是不是說原始方法看起來有點問題,就算是32/38猜中,可能是湊?10F 04/30 13:47
→ shifa: 簡單說這篇提出的疑問是訓練的方法有問題。
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD12F 04/30 13:50
推 ykshih: 他應該是把 38 年來的全丟進去跑然後用個普普的模型所以不會 overfitting,但這種跑法根本沒意義14F 04/30 13:53
→ ykshih: 只能說有幾年的評分標準稍微不一樣而已
和偷不偷根本沒啥關係17F 04/30 13:53
推 NPLNT: 推20F 04/30 14:00
推 handfox: 認真了,大家只是需要找個可以吵起來的理由21F 04/30 14:02
推 GeeBen: 投票的人才是真的
中肯22F 04/30 14:04
推 wpd: 算力乖乖拿去挖礦好嗎??26F 04/30 14:13
→ nask: 不過就是因為不是固定模型才要機器學習阿 不然excel數據列一列就好了27F 04/30 14:13
這樣的說法是完全錯誤的
幾千筆資料,幾十個欄位,excel是要隨便弄個回歸交差嗎?
推 callTM: 他的sample size 就不夠大要怎麼train?30F 04/30 14:16
推 k7626773: 專業推,很多留言不知道為什麼一直跳針32/38。看懂model怎麼出來的比其他事情重要多了…33F 04/30 14:24
推 NLchu: 就統計而已30左右的樣本數跟沒有一樣36F 04/30 14:26
你對樣本的認知有很大偏誤,並不是一整個年度作為一個樣本
→ NLchu: 頂多就是算個趣味給大家看一下打發時間而已37F 04/30 14:26
推 yellowbooky: 其實量化分析樣本數最少30這是學術界公認的,30不會不準39F 04/30 14:35
統計學上,以30或25個樣本作為足夠大的樣本來近似常態分佈,
並以常態性假設進行後續分析工作。
但是機器學習需要的資料量跟前述工作完全是兩回事,不可混淆。
→ shifa: 要發戰文其實也用不到機器學習來跑,鄉民拿幾個指標配上自己愛的權重去給分數,分數最高的就當MVP。這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上有看過類似的。原文那樣子應該比較像是拿NBA數據來當練習的成果發表吧?42F 04/30 14:36
推 sunnyyoung: XD 這種類型的模型好像蠻適合當學校的課程專案的49F 04/30 14:52
推 pheather: Comments from Reviewer #1:50F 04/30 14:52
→ shifa: 我是覺得這case不太好,因為MVP跟數據表現重疊性
太高,基本上數據漂亮的球員MVP呼聲就高52F 04/30 14:54
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 15:02:23
→ shifa: 而且原文用了25個指標再做模型,搞不好結果沒有直接看PER來得簡單 XD
*"在"做模型54F 04/30 14:57
推 swatch44: 以後直接看per就好了啊 其他都妖魔鬼怪57F 04/30 14:59
推 DemonRing: 我建議採用 Palantir 的服務59F 04/30 15:11
→ thunderman: 真實世界問題本來就一堆問題沒人知道是否真有模型像人喜歡看什麼影片真的有模型嗎?only God konws但yt跟Netflix一樣用ML train出東西來推薦影片給你重點應該要放在是跑出來的結果有沒有用60F 04/30 15:17
推 VIATOR: 推shifa,配上自己愛的權重去給分數就好了...64F 04/30 15:17
推 erosha: 濤哥沒機會秀一把 不然一定屌打66F 04/30 15:25
--