8 強已出現巨大落差?來看看 Machine Learning 預測世界杯賽果有多準確吧!
世界杯將要進入八強對決,大家支持的隊伍出局了嗎?(順帶一提,編輯部所有人支持的隊伍都出局了),這一屆的冠軍實在難以預測,尤其是德國、阿根廷、西班牙等傳統強度相繼出局的時侯,賭賽的賠率也浮動得相當厲害。談到賽局,大家還記得在世界杯開賽之前不同企業都嘗試利用 Machine Learning 預測比賽結果嗎?很可惜他們演算出來的結果和現實有著很大的距離。
是代表 Machine Learning 不適合用來預測足球比賽嗎?還是數據量嚴重不足呢?
Andreas Groll 採用 Random Forest 演算法:德國應該是冠軍
在比賽之前,德國 Technical University of Dortmund 的研究學者 Andreas Groll 已經進行預測,認為德國再次獲得世界杯的機率最高,甚至對上巴西有 64% 的勝率。他採用的方式是 Random Forest 演算法,這是一種 Supervised Learning 方式,基於以往的數據生成大量的 Decision Tree ,再用多次的演算去產生出多次的隨機數據,取最高機率的事件作為「結果」,理論上越多選擇樹的生成,準確度將會越高;同時這個算法的可以見到哪一類數據對結果影響最大(也就是獨立項目與結果的 Co-relation)
到底 Groll 利用什麼數據去預測結果呢?當中包括國家的 GDP 及人口(冰島處於絕對劣勢…),FIFA 的國家排名,每個隊伍的球員數字(例如年紀),以及每一隊有幾多位明星球員等等,當中亦加入了「主場之利」的考量。
過程他們進行超過 10 萬次的模擬,最初的結果顯示西班牙有 17.8% 機會贏得今屆世界杯,次熱門的是德國,但經過多次演算之後德國的機率重新壓過西班牙,當然我們知道這兩隊都已經出局了。
他們的研究方法大家可以參考這份文件,事實上他們有考慮到如果避免 Overfitting 的問題,雖然準確度不高,但方法是值得參考的。
高盛使用超過 200,000 個不同方式演算 100 萬次,冠軍將會是巴西?
除了學術研究之外,世界杯的結果將會大幅影響商業活動比如廣告等,大型評測機構亦會進行賽事預測。高盛 Goldman Sachs 之前就運作超過 20 萬個 models ,利用球員的各種特徵、數據主行計算,再進行了 100 萬次的聯賽推演,最後他們認為巴西是最有機會得到冠軍的一隊。
暫時巴西仍未出局,但高盛預測他們在決賽將會對上德國或是葡萄牙將無法成真,畢竟兩隊都已經出局了,如果以現時的數據來看英格蘭、法國、巴西都是現時的熱門;同時我們留意到他們對 16 強的預計與事實有很大落差,例如俄羅斯成功晉級 8 強是他們料所未及的阿根廷與葡萄牙都比他們預計更早出局,而 Machine Learning 計算出來的冰島及沙地阿拉伯都無法晉級,我們可以看到預測的準確度仍然值得質疑。
如果我們看看對局表, 8 強裡面預測準確的只有 4 隊,大約 50% 左右,是因為變數太多,還是模式出錯呢?這方面就有待大家自己判斷了!