數據有可能失真嗎-從籃球淺談運動數據之一:平均數

一場運動比賽結束後,賽後的數據分析當然是必要的,但面對為數眾多的數據資料,該如何讓它們更淺顯易懂呢?毫無疑問的,當然得運用統計學,而當中最容易、也最常使用的工具之一便是平均數,因此在運動數據的統計當中,平均數可說是相當重要的參考資料。

以籃球為例,打開每位球員的個人檔案,除了球員的簡介與經歷之外,也會列出他在每一個球季的平均數據,像是平均的得分、籃板、助攻、抄截,與阻攻等等,縱使對這位球員的了解不深,但藉由這些數據仍然可以對他的水準與表現略知一二。

那麼,像是平均數這樣的數據有可能失真嗎?在討論這個問題前,我們可以先對平均數做一些簡單的認識。

平均數即為算數平均數(英文則是average或是mean皆可),主要是呈現資料的重心所在(請注意,可不是呈現資料中間的數值,否則就變成中位數了),在計算上相當容易,公式如下:

請繼續往下閱讀
closearrow_forward_ios閱讀文章Powered by GliaStudio

◆ 看起來不太直覺的平均數計算公式,其實就是把所有資料加總,除以資料筆數。(照片來源:筆者自製)


以下以一個簡單的例子來說明:湖人隊球員D ‘Angelo Russell在今年熱身賽的前五場比賽得分各別是:4分、21分、33分、12分、31分,那麼他在這五場熱身賽的平均得分即為(4+21+33+12+31)/5=20.2分。

由於對於資料有高敏感度,也因此平均數相當容易受到數據資料的大小而產生變化,對於資料當中異常大或小的離群值更是如此,因此平均數是否會有失真的可能?確實有可能,只要有大小較極端的數據或離群值的存在就可能造成影響,特別是資料的數量較少時更是如此。


◆ 離群值的公式其實就是計算Z分數,將可能為離群值的數據減去平均數,再除以標準差。(照片來源:筆者自製)


離群值的判定可以透過Z分數來計算,小於-3或大於3即為離群值,也可以說是:小於或大於平均數三倍標準差的就是離群值。至於標準差的計算方式,在此就不另外贅述,有興趣的朋友們可以參考維基百科的介紹,並用統計相關軟體進行計算即可。


◆ 2004年雅典奧運的美國隊教練為最不愛用新人的Larry Brown,因此首次參加奧運的Carmelo Anthony該次賽事的平均得分僅有2.4分…似乎也沒有令人很意外。(照片來源:getty images)


再以一個簡單的例子來做為離群值的說明,Carmelo Anthony一共打過四次奧運,在這四次奧運的平均得分各別是2.4分、11.5分、16.3分、12.1分、10.8分,那麼看似最少的2.4分(2004年雅典奧運的平均得分)是否為Carmelo Anthony在奧運賽事中平均得分的離群值呢?經過筆者計算後得到的Z分數為-1.8126,並未小於-3,因此在統計學上仍不算是離群值,不過相信這依然會對Melo在奧運生涯的平均得分造成一些影響。

請繼續往下閱讀

冗長的數學說明就到此為止。回到開頭提到的,Kobe Bryant在2006年1月22日單場攻下81分,是否可能成為影響該賽季平均得分的離群值呢?


◆ Kobe Bryant在2006年創下的單場81分紀錄,僅次於Wilt Chamberlain的單場100分紀錄高居史上第二,也成為該季中的得分離群值。(照片來源:getty images)


以統計學的角度來看,經過筆者的計算,答案為:是的。

Kobe Bryant在2005-2006年賽季的平均得分為35.4分,標準差經筆者計算後為10.44342,最後得到的Z分數為4.366386,有大於門檻值3,因此算是離群值。


◆ Chauncey Billups​的季後賽初體驗是在2001年的灰狼隊時期,平均上場時間僅有8.7分鐘,也不難想像當時可以表現的機會其實不多。(照片來源:getty images)


事實上離群值的例子並不多見,如果是在資料數量夠多,或是數據資料的範圍波動不大的情況下,也不見得會對平均數造成很大的影響,因此平均數的參考性仍相當高,而縱使許多看起來已經貌似離群值的數據,實際上也依然還不到統計學所定義的標準。好比Chauncey Billups在2001年時初嘗季後賽滋味(當時是在明尼蘇達灰狼隊),雖然該年的季後賽平均得分僅有1分,不過綜觀他在生涯中的季後賽平均得分,經計算後發現依然不算是離群值(最後計算所得的Z分數為-2.36167),不過這仍然會拉低他在生涯季後賽的平均得分。

請繼續往下閱讀