足球比賽的進球規律-泊松分布

本文重點解讀足球比賽與進球相關的數據。

通過數據分析發現:

  • 歐洲職業足球比賽場均進球數為2.71個(2008/09至2015/16賽季)。
  • 歐洲職業足球比賽確實存在主場優勢:主隊獲勝佔46%,客隊獲勝佔29%。
  • 最常見的比分是1:1。
  • 足球比賽進球數服從泊松分布。
  • 職業足球比賽的場均進球數過高或者過低都會損害其魅力。

泊松分布

離散型隨機變數 X 的所有可能取值為0,1,2,...,且取各個值的概率為:

P(X = k) = frac{lambda^ke^{-lambda}}{k!}, k = 0,1,2,...

其中 lambda>0 為常數,則稱 X 服從參數為 lambda 的泊松分布。

另, lambda 為事件出現的期望值。

驗證足球比賽進球數是否服從泊松分布的步驟

  1. 利用泊松分布模型對足球比賽的進球數數據進行擬合,得到對 lambda 的估計。事實上,這一過程相當簡單,因為由概率論與數理統計的知識可以知道,對 lambda 的估計就是場均進球數。所以第一步就是計算場均進球數。
  2. 利用泊松分布模型和場均進球數,計算出進球數的理論計算分布。
  3. 比較實際數據與理論計算分布,如果非常接近,就說明足球比賽的進球數分布服從泊松分布。結果如下。

主隊進球數分布

客隊進球數分布

從以上兩個結果可以知道,足球比賽進球數確實服從泊松分布。

下面利用泊松分布進行推廣計算。

總進球數分布

總進球數也應該服從泊松分布。這是因為:主隊進球數 ~ P(lambda_{home}) ,客隊進球數 ~ P(lambda_{away}) ,所以總進球數 ~ P(lambda_{home}+lambda_{away}) (詳細推導過程請查看鏈接)[1]。

主隊與客隊之間的凈勝球分布

因為主隊和客隊的進球數服從泊松分布,由理論推導可知,兩隊的凈勝球數服從skellam分布(詳細推導請參看鏈接[2] [3])。

比賽勝平負比例

利用泊松分布模型和場均進球數還可以預估出足球比賽勝平負的總體比例:

預測的比例和實際比例非常接近。

另外一個從圖中可以得到的結論是:主隊獲勝佔46%,雙方打平佔25%,客隊獲勝佔29%。這表明歐洲職業足球比賽確實存在主場優勢。

從下圖也能得到同樣的結論。在所有11個歐洲職業聯賽中,主隊的場均進球數都要比客隊多。這表明,主場優勢是普遍存在的。

各種比分出現的比例

利用泊松分布模型和場均進球數還可以估計各種比分的出現比例(區分主客隊,主隊在前,客隊在後。比如,1:0代表主隊1:0客隊,0:1代表主隊0:1客隊)。

預計最常見的10種比分為:

比分 | 估計比例

1:1 11.98%

1:0 10.32%

2:1 9.26%

2:0 7.97%

0:1 7.76%

1:2 6.96%

0:0 6.68%

2:2 5.37%

3:1 4.77%

0:2 4.50%

實際最常見的10種比分為:

比分 | 出現比例

1:1 11.60%

1:0 10.17%

2:1 8.39%

2:0 8.21%

0:0 7.61%

0:1 7.17%

1:2 6.39%

2:2 5.04%

3:1 4.64%

0:2 4.64%

理論估計和實際情況非常一致。在當前場均進球數的情況下,足球比賽最可能出現的比分是1:1,其次是1:0,然後是2:1和2:0。

由以上的分析可以知道,足球比賽的進球數確實服從泊松分布。這樣的規律廣泛適用於所有的足球比賽,而不限於歐洲足球比賽。只要我們知道了某一個聯賽或者杯賽的場均進球數這一數據,我們就能利用泊松分布和場均進球數估計出所有比賽的進球數分布、比分分布和比賽結果分布。

場均進球數

某種程度上說,足球比賽的場均進球數定義了其魅力。進球率過高或者過低都會損害足球的魅力。

假設足球比賽的進球率變低:主客兩隊每場比賽平均只能打進0.8球,即總場均進球數為1.6。則由泊松分布可以計算出此時各種比分出現的可能性為:

比分 | 估計比例

0:0 20.19%

0:1 16.15%

0:2 6.46%

0:3 1.72%

1:0 16.15%

1:1 12.92%

1:2 5.17%

1:3 1.38%

2:0 6.46%

2:1 5.17%

2:2 2.07%

2:3 0.55%

3:0 1.72%

3:1 1.38%

3:2 0.55%

3:3 0.15%

此時0:0出現的可能性最大,佔到了所有比賽的1/5。每場比賽最多能看到兩個進球的概率為78%。進球率過低會使得0:0的比賽變多,沒有進球比賽就變得乏味,相信這樣進球率的「足球」不會有太大的吸引力。

另一方面,進球率過高會使得強隊獲勝的可能性增大。

假設強隊場均進球率為1.5,弱隊進球率為1。由泊松分布計算出此時比賽勝平負的比例為:

強隊獲勝概率估計:48.79%

雙方打平概率估計:25.98%

弱隊獲勝概率估計:25.22%

當進球率提高1倍後,強隊場均進球率為3,弱隊進球率為2。此時比賽勝平負的比例為:

強隊獲勝概率估計:58.53%

雙方打平概率估計:16.77%

弱隊獲勝概率估計:24.70%

可以看到,進球率過高,會使得強隊獲勝的可能性增大,弱隊爆冷的可能性降低,比賽變得沒有懸念。

因此,職業足球比賽的場均進球數控制在2~3之間是一種非常精妙的設計,這樣的進球率是職業足球的獨特魅力之所在。

技術說明

  • 詳細數據分析過程(含代碼):足球比賽的進球規律。

推薦閱讀:

TAG:足球 | 數據分析 | 泊松分布 |