フットボールの結果についての数学的説明は、ポアソン分布から直接見つけることができる。ゴールはポアソン分に従っており、チームは平均して約1.4ゴールを決めている。ポアソン分布では分散と平均が等しい。標準偏差は1.4の平方根(ルート)であり、1.18である。従って、ノイズ(1.18)はシグナル(1.4)よりわずかに小さいだけである。Q.E.D.(証明終了という意味)

すなわち、シグナル(最強のチーム)は、ノイズ(何でも起こり得る)よりわずかに強いだけである。

ここにxG(Expected Goal、期待点)の希望の可能性がある。xGはチャンスの尺度であり、1回の試合でゴールよりもチームの質の良い指標を与える。一般的に、より少ないノイズとより多くのシグナルを含んでいる。

以下のグラフは経験則から、パフォーマンスの測定でのノイズの大きさがシーズンの試合数に応じてどのように減っていくのかを、どのような分析記事を書くべきなのかのお勧めとともに示している。
xG_writnig
最初の数試合では、xGでさえも傾向が見られない。戦術や選手の動きなど、「マッチレポートのみ」に固執するべき。

3-6試合で、連勝や連敗しているチームの「xGレポート」がうまくいくようになる。xGのノイズは、試合毎に0.5以下になり、ゴールよりも洞察力が増す。
フットボール統計学 条件付き確率とベイズの定理から考える結果と内容
フットボール統計学 条件付き確率とベイズの定理から考える3連勝の信頼度

7-16試合では、実際の得点がより合理的な測定となってくる。xGと実際の得点が矛盾している、今シーズンで言えばバーンリーのようなことが起これば、記事にすることができる。
xtable2311_900
17試合を超えると、16回のマッチの後、xGと実際のゴールのノイズの差は試合毎にわずか0.1だった。xGは数理モデルであり、実際の得点が現実である。何かの要因によって、数字よりも良い(または悪い)パフォーマンスとなる。シーズンが進むにつれて、xGの順位表は関連性や興味が無くなる理由であり、「実際の得点に集中する」必要がある。

これが経験則である。

シーズンを終えて、最終的な順位表はチームのパフォーマンスに関して最も良い見積もりである。一方、Statsbombの編集者James Yorke氏は、David Sumpter氏よりも保守的で、バーンリーは幸運であるというツイートからもよりxGを信頼していることがわかる。


補足すると、指揮官の交代や重要な選手の負傷の際には、シーズン開幕と同様の経験則を用いる必要がある。また選手個人についての評価では、標準偏差が大きくなるのでxGが有効である。



グラフの曲線
得点の測定誤差(ノイズ)の赤い曲線は、試合毎に平均で1.4ゴールが決まることに基づく。nを試合数として、誤差が1.4/nの平方根に比例すると仮定する。ポアソン分布の信頼区間を測定する方法は少なくとも19通りあり、ここで選択する方法は非常に単純である。nが増加するにつれて、より信頼性が増す。

xGの測定誤差(ノイズ)の青い曲線は、今シーズンのプレミアリーグのチームのxGの平均標本分散に基づいている。誤差は0.61/nの平方根に比例すると仮定する。推定値0.61は決して完璧ではなく、読者は自由に独自の値を試し、結果がどのように影響を受けるかを見ることができる。


最後まで読んでいただきありがとうございました。
コメントもたくさんお待ちしております。
Twitterのほうもよければフォローしてください。(@tenchan433)