ワールドカップで初戦は本当に重要なのか? (2018年版) [2018.7.6]

[2018.7.4 ベスト8決定の翌日 執筆] [2018.7.6 ベスト8初戦当日 細かい表現を修正]

気が付いたら4年が経っていた

4年に一度のお祭り、FIFA World Cupが今年も6月から開催され連日連夜の熱戦に寝不足気味の人も多い…かどうか分からないが、少なくとも私はこりもせず寝不足気味である。何はともあれ、今大会のデータも出揃ったのでそれを用いて初戦の重要性を検証してみようと思う。何故わざわざここで検証をしようかと思ったかについては4年前のエッセーを参照していただきたい。

前回の続き

というわけで、FIFAの公式サイト(および便利だったので部分的にwikipedia)のデータを使って実際に検証してみた。まずは前回同様グループリーグの勝ち抜け率を比較するという単純なやり方でとりあえずやってみることにする。具体的には32チーム制になった1998、2002、2006、2010、2014、そしてグループステージが終わったばかりの2018の6大会でそれぞれ本戦に出場した32チーム(計32*6=192チーム)のうち、条件に当てはまる(例: グループリーグ初戦で負けた)チームのグループ突破の結果について検証する。以後グループリーグを突破することを``Advancing"、グループリーグで敗退することを``Eliminated"と呼ぶことにする(「勝ち」「負け」は1試合での勝ち、負けを意味するとする)。Advancingする確率を以後AR(Advancing Rate)、二つのARの差をARD(AR Difference)と呼ぶことにする。 結論から言うと、定性的には前回から結果は全く変わらなかった。要するに 「初戦でPot1チームに引き分けたチーム」のARは「2戦目でPot1チームに引き分けたチーム」のARよりも(10%水準で)有意に高いが それ以外は相変わらず統計的に優位なARの差があるとは言えない

相関の確認

本題に入る前に各試合の相関関係を示しておく。
  • 「1試合目の勝点」と「「2試合目の勝点」」の相関係数: 0.258
  • 「1試合目の勝点」と「「3試合目の勝点」」の相関係数: 0.109
  • 「2試合目の勝点」と「「3試合目の勝点」」の相関係数: 0.048
1戦目と2戦目の結果の分布
2戦目
Win Draw Lose Total
1戦目 Win 35 22 16 73
Draw 18 12 16 46
Lose 17 18 38 73
Total 70 52 70 192

総数比較

単純に「初戦で負け」と「2戦目で負け」のチームのうちそれぞれAdvancingしたチーム数とEliminatedしたチーム数とARの比較、同様に「初戦で引き分け」と「2戦目で引き分け」の比較と「初戦で勝ち」と「2戦目で勝ち」の比較を行う。以後、「初戦の結果が2戦目の結果に比べてグループ突破に影響を与えるかどうか」の指標として「2戦目で負けたチームのAR」から「初戦で負けたチームのAR」を引いたARD、および「初戦で勝ったチームのAR」から「2戦目で勝ったチームのAR」を引いたARDをFME(First Match Effect)と呼ぶことにする。またARDがゼロ(つまり二つのARが同じ)であることを統計的に10%優位水準で棄却できる領域も示している。
初戦で負けたチームと2戦目で負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 11 1 9
2002 1 11 2 8
2006 2 11 1 11
2010 1 9 4 8
2014 3 11 1 11
2018 1 12 2 12
total 8 65 0.110 11 59 0.157
FME: 0.048
10%棄却域臨界値: ± 0.093
初戦で引き分けたチームと2戦目で引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 5 5 7 5
2002 6 2 8 4
2006 3 3 3 5
2010 7 5 3 5
2014 1 3 5 3
2018 5 1 2 2
total 27 19 0.587 28 24 0.538
ARD: -0.048
10%棄却域臨界値: ± 0.165
初戦で勝ったチームと2戦目で勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 11 0 8 2
2002 9 3 6 4
2006 11 2 12 0
2010 8 2 9 3
2014 12 2 10 2
2018 10 3 12 2
total 61 12 0.836 57 13 0.814
FME: 0.021
10%棄却域臨界値: ± 0.105

対戦相手の強さを考慮するとどうなるか

強さの指標として本戦のグループ抽選の際にシードとして扱われるPot1の8チーム(開催国および何らかの基準によるトップ7チーム、なお1998年と2002年は前回優勝国もここに含まれる)かどうかを相対的な強さの指標とし、対戦相手がPot1チームかどうかで更に場合わけをして以下の6種類の比較を行った。
初戦でPot1チームに負けたチームと2戦目でPot1チームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 5 1 5
2002 1 5 1 2
2006 2 5 1 4
2010 0 4 2 2
2014 2 4 0 4
2018 0 3 1 5
total 5 26 0.161 6 22 0.214
FME: 0.053
10%棄却域臨界値: ± 0.167
初戦でPot1チームに引き分けたチームと2戦目でPot1チームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 1 1 2 0
2002 1 0 2 1
2006 1 0 0 3
2010 3 0 0 2
2014 0 0 1 1
2018 2 1 0 0
total 8 2 0.8 5 7 0.417
ARD: -0.383
10%棄却域臨界値: ± 0.346 (5%棄却域臨界値: ± 0.413)
初戦でPot1チームに勝ったチームと2戦目でPot1チームに勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 1 0 0 0
2002 1 0 1 1
2006 0 0 0 0
2010 0 1 1 1
2014 2 0 2 0
2018 1 1 2 0
total 5 2 0.714 6 2 0.75
FME: -0.035
10%棄却域臨界値: ± 0.376

初戦でPot1ではないチームに負けたチームと2戦目でPot1ではないチームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 6 0 4
2002 0 6 1 6
2006 0 6 0 7
2010 1 5 2 6
2014 1 7 1 7
2018 1 9 1 7
total 3 39 0.071 5 37 0.119
FME: 0.048
10%棄却域臨界値: ± 0.105
初戦でPot1ではないチームに引き分けたチームと2戦目でPot1ではないチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 4 4 5 5
2002 5 2 6 3
2006 2 3 3 2
2010 4 5 3 3
2014 1 3 4 2
2018 3 0 2 2
total 19 17 0.528 23 17 0.575
ARD: 0.047
10%棄却域臨界値: ± 0.188
初戦でPot1ではないチームに勝ったチームと2戦目でPot1ではないチームに勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 10 0 8 2
2002 8 3 5 3
2006 11 2 12 0
2010 8 1 8 2
2014 10 2 8 2
2018 9 2 10 2
total 56 10 0.848 51 11 0.823
FME: 0.026
10%棄却域臨界値: ± 0.108

(参考)初戦でPot1チームに引き分けたチームと2戦目でPot1チームに引き分けたチーム(カッコ内は、Pot1の相手、最終勝点、グループ内最終順位、およびトーナメント結果)

初戦で引き分け 2戦目で引き分け

Advancing Eliminated Advancing Eliminated
1998 Chile(Italy, 3, 2nd, R16) Belgium(Netherlands, 3, 3rd) Paraguay(Spain, 5, 2nd, R16), Yugoslavia(Germany, 7, 2nd, R16)
2002 Belgium(Japan, 5, 2nd, R16) USA(South Korea, 4, 2nd, QF), Ireland(Germany, 5, 2nd, R16) Uruguay(France, 2, 3rd)
2006 Switzerland(France, 7, 1st, R16) Angola(Mexico, 2, 3rd), USA(Italy, 1, 4th), South Korea(France, 4, 3rd)
2010 Mexico(South Africa, 4, 2nd, R16), USA(England, 5, 1st, R16), Paraguay(Italy, 5, 1st, QF) Algeria(England, 1, 4th), New Zealand(Italy, 3, 3rd)
2014 Mexico(Brazil, 7, 2nd, R16) Ghana(Germany, 1, 4th)
2018 Spain(Portugal, 5, 1st, R16), Switzerland(Brazil, 5, 2nd, R16) Iceland(Argentina, 1, 4th)

弱いチームだとどうか

サンプルをPot1ではないチームに限定した比較は以下の通り。
Pot1ではないチームのうち
初戦で負けたチームと2戦目で負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 10 1 9
2002 1 10 1 7
2006 2 11 1 11
2010 0 9 3 7
2014 2 10 0 10
2018 1 10 1 11
total 6 60 0.091 7 55 0.113
FME: 0.0213
10%棄却域臨界値: ± 0.088
Pot1ではないチームのうち
初戦で引き分けたチームと2戦目で引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 3 5 6 4
2002 5 2 6 3
2006 2 3 1 5
2010 6 3 2 4
2014 1 3 3 3
2018 2 1 2 2
total 19 17 0.528 20 21 0.488
ADR: -0.040
10%棄却域臨界値: ± 0.188
Pot1ではないチームのうち
初戦で勝ったチームと2戦目で勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 6 0 2 2
2002 4 2 3 4
2006 4 2 6 0
2010 4 2 5 3
2014 6 2 6 2
2018 7 3 7 1
total 31 11 0.738 29 12 0.707
FME: 0.031
10%棄却域臨界値: ± 0.162

Pot1ではないチームのうち
初戦でPot1ではないチームに負けたチームと2戦目でPot1ではないチームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 5 0 4
2002 0 5 0 5
2006 0 6 0 7
2010 0 5 1 5
2014 0 6 0 6
2018 1 7 0 6
total 1 34 0.029 1 33 0.030
FME: 0.000
10%棄却域臨界値: ± 0.066
Pot1ではないチームのうち
初戦でPot1ではないチームに引き分けたチームと2戦目でPot1ではないチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 2 4 4 4
2002 4 2 4 2
2006 1 3 1 2
2010 3 3 2 2
2014 1 3 2 2
2018 0 0 2 2
total 11 15 0.423 15 14 0.517
ADR: 0.094
10%棄却域臨界値: ± 0.222
Pot1ではないチームのうち
初戦でPot1ではないチームに勝ったチームと2戦目でPot1ではないチームに勝ったチーム
初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 5 0 2 2
2002 3 2 2 3
2006 4 2 6 0
2010 4 1 4 2
2014 4 2 4 2
2018 6 2 5 1
total 26 9 0.743 23 10 0.697
FME: 0.046
10%棄却域臨界値: ± 0.179

ついでに

1戦目と2戦目の結果をひっくり返した場合の比較は以下の通り。
1戦目と2戦目が引き分けと負けのチーム

初戦で負け 初戦で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 3 0 3
2002 1 3 1 0
2006 0 4 0 3
2010 0 2 1 3
2014 1 3 0 3
2018 0 1 1 1
total 2 16 0.111 3 13 0.186
FME: 0.076
10%棄却域臨界値: ± 0.200
1戦目と2戦目が負けと勝ちのチーム

初戦で負け 初戦で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 0 2 1 0
2002 0 2 1 2
2006 2 0 1 1
2010 1 3 3 1
2014 2 2 1 2
2018 1 2 1 2
total 6 11 0.353 8 8 0.5
FME: 0.147
10%棄却域臨界値: ± 0.283
1戦目と2戦目が引き分けと勝ちのチーム

初戦で引き分け 初戦で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 2 0 4 0
2002 3 2 5 1
2006 2 0 2 1
2010 4 0 1 1
2014 1 0 4 0
2018 4 0 2 1
total 16 2 0.889 18 4 0.818
FME: -0.071
10%棄却域臨界値: ± 0.187

回帰分析

上記の分析は相変わらず観察数が余り確保されているものではなく別の分析方法は考えられないかということで、とりあえず「回帰して係数を比較する」ということもやってみた。 具体的には、観察された1998年から2018年までの全てのチーム(32*6=192チーム)を使って、Advancingしたか否かのダミー変数を被説明変数とし、以下のような二つの線形モデルを単純な最小二乗法で回帰分析をする。 一つ目は
Advancing = a + M_1 * b_1 + M_2 * b_2 + M_3 * b_3 + e
ただし、M_i (i = 1, 2, 3)はグループステージ第i戦で得た勝点である。二つ目は
Attendance = a + ww * b_ww + wd * b_wd + wl * b_wl + dw * b_dw + dd * b_dd + dl * b_dl + lw * b_lw + ld * b_ld + e
ただし、wwからldまでの8つ値はそれぞれグループステージ第1戦と第2戦の結果の組み合わせを表したダミー変数である。 wは勝ち、dは引き分け、lは負けを意味し、例えばwdは「第1戦は勝ち、第2戦は引き分けた」場合に1になり、そうでなければ0である。(llは基準になるため省略。) なおそれぞれコントロール変数としてグループダミー(どの大会のどのグループであったか)を入れた場合と入れていない場合と両方を回帰してみた。

記述統計量

変数 観察数 平均 標準偏差 最小 最大
Advancing 192 0.5 0.5013072 0 1
M_1 192 1.380208 1.328789 0 3
M_2 192 1.364583 1.303397 0 3
M_3 192 1.375 1.3204 0 3
ww 192 0.1822917 0.3870941 0 1
wd 192 0.1145833 0.3193512 0 1
wl 192 0.0833333 0.277108 0 1
dw 192 0.09375 0.2922426 0 1
dd 192 0.0625 0.2426943 0 1
dl 192 0.0833333 0.277108 0 1
lw 192 0.0885417 0.2848237 0 1
ld 192 0.09375 0.2922426 0 1
ll 192 0.1979167 0.3994706 0 1

推計結果

最小二乗法による回帰結果は以下の通りである。 表の数字が推計した係数、カッコ内は標準誤差、***、**、*はそれぞれ1%、5%、10%水準での有意性を示す。
(1) (2) (3) (4)
M_1 0.175697***
(0.0168822)
0.1777985***
(0.019453)
M_2 0.1569053***
(0.0171276)
0.1580895***
(0.0197444)
M_3 0.1324139***
(0.0164326)
0.1339141***
(0.0189189)
ww 1***
(0.0770912)
0.9667023***
(0.091194)
wd 0.8181818***
(0.0881541)
0.8099535***
(0.1199835)
wl 0.5***
(0.0980651)
0.4684314***
(0.1237471)
dw 0.8888889***
(0.09415321)
1.003028***
(0.1276838)
dd 0.6666667***
(0.1089612)
0.80204***
(0.1569357)
dl 0.1875*
(0.0980651)
0.2079794
(0.1387723)
lw 0.3529412***
(0.096014)
0.2902049**
(0.1209014)
ld 0.1111111
(0.0941532)
0.0674987
(0.1322202)
定数 -0.1386781***
(0.0407113)
-0.1158039
(0.1750567)
0.0000000
(0.0533799)
-0.1055039
(0.2175125)
グループダミー 無し 有り 無し 有り
観察数 192
決定係数 0.6522 0.6589 0.5872 0.6036

M_iで回帰した(1)(2)を見てみると、どの係数b_iも正で有意であるが、これは勝点が高いほどAdvancingしやすいという当たり前の結果を捉えている。重要なのはこれらの係数の差であるが、大小を比較してみると第1戦よりも第2戦、第2戦よりも第3戦の方が係数が小さくなっており、ぱっと見る限り最初の試合の方が影響が大きそうにも見える。第1戦と第2戦の組み合わせで回帰した(3)(4)を見ると、軒並み係数は正になっているが、これは第1戦と第2戦がともに負けという最悪な場合と比較してどれほどAdvancingする割合が増えるかということを捉えたものになっているのでこれまた当たり前の結果である。重要なのは第1戦と第2戦の結果をひっくり返したものの比較であるが、これはぱっと見でもなんとも微妙である。まず勝ちと引き分けの組での比較(つまりb_wdとb_dwの比較)だと、コントロールを入れる入れないを問わずb_dw、つまり初戦の結果が悪かった方が係数は大きくなっている。一方で負けが絡んだ結果の比較(b_wlとb_lw、およびb_dlとb_ld)だと最初の結果が良い方が係数は大きくなっている。 で、これらの係数に本当に差があるのかどうかについて、以下の仮説のWald検定で確認してみた。それが以下の通りである。
検定の有意水準
帰無仮説 (1) (2) (3) (4)
b_1 = b_2 0.4863 0.5272
b_1 = b_3 0.0815 0.1252
b_1 = b_2かつb_1 = b_3 0.2042 0.2939
b_wd = b_dw 0.4998 0.2056
b_wl = b_lw 0.2011 0.2016
b_dl = b_ld 0.5001 0.3929
b_wd = b_dwかつb_wl = b_dlかつb_dl = b_ld 0.4665 0.3339

この検定の有意水準からわかることは、どの帰無仮説も5%水準では棄却できず、(1)における帰無仮説b_1 = b_3以外は10%水準でも棄却できない。つまり統計的に「係数が同じである」ことを否定できないということになる。

終わりに

ここでやっている検定結果はあくまで「『ARDが0である可能性がほとんどない』あるいは『係数が同じである可能性がほとんどない』ことを確かめようとしたらそうでもなかった」ことを示しただけなので、「ARDが正である」「係数が異なる」と結論付けるのも早計であり、 せいぜい「ARDが0である可能性を否定できない」「係数が同じである可能性を否定できない」くらいの意味で捉えておくべきである。 本来は「ARDが正である」「係数が異なる」ことを帰無仮説にする不等式制約の検定を行うべきであり、実際にその方法はあるようで少し調べてみたのだが、 やってみようとするとそこそこめんどくさそうだったので、とりあえずあきらめてしまった。簡単にできる方法をご存知の方はご教示いただけると大変ありがたい。

余談

前回同様、今回も日本のいたグループには初戦で負けたにもかかわらずAdvancingしたチーム(コロンビア)と初戦で勝ったにもかかわらず(どっかの時間稼ぎのおかげで)Eliminatedしたチーム(セネガル)がいる。(初戦で勝ったにも関らずEliminatedされたチームとしてあとイランとセルビアがある。)また、今大会コロンビアは初戦の理不尽なハンディキャップのお陰で32チーム制になってから初めて「Pot1ではない相手に初戦で負けたもののAdvancingしたPot1ではないチーム」となった。
「どっかの時間稼ぎ」に関してはこちらを参照。