ワールドカップで初戦は本当に重要なのか? [2014.7.2]

[2014.6.29 ベスト16 オランダ-メキシコ戦前 執筆]
[2014.7.2 ベスト8決定後 細かい表現を修正および追記を追加]

初戦に勝ったら勝ち抜け、負けたら敗退する?

4年に一度のお祭り、FIFA World Cupが今年6月から開催され連日連夜の熱戦に寝不足気味の人も多い…かどうか分からないが、少なくとも私は寝不足気味である。日本代表は期待されながらも残念ながらグループリーグで敗退し、楽しみは次の大会以降に持ち越しとなったが、一サッカーファンとしては今大会の残りの試合を最後まで楽しみたいところである。
さて、結果を受けて直後の世間の見方が日本チームに対して「世界との差」「口ばっかり」「監督が無能」などを強調し扇動的な批判めいたものになっていたが、そんな扇動的な内容で批判をしているメディアや観戦者の方がよっぽど世界と差があり口ばっかりで無能だという気になる。単なるファンの視点からも色々言いたいことはあるが、とりわけ情報として何の価値があるのか分からないような報道であふれているのも何とかならないのかと思うところである。 具体的な例を一つ挙げると、ついこの前日本がコートジボワールとの初戦を戦う直前および敗戦後の「初戦は重要(だった)」という報道。初戦の勝利はチームに自信などが生まれ次以降の試合にもいい影響を及ぼす、あるいは負けた場合は戦術変更を余儀なくされて不利になりやすい、などそれなりに説得的なことだとは思うし、監督や選手たちが肌感覚でそういうことを言うのも分かる。では、実際本当にそうなのかというのを過去の戦績から調べていた記事もいくつかあったが、これがかなりいただけない。例えば次の産経のニュースのこの記事:

データが1次リーグ第1戦の重要性を雄弁に物語る。フランス大会以降、初戦をものにした46チームのうち約85%にあたる39チームが1次リーグを突破。敗れた46チームのうち1次リーグを突破できたのは4チームしかない。引き分けた36チームのうち21チームが決勝トーナメントに進出していることを考えると、敗戦だけは避けたいところだ。

果たしてこれで「データが1次リーグ第1戦の重要性を雄弁に物語」ってるのだろうか。初戦をものにしたチームは当たり前だが初戦の時点で勝点3を得ていて、初戦に敗れたチームはこれまた当たり前だが初戦の時点で勝点を得ていない。勝点の高いチームが勝ち抜け、勝ちぬけられるチーム数は4チーム中の2チームと半分だけ、それをたった(1チームあたり)3試合で決めるというルールなのだから、初戦で勝ったチームが高い確率で勝ち抜け初戦で負けたチームが高い確率で敗退するのはほぼ当たり前である。また、初戦で勝ったチームはそもそも強い傾向にあり負けたチームはそもそも弱い傾向があるはずなので、「勝ったチームと負けたチーム」の比較ではグループリーグ勝ちぬけ(あるいは敗退)の原因が「そもそもの戦力」なのか「初戦の影響」なのか分からない。他のニュースを簡単にチェックしてみたが、過去の戦績から「初戦の重要性」を主張しているものは概ねこれと同じようなものばかりであるから嘆息を禁じえない。(大体、こんなことを書いておいて初戦で負けたあとに「まだ逆転あるぞ」みたいなこれまた当たり前のことを言うのだから、一体情報として何を伝えたいのだか本当に分からなくなる。)

何と何を比較すればいいのか?

初戦で勝ったチームが高い確率で勝ち抜け初戦で負けたチームが高い確率で敗退するのはルールさえ知ってれば分かる当たり前の話なのであるが、初戦を「2戦目」に変えたとしてもそれはほとんど変わらない。2戦目だって落としてしまえば勝点3を失い代わりに対戦相手に勝点3を与えるわけだから、2戦目もいい結果を残さないとならないのは同じである。結局、上記の比較で言ってることはせいぜい「1試合1試合の重要性」でしかなく、他の試合と比べたときの初戦の重要性ではない。むしろ、もし本当に「初戦の重要性」を見たいのであれば、「第1戦目で勝った(負けた)」場合と「第2戦目で勝った(負けた)」場合のグループリーグ勝ち抜け確率を比較しなくてはならない。第1戦目と第2戦目とで結果が同じなのであれば一番の大きな違いは単にそれが「初戦」か「2戦目」かだけなので、同じ結果の試合にもかかわらず順番で勝ち抜ける確率が変わるのであればそれは「初戦の重要性」(もしくは「2戦目の重要性」)を示唆することになる。2戦目が1戦目と違う影響を持つ場合それが「心理的な側面」なのか「戦術変更の側面」なのかそれ以外なのかは残念ながら仮説の域を出ないが、少なくとも違うかどうかをある程度は見ることはできるはずだ。(一方で、3戦目(グループリーグ最終戦)は既に消化試合になってる場合もあり、また勝つだけでなく得点がたくさん欲しいような状況になってる場合もあるので、初戦2戦目とは事情がかなり異なる場合が多いので、比較対象としては外すべきだろう。)

というわけで、試合観戦のお供に、FIFAの公式サイト(および便利だったので部分的にwikipedia)のデータを使って実際に検証してみた。勝点、グループ順位、あるいは勝ち抜けたか否かを被説明変数にして回帰モデルを考えるいうやりかたもありだろうが(ちゃんとやってみたら論文になるんだろうか?)、ここでは(新聞記事にあるように)グループリーグの勝ち抜け率を比較するという単純なやり方でとりあえずやってみることにした。具体的には32チーム制になった1998、2002、2006、2010、そしてグループステージが終わったばかりの2014の5大会でそれぞれ本戦に出場した32チーム(計32*5=160チーム)のうち、条件に当てはまる(例: グループリーグ初戦で負けた)チームのグループ突破の結果について検証する。以後グループリーグを突破することを``Advancing"、グループリーグで敗退することを``Eliminated"と呼ぶことにする(「勝ち」「負け」は1試合での勝ち、負けを意味するとする)。Advancingする確率を以後AR(Advancing Rate)、二つのARの差をARD(AR Difference)と呼ぶことにする。

総数比較

まずは単純に「初戦で負け」と「2戦目で負け」のチームのうちそれぞれAdvancingしたチーム数とEliminatedしたチーム数とARの比較、同様に「初戦で引き分け」と「2戦目で引き分け」の比較と「初戦で勝ち」と「2戦目で勝ち」の比較を行う。以後、「初戦の結果が2戦目の結果に比べてグループ突破に影響を与えるかどうか」の指標として「2戦目で負けたチームのAR」から「初戦で負けたチームのAR」を引いたARD、および「初戦で勝ったチームのAR」から「2戦目で勝ったチームのAR」を引いたARDをFME(First Match Effect)と呼ぶことにする。またARDがゼロ(つまり二つのARが同じ)であることを統計的に10%優位水準で棄却できる領域も示した。結果は以下のようになった。
初戦で負けたチームと2戦目で負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 11 1 9
2002 1 11 2 8
2006 2 11 1 11
2010 1 9 4 8
2014 3 11 1 11
total 7 53 0.117 9 47 0.161
FME: 0.044
10%棄却域臨界値: ± 0.106
初戦で引き分けたチームと2戦目で引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 5 5 7 5
2002 6 2 8 4
2006 3 3 3 5
2010 7 5 3 5
2014 1 3 5 3
total 22 18 0.55 26 22 0.541
ARD: -0.008
10%棄却域臨界値: ± 0.175
初戦で勝ったチームと2戦目で勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 11 0 8 2
2002 9 3 6 4
2006 11 2 12 0
2010 8 2 9 3
2014 12 2 10 2
total 51 9 0.85 45 11 0.804
FME: 0.046
10%棄却域臨界値: ± 0.115

Totalで比較するとFMEは共に5%ほどの正の値になるが、(引き分けのケースも含め)統計的に優位なARの差は存在しない。なので、単純な平均で比較する限り初戦が重要という仮説は(少なくとも2戦目と重要度が同程度という意味で)棄却される
なお、(総数で比較しておいて個別の件に触れるのもなんだが)皮肉なことに初戦の重要性が指摘されながら、実は今大会では(5大会の中で最多の)3チームが初戦で負けたにもかかわらずAdvancingしており、そのうちの1チームは日本と同じグループのギリシャである。ついでにいうと同グループのコートジボワールは初戦で日本に勝っているがEliminatedしている。(また、お隣のグループDではウルグアイとイタリアがそれぞれ同様の逆転劇が起こしている。)

対戦相手の強さを考慮するとどうなるか

それぞれのグループには(自分たちと比べて)強いチームもしくは弱いチームと存在するので、「強いチームとの初戦で負けた」のと「弱いチームとの初戦で負けた」のではそれなりに意味合いが違う可能性はある。ということで、次に同様の実力差のチームと「初戦で負けた(勝った)」場合と「2戦目で負けた(勝った)」場合にはどうなるかを調べてみた。強さの指標として最初は大会当時のFIFAランクをそのまま使おうかと思ったのだが、(ここ数年はともかく)指標としてかなりいい加減な感は否めなかったので、ここでは本戦のグループ抽選の際にシードとして扱われるPot A(もしくPot 1)の8チーム(開催国および何らかの基準によるトップ7チーム、なお1998年と2002年は前回優勝国もここに含まれる)かどうかを相対的な強さの指標とした。対戦相手がPot Aチームかどうかで更に場合わけをして以下の6種類の比較を行った。
初戦でPot Aチームに負けたチームと2戦目でPot Aチームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 5 1 5
2002 1 5 1 2
2006 2 5 1 4
2010 0 4 2 2
2014 2 4 0 4
total 5 23 0.179 5 17 0.227
FME: 0.049
10%棄却域臨界値: ± 0.187
初戦でPot Aチームに引き分けたチームと2戦目でPot Aチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 1 1 2 0
2002 1 0 2 1
2006 1 0 0 3
2010 3 0 0 2
2014 0 0 1 1
total 6 1 0.857 5 7 0.417
ARD: -0.440
10%棄却域臨界値: ± 0.386 (5%棄却域臨界値: ± 0.460)
初戦でPot Aチームに勝ったチームと2戦目でPot Aチームに勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 1 0 0 0
2002 1 0 1 1
2006 0 0 0 0
2010 0 1 1 1
2014 2 0 2 0
total 4 1 0.8 4 2 0.667
FME: 0.133
10%棄却域臨界値: ± 0.444

初戦でPot Aではないチームに負けたチームと2戦目でPot Aではないチームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 6 0 4
2002 0 6 1 6
2006 0 6 0 7
2010 1 5 2 6
2014 1 7 1 7
total 2 30 0.063 4 30 0.118
FME: 0.055
10%棄却域臨界値: ± 0.116
初戦でPot Aではないチームに引き分けたチームと2戦目でPot Aではないチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 4 4 5 5
2002 5 2 6 3
2006 2 3 3 2
2010 4 5 3 3
2014 1 3 4 2
total 16 17 0.485 21 15 0.583
ARD: 0.098
10%棄却域臨界値: ± 0.198
初戦でPot Aではないチームに勝ったチームと2戦目でPot Aではないチームに勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 10 0 8 2
2002 8 3 5 3
2006 11 2 12 0
2010 8 1 8 2
2014 10 2 8 2
total 47 8 0.855 41 9 0.82
FME: 0.035
10%棄却域臨界値: ± 0.118

ここでも大きな差はないだろうと思っていたら、一つだけかなり驚くべき結果が出た。それは「初戦でPot Aチームに引き分けたチーム」のARは「2戦目でPot Aチームに引き分けたチーム」のARよりも44%も高く出ており、統計的にも10%水準で優位に差があった。(もう少し驚くべきことに、「初戦でPot Aチームに引き分けたチーム」のARは「初戦でPot Aチームに勝ったチーム」のARよりも高い。ただこれらに統計的優位な差は恐らくないだろうが。)これが正しいとするなら「初戦で強敵に引き分けること自体に大きな正の効果がある」ことになる。
ただ、この結果はあまり鵜呑みにするべきではない。第一に、やはり観察数が少なすぎるだろう。また実際にどのようなチームが該当してるのかを列挙してみると以下のようになる。(カッコ内は、Pot Aの相手、最終勝点、グループ内の最終順位、およびトーナメント結果)
初戦でPot Aチームに引き分けたチームと2戦目でPot Aチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated Advancing Eliminated
1998 Chile(Italy, 3, 2nd, R16) Belgium(Netherlands, 3, 3rd) Paraguay(Spain, 5, 2nd, R16), Yugoslavia(Germany, 7, 2nd, R16)
2002 Belgium(Japan, 5, 2nd, R16) USA(South Korea, 4, 2nd, QF), Ireland(Germany, 5, 2nd, R16) Uruguay(France, 2, 3rd)
2006 Switzerland(France, 7, 1st, R16) Angola(Mexico, 2, 3rd), USA(Italy, 1, 4th), South Korea(France, 4, 3rd)
2010 Mexico(South Africa, 4, 2nd, R16), USA(England, 5, 1st, R16), Paraguay(Italy, 5, 1st, QF) Algeria(England, 1, 4th), New Zealand(Italy, 3, 3rd)
2014 Mexico(Brazil, 7, 2nd, R16) Ghana(Germany, 1, 4th)
これだけ見ると(どちらで引き分けてるかを問わず)Advancingしてるチームはメキシコ、パラグアイ、米国、ベルギーなどベスト16前後の常連が何回か出てきている(米国、ベルギーはEliminatedしてる時もあるが)一方、Eliminatedしているチームはそれらよりはやや下位に属するチームが多い。これを見るとたまたまそういうチームがサンプルとしてでてきただけという可能性もおおいにありそうなので、もう少しサンプルを増やしてみたいところだ。 また、このサンプルからの結果に対する説得的かつ整合的な理由はなかなか思い浮かばない。無理やり考えれば「1戦目に強敵に引き分けに持ち込めるところは(2戦目に引き分けに持ち込む場合に比べて)グループリーグでの3試合での戦い方がうまくいく」位のことはありえなくはないが、それでもやや厳しい。

弱いチームの方が初戦の影響を受けやすい?

強豪チームに比べるとそうでないチーム(それこそ日本代表のようなチーム)の方が安定的に戦えない可能性があり、初戦の結果があとに引きずるかもしれない。これを確認するためにサンプルをPot Aではないチーム(つまり強くはないチーム)に限定して同様の比較を行うと以下のようになった。結論から言うと、結果は基本的には変わらないので、強豪ではないチームこそ初戦が重要かというとそういうことでもない。(なお初戦及び2戦目でPot Aと試合をしているチームは定義上必ずPot Aのチームではないので、比較は上のものと一致する。)
Pot Aではないチームのうち
初戦で負けたチームと2戦目で負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 10 1 9
2002 1 10 1 7
2006 2 11 1 11
2010 0 9 3 7
2014 2 10 0 10
total 5 50 0.091 6 44 0.12
FME: 0.029
10%棄却域臨界値: ± 0.098
Pot Aではないチームのうち
初戦で引き分けたチームと2戦目で引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 3 5 6 4
2002 5 2 6 3
2006 2 3 1 5
2010 6 3 2 4
2014 1 3 3 3
total 17 16 0.52 18 19 0.486
ADR: -0.029
10%棄却域臨界値: ± 0.197
Pot Aではないチームのうち
初戦で勝ったチームと2戦目で勝ったチーム

初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 6 0 2 2
2002 4 2 3 4
2006 4 2 6 0
2010 4 2 5 3
2014 6 2 6 2
total 24 8 0.75 22 11 0.667
FME: 0.083
10%棄却域臨界値: ± 0.186

Pot Aではないチームのうち
初戦でPot Aではないチームに負けたチームと2戦目でPot Aではないチームに負けたチーム

初戦で負け 2戦目で負け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 5 0 4
2002 0 5 0 5
2006 0 6 0 7
2010 0 5 1 5
2014 0 6 0 6
total 0 27 0 1 27 0.036
FME: 0.036
10%棄却域臨界値: ± 0.059
Pot Aではないチームのうち
初戦でPot Aではないチームに引き分けたチームと2戦目でPot Aではないチームに引き分けたチーム

初戦で引き分け 2戦目で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 2 4 4 4
2002 4 2 4 2
2006 1 3 1 2
2010 3 3 2 2
2014 1 3 2 2
total 11 15 0.423 13 12 0.52
ADR: 0.097
10%棄却域臨界値: ± 0.230
Pot Aではないチームのうち
初戦でPot Aではないチームに勝ったチームと2戦目でPot Aではないチームに勝ったチーム
初戦で勝ち 2戦目で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 5 0 2 2
2002 3 2 2 3
2006 4 2 6 0
2010 4 1 4 2
2014 4 2 4 2
total 20 7 0.741 18 9 0.667
FME: 0.074
10%棄却域臨界値: ± 0.204

もう少し細かく見てみても…

ついでなのでもう少し細かく見てみた。それは「1戦目と2戦目の結果をひっくり返した場合の比較」である。具体的に言うと「1戦目で負けて2戦目で引き分けた」チームと「1戦目で引き分けて2戦目で負けた」チームのARを比較する。この場合、2試合での合計勝点数は同じであるが「1戦目で負けて2戦目で引き分けた」方が最初の試合の結果が悪いので、こちらのARが低くなっていれば「初戦の影響を受ける」ということになる。同様に「1戦目で負けて2戦目で勝った」チームとその逆の比較、および「1戦目で引き分けて2戦目で勝った」チームとその逆の比較をやってみた。(なお、観察数が少なすぎるので相手や自分の強さは考慮していない。)FMEは「初戦でいい結果の出てるチームのAR」から「初戦で悪い結果の出てるチームのAR」を引いたものである。
1戦目と2戦目が引き分けと負けのチーム

初戦で負け 初戦で引き分け

Advancing Eliminated AR Advancing Eliminated AR
1998 0 3 0 3
2002 1 3 1 0
2006 0 4 0 3
2010 0 2 1 3
2014 1 3 0 3
total 2 15 0.118 2 12 0.143
FME: 0.025
10%棄却域臨界値: ± 0.199
1戦目と2戦目が負けと勝ちのチーム

初戦で負け 初戦で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 0 2 1 0
2002 0 2 1 2
2006 2 0 1 1
2010 1 3 3 1
2014 2 2 1 2
total 5 9 0.357 7 6 0.538
FME: 0.181
10%棄却域臨界値: ± 0.315
1戦目と2戦目が引き分けと勝ちのチーム

初戦で引き分け 初戦で勝ち

Advancing Eliminated AR Advancing Eliminated AR
1998 2 0 4 0
2002 3 2 5 1
2006 2 0 2 1
2010 4 0 1 1
2014 1 0 4 0
total 12 2 0.857 16 3 0.842
FME: -0.015
10%棄却域臨界値: ± 0.208
「1戦目で負けて2戦目で勝った」チームに比べて「1戦目で勝って2戦目で負けた」チーム方がARは18%ほど上昇するが、やはり10%水準で統計的優位な差はないことを付言しておく。

終わりに

少なくとも現状では大会の結果のデータからは(比較的単純なやり方ではあるが)様々な角度で見てみても初戦が他の試合に比べて格段に重要ということは(一部の可能性を除いて)見られないことがわかった。もちろん、個別チームの事情を考えれば初戦に影響されるチームとそうでないチームはあるかもしれないが、それはまた別の視点から見る必要がある。 また、他の大会(例えばEuroやアジアカップなどの大陸内対抗戦、女子ワールドカップ、あるいはUEFA CLやACLなど)で同じ検証できるはずなので、している人がいたなら是非結果を教えていただきたい(もう少しちゃんとやれば卒論のネタくらいにはなるはず。)

追記[2014.7.2]

強調しておきたいが、ここで行った検証方法やデータにはそれなりの制約があり、無視されている点が重要な要素を持っている可能性があるので、「初戦の重要性はない」と断言するつもりはない。むしろ(ここまで調べておいてなんだが)私自身は「初戦の重要性」は少なくとも多少はあるんじゃないかとは思っている。この検証を通じて言っておきたいことは(i)データを使って検証するならデータの性質やルール・環境をちゃんと理解して行わないとむしろ誤解を招く、(ii)現状の方法では初戦の重要性を見つけられないが、暗黙に無視している要因を考慮すれば初戦の重要性が見えてくるかもしれない、という2点である。(前者は経済学や統計学を丁寧に学べばある程度は身につくスキルである。)もし別の方法で初戦の重要性を見つけることが出来た場合はご教授いただけると大変ありがたい。
以下、制約について気付いた点および指摘があった点について挙げておく。まず観察数。データ分析が本業ではない私にはあまりこの辺の感覚が分からないのだが、観察数が十分だと主張できるほど多くはないだろう。使っていないサンプルもあるのでそれをフル活用できるような推計が出来ればある程度解決できるかもしれない。恐ろしく単純なシミュレーションとして、例えば一番最初の「1戦目の負けチーム」と「2戦目の負けチーム」の検証で、仮に同じARで100年分の結果が得られた(つまり観察数が4倍になった)としても以前として10%水準では優位な差は見られなかった。もちろん統計的にはARDが一定のままサンプルが増えていったらやがて統計的に優位な差は見られるので、十分大きなサンプルを拾ってこれれば優位な差を確認できるかもしれない。ただし、観察数が増えていくにつれARD(の絶対値)は減少することはあれど増加することは考えにくいので、優位な差を確認できたとしてもその差はかなり小さいと予測している。
それからご指摘いただいた点でもあるが、ここでは各試合の結果は独立試行であることに仮定している(…はず)。が、実際には何かしらの1試合目と2試合目の結果には何かしらの相関があるはずで、どういう(条件付)確率が背後で想定されているかをきっちり考える必要があるかもしれない。ただこの詳細についてはそこまで真剣に考えておらず私自身よく分かってなかったりするので、どういうことを考えるとより現実的か何かご教授いただけると大変ありがたい。 参考までに試合の結果と勝点の相関係数、および1試合目と2試合目の分布を以下に示しておく。
  • 「1試合目の勝点」と「「2試合目の勝点」」の相関係数: 0.246
  • 「1試合目の勝点」と「「3試合目の勝点」」の相関係数: 0.160
  • 「2試合目の勝点」と「「3試合目の勝点」」の相関係数: 0.078
  • (思ってたよりも低かった。)
1戦目と2戦目の結果の分布
2戦目
Win Draw Lose Total
1戦目 Win 28 19 13 60
Draw 14 12 14 40
Lose 14 17 29 60
Total 56 48 56 160