みなさん、こんにちわ。
マーケティングメトリックス研究所、三代目所長の松本です。
今回は、6月24日に多摩大学でゲスト講師として参加した、今泉・久保田・佐藤3ゼミ合同のデータサイエンス研究会での講義内容について、学生の皆さんに何をお話したか、簡単にまとめたいと思います。
※先生のほうでも、まとめてくれていました。写真付きなので雰囲気が伝われば。
https://tamadsb.jp/seminar/2016/06/25/seminar03/
何を話したか?
その日のテーマが「スポーツ統計」とのことで、松本はセイバーメトリクスに関する具体的な事例と、分析における留意点を学生にレクチャーしました。
そもそも、松本の研究本職はマーケティングサイエンスや人工知能なのですが、趣味でセイバーメトリクスに没頭しており、その研究成果をいくつか発表しています。
その内容について教授方に高く評価していただき、今回の機会が設けられました。
ちなみに日本統計学会にスポーツ統計分科会が2009年から設立されており、毎年データコンペティションも開催しています。(参考URL:https://estat.sci.kagoshima-u.ac.jp/sports/)
ゼミ生がこのコンペに参加するそうで、それに備えて学生向けに何かインサイトを与えるというのが目的です。
セイバーメトリクスとは?
スポーツ統計の中でも一番活発だと思われるのが、セイバーメトリクスです。
野球の客観的・統計的な研究のことで、1977年にBill Jamesが「Baseball Abstract」という書籍の中で作った造語です。
どういう研究をするかと言うと、大きく分けて
①セオリー・戦術論の検証、②合理的な選手評価、この2つになるでしょう。
今回は①セオリー・戦術論の検証について少し触れたいと思います。
有名な命題として「ノーアウト1塁でバントは正しい戦術か?」という問があります。
みなさんはどう思われますか。ランナーを進塁させ、1アウト2塁としたほうが有利だと思いますか?
この命題には既にセイバーメトリクスとして解が出ていて、これは「ダメな戦略」だと言われています。
セイバーメトリクスの1つに得点期待値なる指標があります。これは、試合の場面ごとに得点の生まれやすさを数値で表したものです。
試合の状況をアウトカウントと進塁状況の組み合わせ24種類から、それぞれの状況が発生した後、そのイニングが終わるまでにどれだけ得点が生まれたかを集計し平均化した値です。
ノーアウト1塁での得点期待値は0.807点です。一方、バントをしたとして、考えられる状況は、
①バントで進塁に成功して1アウト2塁=0.682点
②送りバントに失敗して1アウト1塁=0.478点
③Fcになって0アウト12塁=1.412点
④バント失敗ダブルプレーで2アウト塁なし=0.087点
この4種類です。
Fc以外は全て得点期待値が下がっています。
つまり相手に1アウトを献上するという戦術は、仮に進塁させるものだったとしても、得られる対価と代償に見合わないのです。
これは数字で言われても、頭が納得しない事例かもしれませんね。
ですが、皆さんの知っている野球データは、実際の分析にはほとんど役には立たないことが分かる良い事例です。
つまり、メトリクスを開発する余地はまだまだあること、何より「常識」は疑ってかかること。
これがセイバーメトリクスに取り組むにあたって重要なことだと私は思います。
セイバーメトリクスの弱点とは?
数字信仰のように見えますが、統計と確率ならではの限界もあります。それは、その日の試合の予測精度は悪いということです。
セイバーメトリクスは傾向を明らかにするもので、絶対にそうだと言い切れるものではありません。
敬遠球を打ってヒットにする状況もあれば(伝説の阪神巨人戦を僕はTVで見ていたのですが最初何が起きたか分からず数秒だって全身の毛穴が逆立ったあの感覚を未だに覚えています)、代打で登場した選手が逆転満塁サヨナラ優勝決定ホームランを打つことだってあります。
要はスポーツ統計をマスターしてtoto予想だけで生計を立てる、それはちょっと無理筋です。
セイバーメトリクスは1試合1試合を積み重ねた年間試合から見えてくる傾向を見る場合が多く、ある特定の状況でバッターから空振りを奪うにはどうすればいいか?というのは確率の世界の話であり、常に「そうじゃない確率」を考える必要があります。
むしろ、条件付き確率を駆使して打率が上がる状況を生み出したとしても、せいぜい打率は5〜6割強で、ヒットにならない確率が俄然高いこともあります。
部分の総和は全体を表さない。
データ分析の教訓は、セイバーメトリクスにもあてはまります。
セイバーメトリクスで気をつけること
この先、セイバーメトリクスに取り組むにあたって、お題設定をする際に気をつけるべき点が3つあります。
①「だから何なん?」ということを究明しない。意外と「で?」というセイバーメトリクスネタは多いです。
例えば、ストレートのノビについて研究するなら、ノビの正体とは何かを明らかにするより、ボールのノビが良いと言われている元中日・山本昌に焦点を当てて「なぜ急速130km未満の山本昌のボールは打ち辛いのか?」というお題にしたほうが面白そうです。
他にも「パワプロでノビ◎と評価された選手は、他の選手と比べて何が違うのか?」とか。
なぜそうなっているか?に焦点を当てると面白くなります。
②定義されたルールを数値化する。日本語を数字で表現できるようにしましょう。
例えば、プロ野球は140試合強を戦って優勝チームを決めるのですが、基準となるのは「勝率」です。つまり重要なのは負けないことです。引き分けでもいいのです。この観点で分析をしないといけません。
他にも映画「マネーボール」で有名になったアスレチックの名GMであるビリー・ビーンは、野球を「27個のアウトを取られるまで終わらない競技」とし、打率やホームラン等に目もくれず、アウトを取られない打者、アウトを取る投手に焦点を絞り、コスパの良い補強に成功しています。
ちなみに私は野球を3個のアウトを9回取るまで終わらない競技だと仮定し、n=9を140回強試行する二項分布(得点に成功する、しないという意味で)、あるいは多項分布(k>=0得点)だと定義し、この分布の平均と分散を高めてくれる選手を補強すれば良いと思っております。
③最後に、「それ知っている」と言われない。これはすごく大事です。
セイバーメトリクスの研究は突き詰めて考えると、①結果は知っているけど何故そうなっているか分からない点を、数字を使って論理的に検証する。②結果がわからないことを、検証・モデル化・予測する。この2つに絞られます。
例えば①なら「なぜヤクルト山田選手は小柄なのにホームランを量産できるのか?」なんてどうでしょう。数字としては今年もHR王を独占していますが、その理由がわかっていません。
②なら「このままソフトバンクホークスは2016年パリーグを制覇するのか?弱点と死角を検証してみた」なんてどうでしょう。そもそも、この先どうなるかはわかりませんから、予測するためのモデル作りが楽しそうです。
間違っても、結果は知っていて理由もわかっていることを数字で検証しようとしないこと。
これはセイバーメトリクスに限らず、あらゆる分析でいえることでもありますが…
…という話を40分弱、学生を前に話していましたが、みんな顔つきが真剣でした。
きっとデータコンペで優勝してくれるでしょう。
その時は、きっと阪神対巨人戦のバックネット裏チケットをご褒美に持ってきてくれるでしょう(笑。
こういう縁を大切にしたいと思った所長なのでした。