生データの見つけ方

セイバーメトリクスが始まったころは、データを手に入れるのが大変でした。 1933年のビル・テリーの打率を知りたければ、マクミランとネフト/コーエンの2つの百科事典があればわかるでしょう。

Bill Jamesが1970年代後半に自費出版したBaseball Abstractsを書き始めたとき、彼はコンピュータなしで、毎日のボックススコアから状況別の統計を自分でコンパイルする必要がありました。 当時、ビルは自分の本を「他では得られない 18 種類の統計情報を特集する」と売り込んでいました。

ジェームズは、1980 年代になってもこれらの統計を作成し続けなければならないことがわかりました。 ほとんどあらゆる種類のデータには事欠きません。 私のお気に入りは、大まかな順に、

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

MLB のウェブサイトでは膨大な統計データをソートや印刷でき、ゲームの進行に応じて瞬時にアップデートされます。 しかし、そのようなものは、他の場所でも見つけることができます。 また、「萌え萌え」なのです。 つまり、MLBに所属するすべての投手が投げた球について、球種、プレートを横切った位置、縦と横にどれくらい割れたかを教えてくれるのである。 その結果、驚くことではありませんが、最近の画期的な研究の多くは、投球分析に関係しています。

事前に計算された歴史的統計の最も優れたソースは、Baseball-Reference.com (B-R) です。 このサイトは、印刷された野球百科事典をほとんど時代遅れにしてしまいました。 このサイトでは、通常のビル・テリーの打率データだけでなく、セイバーメトリクス統計の大きな選択、数十の異なる基準による内訳(左/右、昼/夜、4月/9月など)、他のウェブサイトでは不可能な方法でデータを操作する能力を得ることができるのです。 また、無茶苦茶具体的な検索も可能です。 ジョー・モーガンが2回以上登板した最長連続試合数を知りたいですか? 答えは「235試合」。 (詳細を知りたい場合は購読する必要がありますが、サイト上の圧倒的多数の情報は無料で入手できます)

より複雑なことをしたい人にとって、Baseball Referenceは素晴らしいものですが、それだけでは十分ではありません。 私たちは自分のコンピュータに生データを必要とし、B-R が考えもしなかったような方法でそれを操作することができるのです。 Lahman データベースと Retrosheet です。

Lahman データベースは、その作成者である Sean Lahman の Web サイト seanlahman.com/baseball-archive/statistics で無料で手に入れることができます。 基本的には、標準的な野球百科事典をダウンロードできるようにしたものです。 Excelに読み込むためのテキスト形式もありますが、もっと重要なのは、リレーショナルデータベース形式(Microsoft Access)でも提供されていることです。 AccessやSQLデータベースクエリに慣れている人なら、強力で具体的なデータ検索を素早く行うために、Accessがどれほど便利か知っているはずです。 (SQL に慣れていない場合は、セイバーメトリクスのサイトで最近いくつかのチュートリアルがあります。)

とにかく、Lahman データベースには、すべての選手のすべての年の標準打撃ラインと投球ラインがあります。 また、監督、生年月日、受賞歴、オールスターゲームなど、いいことずくめです。 もし、1979年7月のエディ・マーレイの打撃成績を知りたければ、Lahman Databaseは教えてくれません。 4062>

Retrosheetは、基本的に、奇跡です。 ボランティアの小さな軍隊の結果であり、野球の歴史におけるすべてのゲームのプレイバイプレイを再現しようと歴史的な資料を調べ、ダウンロードと分析のためにデジタル化したものなのです。 1953年4月29日のカージナルス対フィリーズ戦の6回表を再現するために、すべての情報を見つけることがどれほど難しいか、私には想像もつきません。 しかし、彼らはやったのだ。 (D. Riceが出塁(ショートからファーストへ); Preskoがファーストへポップ; Hemusがファーストへポップ)

また、あらゆる選手のキャリア全体を、ゲームごとに見ることができます。 野球の歴史上のどの日付の順位と結果も見ることができます。 4062>

このようなものはオンラインで見ることができますし、コンピュータのデータ操作のスキルがあれば、ダウンロードして自分で操作することも可能です。 データをエクセルに読み込んで、それを操作するマクロを書くことができます。 私はVisual Basicを使っていますが、どんな言語でもかまいません。 Baseball Hacks (O’Reilly) という 2006 年の本には、「R」というコンピューター言語を使って Retrosheet のデータをダウンロードし、分析する方法が書かれています (実際には、インターネット上で見つかる他の多くの野球データも同様です)。 ボランティアはまだ作業中ですが。 (今のところ、1871 年からのゲームごとのサマリーを見ることができます。 1916年以降は、90%以上の試合のボックススコアを見ることができます。 また、完全な実況データをお望みの場合は、1952年以降のすべての試合と、それ以前の多くの試合について見ることができます。 いくつかの年には、ボール、ストライク、ファウルなどのピッチごとのデータも含まれています

コメントを残す

メールアドレスが公開されることはありません。