Wie man Rohdaten findet
In den Anfangstagen der Sabermetrik war es schwer, an Daten zu kommen. Manche Dinge waren gar nicht so schlecht – wenn man den Batting Average von Bill Terry im Jahr 1933 wissen wollte, gab es zwei Enzyklopädien, Macmillan und Neft/Cohen, die einem Auskunft gaben. Aber wenn man esoterischere Statistiken wollte, wie z.B. Joe Morgans Karriereleistung mit geladenen Bases, hatte man kein Glück.
Als Bill James in den späten 1970er Jahren begann, seine im Selbstverlag herausgegebenen Baseball Abstracts zu schreiben, musste er selbst situative Statistiken aus den täglichen Box Scores zusammenstellen, ohne einen Computer. Damals vermarktete Bill James sein Buch als „mit 18 Kategorien statistischer Informationen, die man sonst nirgendwo bekommt“
James musste diese Statistiken bis in die 1980er Jahre hinein zusammenstellen; in seinem Buch von 1981 druckte er einen Brief der Chicago Cubs ab, die sich weigerten, ihm solche „intelligenten“ Statistiken zur Verfügung zu stellen.
Heute ist das natürlich anders. Es besteht kein Mangel an fast allen Arten von Daten. Meine vier Favoriten – in grober Reihenfolge mit zunehmender Detailtiefe – sind:
- MLB.com
- Baseball-Reference.com
- The Lahman Database
- Retrosheet.org
Die Website vonMLB bietet umfangreiche statistische Daten, die sortiert und ausgedruckt werden können und im Laufe der Spiele sofort aktualisiert werden. Aber diese Daten sind auch anderswo zu finden. Der Clou der MLB-Website ist, dass sie PITCHf/x-Daten bereitstellt. Das heißt, für jeden Pitch, der von einem MLB-Werfer geworfen wird, wird die Art des Pitches angegeben, wo er die Platte überquert hat und wie stark er vertikal und horizontal gebrochen ist. Daher ist es nicht überraschend, dass ein Großteil der bahnbrechenden Forschung heutzutage mit der Pitch-Analyse zu tun hat.
Die beste Quelle für vorberechnete historische Statistiken ist Baseball-Reference.com (B-R). Diese Seite hat gedruckte Baseball-Enzyklopädien so gut wie überflüssig gemacht. Man erhält nicht nur die üblichen Bill-Terry’s-batting-average-Daten, sondern auch eine große Auswahl an sabermetrischen Statistiken, Aufschlüsselungen nach zig verschiedenen Kriterien (links/rechts, Tag/Nacht, April/September usw.) und die Möglichkeit, die Daten auf eine Weise zu manipulieren, die andere Websites nicht zulassen. Sie können auch absurd spezifische Suchen durchführen. Möchten Sie wissen, wie viele Spiele Joe Morgan mindestens zweimal hintereinander auf die Platte kam? Die Antwort: 235 Spiele. (Wenn Sie die Details wissen wollen, müssen Sie ein Abonnement abschließen, aber die überwältigende Mehrheit der Informationen auf der Website ist kostenlos erhältlich.)
Für diejenigen unter uns, die kompliziertere Dinge tun wollen, ist Baseball Reference, so großartig es auch ist, einfach nicht genug. Wir brauchen die Rohdaten auf unseren eigenen Computern, damit wir sie auf eine Art und Weise manipulieren können, an die B-R nie gedacht hat. Es gibt zwei Hauptquellen für Rohdaten: die Lahman-Datenbank und Retrosheet.
Die Lahman-Datenbank ist kostenlos erhältlich unter seanlahman.com/baseball-archive/statistics, der Website ihres Erfinders, Sean Lahman. Es handelt sich im Grunde um eine Standard-Baseball-Enzyklopädie in herunterladbarer Form. Sie können es in Textform erhalten, um es in Excel zu laden, aber, was noch wichtiger ist, es gibt es auch im relationalen Datenbankformat (Microsoft Access). Wenn Sie mit Access und SQL-Datenbankabfragen vertraut sind, wissen Sie, wie praktisch es ist, damit schnell und gezielt Daten zu suchen. (Wenn Sie mit SQL nicht vertraut sind, finden Sie auf den sabermetrischen Websites in letzter Zeit einige Anleitungen.)
Die Lahman-Datenbank enthält die Standard-Schlag- und Pitching-Linien aller Spieler für jedes Jahr. Sie enthält Manager, Geburtsdaten, Auszeichnungen, All-Star-Spiele und andere gute Informationen. Die Einschränkung besteht darin, dass die Daten nur für einzelne Spielzeiten verfügbar sind – wenn Sie wissen wollen, wie Eddie Murray im Juli 1979 geschlagen hat, wird Ihnen die Lahman Database das nicht sagen können. Dafür müssen Sie sich an Retrosheet wenden.
Retrosheet ist im Grunde genommen ein Wunder. Es ist das Ergebnis einer kleinen Armee von Freiwilligen, die historische Quellen durchkämmt haben, um das Play-by-Play jedes Spiels in der Baseballgeschichte zu rekonstruieren und es zum Herunterladen und Analysieren zu digitalisieren. Ich kann mir gar nicht vorstellen, wie schwierig es ist, all diese Informationen zu finden, um den Beginn des 6. Innings des Spiels zwischen den Cardinals und den Phillies am 29. April 1953 zu rekonstruieren. Aber sie haben es geschafft. (D. Rice grounded out (shortstop to first); Presko popped to first in foul territory; Hemus popped to first in foul territory.)
Sie können auch die gesamte Karriere eines jeden Spielers sehen, Spiel für Spiel. Sie können den Tabellenstand und die Ergebnisse eines beliebigen Datums in der Baseballgeschichte sehen. Sie können sich die Karriere eines Trainers ansehen, für welche Mannschaften er trainiert hat und was er trainiert hat, und sogar, wie oft er rausgeworfen wurde.
Sie können sich diese Daten online ansehen, oder, wenn Sie über Computerkenntnisse zur Datenmanipulation verfügen, können Sie sie herunterladen und selbst damit arbeiten. Sie können die Daten in Excel laden und Makros schreiben, um sie zu bearbeiten. Oder Sie können Programme schreiben, um sie zu analysieren; ich verwende Visual Basic, aber jede Sprache ist geeignet. Es gibt ein Buch aus dem Jahr 2006 mit dem Titel Baseball Hacks (O’Reilly), in dem erklärt wird, wie man eine Computersprache namens „R“ verwendet, um Retrosheet-Daten herunterzuladen und zu analysieren (und eigentlich auch viele andere Baseball-Daten, die man im Internet finden kann).
Noch ist nicht die gesamte Baseballgeschichte auf Retrosheet verfügbar. Die Freiwilligen arbeiten aber noch daran. (Wenn Sie helfen möchten, klicken Sie hier für weitere Informationen.) Im Moment können Sie Spiel-für-Spiel-Zusammenfassungen von 1871 an sehen. Für mehr als 90 Prozent der Spiele seit 1916 können Sie die Spielstände einsehen. Und wenn Sie vollständige Play-by-Play-Daten wünschen, sind diese für jedes Spiel nach 1952 und für eine große Anzahl von Spielen davor verfügbar. Für einige Jahre sind sogar Pitch-by-Pitch-Daten (Ball, Strike, Foul) verfügbar.