How to Find Raw Data
In de begindagen van de sabermetrie was het moeilijk om aan gegevens te komen. Sommige dingen waren niet zo slecht – als je Bill Terry’s slaggemiddelde in 1933 wilde weten, waren er twee encyclopedieën, Macmillan en Neft/Cohen, die het je konden vertellen. Maar als je meer esoterische statistieken wilde, zoals Joe Morgan’s carrièreprestaties met volle honken, had je pech.
Toen Bill James eind jaren zeventig begon met het schrijven van zijn zelf-gepubliceerde Baseball Abstracts, moest hij zelf situationele statistieken samenstellen, uit de dagelijkse box scores, zonder computer. In die tijd bracht Bill zijn boek op de markt als “met 18 categorieën van statistische informatie die je gewoon nergens anders kunt krijgen.”
James ontdekte dat hij deze statistieken zelfs in de jaren 1980 moest blijven verzamelen; beroemd is dat hij in zijn boek uit 1981 een brief van de Chicago Cubs herdrukte waarin hij weigerde om hem te voorzien van dergelijke “intelligentie-type” statistieken.
Nu, natuurlijk, zijn de dingen anders. Er is geen tekort aan bijna elk soort gegevens. Mijn vier favorieten – in grove volgorde van oplopend detail – zijn:
- MLB.com
- Baseball-Reference.com
- The Lahman Database
- Retrosheet.org
MLB’s website biedt overvloedige statistische gegevens, sorteerbaar en afdrukbaar, direct bijgewerkt naarmate de wedstrijden vorderen. Maar dat spul kan elders worden gevonden. De belangrijkste attractie van de MLB website is dat het PITCHf/x gegevens biedt. Dat wil zeggen, voor elke worp van een werper in de MLB, vertellen zij u het type worp, waar de worp de plaat kruiste, en hoeveel hij verticaal en horizontaal brak. Als gevolg hiervan, en niet verrassend, heeft veel van het baanbrekende onderzoek tegenwoordig te maken met pitch-analyse.
Gemakkelijk de beste bron voor vooraf berekende historische statistieken is Baseball-Reference.com (B-R). Die site heeft gedrukte honkbal-encyclopedieën zo’n beetje overbodig gemaakt. Niet alleen krijg je de gewone Bill-Terry’s slaggemiddelde gegevens, maar je krijgt ook een grote selectie van sabermetrische statistieken, uitsplitsingen volgens tientallen verschillende criteria (links/rechts, dag/nacht, april/september, enzovoort), en de mogelijkheid om de gegevens te manipuleren op manieren die andere websites niet toestaan. Je kunt ook absurd specifieke zoekopdrachten doen. Wil je weten wat Joe Morgan’s langste opeenvolgende reeks wedstrijden was waarin hij minstens tweemaal aan de plaat kwam? Het antwoord: 235 wedstrijden. (Als je de details wilt weten, moet je een abonnement nemen, maar de overgrote meerderheid van de informatie op de site is gratis.)
Voor degenen onder ons die meer ingewikkelde dingen willen doen, is Baseball Reference, hoe geweldig het ook is, gewoon niet genoeg. We moeten de ruwe gegevens op onze eigen computers hebben, zodat we ze kunnen manipuleren op manieren waar B-R nooit aan heeft gedacht. Er zijn twee belangrijke bronnen van ruwe gegevens: de Lahman Database en Retrosheet.
De Lahman Database kan gratis worden verkregen op seanlahman.com/baseball-archive/statistics, de website van de maker, Sean Lahman. Het is eigenlijk een standaard Honkbal Encyclopedie in downloadbare vorm. Je kunt hem in tekstvorm krijgen, om in Excel te laden, maar, wat belangrijker is, hij is er ook in relationele database-indeling (Microsoft Access). Als je bekend bent met Access en met SQL database queries, weet je hoe handig het is om het te gebruiken om snel krachtige, specifieke data op te zoeken. (Als je niet bekend bent met SQL, zijn er een paar tutorials op sabermetric sites onlangs.)
Hoe dan ook, de Lahman Database heeft de standaard slag-en werplijn van elke speler voor elk jaar. Het heeft managers, geboortedata, prijzen, all-star games, en andere goede dingen. De beperking is dat de gegevens alleen beschikbaar zijn voor enkele seizoenen – als je wilt weten hoe Eddie Murray sloeg in juli 1979, zal de Lahman Database je dat op geen enkele manier vertellen. Daarvoor moet je naar Retrosheet.
Retrosheet is eigenlijk een wonder. Het is het resultaat van een klein leger vrijwilligers, die historische bronnen uitkammen om te proberen het play-by-play van elke wedstrijd in de honkbalgeschiedenis te re-creëren en te digitaliseren om het te downloaden en te analyseren. Ik kan me niet voorstellen hoe moeilijk het is om al die informatie te vinden, om de top van de 6e inning van de Cardinals/Phillies wedstrijd van 29 april 1953 te reconstrueren. Maar ze deden het. (D. Rice sloeg de bal uit (korte stop naar eerste); Presko sloeg naar eerste in fout gebied; Hemus sloeg naar eerste in fout gebied.)
U kunt ook de hele carrière van een speler zien, wedstrijd per wedstrijd. U kunt de stand en de resultaten zien van elke datum in de honkbalgeschiedenis. U kunt de carrière van een coach zien, voor welke teams hij coachte en wat hij coachte, en zelfs hoe vaak hij werd uitgeworpen.
U kunt dit spul online zien, of, als je computer data-manipulatie vaardigheden hebt, kun je het downloaden en er zelf mee aan de slag. U kunt de gegevens in Excel laden en macro’s schrijven om ze te manipuleren. Of je kunt programma’s schrijven om ze te analyseren; ik gebruik Visual Basic, maar elke taal is goed genoeg. Er is een boek uit 2006 genaamd Baseball Hacks (O’Reilly), dat uitlegt hoe je een computertaal genaamd “R” kunt gebruiken om Retrosheet gegevens te downloaden en te analyseren (en eigenlijk heel veel andere honkbalgegevens die op het internet te vinden zijn).
Nog niet alle honkbalgeschiedenis is beschikbaar op Retrosheet – nog niet. De vrijwilligers zijn er echter nog mee bezig. (Wil je meehelpen? Klik hier voor details.) Voorlopig kun je overzichten per wedstrijd zien vanaf 1871. Je kunt box scores zien van meer dan 90 procent van de wedstrijden sinds 1916. En, als je volledige play-by-play gegevens wilt, die zijn beschikbaar voor elke wedstrijd na 1952, en een groot aantal wedstrijden daarvoor. Sommige jaren bevatten zelfs pitch-by-pitch gegevens, in termen van bal, strike, foul.