Sådan finder du rå data

I sabermetriens begyndelse var det svært at få fat i data. Nogle ting var ikke så slemme – hvis du ville kende Bill Terrys batting average i 1933, var der to leksika, Macmillan og Neft/Cohen, der kunne fortælle dig det. Men hvis du ville have mere esoteriske statistikker, som Joe Morgans karrieremæssige præstationer med baserne fyldt, var du ude af held.

Da Bill James begyndte at skrive sine selvudgivne Baseball Abstracts tilbage i slutningen af 1970’erne, måtte han selv udarbejde situationsbestemte statistikker ud fra de daglige boksresultater uden en computer. Dengang markedsførte Bill sin bog som “med 18 kategorier af statistiske oplysninger, som du bare ikke kan få andre steder”.

James fandt ud af, at han måtte blive ved med at samle disse statistikker selv ind i 1980’erne; i sin bog fra 1981 genoptrykte han som bekendt et brev fra Chicago Cubs, der nægtede at give ham sådanne statistikker af “intelligens-typen”.

Nu er tingene selvfølgelig anderledes. Der er ingen mangel på næsten alle slags data. Mine fire favoritter – i grov rækkefølge efter stigende detaljeringsgrad – er:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

MLB’s hjemmeside giver rigelige statistiske data, der kan sorteres og udskrives, og som opdateres øjeblikkeligt efterhånden som kampene skrider frem. Men disse ting kan findes andre steder. Den største attraktion på MLB’s hjemmeside er, at den giver PITCHf/x-data. Det vil sige, at for hvert kast, der kastes af en kaster i MLB, fortæller de dig, hvilken type kast det er, hvor det passerede pladen, og hvor meget det brød vertikalt og horisontalt. Som følge heraf, og ikke overraskende, har meget af den banebrydende forskning i disse dage at gøre med pitch-analyse.

Den klart bedste kilde til forudberegnede historiske statistikker er Baseball-Reference.com (B-R). Dette websted har stort set gjort trykte baseballencyklopædier forældede. Ikke alene får du de almindelige Bill-Terry’s-batting-average-data, men du får også et stort udvalg af sabermetrisk statistik, opdelinger efter snesevis af forskellige kriterier (venstre/højre, dag/nat, april/september osv.) og mulighed for at manipulere dataene på måder, som andre hjemmesider ikke tillader. Du kan også foretage absurd specifikke søgninger. Vil du vide, hvor længe Joe Morgan har haft den længste række af kampe i træk, hvor han kom til pladen mindst to gange? Svaret er: 235 kampe. (Hvis du vil have detaljerne, skal du abonnere, men det overvældende flertal af oplysningerne på webstedet kan fås gratis.)

For dem af os, der ønsker at gøre mere komplicerede ting, er Baseball Reference, hvor fantastisk det end er, bare ikke nok. Vi har brug for de rå data på vores egne computere, så vi kan manipulere dem på måder, som B-R aldrig har tænkt på. Der er to hovedkilder til rådata: Lahman-databasen og Retrosheet.

Lahman-databasen kan fås gratis på seanlahman.com/baseball-archive/statistics, som er hjemmesiden for dens ophavsmand, Sean Lahman. Det er i princippet et standardbaseballleksikon i downloadbar form. Du kan få det i tekstform, så det kan indlæses i Excel, men vigtigere er, at det også findes i relationelt databaseformat (Microsoft Access). Hvis du er bekendt med Access og med SQL-databaseforespørgsler, ved du, hvor praktisk det er at bruge det til hurtigt at foretage kraftige, specifikke datasøgninger. (Hvis du ikke er bekendt med SQL, har der for nylig været et par vejledninger på sabermetriske websteder.)

Lahman-databasen har under alle omstændigheder hver spillers standard batting- og pitchinglinje for hvert år. Den har managers, fødselsdatoer, priser, all-star games og andre gode ting. Dens begrænsning er, at dataene kun er tilgængelige for enkelte sæsoner – hvis du vil vide, hvordan Eddie Murray slog i juli 1979, kan Lahman-databasen på ingen måde fortælle dig det. For det må du henvende dig til Retrosheet.

Retrosheet er i bund og grund et mirakel. Det er resultatet af en lille hær af frivillige, der finkæmmer historiske kilder i forsøget på at genskabe play-by-play for hver eneste kamp i baseballhistorien og digitaliserer det til download og analyse. Jeg kan slet ikke forestille mig, hvor svært det er at finde alle disse oplysninger for at rekonstruere toppen af den 6. inning i kampen mellem Cardinals og Phillies den 29. april 1953. Men de gjorde det. (D. Rice grounded out (shortstop til første); Presko popped to first in foul territory; Hemus popped to first in foul territory.)

Du kan også se hele karrieren for en spiller, kamp for kamp. Du kan se stillinger og resultater fra enhver dato i baseballhistorien. Du kan se en træners karriere, hvilke hold han har trænet for og hvad han har trænet, og endda hvor mange gange han er blevet smidt ud.

Du kan se disse ting online, eller hvis du har evner til datamanipulation, kan du downloade dem og selv arbejde med dem. Du kan indlæse dataene i Excel og skrive makroer til at manipulere dem. Eller du kan skrive programmer til at analysere dem; jeg bruger Visual Basic, men ethvert sprog kan bruges. Der findes en bog fra 2006, Baseball Hacks (O’Reilly), som forklarer, hvordan man bruger et computersprog kaldet “R” til at downloade og analysere Retrosheet-data (og faktisk masser af andre baseballdata, der kan findes på internettet).

Det er ikke hele baseballhistorien, der er tilgængelig på Retrosheet – endnu. De frivillige arbejder dog stadig på det. (Vil du hjælpe? Klik her for at få flere oplysninger.) Indtil videre kan du se oversigter kamp for kamp fra 1871 og frem. Du kan se boksresultater for mere end 90 procent af kampene siden 1916. Og hvis du vil have fuldstændige play-by-play-data, er de tilgængelige for alle kampe efter 1952 og et stort antal kampe før det. Nogle år omfatter endda pitch-by-pitch-data, i form af bold, strike, foul.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.