Hur man hittar rådata
Under sabermetrikens första dagar var det svårt att få tag på data. Vissa saker var inte så dåliga – om du ville veta Bill Terrys slagsnitt 1933 fanns det två uppslagsverk, Macmillan och Neft/Cohen, som kunde berätta det för dig. Men om du ville ha mer esoterisk statistik, som Joe Morgans karriärprestation med baserna laddade, hade du ingen tur.
När Bill James började skriva sina egenutgivna Baseball Abstracts i slutet av 1970-talet var han tvungen att själv sammanställa situationsbaserad statistik, från de dagliga box scores, utan dator. På den tiden marknadsförde Bill sin bok som ”med 18 kategorier av statistisk information som du bara inte kan få någon annanstans”.
James upptäckte att han var tvungen att fortsätta att sammanställa denna statistik ända in på 1980-talet; i sin bok från 1981 återgav han ett berömt brev från Chicago Cubs som vägrade att förse honom med sådan ”intelligensbaserad” statistik.
Nuförtiden är saker och ting förstås annorlunda. Det finns ingen brist på nästan alla typer av uppgifter. Mina fyra favoriter – i grov ordning efter ökande detaljrikedom – är:
- MLB.com
- Baseball-Reference.com
- The Lahman Database
- Retrosheet.org
MLB:s webbplats tillhandahåller rikligt med statistiska uppgifter, som kan sorteras och skrivas ut, och som uppdateras omedelbart när matcherna pågår. Men dessa uppgifter kan hittas på andra ställen. Den största attraktionen på MLB:s webbplats är att den tillhandahåller PITCHf/x-data. Det vill säga, för varje kast som kastas av alla kastare i MLB berättar de vilken typ av kast det är, var det passerade plattan och hur mycket det bröt vertikalt och horisontellt. Som ett resultat, och inte överraskande, har mycket av den banbrytande forskningen nuförtiden att göra med pitchanalys.
Den bästa källan för förberäknad historisk statistik är Baseball-Reference.com (B-R). Den webbplatsen har i stort sett gjort tryckta uppslagsverk om baseboll föråldrade. Du får inte bara de vanliga Bill-Terry’s-batting-average-uppgifterna, utan du får också ett stort urval av sabermetrisk statistik, uppdelningar efter tiotals olika kriterier (vänster/höger, dag/natt, april/september och så vidare) och möjligheten att manipulera uppgifterna på ett sätt som andra webbplatser inte tillåter. Du kan också göra absurt specifika sökningar. Vill du veta Joe Morgans längsta sammanhängande rad av matcher där han kom till plattan minst två gånger? Svaret: 235 matcher. (Om du vill ha detaljerna måste du prenumerera, men den överväldigande majoriteten av informationen på webbplatsen kan du få gratis.)
För dem av oss som vill göra mer komplicerade saker räcker Baseball Reference, hur fantastisk den än är, helt enkelt inte till. Vi behöver rådata på våra egna datorer, så att vi kan manipulera den på sätt som B-R aldrig har tänkt på. Det finns två huvudsakliga källor till rådata: Lahman Database och Retrosheet.
Lahman Database kan erhållas gratis på seanlahman.com/baseball-archive/statistics, webbplatsen för dess skapare, Sean Lahman. Det är i princip en vanlig Baseball Encyclopedia i nedladdningsbar form. Du kan få den i textform, för att ladda in den i Excel, men viktigare är att den också finns i relationsdatabasformat (Microsoft Access). Om du är bekant med Access och med SQL-databasfrågor vet du hur bekvämt det är att använda det för att snabbt göra kraftfulla, specifika datasökningar. (Om du inte är bekant med SQL har det nyligen funnits några handledningar på sabermetriska webbplatser.)
Hursomhelst har Lahman-databasen varje spelares standardbatting- och pitchinglinje för varje år. Den har managers, födelsedatum, utmärkelser, all star games och andra bra saker. Dess begränsning är att uppgifterna endast finns tillgängliga för enskilda säsonger – om du vill veta hur Eddie Murray slog i juli 1979 finns det inget sätt för Lahman Database att berätta det för dig. För det måste du vända dig till Retrosheet.
Retrosheet är i princip ett mirakel. Det är resultatet av en liten armé av frivilliga som finkammar historiska källor för att försöka återskapa spelföringen av varje match i baseballens historia och digitaliserar den för nedladdning och analys. Jag kan inte föreställa mig hur svårt det är att hitta all denna information för att rekonstruera början av den sjätte inningen i matchen mellan Cardinals och Phillies den 29 april 1953. Men de gjorde det. (D. Rice slog ut (shortstop till första); Presko slog ut till första i foulområde; Hemus slog ut till första i foulområde.)
Du kan också se hela karriären för en spelare, match för match. Du kan se ställningar och resultat från vilket datum som helst i baseballens historia. Du kan se en tränares karriär, vilka lag han tränade för och vad han tränade, och till och med hur många gånger han blev utvisad.
Du kan se dessa saker på nätet, eller, om du har datorkunskaper i datamanipulering, kan du ladda ner dem och arbeta med dem själv. Du kan ladda in uppgifterna i Excel och skriva makron för att manipulera dem. Du kan också skriva program för att analysera dem. Jag använder Visual Basic, men vilket språk som helst går att använda. Det finns en bok från 2006 som heter Baseball Hacks (O’Reilly), som förklarar hur man använder ett dataspråk som heter ”R” för att ladda ner och analysera Retrosheet-data (och faktiskt massor av andra baseballdata som kan hittas på Internet).
Inte hela baseballhistorien finns tillgänglig på Retrosheet – ännu. Volontärerna arbetar dock fortfarande på det. (Vill du hjälpa till? Klicka här för mer information.) För tillfället kan du se sammanfattningar match för match från 1871 och framåt. Du kan se box scores för mer än 90 procent av matcherna sedan 1916. Och om du vill ha fullständiga uppgifter om spelförutsättningar finns de tillgängliga för alla matcher efter 1952, och för ett stort antal matcher före det. Vissa år innehåller till och med uppgifter om varje kast, i form av boll, strike, foul.