How to Find Raw Data

All’inizio della sabermetrica i dati erano difficili da trovare. Alcune cose non erano troppo male – se volevi sapere la media di battuta di Bill Terry nel 1933, c’erano due enciclopedie, Macmillan e Neft/Cohen, che te lo avrebbero detto. Ma se volevate statistiche più esoteriche, come la performance in carriera di Joe Morgan con le basi cariche, non avevate fortuna.

Quando Bill James iniziò a scrivere i suoi Baseball Abstracts auto-pubblicati alla fine degli anni ’70, doveva compilare da solo le statistiche situazionali, dai box scores giornalieri, senza un computer. All’epoca, Bill commercializzò il suo libro come “con 18 categorie di informazioni statistiche che non si possono ottenere da nessun’altra parte”

James scoprì che doveva continuare a compilare queste statistiche anche negli anni ’80; notoriamente, nel suo libro del 1981, ristampò una lettera dei Chicago Cubs che si rifiutavano di fornirgli queste statistiche “di tipo intelligence”.

Oggi, naturalmente, le cose sono diverse. Non c’è carenza di quasi tutti i tipi di dati. I miei quattro preferiti – in ordine crescente di dettaglio – sono:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

Il sito della MLB fornisce copiosi dati statistici, ordinabili e stampabili, aggiornati istantaneamente con il procedere delle partite. Ma quella roba può essere trovata altrove. L’attrazione principale del sito della MLB è che fornisce dati PITCHf/x. Cioè, per ogni lancio lanciato da qualsiasi lanciatore in MLB, vi diranno il tipo di lancio, dove ha attraversato il piatto, e quanto si è rotto verticalmente e orizzontalmente. Di conseguenza, e non sorprendentemente, gran parte della ricerca innovativa in questi giorni ha a che fare con l’analisi dei lanci.

Sempre la migliore fonte per le statistiche storiche precalcolate è Baseball-Reference.com (B-R). Quel sito ha praticamente reso obsolete le enciclopedie del baseball stampate. Non solo si ottengono i normali dati della media di battuta di Bill-Terry, ma si ottiene anche una vasta selezione di statistiche sabermetriche, suddivisioni per decine di criteri diversi (sinistra/destra, giorno/notte, aprile/settembre, e così via), e la possibilità di manipolare i dati in modi che altri siti web non permettono. Si possono anche fare ricerche assurdamente specifiche. Volete sapere la più lunga striscia consecutiva di partite di Joe Morgan in cui è arrivato al piatto almeno due volte? La risposta: 235 partite. (Se volete i dettagli, dovete abbonarvi, ma la stragrande maggioranza delle informazioni sul sito può essere avuta gratuitamente.)

Per quelli di noi che vogliono fare cose più complicate, Baseball Reference, per quanto sia fantastico, non è sufficiente. Abbiamo bisogno dei dati grezzi sui nostri computer, in modo da poterli manipolare in modi che B-R non ha mai pensato. Ci sono due fonti principali di dati grezzi: il database Lahman e Retrosheet.

Il database Lahman può essere ottenuto gratuitamente su seanlahman.com/baseball-archive/statistics, il sito del suo creatore, Sean Lahman. È fondamentalmente un’enciclopedia standard di baseball in forma scaricabile. Potete ottenerla in forma di testo, per caricarla in Excel, ma, cosa più importante, viene anche in formato database relazionale (Microsoft Access). Se avete familiarità con Access e con le query di database SQL, sapete quanto sia conveniente usarlo per fare potenti e specifiche ricerche di dati velocemente. (Se non avete familiarità con SQL, ci sono stati alcuni tutorial sui siti sabermetrici di recente.)

In ogni caso, il database Lahman ha le linee standard di battuta e di lancio di ogni giocatore per ogni anno. Ha manager, date di nascita, premi, all-star games e altre buone cose. Il suo limite è che i dati sono disponibili solo per singole stagioni – se volete sapere come Eddie Murray ha colpito nel luglio 1979, non c’è modo che il database Lahman ve lo dica. Per questo, dovete rivolgervi a Retrosheet.

Retrosheet è, fondamentalmente, un miracolo. È il risultato di un piccolo esercito di volontari che setacciano le fonti storiche per cercare di ricreare la telecronaca di ogni partita della storia del baseball e digitalizzarla per il download e l’analisi. Non riesco a immaginare quanto sia difficile trovare tutte quelle informazioni, per ricostruire la parte superiore del 6° inning della partita Cardinals/Phillies del 29 aprile 1953. Ma l’hanno fatto. (D. Rice ha messo a terra (dall’interbase alla prima); Presko ha lanciato in prima in territorio foul; Hemus ha lanciato in prima in territorio foul.)

Puoi anche vedere l’intera carriera di qualsiasi giocatore, partita per partita. Puoi vedere la classifica e i risultati di qualsiasi data nella storia del baseball. Si può vedere la carriera di un allenatore, per quali squadre ha allenato e cosa ha allenato, e anche quante volte è stato espulso.

Si può vedere questa roba online, oppure, se si hanno capacità di manipolazione dei dati al computer, la si può scaricare e lavorarci da soli. Puoi caricare i dati in Excel e scrivere macro per manipolarli. Oppure potete scrivere programmi per analizzarli; io uso Visual Basic, ma qualsiasi linguaggio va bene. C’è un libro del 2006 chiamato Baseball Hacks (O’Reilly), che spiega come usare un linguaggio chiamato “R” per scaricare e analizzare i dati di Retrosheet (e, in realtà, molti altri dati sul baseball che si possono trovare su internet).

Non tutta la storia del baseball è disponibile su Retrosheet – ancora. I volontari ci stanno ancora lavorando, però. (Vuoi aiutare? Clicca qui per i dettagli.) Per ora, puoi vedere i riassunti partita per partita dal 1871 in poi. Puoi vedere i punteggi dei box per più del 90% delle partite dal 1916. E, se volete i dati completi di play-by-play, sono disponibili per qualsiasi partita dopo il 1952, e un gran numero di partite prima di quella. Alcuni anni includono anche i dati pitch-by-pitch, in termini di ball, strike, foul.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.