How to Find Raw Data
La începuturile sabermetriei, datele erau greu de găsit. Unele lucruri nu erau prea rele – dacă vroiai să știi media la bătaie a lui Bill Terry în 1933, existau două enciclopedii, Macmillan și Neft/Cohen, care ți-ar fi spus. Dar dacă vroiai statistici mai ezoterice, cum ar fi performanța din carieră a lui Joe Morgan cu bazele încărcate, nu aveai noroc.
Când Bill James a început să scrie publicația sa de sine stătătoare Baseball Abstracts la sfârșitul anilor ’70, a trebuit să compileze el însuși statisticile situaționale, din scorurile zilnice din cutii, fără un computer. La vremea respectivă, Bill și-a comercializat cartea ca fiind „cuprinzând 18 categorii de informații statistice pe care nu le puteți obține nicăieri altundeva.”
James a constatat că a trebuit să continue să compileze aceste statistici chiar și în anii 1980; în mod faimos, în cartea sa din 1981, el a retipărit o scrisoare de la Chicago Cubs care refuza să-i furnizeze astfel de statistici „de tip intelligence”.
Acum, desigur, lucrurile sunt diferite. Nu există o lipsă de aproape niciun fel de date. Cele patru favorite ale mele – în ordinea aproximativă a creșterii gradului de detaliere – sunt:
- MLB.com
- Baseball-Reference.com
- The Lahman Database
- Retrosheet.org
Site-ul MLB oferă date statistice abundente, sortabile și imprimabile, actualizate instantaneu pe măsură ce jocurile avansează. Dar aceste lucruri pot fi găsite în altă parte. Principala atracție a site-ului MLB este că oferă date PITCHf/x. Adică, pentru fiecare aruncare aruncată de orice aruncător din MLB, ei vă vor spune tipul de aruncare, unde a traversat placa și cât de mult s-a rupt pe verticală și pe orizontală. Ca urmare, și nu este surprinzător, o mare parte din cercetările revoluționare din aceste zile au legătură cu analiza aruncărilor.
Cu ușurință, cea mai bună sursă pentru statistici istorice precalculate este Baseball-Reference.com (B-R). Acest site a făcut ca enciclopediile de baseball tipărite să devină practic învechite. Nu numai că primești datele obișnuite Bill-Terry’s-batting-average date, dar primești și o selecție mare de statistici sabermetrice, defalcări după zeci de criterii diferite (stânga/dreapta, zi/noapte, aprilie/septembrie și așa mai departe) și posibilitatea de a manipula datele în moduri pe care alte site-uri nu le permit. De asemenea, puteți face căutări extrem de specifice. Vrei să știi care a fost cea mai lungă serie consecutivă de meciuri ale lui Joe Morgan în care a venit la placa de cel puțin două ori? Răspunsul: 235 de meciuri. (Dacă vreți detalii, trebuie să vă abonați, dar majoritatea covârșitoare a informațiilor de pe site pot fi obținute gratuit.)
Pentru aceia dintre noi care vor să facă lucruri mai complicate, Baseball Reference, oricât de minunat ar fi, pur și simplu nu este suficient. Avem nevoie de datele brute pe propriile noastre computere, astfel încât să le putem manipula în moduri la care B-R nu s-a gândit niciodată. Există două surse principale de date brute: Baza de date Lahman și Retrosheet.
Baza de date Lahman poate fi obținută gratuit la seanlahman.com/baseball-archive/statistics, site-ul web al creatorului său, Sean Lahman. Este practic o enciclopedie standard de baseball în formă descărcabilă. O puteți obține în format text, pentru a o încărca în Excel, dar, mai important, este disponibilă și în format de bază de date relațională (Microsoft Access). Dacă sunteți familiarizați cu Access și cu interogările în baze de date SQL, știți cât de convenabil este să îl folosiți pentru a face rapid căutări puternice și specifice de date. (Dacă nu sunteți familiarizat cu SQL, au existat recent câteva tutoriale pe site-urile sabermetrice.)
În orice caz, baza de date Lahman are linia standard de bătaie și de aruncare a fiecărui jucător pentru fiecare an. Are manageri, date de naștere, premii, meciuri all-star și alte lucruri bune. Limitarea sa este că datele sunt disponibile doar pentru un singur sezon – dacă vrei să știi cum a lovit Eddie Murray în iulie 1979, baza de date Lahman nu are cum să-ți spună. Pentru asta, trebuie să vă întoarceți la Retrosheet.
Retrosheet este, practic, un miracol. Este rezultatul unei mici armate de voluntari, care cercetează surse istorice pentru a încerca să recreeze play-by-play-ul fiecărui meci din istoria baseball-ului și îl digitalizează pentru a fi descărcat și analizat. Nici nu pot să-mi imaginez cât de dificil este să găsești toate aceste informații, pentru a reconstrui partea de sus a reprizei a 6-a a meciului Cardinals/Phillies din 29 aprilie 1953. Dar au reușit. (D. Rice a fost eliminat (de la shortstop la prima bază); Presko s-a aruncat la prima bază în teritoriu fault; Hemus s-a aruncat la prima bază în teritoriu fault.)
De asemenea, puteți vedea întreaga carieră a oricărui jucător, meci cu meci. Puteți vedea clasamentele și rezultatele de la orice dată din istoria baseball-ului. Puteți vedea cariera unui antrenor, la ce echipe a antrenat și ce a antrenat, și chiar de câte ori a fost expulzat.
Puteți vedea aceste lucruri online sau, dacă aveți abilități de manipulare a datelor pe calculator, le puteți descărca și lucra singuri cu ele. Puteți încărca datele în Excel și puteți scrie macro-uri pentru a le manipula. Sau, puteți scrie programe pentru a le analiza; eu folosesc Visual Basic, dar orice limbaj este suficient. Există o carte din 2006 numită Baseball Hacks (O’Reilly), care explică cum să folosești un limbaj de calculator numit „R” pentru a descărca și analiza datele Retrosheet (și, de fapt, o mulțime de alte date de baseball care pot fi găsite pe internet).
Nu toată istoria baseball-ului este disponibilă pe Retrosheet – încă. Voluntarii încă lucrează la ea, totuși. (Vreți să ajutați? Faceți clic aici pentru detalii.) Deocamdată, puteți vedea rezumatele meci cu meci începând cu 1871. Puteți vedea box scores pentru mai mult de 90 la sută din meciuri începând cu 1916. Și, dacă doriți date complete play-by-play, acestea sunt disponibile pentru orice meci de după 1952 și pentru un număr mare de meciuri de dinainte. Unii ani includ chiar și date pas cu pas, în ceea ce privește mingea, strike, foul.
.