How to Find Raw Data

Sabermetriikan alkuaikoina dataa oli vaikea saada. Jotkut asiat eivät olleet kovin huonoja – jos halusit tietää Bill Terryn lyöntikeskiarvon vuonna 1933, oli kaksi tietosanakirjaa, Macmillan ja Neft/Cohen, jotka kertoivat sen. Mutta jos halusi esoteerisempia tilastoja, kuten Joe Morganin uran suorituksen, kun pesät olivat täynnä, ei ollut onnea.

Kun Bill James alkoi kirjoittaa itsejulkaistuja Baseball Abstracts -julkaisujaan 1970-luvun loppupuolella, hän joutui kokoamaan tilannekohtaisia tilastoja itse, päivittäisistä boksin tuloksista, ilman tietokonetta. Tuohon aikaan Bill markkinoi kirjaansa niin, että siinä ”on 18 luokkaa tilastotietoa, jota et saa mistään muualta.”

James huomasi, että hänen oli jatkettava näiden tilastojen kokoamista vielä 1980-luvullakin; tunnetusti vuoden 1981 kirjassaan hän painoi uudelleen kirjeen Chicago Cubsilta, joka kieltäytyi antamasta hänelle tällaisia ”älykkyystietotyyppisiä” tilastoja.

Nyttemmin asiat ovat tietysti toisin. Lähes kaikenlaisista tiedoista ei ole pulaa. Neljä suosikkiani – karkeassa järjestyksessä lisääntyvän yksityiskohtaisuuden mukaan – ovat:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

MLB:n verkkosivuilta löytyy runsaasti tilastotietoja, jotka ovat lajiteltavissa ja tulostettavissa, ja jotka päivittyvät välittömästi otteluiden kuluessa. Mutta sitä tavaraa löytyy muualtakin. MLB:n nettisivujen vetonaula on se, että sieltä saa PITCHf/x-dataa. Toisin sanoen MLB:n kaikkien syöttäjien jokaisesta heittopaikasta kerrotaan, minkä tyyppinen syöttö oli, missä se ylitti levyn ja kuinka paljon se rikkoutui pysty- ja vaakasuunnassa. Tämän seurauksena, eikä ole yllättävää, suuri osa uraauurtavasta tutkimuksesta liittyy nykyään syöttöanalyysiin.

Vähän paras lähde ennalta laskettuihin historiallisiin tilastoihin on Baseball-Reference.com (B-R). Tuo sivusto on melko pitkälti tehnyt painetut baseball-tietosanakirjat vanhentuneiksi. Sieltä saa paitsi tavalliset Bill-Terry’s-batting-average-tiedot, myös suuren valikoiman sabermetrisiä tilastoja, erittelyjä kymmenien eri kriteerien mukaan (vasen/oikea, päivä/yö, huhtikuu/syyskuu ja niin edelleen) ja mahdollisuuden manipuloida tietoja tavoilla, joita muut sivustot eivät salli. Voit myös tehdä järjettömän tarkkoja hakuja. Haluatko tietää Joe Morganin pisimmän peräkkäisen otteluputken, jossa hän on käynyt levyllä vähintään kahdesti? Vastaus: 235 peliä. (Jos haluat yksityiskohdat, sinun on tilattava, mutta valtaosa sivuston tiedoista on saatavilla ilmaiseksi.)

Meille, jotka haluamme tehdä monimutkaisempia asioita, Baseball Reference, niin mahtava kuin se onkin, ei vain riitä. Tarvitsemme raakadatan omille tietokoneillemme, jotta voimme manipuloida sitä tavoilla, joita B-R ei koskaan keksinyt. Raakadatan lähteitä on kaksi: Lahman Database ja Retrosheet.

Lahman Database on saatavissa ilmaiseksi osoitteesta seanlahman.com/baseball-archive/statistics, joka on sen luoneen Sean Lahmanin verkkosivusto. Se on periaatteessa tavallinen Baseball Encyclopedia ladattavassa muodossa. Sen saa tekstimuodossa Exceliin ladattavaksi, mutta mikä tärkeintä, se on saatavana myös relaatiotietokantamuodossa (Microsoft Access). Jos Access ja SQL-tietokantakyselyt ovat sinulle tuttuja, tiedät, miten kätevää on tehdä tehokkaita ja tarkkoja tiedonhakuja nopeasti. (Jos SQL ei ole sinulle tuttu, sabermetriikkasivustoilla on viime aikoina ollut muutamia opetusohjelmia.)

Jokatapauksessa Lahman tietokannassa on jokaisen pelaajan vakio lyönti- ja syöttölinjat jokaiselta vuodelta. Siinä on managerit, syntymäajat, palkinnot, all-star pelit ja muuta hyvää. Sen rajoituksena on se, että tiedot ovat saatavilla vain yksittäisten kausien osalta – jos haluat tietää, miten Eddie Murray löi heinäkuussa 1979, Lahman Database ei mitenkään kerro sitä sinulle. Sitä varten sinun on käännyttävä Retrosheetiin.

Retrosheet on periaatteessa ihme. Se on tulosta pienestä vapaaehtoisten armeijasta, joka haravoi historiallisia lähteitä yrittäessään luoda uudelleen jokaisen baseball-historian ottelun play-by-play-tiedot ja digitoi ne ladattavaksi ja analysoitavaksi. En voi kuvitellakaan, miten vaikeaa on löytää kaikki nämä tiedot ja rekonstruoida Cardinals/Phillies-ottelun kuudennen vuoroparin alku 29. huhtikuuta 1953. Mutta he tekivät sen. (D. Rice punnersi ulos (shortstop ykköselle); Presko ponnahti ykköselle foul-alueella; Hemus ponnahti ykköselle foul-alueella.)

Voit myös nähdä minkä tahansa pelaajan koko uran, peli kerrallaan. Voit nähdä sarjataulukot ja tulokset miltä tahansa päivämäärältä baseballin historiassa. Voit nähdä valmentajan uran, missä joukkueissa hän valmensi ja mitä hän valmensi, ja jopa sen, kuinka monta kertaa hänet hylättiin.

Voit nähdä nämä tiedot verkossa, tai jos sinulla on tietokoneen tietojenkäsittelytaitoja, voit ladata ne ja työskennellä niiden kanssa itse. Voit ladata tiedot Exceliin ja kirjoittaa makroja niiden käsittelyyn. Tai voit kirjoittaa ohjelmia niiden analysoimiseksi; käytän Visual Basicia, mutta mikä tahansa kieli käy. Vuonna 2006 julkaistiin kirja nimeltä Baseball Hacks (O’Reilly), jossa kerrotaan, miten käyttää tietokonekieltä nimeltä ”R” Retrosheet-tietojen lataamiseen ja analysoimiseen (ja itse asiassa monien muidenkin baseball-tietojen lataamiseen ja analysoimiseen, jotka löytyvät internetistä).

Kaikkea baseball-historiaa ei ole saatavilla Retrosheetissä – vielä. Vapaaehtoiset tosin työstävät sitä edelleen. (Haluatko auttaa? Klikkaa tästä saadaksesi lisätietoja.) Toistaiseksi voit nähdä pelikohtaisia yhteenvetoja vuodesta 1871 lähtien. Vuodesta 1916 lähtien voit nähdä yli 90 prosenttia otteluista. Ja jos haluat täydelliset play-by-play-tiedot, ne ovat saatavilla kaikista vuoden 1952 jälkeisistä peleistä ja suuresta osasta sitä edeltävistä peleistä. Joiltakin vuosilta löytyvät jopa syöttökohtaiset tiedot pallon, lyönnin ja foulin osalta.

Vastaa

Sähköpostiosoitettasi ei julkaista.