How to Find Raw Data

A szabermetria kezdeti időszakában nehéz volt adatokat szerezni. Néhány dolog nem volt túl rossz – ha Bill Terry 1933-as ütésátlagára volt kíváncsi, két lexikon, a Macmillan és a Neft/Cohen is megmondta. De ha ezoterikusabb statisztikákra voltál kíváncsi, például Joe Morgan karrierjének teljesítményére a betöltött bázisoknál, akkor nem volt szerencséd.

Amikor Bill James az 1970-es évek végén elkezdte írni a saját kiadású Baseball Abstracts című könyvét, saját magának kellett összeállítania a szituációs statisztikákat a napi box score-okból, számítógép nélkül. Akkoriban Bill úgy reklámozta a könyvét, hogy “18 olyan statisztikai információ-kategóriát tartalmaz, amelyet máshol nem kaphatsz meg.”

James úgy találta, hogy ezeket a statisztikákat még az 1980-as években is össze kellett állítania; híres, hogy 1981-es könyvében újranyomtatott egy levelet a Chicago Cubs-tól, amely megtagadta, hogy ilyen “intelligencia típusú” statisztikákat adjon neki.

Most persze a dolgok megváltoztak. Szinte bármilyen adatból nincs hiány. Az én négy kedvencem – a növekvő részletesség durva sorrendjében – a következő:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

AzMLB honlapja bőséges statisztikai adatokat szolgáltat, sorolhatók és nyomtathatók, a mérkőzések előrehaladtával azonnal frissülnek. De ezek a dolgok máshol is megtalálhatók. Az MLB honlapjának fő vonzereje, hogy PITCHf/x adatokat szolgáltat. Ez azt jelenti, hogy az MLB bármely dobója által dobott minden egyes dobásról megmondja, hogy milyen típusú volt a dobás, hol haladt át a labdán, és mennyire tört el függőlegesen és vízszintesen. Ennek eredményeképpen, és nem meglepő módon, manapság az úttörő kutatások nagy része a dobáselemzéssel kapcsolatos.

Az előre kiszámított történelmi statisztikák legjobb forrása a Baseball-Reference.com (B-R). Ez az oldal nagyjából elavulttá tette a nyomtatott baseball lexikonokat. Nem csak a szokásos Bill-Terry’s-batting-average adatokat kapod meg, hanem a szabermetrikus statisztikák nagy választékát, több tíz különböző szempont szerinti bontást (bal/jobb, nappal/éjszaka, április/szeptember, és így tovább), és az adatok olyan módon történő manipulálásának lehetőségét, amit más honlapok nem tesznek lehetővé. Abszurdan specifikus kereséseket is végezhetsz. Kíváncsi vagy Joe Morgan leghosszabb egymást követő mérkőzéssorozatára, ahol legalább kétszer állt a palánkhoz? A válasz: 235 mérkőzés. (Ha a részletekre vagy kíváncsi, előfizetésre van szükséged, de az oldalon található információk túlnyomó többsége ingyenesen is elérhető.)

Azoknak, akik bonyolultabb dolgokat akarnak csinálni, a Baseball Reference, bármennyire is fantasztikus, egyszerűen nem elég. Szükségünk van a nyers adatokra a saját számítógépünkön, hogy olyan módon manipulálhassuk őket, amire a B-R soha nem gondolt. A nyers adatoknak két fő forrása van: a Lahman Database és a Retrosheet.

A Lahman Database ingyenesen elérhető a seanlahman.com/baseball-archive/statistics oldalon, a készítője, Sean Lahman weboldalán. Ez lényegében egy szabványos Baseball Enciklopédia letölthető formában. Megkapható szöveges formában, Excelbe való betöltéshez, de ami még fontosabb, relációs adatbázis formátumban (Microsoft Access) is elérhető. Ha ismeri az Access-t és az SQL adatbázis-lekérdezéseket, akkor tudja, hogy milyen kényelmes, ha hatékony, specifikus adatkeresést végezhet vele gyorsan. (Ha nem ismered az SQL-t, a szabermetrikai oldalakon mostanában volt néhány oktatóanyag.)

Ahogyan is, a Lahman-adatbázisban minden játékos standard ütő- és dobósorai megtalálhatóak minden évre vonatkozóan. Van benne menedzser, születési dátum, díjak, all-star meccsek és egyéb jó dolgok. Korlátja, hogy az adatok csak egyetlen szezonra vonatkozóan állnak rendelkezésre – ha tudni akarod, hogyan ütött Eddie Murray 1979 júliusában, a Lahman Database semmiképpen sem fogja megmondani. Ehhez a Retrosheethez kell fordulnod.

A Retrosheet alapvetően egy csoda. Önkéntesek egy kis seregének eredménye, akik történelmi forrásokat fésülnek át, hogy megpróbálják újraalkotni a baseballtörténelem minden meccsének play-by-play-jét, és digitalizálják azt letöltés és elemzés céljából. El sem tudom képzelni, milyen nehéz megtalálni mindezt az információt, hogy rekonstruálni lehessen az 1953. április 29-i Cardinals/Phillies mérkőzés 6. inningjének elejét. De megtették. (D. Rice kiesett (shortstop az elsőre); Presko az elsőre pattant a szabálytalan területre; Hemus az elsőre pattant a szabálytalan területre.)

Minden játékos teljes pályafutását meccsről meccsre is megnézheted. Megnézheti a baseballtörténelem bármelyik dátumának állását és eredményeit. Megnézheted egy edző pályafutását, hogy melyik csapatnál és mit edzett, és még azt is, hányszor rúgták ki.

Ezeket a dolgokat online is megnézheted, vagy ha van számítógépes adatmanipulációs képességed, akkor letöltheted, és magad is dolgozhatsz velük. Betöltheti az adatokat Excelbe, és makrókat írhat a manipulálásukhoz. Vagy írhatsz programokat az elemzéshez; én Visual Basic-et használok, de bármilyen nyelv megteszi. Van egy 2006-os könyv, a Baseball Hacks (O’Reilly), amely elmagyarázza, hogyan lehet az “R” nevű számítógépes nyelvet használni a Retrosheet adatainak letöltésére és elemzésére (és tulajdonképpen sok más, az interneten fellelhető baseball adatra).

A Retrosheet-en – még – nem az egész baseballtörténelem elérhető. Az önkéntesek azonban még dolgoznak rajta. (Szeretnél segíteni? Kattints ide a részletekért.) Egyelőre 1871-től kezdve meccsről meccsre összefoglalókat láthatsz. A meccsek több mint 90 százalékáról 1916 óta láthatod a meccsek eredményeit. Ha pedig teljes play-by-play adatokat szeretnél, azok 1952 után minden meccsről, és az azt megelőző meccsek nagy részéről is elérhetők. Néhány év még pitch-by-pitch adatokat is tartalmaz, labda, strike, foul szempontjából.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.