Jak najít surová data

V počátcích sabermetrie bylo těžké sehnat data. Některé věci na tom nebyly tak špatně – pokud jste chtěli znát pálkařský průměr Billa Terryho v roce 1933, existovaly dvě encyklopedie, Macmillan a Neft/Cohen, které vám to řekly. Ale pokud jste chtěli esoteričtější statistiky, například výkonnost Joea Morgana v kariéře při obsazených metách, měli jste smůlu.

Když Bill James začal koncem 70. let psát své vlastním nákladem vydávané Baseball Abstracts, musel si situační statistiky sestavovat sám, z denních box score, bez počítače. V té době Bill svou knihu propagoval jako „obsahující 18 kategorií statistických informací, které prostě nikde jinde nezískáte.“

James zjistil, že tyto statistiky musí sestavovat i v 80. letech; ve své knize z roku 1981 slavně přetiskl dopis od týmu Chicago Cubs, který mu odmítl poskytnout takovéto statistiky „zpravodajského typu“.

Dnes je samozřejmě situace jiná. Není nedostatek téměř žádných údajů. Moje čtyři nejoblíbenější – zhruba v pořadí podle rostoucí podrobnosti – jsou:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

StránkyMLB poskytují bohaté statistické údaje, které lze třídit a tisknout a které se okamžitě aktualizují podle průběhu zápasů. Ale tyto věci lze najít i jinde. Hlavní zajímavostí webových stránek MLB je, že poskytují údaje PITCHf/x. To znamená, že u každého nadhozu nadhazovačů v MLB vám řeknou, o jaký typ nadhozu se jedná, kde nadhoz překročil metu a jak moc se vertikálně a horizontálně zlomil. Výsledkem je, a není to překvapivé, že většina převratných výzkumů se v dnešní době týká analýzy nadhozů.

Snad nejlepším zdrojem předpočítaných historických statistik je Baseball-Reference.com (B-R). Tato stránka v podstatě učinila tištěné baseballové encyklopedie zastaralými. Nejenže získáte běžné údaje o průměru odpalu Billa-Terryho, ale také velký výběr sabermetrických statistik, rozdělení podle desítek různých kritérií (levá/pravá, den/noc, duben/září atd.) a možnost manipulovat s daty způsobem, který jiné weby neumožňují. Můžete také provádět nesmyslně specifické vyhledávání. Chcete znát nejdelší po sobě jdoucí sérii zápasů Joea Morgana, ve kterých přišel na pálku alespoň dvakrát? Odpověď: 235 zápasů. (Pokud chcete podrobnosti, musíte si je předplatit, ale drtivou většinu informací na webu můžete získat zdarma.)

Pro ty z nás, kteří chtějí dělat složitější věci, Baseball Reference, jakkoli je úžasný, prostě nestačí. Potřebujeme surová data na vlastních počítačích, abychom s nimi mohli manipulovat způsoby, které B-R nikdy nenapadly. Existují dva hlavní zdroje surových dat: Lahmanova databáze a Retrosheet.

Lahmanovu databázi lze získat zdarma na adrese seanlahman.com/baseball-archive/statistics, což je webová stránka jejího tvůrce Seana Lahmana. Je to v podstatě standardní baseballová encyklopedie ve formě ke stažení. Můžete ji získat v textové podobě pro načtení do Excelu, ale co je důležitější, je k dispozici také ve formátu relační databáze (Microsoft Access). Pokud znáte Access a databázové dotazy SQL, víte, jak pohodlné je jeho použití pro rychlé výkonné a specifické vyhledávání dat. (Pokud SQL neznáte, na sabermetrických stránkách se v poslední době objevilo několik návodů.)

V každém případě má Lahmanova databáze standardní pálkařskou a nadhazovací řadu každého hráče pro každý rok. Jsou tam manažeři, data narození, ocenění, zápasy hvězd a další dobré věci. Její omezení spočívá v tom, že údaje jsou k dispozici pouze pro jednotlivé sezóny – pokud chcete vědět, jak odpaloval Eddie Murray v červenci 1979, Lahmanova databáze vám to v žádném případě neřekne. Pro to se musíte obrátit na Retrosheet.

Retrosheet je v podstatě zázrak. Je výsledkem práce malé armády dobrovolníků, kteří pročesávají historické zdroje a snaží se znovu vytvořit play-by-play všech zápasů baseballové historie a digitalizují je ke stažení a analýze. Nedokážu si představit, jak obtížné je najít všechny tyto informace, aby bylo možné zrekonstruovat začátek 6. směny zápasu Cardinals/Phillies z 29. dubna 1953. Ale podařilo se jim to. (D. Rice grounded out (shortstop to first); Presko popped to first in foul territory; Hemus popped to first in foul territory.)

Můžete si také prohlédnout celou kariéru jakéhokoli hráče, zápas po zápase. Můžete si prohlédnout pořadí a výsledky z libovolného data v historii baseballu. Můžete se podívat na kariéru trenéra, na to, které týmy trénoval a co trénoval, a dokonce i na to, kolikrát byl vyloučen.

Tyto věci si můžete prohlédnout online, nebo pokud umíte manipulovat s daty na počítači, můžete si je stáhnout a pracovat s nimi sami. Data můžete načíst do Excelu a napsat makra pro manipulaci s nimi. Nebo si můžete napsat programy, které je budou analyzovat; já používám Visual Basic, ale hodí se jakýkoli jazyk. V roce 2006 vyšla kniha Baseball Hacks (O’Reilly), která vysvětluje, jak pomocí počítačového jazyka zvaného „R“ stáhnout a analyzovat data z Retrosheetu (a vlastně i spoustu dalších baseballových dat, která lze najít na internetu).

Na Retrosheetu není k dispozici celá baseballová historie – zatím. Dobrovolníci na tom však stále pracují. (Chcete pomoci? Podrobnosti najdete zde.) Zatím si můžete prohlédnout přehledy jednotlivých zápasů od roku 1871. Od roku 1916 si můžete prohlédnout skóre více než 90 % zápasů. A pokud chcete úplné údaje o hře za hrou, jsou k dispozici pro všechny zápasy po roce 1952 a pro velké množství zápasů předtím. Některé roky dokonce obsahují údaje o nadhozu, pokud jde o míč, strike, faul.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.