How to Find Raw Data

W początkach sabermetrii, dane były trudne do zdobycia. Niektóre rzeczy nie były takie złe – jeśli chciałeś znać średnią uderzeń Billa Terry’ego w 1933 roku, istniały dwie encyklopedie, Macmillan i Neft/Cohen, które mogły ci to powiedzieć. Ale jeśli chciałeś bardziej ezoterycznych statystyk, takich jak kariera Joe Morgana z załadowanymi bazami, nie miałeś szczęścia.

Kiedy Bill James zaczął pisać swoje samodzielnie wydane Abstrakty Baseballu w późnych latach 70-tych, musiał sam kompilować statystyki sytuacyjne, z codziennych wyników, bez komputera. W tamtym czasie Bill reklamował swoją książkę jako „zawierającą 18 kategorii informacji statystycznych, których nie można uzyskać nigdzie indziej.”

James odkrył, że musiał kompilować te statystyki nawet w latach 80-tych; słynne jest to, że w swojej książce z 1981 roku przedrukował list od Chicago Cubs, którzy odmówili mu dostarczenia takich statystyk „typu wywiadowczego”.

Teraz, oczywiście, sprawy mają się inaczej. Nie brakuje prawie żadnego rodzaju danych. Moimi czterema ulubionymi – w kolejności rosnącej szczegółowości – są:

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

Strona internetowaMLB dostarcza mnóstwo danych statystycznych, możliwych do posortowania i wydrukowania, aktualizowanych natychmiast w miarę postępu gier. Ale te rzeczy można znaleźć gdzie indziej. Główną atrakcją strony MLB jest to, że zapewnia ona dane PITCHf/x. Oznacza to, że dla każdego skoku rzuconego przez dowolnego miotacza w MLB, podają typ skoku, gdzie przekroczył płytę i jak bardzo złamał się w pionie i poziomie. W rezultacie, i nie jest to zaskakujące, wiele z przełomowych badań w tych dniach ma do czynienia z analizy pitch.

Easily najlepszym źródłem dla wstępnie obliczonych statystyk historycznych jest Baseball-Reference.com (B-R). Ta witryna całkiem sporo sprawiła, że drukowane encyklopedie baseballu stały się przestarzałe. Nie tylko dostać regularne Bill-Terry’s-batting-average danych, ale również uzyskać duży wybór sabermetric stats, podziały przez dziesiątki różnych kryteriów (lewo / prawo, dzień / noc, kwiecień / wrzesień, i tak dalej), a zdolność do manipulowania danymi w sposób, że inne strony internetowe nie pozwalają. Można również zrobić absurdalnie specyficzne wyszukiwania. Chcesz znać najdłuższą serię gier Joe Morgana, w których pojawił się na boisku przynajmniej dwa razy? Odpowiedź: 235 meczów. (Jeśli chcesz poznać szczegóły, musisz wykupić subskrypcję, ale przytłaczająca większość informacji na stronie może być dostępna za darmo.)

Dla tych z nas, którzy chcą robić bardziej skomplikowane rzeczy, Baseball Reference, niesamowite jak to jest, po prostu nie wystarczy. Potrzebujemy surowych danych na naszych własnych komputerach, abyśmy mogli nimi manipulować w sposób, o którym B-R nigdy nie pomyślał. Istnieją dwa główne źródła surowych danych: Lahman Database i Retrosheet.

Lahman Database można uzyskać za darmo na seanlahman.com/baseball-archive/statistics, stronie jej twórcy, Seana Lahmana. Jest to w zasadzie standardowa Encyklopedia Baseballu w formie do pobrania. Możesz ją dostać w formie tekstowej, do załadowania do Excela, ale co ważniejsze, jest ona również dostępna w formacie relacyjnej bazy danych (Microsoft Access). Jeśli jesteś zaznajomiony z Accessem i zapytaniami do bazy danych SQL, wiesz, jak wygodnie jest używać go do szybkiego wyszukiwania konkretnych danych. (Jeśli nie jesteś zaznajomiony z SQL, było ostatnio kilka tutoriali na stronach sabermetrycznych.)

W każdym razie, Baza Danych Lahman ma standardową linię battingu i pitchingu każdego gracza dla każdego roku. Ma menedżerów, daty urodzenia, nagrody, mecze gwiazd i inne dobre rzeczy. Jej ograniczeniem jest to, że dane są dostępne tylko dla pojedynczych sezonów – jeśli chcesz wiedzieć, jak Eddie Murray uderzał w lipcu 1979 roku, nie ma szans, żeby Lahman Database ci to powiedziała. W tym celu musisz zwrócić się do Retrosheet.

Retrosheet jest, w zasadzie, cudem. Jest wynikiem pracy małej armii ochotników, którzy przeczesują historyczne źródła, by odtworzyć play-by-play z każdego meczu w historii baseballa, a następnie digitalizować je do pobrania i analizy. Nie potrafię sobie wyobrazić, jak trudno jest znaleźć te wszystkie informacje, aby zrekonstruować początek 6. inningu meczu Cardinals/Phillies z 29 kwietnia 1953 roku. Ale udało im się. (D. Rice grounded out (shortstop to first); Presko popped to first in foul territory; Hemus popped to first in foul territory.)

Możesz również zobaczyć całą karierę każdego gracza, mecz po meczu. Możesz zobaczyć rankingi i wyniki z dowolnej daty w historii baseballu. Możesz zobaczyć karierę trenera, dla jakich drużyn trenował i co trenował, a nawet ile razy został wyrzucony.

Możesz zobaczyć te rzeczy online, lub, jeśli masz umiejętności manipulowania danymi komputerowymi, możesz je pobrać i pracować z nimi samemu. Możesz załadować dane do Excela i napisać makra, aby nimi manipulować. Możesz też pisać programy do ich analizy; ja używam Visual Basic, ale każdy język się nada. Istnieje książka z 2006 r. zatytułowana Baseball Hacks (O’Reilly), która wyjaśnia, jak używać języka komputerowego zwanego „R” do pobierania i analizowania danych Retrosheet (i właściwie wielu innych danych baseballowych, które można znaleźć w Internecie).

Nie cała historia baseballu jest dostępna w Retrosheet – jeszcze. Wolontariusze wciąż nad tym pracują. (Chcesz pomóc? Kliknij tutaj po szczegóły.) Na razie możesz zobaczyć streszczenia mecz po meczu od 1871 roku. Możesz zobaczyć box scores dla ponad 90 procent gier od 1916 roku. I, jeśli chcesz pełne dane play-by-play, to jest dostępny dla każdej gry po 1952 roku, a duża liczba gier przed tym. Niektóre lata zawierają nawet dane pitch-by-pitch, w kategoriach piłka, strajk, faul.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.