How to Find Raw Data
Back in the beginning days of sabermetrics, data was difficult to come by. Algumas coisas não eram muito ruins – se você quisesse saber a média de tacadas de Bill Terry em 1933, havia duas enciclopédias, Macmillan e Neft/Cohen, que lhe diriam. Mas se você queria estatísticas mais esotéricas, como a performance da carreira de Joe Morgan com as bases carregadas, você estava sem sorte.
Quando Bill James começou a escrever seus resumos auto-publicados de Baseball no final dos anos 70, ele mesmo teve que compilar estatísticas situacionais, a partir das pontuações diárias das caixas, sem um computador. Na época, Bill comercializou seu livro como “apresentando 18 categorias de informações estatísticas que você simplesmente não pode obter em nenhum outro lugar”
James descobriu que ele tinha que continuar compilando essas estatísticas até os anos 80; famoso, em seu livro de 1981, ele reimprimiu uma carta dos Chicago Cubs se recusando a fornecer-lhe tais estatísticas do tipo “inteligência”.
Agora, é claro, as coisas são diferentes. Não há falta de quase nenhum tipo de dado. Meus quatro favoritos – em ordem aproximada de aumento de detalhes – são:
- MLB.com
- Baseball-Reference.com
- O banco de dados Lahman
- Retrosheet.org
MLB fornece dados estatísticos copiosos, classificáveis e imprimíveis, atualizados instantaneamente à medida que os jogos progridem. Mas esse material pode ser encontrado em outro lugar. A principal atração do site do MLB é que ele fornece dados PITCHf/x. Ou seja, para cada pitch lançado por qualquer lançador do MLB, eles lhe dirão o tipo de pitch, onde ele cruzou a placa, e quanto ele quebrou vertical e horizontalmente. Como resultado, e não surpreendentemente, grande parte da pesquisa pioneira nestes dias tem a ver com a análise do pitch.
Fácilmente a melhor fonte para estatísticas históricas pré-calculadas é Baseball-Reference.com (B-R). Esse site praticamente tornou obsoletas as enciclopédias impressas de beisebol. Você não só obtém os dados regulares do Bill-Terry’s-batting-average, como também obtém uma grande seleção de estatísticas sabermétricas, decomposições por dezenas de critérios diferentes (esquerda/direita, dia/noite, abril/setembro, etc.), e a capacidade de manipular os dados de maneiras que outros sites não permitem. Você também pode fazer pesquisas absurdamente específicas. Quer conhecer a mais longa série de jogos consecutivos de Joe Morgan onde ele chegou ao prato pelo menos duas vezes? A resposta: 235 jogos. (Se você quer os detalhes, você tem que se inscrever, mas a esmagadora maioria das informações no site pode ser obtida gratuitamente.)
Para aqueles de nós que querem fazer coisas mais complicadas, Baseball Reference, por incrível que seja, simplesmente não é suficiente. Precisamos dos dados brutos em nossos próprios computadores, para que possamos manipulá-los de maneiras que o B-R nunca pensou. Existem duas fontes principais de dados brutos: o Lahman Database e Retrosheet.
O Lahman Database pode ser obtido gratuitamente em seanlahman.com/baseball-archive/statistics, o site do seu criador, Sean Lahman. É basicamente uma Enciclopédia de Baseball padrão em formato para download. Você pode obtê-la em forma de texto, para carregar no Excel, mas, mais importante, ela também vem em formato de banco de dados relacional (Microsoft Access). Se você está familiarizado com o Access e com consultas a bancos de dados SQL, você sabe como é conveniente usá-lo para fazer buscas de dados poderosas e específicas rapidamente. (Se você não está familiarizado com SQL, recentemente tem havido alguns tutoriais em sites sabermétricos.)
Anyway, o Lahman Database tem a linha padrão de tacadas e lançamentos de todos os jogadores para cada ano. Ele tem treinadores, datas de nascimento, prêmios, jogos all-star e outras coisas boas. Sua limitação é que os dados estão disponíveis apenas para temporadas individuais – se você quiser saber como Eddie Murray acertou em julho de 1979, não há como o Lahman Database lhe dizer. Para isso, você tem que recorrer ao Retrosheet.
Retrosheet é, basicamente, um milagre. É o resultado de um pequeno exército de voluntários, penteando fontes históricas para tentar recriar o play-by-play de cada jogo da história do beisebol e digitalizando-o para download e análise. Não consigo imaginar como é difícil encontrar toda essa informação, reconstruir o topo do 6º inning do jogo Cardeais/Fillies de 29 de Abril de 1953. Mas eles conseguiram. (D. Rice de castigo (shortstop para o primeiro); Presko apareceu em primeiro em território de falta; Hemus apareceu em primeiro em território de falta.)
Você também pode ver toda a carreira de qualquer jogador, jogo por jogo. Você pode ver a classificação e os resultados de qualquer data na história do beisebol. Você pode ver a carreira de um treinador, quais equipes ele treinou e o que ele treinou, e até mesmo quantas vezes ele foi expulso.
Você pode ver essas coisas online, ou, se você tiver habilidades de manipulação de dados no computador, você mesmo pode fazer o download e trabalhar com ele. Você pode carregar os dados no Excel e escrever macros para manipulá-los. Ou, você pode escrever programas para analisá-los; eu uso o Visual Basic, mas qualquer linguagem serve. Há um livro de 2006 chamado Baseball Hacks (O’Reilly), que explica como usar uma linguagem de computador chamada “R” para baixar e analisar dados da Retrosheet (e, na verdade, muitos outros dados de beisebol que podem ser encontrados na internet).
Nem todo o histórico de beisebol está disponível na Retrosheet – ainda. Os voluntários ainda estão trabalhando nisso, no entanto. (Quer ajudar? Clique aqui para detalhes.) Por enquanto, você pode ver resumos de jogo por jogo a partir de 1871. Você pode ver as pontuações das caixas para mais de 90% dos jogos desde 1916. E, se você quiser dados completos jogo-a-jogo, está disponível para qualquer jogo após 1952, e um grande número de jogos antes disso. Alguns anos até incluem dados passo-a-passo, em termos de bola, strike, falta.