Cómo encontrar datos brutos
En los inicios de la sabermetría, los datos eran difíciles de conseguir. Algunas cosas no estaban tan mal – si querías saber el promedio de bateo de Bill Terry en 1933, había dos enciclopedias, Macmillan y Neft/Cohen, que te lo dirían. Pero si querías estadísticas más esotéricas, como el rendimiento de la carrera de Joe Morgan con las bases llenas, no tenías suerte.
Cuando Bill James empezó a escribir su autopublicación Baseball Abstracts a finales de los años 70, tuvo que compilar él mismo las estadísticas situacionales, a partir de los box scores diarios, sin un ordenador. En ese momento, Bill promocionó su libro como «con 18 categorías de información estadística que no se puede obtener en ningún otro lugar».
James descubrió que tenía que seguir recopilando esas estadísticas incluso en la década de 1980; es famoso que en su libro de 1981 reprodujera una carta de los Cachorros de Chicago negándose a proporcionarle esas estadísticas «de tipo intelectual».
Ahora, por supuesto, las cosas son diferentes. No hay escasez de casi ningún tipo de datos. Mis cuatro favoritos -en orden aproximado de mayor detalle- son:
- MLB.com
- Baseball-Reference.com
- The Lahman Database
- Retrosheet.org
El sitio web de MLB proporciona copiosos datos estadísticos, clasificables e imprimibles, actualizados al instante a medida que avanzan los partidos. Pero esos datos se pueden encontrar en otros sitios. El principal atractivo del sitio web de la MLB es que proporciona datos PITCHf/x. Es decir, para cada lanzamiento realizado por cualquier lanzador de la MLB, te dirán el tipo de lanzamiento, dónde cruzó el plato y cuánto se rompió vertical y horizontalmente. Como resultado, y no es sorprendente, gran parte de la investigación innovadora de estos días tiene que ver con el análisis de los lanzamientos.
La mejor fuente de estadísticas históricas precalculadas es Baseball-Reference.com (B-R). Este sitio ha dejado obsoletas las enciclopedias de béisbol impresas. No sólo se obtienen los datos habituales de la media de bateo de Bill-Terry, sino también una gran selección de estadísticas sabermétricas, desgloses por decenas de criterios diferentes (izquierda/derecha, día/noche, abril/septiembre, etc.), y la posibilidad de manipular los datos de formas que otros sitios web no permiten. También puedes hacer búsquedas absurdamente específicas. ¿Quieres saber cuál es la racha más larga de partidos consecutivos de Joe Morgan en los que llegó al plato al menos dos veces? La respuesta: 235 partidos. (Si quieres los detalles, tienes que suscribirte, pero la abrumadora mayoría de la información en el sitio se puede tener de forma gratuita.)
Para aquellos de nosotros que queremos hacer cosas más complicadas, Baseball Reference, impresionante como es, simplemente no es suficiente. Necesitamos los datos en bruto en nuestros propios ordenadores, para poder manipularlos de formas que B-R nunca pensó. Hay dos fuentes principales de datos en bruto: la Base de Datos Lahman y Retrosheet.
La Base de Datos Lahman se puede obtener de forma gratuita en seanlahman.com/baseball-archive/statistics, el sitio web de su creador, Sean Lahman. Es básicamente una Enciclopedia de Béisbol estándar en forma descargable. Puedes obtenerla en forma de texto, para cargarla en Excel, pero, lo que es más importante, también viene en formato de base de datos relacional (Microsoft Access). Si está familiarizado con Access y con las consultas a bases de datos SQL, sabrá lo cómodo que es utilizarlo para hacer búsquedas de datos potentes y específicas con rapidez. (Si no estás familiarizado con SQL, ha habido algunos tutoriales en sitios sabermétricos recientemente.)
De todos modos, la Base de Datos Lahman tiene la línea de bateo y lanzamiento estándar de cada jugador para cada año. Tiene managers, fechas de nacimiento, premios, juegos de estrellas y otras cosas buenas. Su limitación es que los datos están disponibles sólo para temporadas individuales – si quieres saber cómo bateó Eddie Murray en julio de 1979, no hay manera de que la Base de Datos Lahman te lo diga. Para eso, tienes que recurrir a Retrosheet.
Retrosheet es, básicamente, un milagro. Es el resultado de un pequeño ejército de voluntarios, que peinan las fuentes históricas para intentar recrear las jugadas de todos los partidos de la historia del béisbol y las digitalizan para su descarga y análisis. No puedo imaginar lo difícil que es encontrar toda esa información para reconstruir la parte superior de la sexta entrada del partido entre los Cardinals y los Phillies del 29 de abril de 1953. Pero lo hicieron. (D. Rice se desmarcó (del campocorto a la primera); Presko bateó a la primera en territorio foul; Hemus bateó a la primera en territorio foul.)
También puedes ver toda la carrera de cualquier jugador, partido a partido. Puede ver la clasificación y los resultados de cualquier fecha en la historia del béisbol. Puede ver la carrera de un entrenador, para qué equipos entrenó y qué entrenó, e incluso cuántas veces fue expulsado.
Puede ver estas cosas en línea o, si tiene conocimientos de manipulación de datos por ordenador, puede descargarlas y trabajar con ellas. Puede cargar los datos en Excel y escribir macros para manipularlos. O puedes escribir programas para analizarlos; yo uso Visual Basic, pero cualquier lenguaje sirve. Hay un libro de 2006 llamado Baseball Hacks (O’Reilly), que explica cómo utilizar un lenguaje informático llamado «R» para descargar y analizar los datos de Retrosheet (y, en realidad, muchos otros datos de béisbol que se pueden encontrar en Internet).
No toda la historia del béisbol está disponible en Retrosheet – todavía. Sin embargo, los voluntarios siguen trabajando en ello. (¿Quiere ayudar? Haga clic aquí para obtener más detalles). Por ahora, puede ver resúmenes partido a partido desde 1871. Puedes ver los resultados de más del 90 por ciento de los partidos desde 1916. Y, si quieres datos completos de las jugadas, están disponibles para cualquier partido después de 1952, y para un gran número de partidos anteriores. Algunos años incluso incluyen datos de lanzamiento por lanzamiento, en términos de bola, strike, foul.