Comment trouver les données brutes

Au début de la sabermétrie, les données étaient difficiles à trouver. Certaines choses n’étaient pas trop mauvaises – si vous vouliez connaître la moyenne au bâton de Bill Terry en 1933, il y avait deux encyclopédies, Macmillan et Neft/Cohen, qui vous le diraient. Mais si vous vouliez des statistiques plus ésotériques, comme la performance en carrière de Joe Morgan avec les bases chargées, vous n’aviez pas de chance.

Lorsque Bill James a commencé à écrire ses Baseball Abstracts autoédités à la fin des années 1970, il devait compiler lui-même des statistiques situationnelles, à partir des box scores quotidiens, sans ordinateur. À l’époque, Bill commercialisait son livre comme « présentant 18 catégories d’informations statistiques que vous ne pouvez obtenir nulle part ailleurs ».

James a constaté qu’il devait continuer à compiler ces statistiques même dans les années 1980 ; célèbre, dans son livre de 1981, il a reproduit une lettre des Chicago Cubs refusant de lui fournir de telles statistiques de « type intelligence ».

Maintenant, bien sûr, les choses sont différentes. Il n’y a pas de pénurie de presque tous les types de données. Mes quatre préférées – dans un ordre approximatif de détail croissant – sont :

  • MLB.com
  • Baseball-Reference.com
  • The Lahman Database
  • Retrosheet.org

Le site web deMLB fournit de copieuses données statistiques, triables et imprimables, mises à jour instantanément au fur et à mesure que les matchs progressent. Mais ces données peuvent être trouvées ailleurs. La principale attraction du site de la MLB est qu’il fournit des données PITCHf/x. En d’autres termes, pour chaque lancer effectué par n’importe quel lanceur de la MLB, le site vous indique le type de lancer, l’endroit où il a traversé le marbre, ainsi que son degré de rupture verticale et horizontale. En conséquence, et sans surprise, une grande partie de la recherche révolutionnaire de nos jours a trait à l’analyse des lancers.

La meilleure source de statistiques historiques précalculées est Baseball-Reference.com (B-R). Ce site a pratiquement rendu obsolètes les encyclopédies de baseball imprimées. Non seulement vous obtenez les données habituelles sur la moyenne de frappe de Bill-Terry, mais vous disposez également d’une large sélection de statistiques sabermétriques, de ventilations selon des dizaines de critères différents (gauche/droite, jour/nuit, avril/septembre, etc.) et de la possibilité de manipuler les données d’une manière que les autres sites Web ne permettent pas. Vous pouvez également effectuer des recherches extrêmement précises. Vous voulez savoir quelle est la plus longue série de matchs consécutifs où Joe Morgan s’est présenté au marbre au moins deux fois ? La réponse : 235 matchs. (Si vous voulez les détails, vous devez vous abonner, mais l’écrasante majorité des informations du site peuvent être obtenues gratuitement.)

Pour ceux d’entre nous qui veulent faire des choses plus compliquées, Baseball Reference, aussi génial soit-il, n’est tout simplement pas suffisant. Nous avons besoin des données brutes sur nos propres ordinateurs, afin de pouvoir les manipuler d’une manière à laquelle B-R n’a jamais pensé. Il existe deux sources principales de données brutes : la base de données Lahman et Retrosheet.

La base de données Lahman peut être obtenue gratuitement sur seanlahman.com/baseball-archive/statistics, le site de son créateur, Sean Lahman. Il s’agit essentiellement d’une encyclopédie de baseball standard sous forme téléchargeable. Vous pouvez l’obtenir sous forme de texte, pour le charger dans Excel, mais, plus important encore, elle est également disponible au format de base de données relationnelle (Microsoft Access). Si vous êtes familier avec Access et avec les requêtes de base de données SQL, vous savez combien il est pratique de l’utiliser pour effectuer rapidement des recherches de données puissantes et spécifiques. (Si vous n’êtes pas familier avec SQL, il y a eu quelques tutoriels sur les sites sabermétriques récemment.)

En tout cas, la base de données Lahman a la ligne de frappe et de lancer standard de chaque joueur pour chaque année. Il a des gestionnaires, des dates de naissance, des récompenses, des jeux d’étoiles, et d’autres bonnes choses. Sa limite est que les données ne sont disponibles que pour une seule saison – si vous voulez savoir comment Eddie Murray a frappé en juillet 1979, il n’y a aucune chance que la base de données Lahman vous le dise. Pour cela, vous devez vous tourner vers Retrosheet.

Retrosheet est, fondamentalement, un miracle. C’est le résultat d’une petite armée de bénévoles, passant au peigne fin les sources historiques pour essayer de recréer le play-by-play de chaque match de l’histoire du baseball et le numériser pour le télécharger et l’analyser. Je ne peux pas imaginer à quel point il est difficile de trouver toutes ces informations, pour reconstituer le début de la 6e manche du match Cardinals/Phillies du 29 avril 1953. Mais ils l’ont fait. (D. Rice est retiré au sol (de l’arrêt-court au premier but) ; Presko fait un saut au premier but dans le territoire des fausses balles ; Hemus fait un saut au premier but dans le territoire des fausses balles.)

Vous pouvez également voir la carrière complète de n’importe quel joueur, match par match. Vous pouvez voir les classements et les résultats de n’importe quelle date de l’histoire du baseball. Vous pouvez voir la carrière d’un entraîneur, quelles équipes il a entraînées et ce qu’il a entraîné, et même combien de fois il a été éjecté.

Vous pouvez voir ce genre de choses en ligne, ou, si vous avez des compétences en manipulation de données informatiques, vous pouvez les télécharger et travailler avec vous-même. Vous pouvez charger les données dans Excel et écrire des macros pour les manipuler. Vous pouvez aussi écrire des programmes pour les analyser ; j’utilise Visual Basic, mais n’importe quel langage fait l’affaire. Il existe un livre de 2006 intitulé Baseball Hacks (O’Reilly), qui explique comment utiliser un langage informatique appelé  » R  » pour télécharger et analyser les données de Retrosheet (et, en fait, beaucoup d’autres données de baseball que l’on peut trouver sur Internet).

Toute l’histoire du baseball n’est pas disponible sur Retrosheet – encore. Les bénévoles y travaillent toujours, cependant. (Vous voulez aider ? Cliquez ici pour plus de détails.) Pour l’instant, vous pouvez voir des résumés match par match à partir de 1871. Vous pouvez voir les scores de plus de 90 % des matchs depuis 1916. Et si vous voulez des données complètes sur le déroulement des matchs, elles sont disponibles pour tous les matchs après 1952 et pour un grand nombre de matchs avant cette date. Certaines années, vous pouvez même consulter les données relatives à chaque lancer, en termes de balle, de frappe et de faute.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.