Quelle ligue est la meilleure?
Ce travail est co-écrit avec Madeline Gall.
Alors que le scouting pour certains sports est simple (football universitaire → NFL), le scouting pour la NHL peut être un processus plus ardu. Avec des joueurs provenant de plus de 45+ ligues internationales de hockey sur glace, chacune avec ses propres règlements et difficultés, comment peut-on évaluer de manière adéquate la qualité de la performance d’un joueur ? Les comparaisons entre les ligues ne sont pas faciles à faire ; 18 points pour un jeune de dix-huit ans jouant contre d’autres jeunes de dix-huit ans dans une ligue mineure ne devraient pas se voir attribuer la même valeur que 18 points pour un jeune de dix-huit ans jouant contre des vétérans de la LNH.
Il y a eu d’autres tentatives pour en tenir compte, notamment des variables de traduction des joueurs, comme celle des facteurs de traduction du hockey de Rob Vollman, et les NHL Equivalency Ratings (NHLe) de Gabriel Desjardin. Le NHLe de Desjardin a déjà abordé la question de la comparaison et de la prévision des performances des joueurs lors des transitions de la ligue à la NHL (passage d’une autre ligue à la NHL). Cette méthode était idéale pour une comparaison rapide et générale et présente certainement des avantages (facile et rapide à calculer), mais elle présente aussi quelques inconvénients. Pour commencer, elle ne tient pas nécessairement compte de la qualité de l’équipe, de la position et de l’âge. Les facteurs de conversion sont calculés à partir des statistiques des joueurs qui ont joué au moins 20 matchs dans la ligue donnée avant de jouer au moins 20 matchs dans la NHL. Cela signifie qu’il y a beaucoup de données précieuses sur ces transitions intermédiaires qui ne sont pas utilisées.
Dans ce projet, nous introduisons une nouvelle méthode pour comparer et projeter la performance des joueurs entre les ligues en utilisant une métrique de z-score ajustée qui tiendrait compte de ces inconvénients. Cette métrique contrôle des facteurs tels que l’âge, la ligue, la saison et la position qui affectent la métrique P/PG d’un joueur, et pourrait être appliquée à toute ligue d’intérêt. Cette nouvelle métrique est nécessaire car de nombreuses caractéristiques varient d’un championnat à l’autre. En raison des différents styles de jeu et de la difficulté des adversaires, il n’existe pas de mesure cohérente permettant de faire des évaluations comparables des performances des joueurs dans les ligues de hockey du monde entier. D’autres facteurs tels que la force du gardien, le taux de pénalités et les dimensions de la patinoire ne sont pas non plus uniformes d’une ligue internationale à l’autre. Des scénarios pourraient se produire dans lesquels des joueurs de force similaire pourraient sembler avoir des performances apparemment différentes.
Un tel exemple serait Thomas Harley et Ville Heinola de la plus récente draft 2019. Tous deux sont des joueurs de différentes ligues jouant contre différents adversaires et affichant des chiffres très différents, et pourtant ils ont été évalués comme étant approximativement les mêmes. Harley, un défenseur d’origine américaine évoluant dans la ligue canadienne de hockey sur glace junior, joue actuellement avec les Steelheads de Mississauga dans la Ligue de hockey de l’Ontario. Il a été repêché au 18e rang par les Dallas Stars lors de la première ronde de la séance de sélection de la LNH de 2019. Heinola, quant à lui, est un défenseur professionnel finlandais de hockey sur glace qui joue actuellement pour Lukko en Liiga, prêté comme espoir aux Jets de Winnipeg de la Ligue nationale de hockey. Il a été classé comme l’un des meilleurs patineurs internationaux admissibles à la séance de sélection de la LNH de 2019. Heinola a été repêché au 20e rang par les Jets. Comment ces deux joueurs ont-ils fini par être évalués par leurs équipes respectives ? Probablement avec quelque chose de similaire à notre métrique en plus des informations de scouting.
Pour notre métrique, nous nous sommes inspirés non seulement des approches précédentes comme NHLe, mais aussi de la récente poussée d’Elo. Elo est une méthode de calcul des niveaux de compétences relatives des joueurs dans des jeux à somme nulle. Initialement créé dans le contexte de la mesure de l’évaluation des joueurs d’échecs, Elo peut également être appliqué dans divers autres scénarios, comme le sport professionnel. Pour en savoir plus et voir des exemples d’Elo dans le sport, un tutoriel de 538 est disponible ici. Elo est simplement un modèle spécifique pour le modèle de comparaison par paires. Nous allons parcourir le processus de création de notre modèle de comparaison par paires/Elo.
Pour commencer, nous avons utilisé un ensemble de données qui contenait environ 300 000 observations à partir des informations sur les joueurs (nom, position, ligue, date d’anniversaire, etc.) et des statistiques sur les joueurs (matchs joués, buts, assists, etc.) qui étaient disponibles, extraites de eliteprospects.com. L’un des premiers problèmes que nous avons rencontrés était de savoir quel type de variable de réponse nous pouvions créer pour comparer les statistiques des joueurs, en contrôlant l’âge, la force de la ligue, la position, etc. Les performances des joueurs ont été calculées de manière extensive au sein de la NHL ; il existe différentes mesures telles que WAR, GAR, Corsi, etc. Cependant, la collecte de données n’est pas la même dans toutes les ligues. Certaines ligues n’étaient pas aussi proactives que d’autres en matière de suivi de statistiques comme les coups et les blocs, ce qui signifie que nous ne pouvions utiliser que des variables omniprésentes dans toutes les ligues comme facteurs dans notre régression.
Lors de la création de la nouvelle variable de réponse, nous voulions transformer le point par match d’une manière qui tienne compte de l’âge, de la saison, de la position et de la ligue. La première étape a été de prendre le logarithme des points par match plus un. Cette transformation avait une distribution plus normale alors que les points bruts par match étaient très asymétriques. Même si la transformation logarithmique a permis aux données d’être distribuées plus normalement, le logarithme des points par match ne tient toujours pas compte des variables énumérées ci-dessus. Afin de prendre en compte ces variables, nous avons décidé de créer un z-score pour le log des points par match de chaque joueur. La première étape a consisté à calculer la moyenne et l’écart-type pour chaque groupe de position, saison, ligue et âge. Ensuite, un z-score a été calculé pour chaque observation de joueur en utilisant la moyenne et l’écart-type qui se rapportent aux variables que nous contrôlions. Ainsi, le score z du logarithme des points par match plus un était notre variable de réponse finale. Les z-scores semblaient être encore plus normalement distribués que le log des points par match, et les z-scores pour les groupes tels que les défenseurs et les attaquants étaient également normalement distribués.
Créer le modèle de comparaison par paires, qui est très similaire à un modèle Elo. Pour commencer, nous construisons un cadre de données de comparaison. Nous créons des paires de saisons joueur-ligue pour chaque joueur, de sorte qu’il y a un petit cadre de données de toutes les comparaisons par paires pour les ligues dans lesquelles ils ont joué. Cela signifie que si un joueur a joué dans K ligues, alors ce joueur aura K-choose-2 paires de saisons joueur-ligue. Ensuite, nous éliminons toutes les paires qui ont la même ligue, ainsi que les paires qui ont plus d’une saison d’écart, et nous calculons une variable de résultat. Cette variable peut être continue ou binaire, selon la régression utilisée. Il est important de comprendre que le championnat le plus « difficile » à jouer aura en fait une variable de résultat plus faible. Ceci est basé sur l’hypothèse que les ligues plus difficiles ont de meilleurs défenseurs et gardiens, ce qui rend plus difficile de marquer.
Nom du joueur | Ligue | Saison | Z- Score |
---|---|---|---|
Kris Letang | QMJHL | 2006-07 | 1.829 |
Kris Letang | NHL | 2006-07 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.557 |
Ligue 1 | Saison 1 | Score Z 1 | Ligue 2 | Saison 2 | Score Z-.Score 2 | Z-Score Différence |
---|---|---|---|---|---|---|
QMJHL | 2006-07 | 1.829 | NHL | 2006-07 | 1,158 | 0.671 |
NHL | 2006-07 | 1,158 | AHL | 2007-08 | 1,557 | -0.399 |
QMJHL | 2006-07 | 1,829 | AHL | 2007-08 | 1,557 | 0.272 |
Après avoir construit le modèle de comparaison par paires, différents types de régressions ont été utilisés pour calculer les coefficients. Nous nous sommes concentrés sur l’utilisation d’un modèle logistique créé par nous-mêmes, le modèle de Bradley Terry (en utilisant le paquet BTm dans R), qui ont tous deux créé des résultats binaires, ainsi qu’une régression des moindres carrés ordinaires, qui a créé un résultat continu. Pour évaluer quelle régression a permis de créer les résultats les plus précis, nous avons tout d’abord divisé les données appariées 70/30 pour les échantillons de formation et de test. Nous avons ensuite prédit la probabilité d’une victoire pour toutes les ligues, sur la base du Z-score ajusté de points par match. Un seuil de « victoire » a été fixé ; si la probabilité était supérieure au seuil, le résultat prédit était = 1. Dans le cas contraire, il était = 0. A partir de là, les résultats prédits ont été comparés aux résultats réels pour calculer la précision de prédiction de chaque modèle. Les résultats sont présentés dans le tableau ci-dessous.
Après avoir créé nos différentes méthodes de modélisation, nous avons pu utiliser les coefficients de force des modèles afin de créer un classement des ligues déterminé par leur force. Sans surprise, pour chaque année de 2008 à 2018, et pour les coefficients de force globaux, la Ligue nationale de hockey est considérée comme la ligue la plus forte. L’autre ligue qui était constamment considérée comme la deuxième meilleure était le Championnat du monde, ce qui est logique puisque ce sont les meilleurs joueurs de différents pays qui s’affrontent, et ce tournoi est composé de nombreux joueurs qui jouent dans la LNH. Si l’on regarde simplement les ligues, la AHL, la KHL, la SHL et la DEL ont toujours été parmi les ligues les plus fortes avec plus de 45 équipes. Le classement final des 10 premières ligues était la LNH, le championnat du monde, le championnat du monde junior, la KHL, la SHL, la AHL, l’USDP, le championnat du monde junior U18, la DEL et la NLA. Certaines des ligues qui ont pu surprendre sont les ligues de hockey junior, ou l’USDP. Ces ligues apparaissent plus haut dans notre classement parce que nous avons pris en compte l’âge dans notre modèle. Cela a permis de fonder la force sur la qualité des joueurs plutôt que sur leur âge. Chacun des trois modèles que nous avons créés avait des classements similaires avec seulement de légères déviations.
Coefficients de force au fil du temps : Le graphique ci-dessus montre les coefficients de force pour chaque ligue pour chaque année de 2008 à 2018. Les ligues les plus connues et les ligues constamment fortes sont mises en évidence ci-dessus.
Après avoir généré un classement des ligues basé sur nos points ajustés par match, l’étape suivante était de voir comment ces classements se comparaient à l’utilisation des seuls points par match. En utilisant juste les points par match, nous avons remarqué que trois choses sont arrivées aux coefficients de force de la ligue. Les ligues qui avaient un coefficient de force plus élevé avaient tendance à être les plus fortes en termes de points par match ajustés. Pour les ligues qui se situaient dans la moyenne de toutes les ligues, leurs coefficients de force pour les points bruts par match étaient très similaires à leurs coefficients de force pour les points ajustés par match. Enfin, les ligues ayant les coefficients de force les plus faibles pour les points bruts par match avaient des coefficients de force plus faibles pour les points ajustés par match. Les seules ligues qui avaient des coefficients de force inférieurs et dont les coefficients de force étaient améliorés par les points par match ajustés étaient des ligues qui avaient de jeunes joueurs. Cette tendance se retrouve pour les championnats du monde juniors U20 et U18, ainsi que pour la ligue des lycées américains du Minnesota. La ligue des lycées du Minnesota était considérée comme la pire ligue, et de loin, lorsqu’on utilisait les points bruts par match comme variable de réponse, mais en utilisant les points ajustés par match, cette ligue est plus performante que 10 autres ligues, dont beaucoup sont des ligues professionnelles. Cela nous a permis de voir plus loin les défauts des points par jeu comme prédicteur de la force de la ligue, et a également souligné combien il est important de tenir compte de l’âge pour déterminer la force de la ligue.
Coefficients de force pour chaque ligue pour les P/GP bruts vs P/GP ajustés : Ce graphique affiche les coefficients de force pour chaque ligue pour les deux différentes variables de réponse. Les coefficients de force ont été calculés en utilisant la même méthode de modélisation.
Comme mentionné ci-dessus, une nouvelle estimation de la performance des joueurs a dû être créée car les prédicteurs existants, tels que les points par match, sont biaisés en raison de l’âge, de la force de la ligue, de la force de l’équipe et de l’année. La création de percentiles pour les types de joueurs permet de comparer un prospect à d’autres joueurs similaires, ce qui permet une prédiction plus précise. Le percentile du log P/GP et la méthode que nous avons choisie sont très utiles car ils permettent de prédire les performances d’un joueur donné dans plus de 45 ligues. Avec autant de ligues, il n’est pas garanti qu’un joueur aurait été drafté de cette ligue vers la NHL, mais sans méthode de modèle, ce n’est pas nécessaire pour faire une prédiction précise.
Par exemple, les points ajustés par match de Jake Geuntzel lors de la saison 2017-2018 pour les Penguins de Pittsburgh étaient de 0,94. En utilisant ce point par match ajusté, nous pouvons prédire ses points par match ajustés dans n’importe quelle autre ligue. Ci-dessous, nous avons affiché certaines des ligues les plus courantes et les points par match ajustés prédits de Jake Guentzel dans chacune de ces ligues. À titre de comparaison, en 2016-2017, Jake Guentzel avait un nombre de points ajustés par match de 2,30 en AHL. Notre prédiction de points ajustés par match de 2 est plutôt proche.
Notre méthode de prédiction des points ajustés par match d’un joueur pour déterminer comment un joueur peut se comporter dans une ligue donnée est un simple calcul à partir de nos coefficients de force dans du processus de modélisation décrit précédemment. Pour comparer deux ligues, il faut soustraire leurs coefficients de force l’un de l’autre. Ajoutez ensuite cette valeur aux points par match ajustés ou au score z de la ligue dans laquelle le joueur a enregistré des données. La somme du z score et de la différence de coefficient de force donnera les points ajustés par match pour toute autre ligue donnée.
Non seulement la prédiction de la performance d’un seul joueur est utile à des fins de scouting, mais les coefficients de force fournissent des informations sur la force de la ligue. Les coefficients tiennent compte de l’âge, de la saison, de la position et de la ligue. Cela pourrait permettre à un recruteur d’investir davantage de ressources dans une ligue de jeunes qui pourrait être éclipsée. En effet, l’âge est un facteur déterminant des points par match, mais en tenant compte de toutes les autres variables confusionnelles, certaines ligues de jeunes avaient globalement une bien meilleure force de frappe que certaines ligues professionnelles.
Ces concepts ont également des applications dans la vie réelle. Au cours des mois précédant le repêchage de 2016, il y a eu des discussions concernant le choix que les Columbus Blue Jackets feraient avec le troisième choix global. La plupart des recruteurs avaient estimé que Jesse Puljujarvi, un attaquant finlandais, était le choix consensuel, mais les fans ont été choqués d’apprendre que les CBJ avaient plutôt choisi Pierre-Luc Dubois, un joueur de centre canadien. Cependant, un rapide coup d’œil aux chiffres révèle que cette décision ne devrait pas être une surprise. Alors qu’il jouait dans la ligue professionnelle de hockey Liiga, Puljujarvi a marqué un nombre impressionnant de 28 points en 50 matchs de saison régulière, et a été classé cinquième meilleur joueur de Liiga de moins de 20 ans. Dubois, quant à lui, jouait dans une ligue de hockey mineur, mais a néanmoins terminé troisième au classement des marqueurs de la QMJHL avec 99 points en 62 matchs. En utilisant les coefficients, nous pouvons calculer leur P/GP ajusté en NHL pour comparaison, et nous constatons que Dubois devance Puljujarvi d’un point de vue statistique. Évidemment, ce ne serait pas la seule chose que les recruteurs considéreraient lors de la sélection, la taille formidable et la physicalité de Dubois ont certainement aussi joué un rôle dans leur décision, mais on peut supposer que les Blue Jackets avaient une meilleure image de la façon dont chaque joueur s’empilait contre l’autre en choisissant Dubois plutôt que Puljujarvi.
Une autre application que les comparaisons de joueur à joueur serait les comparaisons de ligue à ligue. Pour revenir à l’exemple de Harley vs Heinola, nous pouvons évaluer leurs ligues respectives avec d’autres ligues de statut similaire. Au lieu de comparer la NHL à l’OHL, où le contraste est évident, on peut faire des évaluations plus nuancées en comparant l’OHL à d’autres ligues mineures nord-américaines. D’après les graphiques ci-dessous, nous pouvons voir que la OHL est en fait la ligue la plus forte des ligues mineures NA, alors que la Liiga est une ligue de rang moyen par rapport aux autres ligues professionnelles.
L’OHL par rapport aux autres ligues mineures de NA : Ce graphique affiche les coefficients de force de toutes les ligues juniors nord-américaines, l’OHL étant surlignée en vert.
Liiga par rapport aux autres ligues de hockey professionnel : Ce graphique affiche les coefficients de force pour toutes les ligues de hockey professionnel dans le monde, avec la Liiga surlignée en bleu clair.
Avec la métrique ajustée des points par match des joueurs, non seulement les variables confusionnelles telles que l’âge, la position, la ligue et la saison d’un joueur sont contrôlées, ce qui peut changer les perspectives sur la valeur d’un joueur donné. Les techniques de modélisation utilisées permettent de comparer les joueurs des ligues de hockey du monde entier, et pas seulement des principales ligues majeures. Cela donne aux équipes la possibilité de prédire comment un joueur donné peut se comporter dans leur ligue par rapport à des joueurs similaires, ce qui était fait auparavant en utilisant un estimateur biaisé. La mesure ajustée des points par match permet une approche plus holistique de l’évaluation des joueurs, et offre une voie d’accès à des joueurs qui auraient pu être négligés ou mis à l’écart auparavant. Il existe déjà de nombreuses applications simplement en utilisant les points ajustés par match, mais d’autres types de données peuvent également être utilisés, comme les classements des recruteurs ou les buts attendus, etc. Avec des données plus détaillées à l’avenir dans toutes les ligues, cette méthode peut également être encore améliorée.
La recherche dans cet article a également été présentée à CBJHAC20 par Katerina Wu. Vous pouvez trouver les diapositives ici.
Suivez-nous sur Twitter @kattaqueue et @madelinejgall!