Whis League is Best?
This work is co-authored with Madeline Gall.
Whilst scouting for some sports is straightforward (college football → NFL), scouting for the NHL can be a more arduous process. Met spelers uit meer dan 45 internationale ijshockeycompetities, elk met zijn eigen regels en moeilijkheden, hoe kan men de kwaliteit van de prestaties van een speler adequaat beoordelen? Vergelijkingen tussen competities zijn niet gemakkelijk te maken; 18 punten voor een achttienjarige die tegen andere achttienjarigen speelt in een minor league moet niet dezelfde waarde worden toegekend als 18 punten voor een achttienjarige die tegen veteranen in de NHL speelt.
Er zijn andere pogingen geweest om hiermee rekening te houden, met inbegrip van speler-vertaalsvariabelen, zoals die van Rob Vollman’s hockey-vertaalsfactoren, en Gabriel Desjardin’s NHL Equivalency Ratings (NHLe). Desjardin’s NHLe behandelde eerder de kwestie van het vergelijken en voorspellen van speler prestaties voor League-to-NHL overgangen (overstappen van een andere league naar de NHL). Het was geweldig voor een snelle, algemene vergelijking en heeft zeker zijn voordelen (gemakkelijk en snel te berekenen), maar er zijn enkele nadelen aan de methode. Om te beginnen, het controleerde niet noodzakelijk voor team kwaliteit, positie, en leeftijd. Vertaalfactoren worden berekend aan de hand van statistieken van spelers die tenminste 20 wedstrijden in de betreffende competitie hebben gespeeld voordat ze tenminste 20 wedstrijden in de NHL speelden. Dat betekent dat er veel waardevolle gegevens over deze tussenliggende overgangen zijn die niet worden gebruikt.
In dit project introduceren we een nieuwe methode voor het vergelijken en projecteren van spelersprestaties in verschillende divisies met behulp van een aangepaste z-score metriek die rekening houdt met deze nadelen. Deze metriek controleert factoren zoals leeftijd, competitie, seizoen en positie die de P/PG metriek van een speler beïnvloeden, en zou kunnen worden toegepast op elke competitie van belang. Deze nieuwe metriek is nodig omdat er veel kenmerken zijn die van competitie tot competitie verschillen. Door de verschillende speelstijlen en de moeilijkheidsgraad van de tegenstanders is er niet één consistente metriek om vergelijkbare evaluaties te maken van de prestaties van spelers in hockeycompetities over de hele wereld. Andere factoren zoals de sterkte van de keeper, het aantal penalty’s en de afmetingen van de baan zijn ook niet consistent in alle internationale competities. Scenario’s kunnen zich voordoen waarin spelers van vergelijkbare sterkte schijnbaar verschillende prestaties kunnen hebben.
Een voorbeeld hiervan zou Thomas Harley en Ville Heinola uit de meest recente 2019 draft zijn. Beide zijn spelers uit verschillende competities die tegen verschillende tegenstanders spelen en enorm verschillende cijfers neerzetten, maar toch werden ze gewaardeerd als ongeveer hetzelfde. Harley, een in Amerika geboren verdediger die in de Canadese junior ijshockey league speelt, speelt momenteel bij de Mississauga Steelheads in de Ontario Hockey League. Hij werd als 18e opgesteld door de Dallas Stars in de eerste ronde van de 2019 NHL Entry Draft. Heinola aan de andere kant is een Finse professionele ijshockeyverdediger die momenteel speelt voor Lukko in Liiga en is uitgeleend als prospect aan de Winnipeg Jets van de National Hockey League. Hij werd gerangschikt als een van de top internationale schaatsers die in aanmerking komen voor de 2019 NHL Entry Draft. Heinola werd door de Jets als 20e geplaatst. Hoe werden deze twee spelers uiteindelijk geëvalueerd door hun respectievelijke teams? Waarschijnlijk met iets vergelijkbaars als onze metric in aanvulling op scouting informatie.
Voor onze metric, werden wij niet alleen geïnspireerd door de vorige benaderingen zoals NHLe, maar ook de recente vloed van Elo. Elo is een methode voor het berekenen van de relatieve vaardigheidsniveaus van spelers in zero-sum games. Elo werd oorspronkelijk ontwikkeld om de ratings van schakers te meten, maar kan ook in andere scenario’s worden toegepast, zoals in de professionele sport. Om meer te lezen en voorbeelden te zien van Elo in de sport, kan een tutorial door 538 hier worden gevonden. Elo is gewoon een specifiek model voor gepaarde vergelijking. We lopen door het proces waarin we onze gepaarde vergelijking/Elo model.
Om te beginnen, gebruikten we een dataset die ongeveer 300.000 waarnemingen bevatte van de speler informatie (naam, positie, competitie, verjaardag, enz.) en speler statistieken (gespeelde wedstrijden, doelpunten, assists, enz.) die beschikbaar waren, geschraapt van eliteprospects.com. Een van de eerste problemen waar we tegenaan liepen was wat voor soort responsvariabele we konden maken om spelersstatistieken te vergelijken, controlerend voor leeftijd, competitiesterkte, positie, enz. Speler prestaties zijn uitgebreid berekend binnen de NHL; er zijn verschillende metingen zoals WAR, GAR, Corsi, enz. De gegevensverzameling is echter niet in alle competities gelijk. Sommige competities waren niet zo pro-actief in het bijhouden van statistieken zoals hits en blocks als andere, wat betekende dat we alleen variabelen konden gebruiken die alomtegenwoordig waren in alle competities als factoren binnen onze regressie.
Bij het maken van de nieuwe responsvariabele wilden we het punt per wedstrijd omzetten op een manier die rekening hield met leeftijd, seizoen, positie en competitie. De eerste stap was het nemen van de log van punten per wedstrijd plus één. Deze transformatie had een meer normale verdeling, terwijl onbewerkte punten per wedstrijd zeer rechts scheef waren. Hoewel de log transformatie hielp de gegevens meer normaal verdeeld te laten lijken, hield de log punten per wedstrijd nog steeds geen rekening met de bovengenoemde variabelen. We besloten dat we, om rekening te houden met dergelijke variabelen, een z-score zouden maken voor de log punten per wedstrijd van elke speler. De eerste stap was het berekenen van het gemiddelde en de standaardafwijking voor elke groep van positie, seizoen, divisie en leeftijd. Dan werd een z-score berekend voor elke spelerwaarneming met gebruikmaking van het gemiddelde en de standaardafwijking die betrekking hadden op de variabelen waarvoor we controleerden. Zo werd de z-score van de log van punten per wedstrijd plus één onze uiteindelijke responsvariabele. De z-scores bleken nog normaler verdeeld te zijn dan de log points per game, en de z-scores voor groepen als verdedigers en aanvallers waren ook normaal verdeeld.
Het maken van het gepaarde-vergelijkingsmodel, dat erg lijkt op een Elo-model. Om te beginnen bouwen we een vergelijkend dataframe. We maken paren van speler-league seizoenen voor elke speler, zodat er een kleine dataframe is van alle paarsgewijze vergelijkingen voor de leagues waarin ze hebben gespeeld. Dit betekent dat als een speler in K competities heeft gespeeld, die speler K-kies-2 paren van speler-league-seizoenen zal hebben. Vervolgens elimineren we alle paren die dezelfde competitie hebben, alsook paren die meer dan één seizoen uit elkaar liggen, en berekenen we een uitkomstvariabele. Deze variabele kan continu of binair zijn, afhankelijk van de gebruikte regressie. Het is belangrijk te begrijpen dat de “moeilijkere” competitie om in te spelen in feite een lagere uitkomstvariabele zou hebben. Dit is gebaseerd op de aanname dat moeilijkere competities betere verdedigers en keepers hebben, waardoor het moeilijker is om te scoren.
Spelersnaam | League | Seizoen | Z- Score |
---|---|---|---|
Kris Letang | QMJHL | 2006-07 | 1.829 |
Kris Letang | NHL | 2006-07 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.557 |
League 1 | Season 1 | Z-Score 1 | League 2 | Season 2 | Z-Score 2 | Z-Score Verschil |
---|---|---|---|---|---|---|
QMJHL | 2006-07 | 1.829 | NHL | 2006-07 | 1.158 | 0.671 |
NHL | 2006-07 | 1.158 | AHL | 2007-08 | 1.557 | -0.399 |
QMJHL | 2006-07 | 1.829 | AHL | 2007-08 | 1.557 | 0.272 |
Na het bouwen van het gepaarde vergelijkingsmodel werden verschillende soorten regressies gebruikt om de coëfficiënten te berekenen. We hebben ons gericht op het gebruik van een zelfgemaakt logistisch model, het Bradley Terry-model (met behulp van het BTm-pakket in R), die beide binaire uitkomsten creëerden, en van een Gewone kleinste kwadratenregressie, die een continue uitkomst creëerde. Om te evalueren welke regressie de meest accurate resultaten opleverde, splitsten we eerst de gepaarde data 70/30 voor training en test samples. Vervolgens voorspelden we de kans op winst voor alle competities, gebaseerd op de aangepaste punten per wedstrijd Z-score. Een drempel voor “winnen” werd ingesteld; indien de waarschijnlijkheid groter was dan de drempel, dan was de voorspelde uitkomst = 1. Anders was het = 0. Van daaruit werden de voorspelde uitkomsten vergeleken met de werkelijke uitkomsten om de nauwkeurigheid van de voorspelling voor elk model te berekenen. De resultaten worden in de volgende tabel weergegeven.
Nadat onze verschillende modelmethodes waren gecreëerd, konden we de sterktecoëfficiënten van de modellen gebruiken om een rangschikking van competities te maken op basis van hun sterkte. Het was geen verrassing dat voor elk jaar van 2008 tot 2018, en voor de algemene sterkte coëfficiënten, de National Hockey League als de sterkste league wordt beschouwd. De andere competitie die consequent als de op een na beste werd beschouwd was de Wereldkampioenschappen, wat logisch is omdat dit de beste spelers uit verschillende landen zijn die met elkaar concurreren, en dit toernooi bestaat uit veel spelers die in de NHL spelen. De AHL, KHL, SHL en DEL behoorden tot de sterkste competities met 45 of meer teams. De eindrangschikking van de top 10 competities was de NHL, Wereldkampioenschap, Wereld Junior Kampioenschap, KHL, SHL, AHL, USDP, Wereld Junior Kampioenschap U18, DEL, en NLA. Sommige competities die misschien een verrassing waren, waren de junior hockey competities, of de USDP. Deze competities kwamen hoger op onze ranglijst omdat we in ons model rekening hielden met leeftijd. Hierdoor kon de sterkte worden gebaseerd op de kwaliteit van de spelers in plaats van de leeftijd van de spelers. Elk van de drie modellen die we hebben gemaakt had vergelijkbare rangschikkingen met slechts kleine afwijkingen.
Sterktecoëfficiënten in de tijd: De bovenstaande grafiek toont de sterktecoëfficiënten voor elke divisie voor elk jaar van 2008 – 2018. De meer bekende competities en de consistent sterke competities zijn hierboven gemarkeerd.
Na het genereren van een rangschikking van competities op basis van onze aangepaste punten per wedstrijd, was de volgende stap om te kijken hoe deze rangschikking zich verhoudt tot het gebruik van alleen punten per wedstrijd. Wanneer we alleen punten per wedstrijd gebruiken, zien we dat er drie dingen gebeuren met de sterktecoëfficiënten van de competities. Voor competities die een hogere sterkte-coëfficiënt hadden, bleken deze competities nog steeds de sterkste competities te zijn voor de aangepaste punten per wedstrijd. Voor competities die zich in de middenmoot van alle competities bevonden, waren hun sterktecoëfficiënten voor ruwe punten per wedstrijd zeer gelijkaardig aan hun aangepaste punten per wedstrijd sterktecoëfficiënten. Tenslotte, de competities met de laagste sterktecoëfficiënten voor ruwe punten per wedstrijd hadden slechtere sterktecoëfficiënten voor aangepaste punten per wedstrijd. De enige competities met lagere sterktecoëfficiënten waarvan de sterktecoëfficiënten verbeterd werden door aangepaste punten per wedstrijd, waren competities met jonge spelers. Deze trend doet zich voor bij de Wereld Junioren Kampioenschappen voor zowel U20 als U18, en bij de United States High School, Minnesota league. De Minnesota High School League werd veruit als de slechtste competitie beschouwd wanneer ruwe punten per wedstrijd als responsvariabele werden gebruikt, maar wanneer aangepaste punten per wedstrijd worden gebruikt, presteert deze competitie beter dan 10 andere competities, waarvan vele professionele competities zijn. Hierdoor konden we de gebreken van punten per wedstrijd als voorspeller van de sterkte van een competitie beter zien, en werd ook duidelijk hoe belangrijk het is om rekening te houden met leeftijd bij het bepalen van de sterkte van een competitie.
Sterktecoëfficiënten voor elke divisie voor ruwe P/GP vs gecorrigeerde P/GP: Deze grafiek toont de sterktecoëfficiënten voor elke divisie voor de twee verschillende responsvariabelen. De sterkte coëfficiënten werden berekend met behulp van dezelfde modellering methode.
Zoals hierboven vermeld, moest een nieuwe schatting voor de prestatie van spelers worden gemaakt, omdat bestaande voorspellers zoals punten per wedstrijd vertekend zijn door leeftijd, competitiesterkte, teamsterkte en het jaar. Door percentielen te creëren voor spelersoorten kan een prospect vergeleken worden met andere spelers die gelijkaardig zijn, wat een meer accurate voorspelling toelaat. Het percentiel van log P/GP en de door ons gekozen methode is zeer nuttig omdat het een voorspelling toelaat van de prestaties van een speler in een van de 45+ competities. Met zoveel competities is het niet gegarandeerd dat een speler uit die competitie zou zijn opgesteld voor de NHL, maar zonder modelmethode is dat niet nodig om een accurate voorspelling te doen.
Bij wijze van voorbeeld, Jake Geuntzel’s aangepaste punten per wedstrijd in het seizoen 2017-2018 voor de Pittsburgh Penguins was .94. Met behulp van dit aangepaste punt per wedstrijd, kunnen we zijn aangepaste punten per wedstrijd in elke andere competitie voorspellen. Hieronder hebben we een aantal van de meer voorkomende competities weergegeven en Jake Guentzel’s voorspelde aangepaste punten per wedstrijd in elk van die competities. Ter vergelijking, in 2016-2017 had Jake Guentzel een aangepast aantal punten per wedstrijd van 2.30 in de AHL. Onze voorspelde gecorrigeerde punten per wedstrijd van 2 komt aardig in de buurt.
Onze methode bij het voorspellen van de aangepaste punten per wedstrijd van een speler om te bepalen hoe een speler in een bepaalde competitie kan presteren, is een eenvoudige berekening van onze sterktecoëfficiënten in uit het eerder beschreven modelleringsproces. Om twee divisies te vergelijken, trek je hun sterktecoëfficiënten van elkaar af. Voeg dan deze waarde toe aan de aangepaste punten per wedstrijd of z score van de divisie waarin de speler gegevens heeft opgenomen. De som van de z score en het verschil van de sterktecoëfficiënt geeft de aangepaste punten per game voor een andere competitie.
Niet alleen is het voorspellen van de prestaties van een enkele speler nuttig voor scoutingsdoeleinden, maar de sterktecoëfficiënten geven informatie over de sterkte van de competitie. De coëfficiënten houden rekening met leeftijd, seizoen, positie en divisie. Dit kan een scout in staat stellen meer middelen te investeren in een jeugdcompetitie die mogelijk wordt overschaduwd. Dit komt omdat leeftijd in grote mate bepalend is voor het aantal punten per wedstrijd, maar wanneer rekening wordt gehouden met alle andere verstorende variabelen, waren er jeugdcompetities die over het algemeen een veel betere competitiekracht hadden dan sommige profcompetities.
Deze concepten hebben ook toepassingen in het echte leven. Tijdens de maanden voorafgaand aan de 2016 draft, waren er discussies over wie de Columbus Blue Jackets zouden opstellen met de derde keuze. De meeste scouts hadden Jesse Puljujarvi, een Finse forward, gewaardeerd als de consensuskeuze, maar fans waren geschokt toen ze hoorden dat CBJ in plaats daarvan koos voor Pierre-Luc Dubois, een Canadese centerman. Een snelle blik op de cijfers leert echter dat deze beslissing niet als een verrassing hoeft te komen. Puljujarvi, die in de professionele ijshockeycompetitie Liiga speelde, scoorde een indrukwekkende 28 punten in 50 reguliere seizoenswedstrijden, en was de vijfde beste van alle Liiga spelers onder 20 jaar. Dubois daarentegen speelde in een lagere ijshockeycompetitie, maar eindigde niettemin als derde in de QMJHL met 99 punten in 62 wedstrijden. Met behulp van de coëfficiënten kunnen we hun aangepaste P/GP in de NHL berekenen ter vergelijking, en we vinden dat Dubois Puljujarvi leidt vanuit een statistisch oogpunt. Natuurlijk zou dit niet het enige zijn waarmee scouts rekening zouden houden bij de selectie, Dubois’ formidabele omvang en fysiekheid hebben zeker ook een rol gespeeld in hun beslissing, maar men zou kunnen aannemen dat de Blue Jackets een beter beeld hadden van hoe elke speler zich opstelde tegenover de ander toen ze Dubois verkozen boven Puljujarvi.
Een andere toepassing naast speler-tot-speler vergelijkingen zou zijn league-to-league vergelijkingen. Terugkomend op het voorbeeld van Harley vs Heinola, kunnen we hun respectievelijke competities evalueren met andere competities van vergelijkbare status. In plaats van de NHL te vergelijken met de OHL, waar het contrast duidelijk is, kunnen meer genuanceerde waarderingen worden gemaakt door de OHL te vergelijken met andere Noord-Amerikaanse minor leagues. Uit de grafieken hieronder kunnen we zien dat de OHL eigenlijk de sterkste competitie is van de NA minor leagues, terwijl Liiga een middelmatige competitie is in vergelijking met andere professionele competities.
OHL versus andere NA Junior Leagues: Deze grafiek toont de sterktecoëfficiënten voor alle Noord-Amerikaanse juniorencompetities, met de OHL in groen gemarkeerd.
Liiga versus andere professionele ijshockeycompetities: Deze grafiek toont de sterktecoëfficiënten voor alle professionele hockeycompetities over de hele wereld, met de Liiga in lichtblauw.
Met de aangepaste punten per wedstrijd speler metric, niet alleen zijn verwarrende variabelen zoals een speler leeftijd, positie, competitie, en seizoen worden gecontroleerd, die de vooruitzichten op de waarde van een bepaalde speler kan veranderen. De gebruikte modelleertechnieken maken het mogelijk spelers te vergelijken van ijshockeycompetities over de hele wereld, niet alleen de prominente hoofdcompetities. Dit geeft teams de mogelijkheid om te voorspellen hoe een bepaalde speler zal presteren in hun competitie ten opzichte van vergelijkbare spelers, wat voorheen werd gedaan door gebruik te maken van een bevooroordeelde schatter. De aangepaste punten per wedstrijd metriek maakt een meer holistische aanpak voor de evaluatie van spelers mogelijk, en biedt een pad voor spelers die voorheen over het hoofd werden gezien of in de marge werden geplaatst. Er zijn al veel toepassingen door gewoon de aangepaste punten per wedstrijd te gebruiken, maar andere soorten gegevens kunnen ook worden gebruikt, zoals scout rankings of verwachte doelpunten, enz. Met meer gedetailleerde gegevens in de toekomst over alle competities, kan deze methode ook verder worden verbeterd.
Het onderzoek in dit artikel is ook gepresenteerd op CBJHAC20 door Katerina Wu. U kunt de slides hier vinden.
Volg ons op Twitter @kattaqueue en @madelinejgall!