Ce ligă este cea mai bună?
Această lucrare este scrisă în colaborare cu Madeline Gall.
În timp ce recrutarea pentru unele sporturi este simplă (fotbal universitar → NFL), recrutarea pentru NHL poate fi un proces mai dificil. Cu jucători din peste 45+ ligi internaționale de hochei pe gheață, fiecare cu propriile reglementări și dificultăți, cum se poate evalua în mod adecvat calitatea performanței unui jucător? Comparațiile între ligi nu sunt ușor de făcut; 18 puncte pentru un tânăr de optsprezece ani care joacă împotriva altor tineri de optsprezece ani într-o ligă minoră nu ar trebui să i se atribuie aceeași valoare ca 18 puncte pentru un tânăr de optsprezece ani care joacă împotriva unor veterani din NHL.
Au existat și alte încercări de a ține cont de acest lucru, inclusiv variabilele de traducere a jucătorilor, cum ar fi cea a factorilor de traducere în hochei a lui Rob Vollman și NHL Equivalency Ratings (NHLe) a lui Gabriel Desjardin. NHLe al lui Desjardin a abordat anterior problema comparării și predicției performanțelor jucătorilor în cazul tranzițiilor de la o ligă la alta (trecerea de la o altă ligă la NHL). A fost grozav pentru o comparație rapidă și generală și, cu siguranță, are avantajele sale (ușor și rapid de calculat), dar metoda sa are și unele dezavantaje. Pentru început, nu a controlat neapărat calitatea echipei, poziția și vârsta. Factorii de conversie sunt calculați folosind statisticile jucătorilor care au jucat cel puțin 20 de meciuri în liga respectivă înainte de a juca cel puțin 20 în NHL. Asta înseamnă că există o mulțime de date valoroase despre aceste tranziții intermediare care nu sunt folosite.
În acest proiect, introducem o nouă metodă de comparare și proiecție a performanțelor jucătorilor între ligi, folosind o metrică de scoruri z ajustate care ar ține cont de aceste dezavantaje. Această metrică controlează factori precum vârsta, liga, sezonul și poziția care afectează metrica P/PG a unui jucător și ar putea fi aplicată la orice ligă de interes. Acest nou parametru este necesar deoarece există multe caracteristici care variază de la o ligă la alta. Din cauza diferitelor stiluri de joc și a dificultății adversarilor, nu există o măsurătoare coerentă pentru a face evaluări comparabile ale performanțelor jucătorilor pentru ligile de hochei din întreaga lume. Alți factori, cum ar fi puterea portarului, ratele de penalizare și dimensiunile patinoarului sunt, de asemenea, inconsecvenți între ligile internaționale. Ar putea apărea scenarii în care jucători de forță similară ar putea părea să aibă performanțe aparent diferite.
Un astfel de exemplu ar fi Thomas Harley și Ville Heinola din cel mai recent proiect din 2019. Amândoi sunt jucători din ligi diferite care au jucat împotriva unor adversari diferiți și au obținut cifre foarte diferite, dar au fost evaluați ca fiind aproximativ la fel. Harley, un fundaș de origine americană care joacă în liga canadiană de hochei pe gheață pentru juniori, joacă în prezent la Mississauga Steelheads în Ontario Hockey League. El a fost recrutat pe locul 18 în clasamentul general de către Dallas Stars în prima rundă a NHL Entry Draft 2019. Pe de altă parte, Heinola este un fundaș profesionist finlandez de hochei pe gheață care joacă în prezent pentru Lukko în Liiga, fiind împrumutat ca jucător de perspectivă la Winnipeg Jets din Liga Națională de Hochei. El a fost clasat ca fiind unul dintre cei mai buni patinatori internaționali eligibili pentru NHL Entry Draft 2019. Heinola a fost recrutat cu numărul 20 în clasamentul general de către Jets. Cum au ajuns acești doi jucători să fie evaluați de echipele lor respective? Probabil cu ceva asemănător cu metrica noastră, pe lângă informațiile de scouting.
Pentru metrica noastră, am fost inspirați nu numai de abordările anterioare, cum ar fi NHLe, ci și de recenta creștere a Elo. Elo este o metodă de calculare a nivelurilor relative de îndemânare ale jucătorilor în jocurile cu sumă zero. Deși inițial a fost creată în contextul măsurării ratingurilor jucătorilor de șah, Elo poate fi aplicată și în diverse alte scenarii, cum ar fi sporturile profesioniste. Pentru a citi mai multe și a vedea exemple de Elo în sport, un tutorial realizat de 538 poate fi găsit aici. Elo este pur și simplu un model specific pentru modelul de comparație perechi. Vom parcurge procesul prin care am creat modelul nostru de comparație împerecheată/Elo.
Pentru început, am folosit un set de date care conținea aproximativ 300.000 de observații din informațiile despre jucători (nume, poziție, ligă, data nașterii etc.) și statisticile jucătorilor (meciuri jucate, goluri, pase decisive etc.) care erau disponibile, răzuite de pe eliteprospects.com. Una dintre primele probleme cu care ne-am confruntat a fost ce fel de variabilă de răspuns am putea crea pentru a compara statisticile jucătorilor, controlând vârsta, forța ligii, poziția, etc. Performanța jucătorilor a fost calculată pe scară largă în cadrul NHL; există diverse măsurători, cum ar fi WAR, GAR, Corsi, etc. Cu toate acestea, colectarea datelor nu este egală în toate ligile. Unele ligi nu au fost la fel de proactive în ceea ce privește urmărirea statisticilor, cum ar fi loviturile și blocajele, ca altele, ceea ce a însemnat că am putut utiliza doar variabile care erau omniprezente în toate ligile ca factori în cadrul regresiei noastre.
Când am creat noua variabilă de răspuns, am dorit să transformăm punctul pe meci într-un mod care să țină cont de vârstă, sezon, poziție și ligă. Primul pas a fost să luăm logaritmul punctelor pe meci plus unu. Această transformare a avut o distribuție mai normală, în timp ce punctele brute pe meci erau foarte înclinate spre dreapta. Chiar dacă transformarea logaritmică a ajutat datele să pară mai normal distribuite, logaritmul punctelor pe meci tot nu a ținut cont de variabilele enumerate mai sus. Am decis că, pentru a ține cont de aceste variabile, vom crea un scor z pentru punctele logaritmice pe meci ale fiecărui jucător. Primul pas a fost să calculăm media și abaterea standard pentru fiecare grup de poziție, sezon, ligă și vârstă. Apoi a fost calculat un scor z pentru fiecare observație a jucătorului folosind media și abaterea standard aferente variabilelor pe care le controlam. Astfel, scorul z al logaritmului punctelor pe meci plus unu a fost variabila noastră finală de răspuns. Scorurile z au părut să fie distribuite chiar mai normal decât logul punctelor pe meci, iar scorurile z pentru grupuri precum apărătorii și atacanții au fost, de asemenea, distribuite normal.
Crearea modelului de comparație perechi, care este foarte asemănător cu un model Elo. Pentru a începe, construim un cadru de date de comparație. Creăm perechi de sezoane jucător – ligă pentru fiecare jucător, astfel încât să existe un mic cadru de date cu toate comparațiile pe perechi pentru ligile în care au jucat. Acest lucru înseamnă că, dacă un jucător a jucat în K ligi, atunci acel jucător va avea K-alegeri-2 perechi de sezoane jucător-liga. În continuare, eliminăm toate perechile care au aceeași ligă, precum și perechile care se află la o distanță mai mare de un sezon, și calculăm o variabilă de rezultat. Această variabilă poate fi fie continuă, fie binară, în funcție de regresia utilizată. Este important să înțelegem că liga „mai greu de jucat” ar avea de fapt o variabilă de rezultat mai mică. Acest lucru se bazează pe ipoteza că ligile mai dificile au apărători și portari mai buni, ceea ce face mai dificilă marcarea de goluri.
Numele jucătorului | Liga | Sezon | Z- Scor |
---|---|---|---|
Kris Letang | QMJHL | 2006-07 | 1.829 |
Kris Letang | NHL | 2006-07 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.557 |
Liga 1 | Sezon 1 | Z-Score 1 | Liga 2 | Sezon 2 | Z-.Scor 2 | Z-Score Diferență | |
---|---|---|---|---|---|---|---|
QMJHL | 2006-07 | 1.829 | NHL | 2006-07 | 1.158 | 0.671 | |
NHL | 2006-07 | 1.158 | AHL | 2007-08 | 1.557 | -0.399 | |
QMJHL | 2006-07 | 1.829 | AHL | 2007-08 | 1.557 | 0.272 |
După construirea modelului de comparație împerecheată, au fost utilizate diferite tipuri de regresii pentru a calcula coeficienții. Ne-am axat pe utilizarea unui model logistic creat de noi înșine, a modelului Bradley Terry (utilizând pachetul BTm din R), ambele care au creat rezultate binare, precum și o regresie de tip Ordinary Least Squares, care a creat un rezultat continuu. Pentru a evalua ce regresie a funcționat pentru a crea cele mai precise rezultate, am împărțit mai întâi datele împerecheate 70/30 pentru eșantioanele de antrenament și de testare. Apoi am prezis probabilitatea unei victorii pentru toate ligile, pe baza scorului Z ajustat al punctelor pe meci. A fost stabilit un prag pentru „victorie”; dacă probabilitatea a fost mai mare decât pragul, atunci rezultatul prezis a fost = 1. În caz contrar, a fost = 0. De aici, rezultatele prezise au fost comparate cu rezultatele reale pentru a calcula acuratețea predicției pentru fiecare model. Rezultatele sunt prezentate în tabelul de mai jos.
După ce au fost create diferitele noastre metode de modelare, am putut să folosim coeficienții de putere din modele pentru a crea un clasament al ligilor determinat de puterea lor. Nu a fost o surpriză faptul că, pentru fiecare an din 2008 până în 2018 și pentru coeficienții de forță generali, Liga Națională de Hochei este considerată cea mai puternică ligă. Cealaltă ligă care a fost considerată în mod constant a doua cea mai bună a fost Campionatul Mondial, ceea ce are sens, deoarece aici concurează cei mai buni jucători din diferite țări, iar acest turneu este format din mulți jucători care joacă în NHL. Dacă ne uităm pur și simplu la ligi, AHL, KHL, SHL și DEL au fost în mod constant unele dintre cele mai puternice ligi cu peste 45 de echipe. Clasamentul final al primelor 10 ligi a fost următorul: NHL, Campionatul Mondial, Campionatul Mondial de Juniori, KHL, SHL, AHL, USDP, Campionatul Mondial de Juniori U18, DEL și NLA. Unele dintre ligile care ar fi putut fi o surpriză au fost ligile de hochei juniori sau USDP. Aceste ligi au apărut mai sus în clasamentul nostru pentru că am luat în calcul vârsta în modelul nostru. Acest lucru a permis ca forța să se bazeze mai degrabă pe calitatea jucătorilor decât pe vârsta acestora. Fiecare dintre cele trei modele pe care le-am creat a avut clasamente similare, cu doar mici diferențe.
Coeficienții de forță de-a lungul timpului: Graficul de mai sus prezintă coeficienții de forță pentru fiecare ligă pentru fiecare an din 2008 – 2018. Ligile cel mai des cunoscute și ligile constant puternice sunt evidențiate mai sus.
După ce am generat un clasament al ligilor pe baza punctelor noastre ajustate pe meci, următorul pas a fost să vedem cum se compară aceste clasamente cu utilizarea doar a punctelor pe meci. Atunci când am folosit doar punctele pe meci am observat că s-au întâmplat trei lucruri cu coeficienții de forță ai ligilor. În cazul ligilor care au avut un coeficient de putere mai mare, aceste ligi au avut tendința de a fi în continuare cele mai puternice ligi în ceea ce privește punctele pe meci ajustate. În cazul ligilor care se aflau la nivelul mediu al tuturor ligilor, coeficienții de putere pentru punctele brute pe meci au fost foarte asemănători cu coeficienții de putere pentru punctele ajustate pe meci. În cele din urmă, ligile cu cei mai mici coeficienți de putere pentru punctele brute pe meci au avut coeficienți de putere mai slabi pentru punctele ajustate pe meci. Singurele ligi care au avut coeficienți de forță mai mici și care au avut coeficienți de forță îmbunătățiți de punctele ajustate pe meci au fost ligile care aveau jucători tineri. Această tendință se regăsește în cazul Campionatelor Mondiale de juniori, atât pentru U20, cât și pentru U18, precum și pentru United States High School, liga Minnesota. În ceea ce privește liga de liceu din Minnesota, aceasta a fost considerată de departe cea mai slabă ligă atunci când a folosit puncte brute pe meci ca variabilă de răspuns, dar prin utilizarea punctelor ajustate pe meci, această ligă are rezultate mai bune decât alte 10 ligi, dintre care multe sunt ligi profesioniste. Acest lucru ne-a permis să vedem mai bine deficiențele pe care le prezintă punctele pe meci ca predictor al puterii ligii și a evidențiat, de asemenea, cât de important este să se țină cont de vârstă atunci când se determină puterea ligii.
Coeficienți de putere pentru fiecare ligă pentru P/GP brut vs P/GP ajustat: Acest grafic afișează coeficienții de putere pentru fiecare ligă pentru cele două variabile de răspuns diferite. Coeficienții de rezistență au fost calculați folosind aceeași metodă de modelare.
După cum s-a menționat mai sus, a fost necesară crearea unei noi estimări pentru performanța jucătorilor, deoarece predictorii existenți, cum ar fi punctele pe meci, sunt distorsionați din cauza vârstei, a forței ligii, a forței echipei și a anului. Crearea percentilelor pentru tipurile de jucători permite ca un jucător de perspectivă să fie comparat cu alți jucători similari, permițând o predicție mai precisă. Percentila de log P/GP și metoda noastră aleasă este foarte utilă, deoarece permite o predicție a performanțelor oricărui jucător în oricare dintre cele peste 45 de ligi. Cu atât de multe ligi, nu este garantat faptul că un jucător ar fi fost recrutat din liga respectivă în NHL, dar, fără metoda modelului, acest lucru nu este necesar pentru a face o predicție precisă.
De exemplu, punctele ajustate pe meci ale lui Jake Geuntzel în sezonul 2017-2018 pentru Pittsburgh Penguins au fost de 0,94. Folosind acest punct ajustat pe meci, putem prezice punctele sale ajustate pe meci în orice altă ligă. Mai jos sunt afișate câteva dintre cele mai comune ligi și punctele ajustate pe meci preconizate ale lui Jake Guentzel în fiecare dintre aceste ligi. Pentru comparație, în 2016-2017, Jake Guentzel a avut un număr ajustat de puncte pe meci de 2,30 în AHL. Punctele noastre previzionate ajustate pe meci de 2 sunt destul de apropiate.
Metoda noastră de prezicere a punctelor ajustate pe meci ale unui jucător pentru a determina modul în care un jucător ar putea avea performanțe în orice ligă dată este un calcul simplu din coeficienții noștri de forță în din procesul de modelare descris anterior. Pentru a compara două ligi oarecare, se scad coeficienții lor de forță unul față de celălalt. Apoi adăugați această valoare la punctele ajustate pe meci sau la scorul z al ligii în care jucătorul a înregistrat date. Suma scorului z și a diferenței dintre coeficienții de putere va da punctele ajustate pe meci pentru orice altă ligă dată.
Nu numai că predicția performanței unui singur jucător este utilă în scopuri de cercetare, dar coeficienții de putere oferă informații despre puterea ligii. Coeficienții țin cont de vârstă, sezon, poziție și ligă. Acest lucru ar putea permite unui scouter să investească mai multe resurse într-o ligă de tineret care poate fi umbrită. Acest lucru se datorează faptului că vârsta este un factor determinant al punctelor pe meci, dar atunci când se ține cont de toate celelalte variabile de confuzie, au existat unele ligi de tineret care, în general, au avut o forță mult mai bună decât unele ligi profesioniste.
Aceste concepte au și aplicații în viața reală. În lunile care au precedat draftul din 2016, au existat discuții cu privire la cine ar urma să fie recrutat de Columbus Blue Jackets cu a treia alegere generală. Majoritatea scouterilor l-au apreciat pe Jesse Puljujarvi, un atacant finlandez, ca fiind alegerea consensuală, dar fanii au fost șocați să audă că CBJ l-a ales în schimb pe Pierre-Luc Dubois, un mijlocaș canadian. Cu toate acestea, o privire rapidă asupra cifrelor va dezvălui că această decizie nu ar trebui să vină ca o surpriză. În timp ce juca în liga profesionistă de hochei Liiga, Puljujarvi a marcat un număr impresionant de 28 de puncte în 50 de meciuri din sezonul regulat și s-a clasat pe locul cinci în topul jucătorilor din Liiga cu vârsta sub 20 de ani. Dubois, pe de altă parte, a jucat într-o ligă minoră de hochei, dar cu toate acestea a terminat pe locul trei în topul marcatorilor din QMJHL, cu 99 de puncte în 62 de meciuri. Folosind coeficienții, putem calcula P/GP-ul lor ajustat în NHL pentru comparație, și constatăm că Dubois îl devansează pe Puljujarvi din punct de vedere statistic. Evident, acesta nu ar fi singurul lucru pe care scouterii l-ar lua în considerare în momentul selecției, mărimea formidabilă și fizicul lui Dubois au jucat, de asemenea, cu siguranță, un rol în decizia lor, dar se poate presupune că Blue Jackets au avut o imagine mai bună a modului în care fiecare jucător a fost comparat cu celălalt atunci când l-au ales pe Dubois în locul lui Puljujarvi.
O altă aplicație în afară de comparațiile de la jucător la jucător ar fi comparațiile între ligi. Revenind la exemplul Harley vs Heinola, putem evalua ligile lor respective cu alte ligi cu statut similar. În loc să comparăm NHL cu OHL, unde contrastul este evident, se pot face aprecieri mai nuanțate comparând OHL cu alte ligi minore nord-americane. Din graficele de mai jos, putem observa că OHL este de fapt cea mai puternică ligă din ligile minore din NA, în timp ce Liiga este o ligă de rang mediu în comparație cu alte ligi profesioniste.
OHL față de alte ligi de juniori din NA: Acest grafic afișează coeficienții de forță pentru toate ligile de juniori din America de Nord, cu OHL evidențiată cu verde.
Liiga versus alte ligi profesioniste de hochei: Acest grafic afișează coeficienții de rezistență pentru toate ligile profesioniste de hochei din întreaga lume, cu Liiga evidențiată în albastru deschis.
Cu metrica ajustată a punctelor pe meci a jucătorilor, nu numai că sunt controlate variabilele confuze, cum ar fi vârsta, poziția, liga și sezonul unui jucător, care pot schimba perspectiva asupra valorii unui anumit jucător. Tehnicile de modelare utilizate permit compararea jucătorilor din ligile de hochei din întreaga lume, nu doar din marile ligi importante. Acest lucru oferă echipelor posibilitatea de a prezice modul în care un anumit jucător ar putea evolua în liga lor în raport cu jucători similari, ceea ce se făcea anterior prin utilizarea unui estimator tendențios. Metrica ajustată a punctelor pe meci permite o abordare mai holistică pentru evaluarea jucătorilor și oferă o cale de acces pentru jucătorii care ar fi putut fi trecuți cu vederea sau marginalizați anterior. Există deja multe aplicații prin simpla utilizare a punctelor ajustate pe meci, dar pot fi folosite și alte tipuri de date, cum ar fi clasamentele scouterilor sau golurile așteptate etc. Cu date mai detaliate în viitor în toate ligile, această metodă poate fi, de asemenea, îmbunătățită în continuare.
Cercetarea din acest articol a fost prezentată, de asemenea, la CBJHAC20 de către Katerina Wu. Puteți găsi slide-urile aici.
Follow us on Twitter @kattaqueue and @madelinejgall!