Która liga jest najlepsza?
Współautorem tej pracy jest Madeline Gall.
Podczas gdy skauting dla niektórych sportów jest prosty (college football → NFL), skauting dla NHL może być bardziej żmudnym procesem. Z zawodnikami z ponad 45 międzynarodowych lig hokeja na lodzie, z których każda ma swoje własne przepisy i trudności, jak można odpowiednio ocenić jakość gry zawodnika? Porównania między ligami nie są łatwe; 18 punktów dla osiemnastolatka grającego przeciwko innym osiemnastolatkom w niższej lidze nie powinno być przypisywane tej samej wartości co 18 punktów dla osiemnastolatka grającego przeciwko weteranom w NHL.
Były inne próby uwzględnienia tego, włączając w to zmienne translacji graczy, takie jak hokejowe czynniki translacji Roba Vollmana, oraz NHL Equivalency Ratings (NHLe) Gabriela Desjardina. NHLe Desjardina wcześniej zajmował się kwestią porównywania i przewidywania wyników zawodników przy przejściu z ligi do NHL (przejście z innej ligi do NHL). Był to świetny sposób na szybkie, ogólne porównanie i z pewnością ma swoje zalety (łatwy i szybki do obliczenia), ale są pewne wady tej metody. Na początek, niekoniecznie kontrolowała jakość drużyny, pozycję i wiek. Współczynniki przeliczeniowe są obliczane na podstawie statystyk zawodników, którzy rozegrali co najmniej 20 spotkań w danej lidze przed rozegraniem co najmniej 20 w NHL. Oznacza to, że istnieje wiele cennych danych na temat tych przejściowych okresów, które nie są wykorzystywane.
W tym projekcie, wprowadzamy nową metodę porównywania i przewidywania wyników zawodników w różnych ligach przy użyciu skorygowanej metryki z-score, która uwzględnia te wady. Ta metryka kontroluje takie czynniki jak wiek, liga, sezon i pozycja, które wpływają na metrykę P/PG zawodnika i może być zastosowana do każdej interesującej nas ligi. Ta nowa metryka jest konieczna, ponieważ istnieje wiele cech, które różnią się w zależności od ligi. Ze względu na różne style gry i trudność przeciwników, nie ma jednej spójnej miary, która pozwoliłaby na porównywalną ocenę gry zawodników w ligach hokejowych na całym świecie. Inne czynniki, takie jak siła bramkarza, ilość kar i wymiary lodowiska również nie są spójne w różnych ligach międzynarodowych. Mogą wystąpić scenariusze, w których gracze o podobnej sile mogą mieć pozornie różne występy.
Jednym z takich przykładów mogą być Thomas Harley i Ville Heinola z ostatniego draftu 2019. Obaj są zawodnikami z różnych lig, grającymi przeciwko różnym przeciwnikom i osiągającymi diametralnie różne liczby, a mimo to zostali ocenieni jako mniej więcej tacy sami. Harley, urodzony w USA obrońca grający w kanadyjskiej juniorskiej lidze hokeja na lodzie, obecnie występuje w Mississauga Steelheads w Ontario Hockey League. Został wybrany w 18. drafcie przez Dallas Stars w pierwszej rundzie 2019 NHL Entry Draft. Heinola z drugiej strony jest fińskim profesjonalnym obrońcą hokeja na lodzie, grającym obecnie dla Lukko w Liiga na wypożyczeniu jako prospekt do Winnipeg Jets z National Hockey League. Został sklasyfikowany jako jeden z najlepszych międzynarodowych zawodników kwalifikujących się do NHL Entry Draft 2019. Heinola został wybrany przez Jetsów z 20. miejsca. Jak ci dwaj zawodnicy zostali ocenieni przez swoje drużyny? Prawdopodobnie za pomocą czegoś podobnego do naszej metryki w uzupełnieniu do informacji skautingu.
Dla naszej metryki, zainspirowaliśmy się nie tylko poprzednimi podejściami, takimi jak NHLe, ale także ostatnim wzrostem Elo. Elo jest metodą obliczania względnego poziomu umiejętności zawodników w grach o sumie zerowej. Choć początkowo stworzona w kontekście pomiaru rankingów szachistów, Elo może być stosowana w różnych innych scenariuszach, takich jak sporty zawodowe. Aby dowiedzieć się więcej i zobaczyć przykłady zastosowania Elo w sporcie, poradnik autorstwa 538 można znaleźć tutaj. Elo jest po prostu specyficznym modelem dla sparowanego modelu porównawczego. Przejdziemy przez proces, w którym stworzyliśmy nasz sparowany model porównawczy/Elo.
Na początek, użyliśmy zbioru danych, który zawierał około 300 000 obserwacji z informacji o graczu (nazwisko, pozycja, liga, data urodzenia, itp.) i statystyki gracza (rozegrane mecze, gole, asysty, itp.), które były dostępne, wyskrobane z eliteprospects.com. Jednym z pierwszych problemów, na jakie natrafiliśmy było to, jaki rodzaj zmiennej odpowiedzi możemy stworzyć, aby porównać statystyki zawodników, kontrolując wiek, siłę ligi, pozycję, itp. Wydajność zawodnika jest szeroko obliczana w NHL; istnieją różne pomiary, takie jak WAR, GAR, Corsi, itp. Jednakże, zbieranie danych nie jest jednakowe we wszystkich ligach. Niektóre ligi nie były tak proaktywne w śledzeniu statystyk takich jak trafienia i bloki jak inne, co oznaczało, że mogliśmy wykorzystać tylko zmienne, które były wszechobecne we wszystkich ligach jako czynniki w naszej regresji.
Przy tworzeniu nowej zmiennej odpowiedzi, chcieliśmy przekształcić punkt na mecz w sposób, który uwzględniał wiek, sezon, pozycję i ligę. Pierwszym krokiem było wzięcie logu punktów na mecz plus jeden. Ta transformacja miała bardziej normalny rozkład, podczas gdy surowe punkty na mecz były bardzo prawoskośne. Nawet jeśli transformacja logarytmiczna sprawiła, że dane wyglądały na bardziej normalnie rozłożone, log punktów na mecz nadal nie uwzględniał zmiennych wymienionych powyżej. Zdecydowaliśmy, że w celu uwzględnienia tych zmiennych, stworzymy z-score dla każdego gracza w logu punktów na mecz. Pierwszym krokiem było obliczenie średniej i odchylenia standardowego dla każdej grupy pozycji, sezonu, ligi i wieku. Następnie dla każdej obserwacji zawodnika obliczono z-score, używając średniej i odchylenia standardowego, które odnosiły się do zmiennych, które kontrolowaliśmy. Tak więc, z-score logu punktów na mecz plus jeden był naszą ostateczną zmienną odpowiedzi. Wyniki z-score okazały się być nawet bardziej normalnie rozłożone niż log punktów na mecz, a wyniki z-score dla grup takich jak obrońcy i napastnicy były również normalnie rozłożone.
Tworzenie modelu porównania sparowanego, który jest bardzo podobny do modelu Elo. Aby rozpocząć, budujemy porównawczą ramkę danych. Tworzymy pary zawodnik – liga dla każdego zawodnika, tak aby istniała mała ramka danych z wszystkimi porównaniami parami dla lig, w których grali. Oznacza to, że jeśli zawodnik grał w K ligach, to będzie miał K-choose-2 par sezonów ligowych. Następnie eliminujemy wszystkie pary, które mają tę samą ligę, jak również pary, które są od siebie oddalone o więcej niż jeden sezon i obliczamy zmienną wyniku. Zmienna ta może być ciągła lub binarna, w zależności od zastosowanej regresji. Ważne jest, aby zrozumieć, że „trudniejsza” liga do gry w rzeczywistości będzie miała niższą zmienną wynikową. Opiera się to na założeniu, że trudniejsze ligi mają lepszych obrońców i bramkarzy, przez co trudniej jest zdobywać punkty.
Nazwa zawodnika | Liga | Sezon | Z- Wynik |
---|---|---|---|
Kris Letang | QMJHL | 2006-07 | 1.829 |
Kris Letang | NHL | 2006-07 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.557 |
Liga 1 | Sezon 1 | Z-Score 1 | Liga 2 | Sezon 2 | Z-.Score 2 | Z-Score Difference |
---|---|---|---|---|---|---|
QMJHL | 2006-07 | 1.829 | NHL | 2006-07 | 1.158 | 0.671 |
NHL | 2006-07 | 1.158 | AHL | 2007-08 | 1.557 | -0.399 |
QMJHL | 2006-07 | 1.829 | AHL | 2007-08 | 1.557 | 0.272 |
Po zbudowaniu modelu porównań sparowanych, do obliczenia współczynników zastosowano różne typy regresji. Skupiliśmy się na użyciu własnego modelu logistycznego, modelu Bradleya Terry’ego (używając pakietu BTm w R), które tworzyły wyniki binarne, jak również regresji Ordinary Least Squares, która tworzyła wynik ciągły. Aby ocenić, która regresja pracowała, aby stworzyć najdokładniejsze wyniki, najpierw podzieliliśmy sparowane dane 70/30 dla próbek treningowych i testowych. Następnie przewidzieliśmy prawdopodobieństwo zwycięstwa dla wszystkich lig, w oparciu o skorygowany wskaźnik Z-score punktów na mecz. Próg dla „wygranej” został ustalony; jeśli prawdopodobieństwo było większe niż próg, wtedy przewidywany wynik był = 1. W przeciwnym razie = 0. Następnie, przewidywane wyniki zostały porównane z rzeczywistymi wynikami, aby obliczyć dokładność przewidywania dla każdego modelu. Wyniki są przedstawione w poniższej tabeli.
Po stworzeniu naszych różnych metod modelowania, byliśmy w stanie użyć współczynników siły z modeli w celu stworzenia rankingu lig określonych przez ich siłę. Nie było niespodzianką, że dla każdego roku od 2008 do 2018 i dla ogólnych współczynników siły, National Hockey League jest uważana za najsilniejszą ligę. Drugą ligą, która była konsekwentnie uważana za drugą najlepszą były Mistrzostwa Świata, co ma sens, ponieważ są to najlepsi gracze z różnych krajów rywalizujący ze sobą, a ten turniej składa się z wielu graczy, którzy grają w NHL. Patrząc po prostu na ligi, AHL, KHL, SHL i DEL były konsekwentnie jednymi z najsilniejszych lig z 45 drużyn plus. Ostateczny ranking 10 najlepszych lig to NHL, Mistrzostwa Świata, Mistrzostwa Świata Juniorów, KHL, SHL, AHL, USDP, Mistrzostwa Świata Juniorów U18, DEL i NLA. Niektóre z lig, które mogły być zaskoczeniem, to ligi juniorów hokejowych lub USDP. Ligi te znalazły się wyżej w naszym rankingu, ponieważ w naszym modelu uwzględniliśmy wiek. W ten sposób siła została określona na podstawie jakości zawodników, a nie ich wieku. Każdy z trzech modeli, które stworzyliśmy, miał podobne rankingi z tylko niewielkimi odchyleniami.
Współczynniki siły w czasie: Powyższy wykres pokazuje współczynniki siły dla każdej ligi w każdym roku od 2008 do 2018. Powyżej zaznaczono najbardziej znane ligi oraz ligi o niezmiennie silnej pozycji.
Po wygenerowaniu rankingu lig na podstawie naszych skorygowanych punktów na mecz, następnym krokiem było sprawdzenie, jak te rankingi wypadają w porównaniu z użyciem tylko punktów na mecz. W przypadku użycia tylko punktów na mecz zauważyliśmy, że trzy rzeczy działy się ze współczynnikami siły ligi. W przypadku lig, które miały wyższy współczynnik siły, te ligi miały tendencję do bycia silniejszymi ligami pod względem skorygowanej liczby punktów na mecz. W przypadku lig, które znajdowały się w środkowej grupie wszystkich lig, ich współczynniki siły dla surowych punktów na mecz były bardzo podobne do ich współczynników siły dla skorygowanych punktów na mecz. Wreszcie, ligi o najniższych współczynnikach siły gry dla punktów surowych na mecz miały gorsze współczynniki siły gry dla punktów skorygowanych na mecz. Jedynymi ligami, które miały niższe współczynniki siły, które miały lepsze współczynniki siły w stosunku do skorygowanych punktów na mecz, były ligi, w których występowali młodzi zawodnicy. Ta tendencja występuje w Mistrzostwach Świata Juniorów U20 i U18 oraz w amerykańskiej lidze licealnej Minnesota. W przypadku ligi szkół średnich w Minnesocie, została ona uznana za najgorszą ligę, gdy użyto surowych punktów na mecz jako zmiennej odpowiedzi, ale przy użyciu skorygowanych punktów na mecz, liga ta wypada lepiej niż 10 innych lig, z których wiele to ligi zawodowe. To pozwoliło nam dostrzec wady punktów na mecz jako predyktora siły ligi, a także podkreśliło, jak ważne jest uwzględnienie wieku przy określaniu siły ligi.
Współczynniki siły dla każdej ligi dla Raw P/GP vs Adjusted P/GP: Ten wykres wyświetla współczynniki siły dla każdej ligi dla dwóch różnych zmiennych odpowiedzi. Współczynniki siły zostały obliczone przy użyciu tej samej metody modelowania.
Jak wspomniano powyżej, konieczne było stworzenie nowego oszacowania wydajności gracza, ponieważ istniejące predyktory, takie jak punkty na mecz, są nieobiektywne ze względu na wiek, siłę ligi, siłę drużyny i rok. Stworzenie percentyli dla typów zawodników pozwala na porównanie prospektów z innymi podobnymi zawodnikami, co pozwala na dokładniejsze przewidywanie. Procenty log P/GP i nasza metoda jest bardzo użyteczna, ponieważ pozwala na przewidywanie wyników danego zawodnika w każdej z ponad 45 lig. Przy tak wielu ligach nie ma gwarancji, że zawodnik zostałby wybrany z danej ligi do NHL, ale bez metody modelowej, nie jest to potrzebne, aby dokonać dokładnej prognozy.
Na przykład, Jake Geuntzel skorygowane punkty na mecz w sezonie 2017-2018 dla Pittsburgh Penguins był .94. Używając tego skorygowanego punktu na mecz, możemy przewidzieć jego skorygowane punkty na mecz w każdej innej lidze. Poniżej przedstawiamy kilka najpopularniejszych lig oraz przewidywaną liczbę punktów Jake’a Guentzela na mecz w każdej z nich. Dla porównania, w sezonie 2016-2017 Jake Guentzel miał skorygowaną liczbę punktów na mecz na poziomie 2.30 w AHL. Nasze przewidywane skorygowane punkty na mecz na poziomie 2 są raczej zbliżone.
Nasza metoda w przewidywaniu skorygowanych punktów na mecz zawodnika, aby określić, jak zawodnik może radzić sobie w danej lidze, jest prostą kalkulacją na podstawie naszych współczynników siły w z procesu modelowania opisanego wcześniej. Aby porównać dwie dowolne ligi, należy odjąć od siebie ich współczynniki siły. Następnie dodaj tę wartość do skorygowanej liczby punktów na mecz lub z score ligi, w której zawodnik ma zarejestrowane dane. Suma z score i różnicy współczynników siły da skorygowane punkty na mecz dla każdej innej danej ligi.
Nie tylko przewidywanie wyników pojedynczego zawodnika jest przydatne dla celów skautingu, ale współczynniki siły dostarczają informacji o sile ligi. Współczynniki te uwzględniają wiek, sezon, pozycję i ligę. To może pozwolić skautowi zainwestować więcej środków w ligę młodzieżową, która może być w cieniu. Dzieje się tak dlatego, że wiek w dużym stopniu determinuje liczbę punktów na mecz, ale przy uwzględnieniu wszystkich innych zmiennych, niektóre ligi młodzieżowe miały ogólnie dużo lepszą siłę ligową niż niektóre ligi zawodowe.
Te koncepcje mają rzeczywiste zastosowania w życiu, jak również. Podczas miesięcy poprzedzających draft 2016, trwały dyskusje na temat tego, kogo Columbus Blue Jackets wybiorą z trzecim ogólnym wyborem. Większość skautów ceniła Jesse Puljujarvi, fińskiego napastnika, jako konsensusowy wybór, ale fani byli zszokowani, gdy usłyszeli, że CBJ wybrali Pierre-Luc Dubois, kanadyjskiego centermana. Wystarczy jednak spojrzeć na liczby, by przekonać się, że ta decyzja nie powinna być zaskoczeniem. Podczas gry w zawodowej lidze hokejowej Liiga, Puljujarvi zdobył imponujące 28 punktów w 50 meczach sezonu zasadniczego i zajął piąte miejsce wśród zawodników poniżej 20 roku życia. Dubois z kolei grał w mniejszej lidze hokejowej, ale mimo to zajął trzecie miejsce w klasyfikacji strzelców QMJHL z 99 punktami w 62 meczach. Używając tych współczynników, możemy dla porównania obliczyć ich skorygowane P/GP w NHL i okazuje się, że Dubois prowadzi Puljujarvi ze statystycznego punktu widzenia. Oczywiście nie jest to jedyna rzecz, którą skauci biorą pod uwagę przy wyborze zawodnika, jego potężne rozmiary i fizyczność na pewno odegrały rolę w ich decyzji, ale można założyć, że Blue Jackets mieli lepszy obraz tego, jak każdy z zawodników wypada na tle innych, wybierając Dubois zamiast Puljujarviego.
Innym zastosowaniem oprócz porównań między zawodnikami byłyby porównania między ligami. Wracając do przykładu Harley vs Heinola, możemy ocenić ich ligi z innymi ligami o podobnym statusie. Zamiast porównywać NHL z OHL, gdzie kontrast jest oczywisty, można dokonać bardziej zniuansowanej oceny poprzez porównanie OHL z innymi północnoamerykańskimi ligami niższymi. Na poniższych wykresach widać, że OHL jest najsilniejszą ligą wśród lig drugoligowych w Ameryce Północnej, podczas gdy Liiga jest ligą średniej rangi w porównaniu z innymi ligami zawodowymi.
OHL kontra inne ligi juniorskie NA: Ten wykres wyświetla współczynniki siły dla wszystkich północnoamerykańskich lig juniorskich, z OHL zaznaczoną na zielono.
Liiga kontra inne profesjonalne ligi hokejowe: Ten wykres wyświetla współczynniki siły dla wszystkich zawodowych lig hokejowych na całym świecie, z Ligą zaznaczoną na jasnoniebiesko.
W przypadku skorygowanej liczby punktów na mecz, nie tylko zmienne takie jak wiek zawodnika, pozycja, liga i sezon są kontrolowane, co może zmienić spojrzenie na wartość każdego zawodnika. Użyte techniki modelowania pozwalają na porównanie zawodników z lig hokejowych na całym świecie, a nie tylko z głównych lig. To daje drużynom możliwość przewidzenia, jak dany zawodnik może radzić sobie w ich lidze w porównaniu do podobnych zawodników, co wcześniej było robione przy użyciu nieobiektywnego estymatora. Skorygowana liczba punktów na mecz pozwala na bardziej holistyczne podejście do oceny zawodników i zapewnia ścieżkę dla zawodników, którzy wcześniej mogli być pomijani lub znajdować się na marginesie. Istnieje wiele możliwości zastosowania skorygowanej liczby punktów na mecz, ale można również wykorzystać inne typy danych, takie jak rankingi strzelców, przewidywane bramki itp. Z bardziej szczegółowymi danymi w przyszłości we wszystkich ligach, ta metoda może być również dalej ulepszana.
Badania zawarte w tym artykule zostały również zaprezentowane na CBJHAC20 przez Katerinę Wu. Slajdy można znaleźć tutaj.
Śledź nas na Twitterze @kattaqueue i @madelinejgall!
.