Která liga je nejlepší?
Tuto práci jsem napsal společně s Madeline Gall.
Zatímco skauting některých sportů je jednoduchý (univerzitní fotbal → NFL), skauting NHL může být náročnější proces. Vzhledem k tomu, že se jedná o hráče z více než 45 mezinárodních hokejových lig, z nichž každá má svá vlastní pravidla a úskalí, jak lze adekvátně posoudit kvalitu výkonu hráče? Srovnání mezi jednotlivými ligami není snadné; 18 bodů osmnáctiletého hráče hrajícího proti jiným osmnáctiletým v nižší lize by nemělo mít stejnou hodnotu jako 18 bodů osmnáctiletého hráče hrajícího proti veteránům v NHL.
Existují i jiné pokusy o zohlednění této skutečnosti, včetně proměnných převodu hráčů, jako je například faktor hokejového převodu Roba Vollmana a ekvivalentní hodnocení NHL (NHLe) Gabriela Desjardina. Desjardinova NHLe se dříve zabývala otázkou porovnávání a předpovídání výkonnosti hráčů při přechodu z ligy do NHL (přechod z jiné ligy do NHL). Byla skvělá pro rychlé, obecné srovnání a má jistě své výhody (snadný a rychlý výpočet), ale její metoda má i některé nevýhody. Pro začátek, nemusela nutně kontrolovat kvalitu týmu, pozici a věk. Překladové faktory se vypočítávají na základě statistik hráčů, kteří odehráli alespoň 20 zápasů v dané lize předtím, než odehráli alespoň 20 zápasů v NHL. To znamená, že existuje spousta cenných údajů o těchto mezistupních, které nejsou využity.
V tomto projektu představujeme novou metodu porovnávání a promítání výkonnosti hráčů napříč ligami pomocí upravené metriky z-skóre, která by tyto nedostatky zohlednila. Tato metrika kontroluje faktory, jako je věk, liga, sezóna a pozice, které ovlivňují metriku P/PG hráče, a mohla by být použita pro jakoukoli zájmovou ligu. Tato nová metrika je nezbytná, protože existuje mnoho charakteristik, které se liší ligu od ligy. Vzhledem k různým herním stylům a obtížnosti soupeřů neexistuje jedna konzistentní metrika, která by umožnila srovnatelné hodnocení výkonnosti hráčů pro hokejové ligy na celém světě. Také další faktory, jako je síla brankáře, počet trestů a rozměry kluziště, jsou v různých mezinárodních ligách nejednotné. Mohou tak nastat scénáře, kdy se může zdát, že hráči s podobnou silou mají zdánlivě odlišné výkony.
Jedním takovým příkladem mohou být Thomas Harley a Ville Heinola z posledního draftu 2019. Oba jsou hráči z různých lig, kteří hrají proti různým soupeřům a podávají výrazně odlišné výkony, přesto byli ohodnoceni přibližně stejně. Harley, v Americe narozený obránce hrající kanadskou juniorskou hokejovou ligu, v současnosti působí v týmu Mississauga Steelheads v Ontario Hockey League. V prvním kole draftu NHL 2019 byl draftován týmem Dallas Stars z celkového 18. místa. Heinola je naopak finský profesionální hokejový obránce, který v současné době hraje za Lukko v Lize mistrů a je zapůjčen do týmu Winnipeg Jets v National Hockey League. Byl zařazen mezi nejlepší zahraniční bruslaře, kteří se mohou zúčastnit draftu NHL 2019. Heinola byl týmem Jets draftován z celkového 20. místa. Jak tyto dva hráče nakonec hodnotily jejich týmy? Pravděpodobně kromě informací od skautů také něčím podobným naší metrice.
Pro naši metriku jsme se inspirovali nejen předchozími přístupy, jako je NHLe, ale také nedávným rozmachem Elo. Elo je metoda pro výpočet relativní úrovně dovedností hráčů ve hrách s nulovým součtem. Ačkoli byla původně vytvořena v souvislosti s měřením hodnocení šachových hráčů, Elo lze použít i v různých jiných scénářích, například v profesionálním sportu. Více informací a příklady použití metody Elo ve sportu naleznete v tutoriálu 538 zde. Elo je jednoduše specifický model pro párové srovnávání. Projdeme si postup, jakým jsme vytvořili náš model párového porovnávání/Elo.
Na začátek jsme použili soubor dat, který obsahoval přibližně 300 000 pozorování z dostupných informací o hráčích (jméno, pozice, liga, datum narození atd.) a statistik hráčů (odehrané zápasy, góly, asistence atd.), které byly seškrábány z webu eliteprospects.com. Jedním z prvních problémů, na které jsme narazili, bylo, jakou proměnnou odezvy bychom mohli vytvořit pro porovnání statistik hráčů s kontrolou věku, síly ligy, pozice atd. Výkonnost hráčů se v rámci NHL hojně počítá; existují různá měření, například WAR, GAR, Corsi atd. Sběr dat však není ve všech ligách stejný. Některé ligy nebyly tak aktivní ve sledování statistik, jako jsou hity a bloky, jako jiné, což znamenalo, že jsme v rámci naší regrese mohli jako faktory využít pouze proměnné, které byly všudypřítomné ve všech ligách.
Při vytváření nové proměnné odpovědi jsme chtěli transformovat bod na zápas tak, aby zohledňoval věk, sezónu, pozici a ligu. Prvním krokem bylo vzít logaritmus bodů na zápas plus jedna. Tato transformace měla normálnější rozdělení, zatímco surové body na zápas byly velmi pravotočivě zkreslené. I když logaritmická transformace pomohla, aby se data jevila jako normálněji rozložená, logaritmické body na zápas stále nezohledňovaly výše uvedené proměnné. Rozhodli jsme se, že abychom tyto proměnné zohlednili, vytvoříme pro logaritmické body na zápas každého hráče z-skóre. Prvním krokem bylo vypočítat průměr a směrodatnou odchylku pro každou skupinu podle pozice, sezóny, ligy a věku. Poté bylo pro každé pozorování hráče vypočteno z-skóre pomocí průměru a směrodatné odchylky, které se týkaly proměnných, jež jsme kontrolovali. Naší konečnou proměnnou odpovědi tak bylo z-skóre logaritmu bodů na zápas plus jedna. Ukázalo se, že z-skóre je ještě normálněji rozloženo než logaritmus bodů na zápas, a z-skóre pro skupiny, jako jsou obránci a útočníci, bylo také normálně rozloženo.
Vytvoření modelu párového srovnání, který je velmi podobný modelu Elo. Na začátku vytvoříme srovnávací datový rámec. Pro každého hráče vytvoříme dvojice sezón hráč – liga, takže máme k dispozici malý datový rámec všech párových srovnání pro ligy, ve kterých hráli. To znamená, že pokud hráč hrál v K ligách, pak bude mít K-výběr-2 dvojic hráč-liga-sezóny. Dále vyřadíme všechny dvojice, které mají stejnou ligu, a také dvojice, které jsou od sebe vzdáleny více než jednu sezónu, a vypočítáme výslednou proměnnou. Tato proměnná může být buď spojitá, nebo binární, v závislosti na použité regresi. Je důležité si uvědomit, že „těžší“ liga, ve které se hraje, bude mít ve skutečnosti nižší výslednou proměnnou. To vychází z předpokladu, že v těžších ligách jsou lepší obránci a brankáři, takže je obtížnější skórovat.
Jméno hráče | Liga | Sezóna | Z- skóre |
---|---|---|---|
Kris Letang | QMJHL | 2006-07 | 1.829 |
Kris Letang | NHL | 2006-07 | 1.158 |
Kris Letang | AHL | 2007-08 | 1.557 |
Po sestavení modelu párového srovnání byly pro výpočet koeficientů použity různé typy regresí. Zaměřili jsme se na použití vlastního logistického modelu, modelu Bradleyho Terryho (pomocí balíčku BTm v R), které oba vytvořily binární výsledky, a také regrese obyčejných nejmenších čtverců, která vytvořila spojitý výsledek. Abychom vyhodnotili, která regrese fungovala pro vytvoření nejpřesnějších výsledků, rozdělili jsme nejprve párová data v poměru 70/30 pro tréninkový a testovací vzorek. Poté jsme předpověděli pravděpodobnost vítězství pro všechny ligy na základě upraveného Z-skóre bodů na zápas. Byla stanovena prahová hodnota pro „výhru“; pokud byla pravděpodobnost větší než prahová hodnota, pak byl předpovězený výsledek = 1. V opačném případě byla hodnota = 0. Poté byly předpovězené výsledky porovnány se skutečnými výsledky, aby se vypočítala přesnost předpovědi pro každý model. Výsledky jsou uvedeny v následující tabulce.
Po vytvoření našich různých metod modelování jsme mohli použít koeficienty síly z modelů, abychom vytvořili pořadí lig určené podle jejich síly. Nebylo žádným překvapením, že pro každý rok od roku 2008 do roku 2018 a pro celkové koeficienty síly platí, že za nejsilnější ligu je považována National Hockey League. Druhou ligou, která byla trvale považována za druhou nejlepší, bylo mistrovství světa, což dává smysl, protože v něm soutěží nejlepší hráči z různých zemí a tento turnaj se skládá z mnoha hráčů, kteří hrají v NHL. Při prostém pohledu na ligy byly AHL, KHL, SHL a DEL trvale jedny z nejsilnějších lig s více než 45 týmy. Konečné pořadí deseti nejlepších lig bylo následující: NHL, mistrovství světa, mistrovství světa juniorů, KHL, SHL, AHL, USDP, mistrovství světa juniorů U18, DEL a NLA. Některé z lig, které mohly být překvapením, byly juniorské hokejové ligy nebo USDP. Tyto ligy se v našem žebříčku objevily výše, protože jsme v našem modelu zohlednili věk. Díky tomu mohla být síla založena spíše na kvalitě hráčů než na jejich věku. Každý ze tří námi vytvořených modelů měl podobné pořadí jen s mírnými odchylkami.
Koeficienty síly v čase: Výše uvedený graf zobrazuje koeficienty síly pro každou ligu pro každý rok v období 2008 – 2018. Známější ligy a trvale silné ligy jsou zvýrazněny výše.
Po vytvoření žebříčku lig na základě našich upravených bodů na zápas bylo dalším krokem zjistit, jak se tyto žebříčky srovnávají s použitím pouhých bodů na zápas. Při použití pouhých bodů na zápas jsme si všimli, že se s koeficienty síly lig dějí tři věci. U lig, které měly vyšší koeficient síly, měly tyto ligy tendenci být stále silnějšími ligami podle upravených bodů na zápas. U lig, které se nacházely ve střední úrovni všech lig, byly jejich koeficienty síly pro hrubé body na zápas velmi podobné jejich koeficientům síly pro upravené body na zápas. A konečně ligy s nejnižšími koeficienty síly pro hrubé body na zápas měly horší koeficienty síly pro upravené body na zápas. Jediné ligy s nižšími koeficienty síly, které měly koeficienty síly podle upravených bodů na zápas lepší, byly ligy, které měly mladé hráče. K tomuto trendu dochází u juniorských mistrovství světa pro kategorie U20 i U18 a u středoškolské ligy Spojených států amerických, Minnesoty. V případě středoškolské ligy Minnesota byla považována za zdaleka nejhorší ligu při použití hrubých bodů na zápas jako proměnné odpovědi, ale při použití upravených bodů na zápas dosahuje tato liga lepších výsledků než 10 dalších lig, z nichž mnohé jsou profesionálními ligami. To nám umožnilo dále vidět nedostatky s body na zápas jako prediktorem síly ligy a také zdůraznilo, jak důležité je při určování síly ligy zohlednit věk.
Koeficienty síly pro každou ligu pro surové P/GP vs. upravené P/GP: Tento graf zobrazuje koeficienty síly pro každou ligu pro dvě různé proměnné odezvy. Koeficienty síly byly vypočteny pomocí stejné metody modelování.
Jak bylo uvedeno výše, bylo třeba vytvořit nový odhad výkonnosti hráčů, protože stávající prediktory, jako jsou body na zápas, jsou zkreslené v důsledku věku, síly ligy, síly týmu a roku. Vytvoření percentilů pro typy hráčů umožňuje porovnat perspektivního hráče s ostatními podobnými hráči, což umožňuje přesnější předpověď. Percentil log P/GP a námi zvolená metoda je velmi užitečná, protože umožňuje předpovídat výkonnost jakéhokoli hráče v kterékoli z více než 45 lig. Při takovém počtu lig není zaručeno, že by hráč byl z dané ligy draftován do NHL, ale bez modelové metody to není k přesné předpovědi potřeba.
Například upravený počet bodů na zápas Jakea Geuntzela v sezóně 2017-2018 v týmu Pittsburgh Penguins byl 0,94 bodu. Pomocí tohoto upraveného počtu bodů na zápas můžeme předpovědět jeho upravený počet bodů na zápas v jakékoli jiné lize. Níže máme zobrazeny některé z nejběžnějších lig a předpovědi upravených bodů na zápas Jakea Guentzela v každé z těchto lig. Pro srovnání, v sezóně 2016-2017 měl Jake Guentzel v AHL upravený počet bodů na zápas 2,30. Naše předpovídaná hodnota upravených bodů na zápas 2 je poměrně blízko.
Naší metodou při předpovídání upravených bodů na zápas hráče, abychom určili, jak si hráč může vést v dané lize, je jednoduchý výpočet z našich koeficientů síly v z dříve popsaného procesu modelování. Chcete-li porovnat libovolné dvě ligy, odečtěte od sebe jejich koeficienty síly. Poté tuto hodnotu přičtěte k upraveným bodům na zápas nebo z-skóre ligy, ve které má hráč zaznamenané údaje. Součet z-skóre a rozdílu koeficientů síly poskytne upravené body na zápas pro jakoukoli jinou danou ligu.
Nejenže je předpověď výkonnosti jednotlivého hráče užitečná pro účely skautingu, ale koeficienty síly poskytují informace o síle ligy. Koeficienty zohledňují věk, sezónu, pozici a ligu. To by mohlo skautovi umožnit investovat více prostředků do mládežnické ligy, která může být zastíněna. Je to proto, že věk je velkým faktorem určujícím počet bodů na zápas, ale při zohlednění všech ostatních matoucích proměnných se ukázalo, že některé mládežnické ligy měly celkově mnohem lepší sílu než některé profesionální ligy.
Tyto koncepty mají uplatnění i v reálném životě. Během měsíců, které předcházely draftu v roce 2016, se diskutovalo o tom, koho si Columbus Blue Jackets vyberou z celkového třetího místa. Většina skautů oceňovala jako konsenzuální volbu finského útočníka Jesseho Puljujarviho, ale fanoušky šokovala zpráva, že si CBJ místo něj vybrali kanadského centra Pierra-Luca Duboise. Rychlý pohled na čísla však prozradí, že toto rozhodnutí by nemělo být překvapením. Během působení v profesionální hokejové lize Liiga nasbíral Puljujarvi v 50 zápasech základní části úctyhodných 28 bodů a mezi hráči Liigy do 20 let byl pátý nejlepší. Dubois naproti tomu hrál v nižší hokejové lize, ale přesto skončil s 99 body v 62 zápasech třetí v bodování QMJHL. Pomocí koeficientů můžeme pro srovnání vypočítat jejich upravené P/GP v NHL a zjistíme, že Dubois ze statistického hlediska vede před Puljujarvim. Je zřejmé, že to nebude jediná věc, kterou by skauti při draftu zvažovali, při jejich rozhodování určitě hrála roli i Duboisova impozantní velikost a fyzická zdatnost, ale dá se předpokládat, že Blue Jackets měli při výběru Duboise před Puljujarvim lepší přehled o tom, jak si který hráč stojí v porovnání s ostatními.
Jinou aplikací kromě porovnání jednotlivých hráčů by mohlo být porovnání mezi jednotlivými ligami. Vrátíme-li se k příkladu Harley vs. Heinola, můžeme jejich ligy hodnotit s jinými ligami podobného postavení. Namísto srovnávání NHL s OHL, kde je kontrast zřejmý, lze provést jemnější hodnocení srovnáním OHL s jinými severoamerickými nižšími ligami. Z níže uvedených grafů je patrné, že OHL je ve skutečnosti nejsilnější ligou v rámci nižších lig NA, zatímco Liiga je ve srovnání s ostatními profesionálními ligami průměrně hodnocenou ligou.
OHL ve srovnání s ostatními juniorskými ligami NA: Tento graf zobrazuje koeficienty síly všech severoamerických juniorských lig, přičemž OHL je zvýrazněna zeleně.
Liiga versus ostatní profesionální hokejové ligy: Tento graf zobrazuje koeficienty síly pro všechny profesionální hokejové ligy na světě, přičemž Liiga je zvýrazněna světle modře.
U metriky upravených bodů na zápas hráče lze kontrolovat nejen matoucí proměnné, jako je věk, pozice, liga a sezóna hráče, které mohou změnit pohled na hodnotu daného hráče. Použité modelovací techniky umožňují porovnávat hráče hokejových lig po celém světě, nejen významných hlavních lig. To dává týmům možnost předvídat, jak si může kterýkoli hráč vést v jejich lize ve srovnání s podobnými hráči, což se dříve provádělo pomocí zkresleného odhadu. Metrika upravených bodů na zápas umožňuje komplexnější přístup k hodnocení hráčů a poskytuje cestu pro hráče, kteří mohli být dříve přehlíženi nebo na okraji zájmu. Existuje mnoho aplikací již pouhým použitím upravených bodů na zápas, ale lze použít i jiné typy údajů, například skautské žebříčky nebo očekávané góly atd. S podrobnějšími údaji ve všech ligách lze v budoucnu tuto metodu také dále zdokonalovat.
Výzkum v tomto článku prezentovala na konferenci CBJHAC20 také Katerina Wu. Prezentace najdete zde.
Sledujte nás na Twitteru @kattaqueue a @madelinejgall!