Melyik liga a legjobb?

Ez a munka Madeline Gallal közösen íródott.

Míg egyes sportágak esetében a scouting egyszerű (egyetemi foci → NFL), addig az NHL-ben a scouting sokkal nehezebb folyamat lehet. Mivel több mint 45+ nemzetközi jégkorongbajnokságból érkeznek játékosok, amelyek mindegyike saját szabályokkal és nehézségekkel rendelkezik, hogyan lehet megfelelően értékelni egy játékos teljesítményének minőségét? A ligák közötti összehasonlításokat nem könnyű elvégezni; egy tizennyolc éves játékos 18 pontját, aki más tizennyolc évesek ellen játszik egy kisebb ligában, nem szabad ugyanolyan értékkel felruházni, mint egy tizennyolc éves játékos 18 pontját, aki veteránok ellen játszik az NHL-ben.

Voltak más kísérletek is ennek figyelembevételére, beleértve a játékosok fordítási változókat, mint például Rob Vollman hoki fordítási tényezői és Gabriel Desjardin NHL-egyenértékűségi mutatói (NHLe). Desjardin NHLe-je korábban a játékosok teljesítményének összehasonlításával és előrejelzésével foglalkozott a liga-NHL átmenetek (más ligából az NHL-be való átigazolás) esetében. Gyors, általános összehasonlításra kiváló volt, és kétségtelenül megvannak az előnyei (könnyű és gyors számítás), de a módszerének van néhány hátránya is. Először is, nem feltétlenül ellenőrizte a csapat minőségét, a pozíciót és az életkort. A fordítási faktorokat olyan játékosok statisztikái alapján számították ki, akik legalább 20 meccset játszottak az adott ligában, mielőtt legalább 20-at játszottak volna az NHL-ben. Ez azt jelenti, hogy rengeteg értékes adat van ezekről a köztes átigazolásokról, amelyeket nem használnak fel.

Ezzel a projekttel egy új módszert vezetünk be a játékosok teljesítményének összehasonlítására és előrejelzésére a ligák között egy olyan kiigazított z-pontszám metrika segítségével, amely figyelembe venné ezeket a hátrányokat. Ez a metrika kontrollálja az olyan tényezőket, mint az életkor, a liga, a szezon és a pozíció, amelyek befolyásolják egy játékos P/PG metrikáját, és bármelyik érdekes ligára alkalmazható. Erre az új metrikára azért van szükség, mert számos olyan jellemző van, amely ligánként eltérő. A különböző játékstílusok és az ellenfelek nehézségei miatt nincs egy egységes metrika, amely a játékosok teljesítményének összehasonlítható értékelését lehetővé tenné a hokiligák számára a világ minden táján. Más tényezők, mint például a kapus erőssége, a büntetési arányok és a pálya méretei szintén nem következetesek a nemzetközi ligákban. Előfordulhatnak olyan forgatókönyvek, amelyekben hasonló erősségű játékosok látszólag eltérő teljesítményt nyújtanak.

Egy ilyen példa lehet Thomas Harley és Ville Heinola a legutóbbi, 2019-es draftról. Mindketten különböző ligákból származó játékosok, akik különböző ellenfelek ellen játszottak, és nagyon különböző számokat produkáltak, mégis nagyjából azonosra értékelték őket. Harley, az amerikai születésű védő a kanadai junior jégkorongligában játszik, jelenleg az Ontario Hockey League-ben szereplő Mississauga Steelheads játékosa. A Dallas Stars a 18. helyen draftolta a 2019-es NHL Entry Draft első körében. Heinola viszont egy finn profi jégkorongozó védő, aki jelenleg a Liigában a Lukko csapatában játszik, a National Hockey League-ben szereplő Winnipeg Jets kölcsönjátékosaként. Őt a 2019-es NHL Entry Draftra jogosult legjobb nemzetközi korcsolyázók közé sorolták. Heinolát a Jets a 20. helyen draftolta. Hogyan értékelte végül ezt a két játékost a csapatuk? Valószínűleg a mi metrikánkhoz hasonlóval a scouting információk mellett.

A metrikánkhoz nemcsak a korábbi megközelítések, mint például az NHLe, hanem az Elo közelmúltbeli felfutása is inspirált minket. Az Elo egy módszer a játékosok relatív képességszintjének kiszámítására zéróösszegű játékokban. Bár eredetileg a sakkjátékosok értékelésének mérésére hozták létre, az Elo számos más esetben is alkalmazható, például a profi sportban. Ha többet szeretne megtudni és példákat látni az Elo használatára a sportban, az 538 által készített bemutatót itt találja. Az Elo egyszerűen a páros összehasonlítási modell egy speciális modellje. Végigmegyünk azon a folyamaton, amelynek során létrehoztuk a páros összehasonlítás/Elo modellünket.

Kezdésként egy olyan adathalmazt használtunk, amely körülbelül 300 000 megfigyelést tartalmazott a rendelkezésre álló játékosinformációkból (név, pozíció, liga, születésnap stb.) és játékosstatisztikákból (lejátszott mérkőzések, gólok, asszisztok stb.), amelyeket az eliteprospects.com oldalról kapartunk le. Az egyik első probléma, amibe belefutottunk, az volt, hogy milyen válaszváltozót tudnánk létrehozni a játékosok statisztikáinak összehasonlítására, az életkor, a liga erőssége, a pozíció stb. figyelembevételével. A játékosok teljesítményét az NHL-ben széles körben számítják; vannak különböző mérések, mint például a WAR, a GAR, a Corsi stb. Az adatgyűjtés azonban nem minden ligában egyforma. Egyes ligák nem voltak annyira proaktívak az olyan statisztikák követésében, mint a találatok és blokkok, mint mások, ami azt jelentette, hogy a regressziónkban csak olyan változókat tudtunk tényezőként felhasználni, amelyek minden ligában mindenütt jelen vannak.

Az új válaszváltozó létrehozásakor a meccsenkénti pontot úgy akartuk átalakítani, hogy figyelembe vegyük az életkort, a szezont, a pozíciót és a ligát. Az első lépés az volt, hogy a meccsenkénti pontok logaritmusát plusz egyet vettük. Ez a transzformáció normálisabb eloszlással rendelkezett, míg a nyers meccsenkénti pontok nagyon jobbra ferde eloszlásúak voltak. Bár a log-transzformáció segített abban, hogy az adatok normálisabb eloszlásúnak tűnjenek, a log pont/meccs még mindig nem vette figyelembe a fent felsorolt változókat. Úgy döntöttünk, hogy az ilyen változók figyelembevétele érdekében létrehozunk egy z-pontszámot az egyes játékosok meccsenkénti logpontjaihoz. Első lépésként kiszámítottuk az átlagot és a szórást a pozíció, az idény, a liga és az életkor egyes csoportjaira. Ezután minden egyes játékosmegfigyeléshez kiszámítottunk egy z-pontszámot az általunk kontrollált változókra vonatkozó átlag és szórás felhasználásával. Így a meccsenkénti pontok logaritmusának plusz egy pontnak a z-pontszáma lett a végső válaszváltozónk. A z-pontszámok még inkább normális eloszlásúnak tűntek, mint a meccsenkénti pontok logaritmusa, és az olyan csoportok, mint a védők és a csatárok z-pontszámai is normális eloszlásúak voltak.
A páros-összehasonlító modell létrehozása, amely nagyon hasonlít az Elo-modellhez. Kezdetnek létrehozunk egy összehasonlító adatkeretet. Minden játékoshoz létrehozzuk a játékos-liga szezonok párjait, így egy kis adatkeret áll rendelkezésre az összes páronkénti összehasonlításból az összes olyan ligára vonatkozóan, amelyben az adott játékos játszott. Ez azt jelenti, hogy ha egy játékos K ligában játszott, akkor az adott játékosnak K-válogatott-2 játékos-liga-szezon párja lesz. Ezután kizárjuk azokat a párokat, amelyeknek ugyanaz a ligája, valamint azokat a párokat, amelyek egy szezonnál távolabb vannak egymástól, és kiszámítunk egy eredményváltozót. Ez a változó az alkalmazott regressziótól függően lehet folytonos vagy bináris. Fontos megérteni, hogy a “nehezebb” ligában való játék valójában alacsonyabb kimeneti változóval járna. Ez azon a feltételezésen alapul, hogy a nehezebb ligákban jobb védők és kapusok vannak, ami megnehezíti a pontszerzést.

Játékos neve Liga Szezon Z- pontszám
Kris Letang QMJHL 2006-07 1.829
Kris Letang NHL 2006-07 1.158
Kris Letang AHL 2007-08 1.557
Egy példa az eredeti adatállomány egy részletére, amely a különböző ligákat és Kris Letang Z-pontszámát részletezi.
Liga 1 Szezon 1 Z-Score 1 Liga 2 Szezon 2 Z-pontszám 1 Liga 2 Sz-pontszám 2 Z-Score 2 Z-Score Difference
QMJHL 2006-07 1.829 NHL 2006-07 1.158 0.671
NHL 2006-07 1.158 AHL 2007-08 1.557 -0.399
QMJHL 2006-07 1.829 AHL 2007-08 1.557 0.272
Ebben az esetben a kimeneti változó a Z-pontszámok különbsége (folytonos változó), de az alkalmazott regresszió típusától függően lehet egy 0 vagy 1 bináris győzelem/vereség eredmény is.

A páros összehasonlító modell felépítése után különböző típusú regressziókat használtak az együtthatók kiszámításához. Egy saját készítésű logisztikus modell, a Bradley Terry-modell (az R-ben található BTm csomag segítségével) használatára összpontosítottunk, mindkettő bináris kimenetelt hozott létre, valamint egy Ordinary Least Squares regresszióra, amely folyamatos kimenetet hozott létre. Annak értékeléséhez, hogy melyik regresszió működött a legpontosabb eredmények létrehozására, először a párosított adatokat 70/30 arányban felosztottuk a képzési és tesztmintákhoz. Ezután megjósoltuk a győzelem valószínűségét az összes ligára vonatkozóan, a korrigált meccsenkénti Z-pontszám alapján. Meghatároztuk a “győzelem” küszöbértékét; ha a valószínűség nagyobb volt a küszöbértéknél, akkor a megjósolt eredmény = 1 volt. Ellenkező esetben = 0. Ezután a megjósolt eredményeket összehasonlítottuk a tényleges eredményekkel, hogy kiszámítsuk az egyes modellek előrejelzési pontosságát. Az eredményeket az alábbi táblázat mutatja be.

A különböző modellezési módszereink elkészítése után a modellek erősségi együtthatóit felhasználva létrehozhattuk a ligák erősségük alapján meghatározott rangsorát. Nem volt meglepő, hogy 2008-tól 2018-ig minden évben és az összesített erősségi együtthatók tekintetében a National Hockey League tekinthető a legerősebb ligának. A másik liga, amelyet következetesen a második legjobbnak tartottak, a világbajnokság volt, aminek van értelme, mivel itt a különböző országok legjobb játékosai versenyeznek, és ez a torna sok olyan játékosból áll, akik az NHL-ben játszanak. Ha egyszerűen csak a ligákat nézzük, az AHL, a KHL, az SHL és a DEL következetesen a legerősebb ligák közé tartozott a több mint 45 csapatból. A legjobb 10 liga végső sorrendje az NHL, a világbajnokság, a junior világbajnokság, a KHL, az SHL, az AHL, az USDP, az U18-as junior világbajnokság, a DEL és az NLA volt. A ligák közül meglepetést okozhattak a junior hokiligák, illetve az USDP. Ezek a ligák azért jelentek meg magasabban a rangsorunkban, mert a modellünkben figyelembe vettük az életkort. Ez lehetővé tette, hogy az erősséget nem a játékosok életkora, hanem a játékosok minősége alapján határozzuk meg. Az általunk készített három modell mindegyike hasonló rangsort állított fel, csak kis eltérésekkel.

Az erősségi együtthatók az idő múlásával: A fenti grafikon az egyes ligák erősségi együtthatóit mutatja minden egyes évre vonatkozóan 2008 és 2018 között. A legismertebb ligák és a tartósan erős ligák vannak kiemelve.

Miután létrehoztuk a ligák rangsorát a kiigazított meccsenkénti pontok alapján, a következő lépés az volt, hogy megnézzük, hogyan viszonyulnak ezek a rangsorok a csak meccsenkénti pontok használatához. Amikor csak a meccsenkénti pontokat használtuk, észrevettük, hogy három dolog történt a ligák erősségi együtthatóival. Azon ligák esetében, amelyek magasabb erősségi együtthatóval rendelkeztek, ezek a ligák általában még mindig az erősebb ligák voltak a kiigazított pont/meccs alapján. Azon ligák esetében, amelyek az összes liga középmezőnyében helyezkedtek el, a nyers pont/meccs erősségi együtthatóik nagyon hasonlóak voltak a kiigazított pont/meccs erősségi együtthatóikhoz. Végül, a nyers pont/meccs tekintetében a legalacsonyabb erősségi együtthatóval rendelkező ligáknak a korrigált pont/meccs tekintetében rosszabb erősségi együtthatójuk volt. Az egyetlen olyan bajnokság, amelynek alacsonyabb volt az erősségi együtthatója, és amelynek az erősségi együtthatója javult a kiigazított pont/meccs alapján, azok a bajnokságok voltak, amelyek fiatal játékosokkal rendelkeztek. Ez a tendencia az U20-as és az U18-as junior világbajnokságok, valamint az Egyesült Államok középiskolás, minnesotai ligája esetében is előfordul. A minnesotai középiskolai liga messze a legrosszabb ligának számított, amikor a nyers meccsenkénti pontokat használták válaszváltozóként, de a kiigazított meccsenkénti pontokat használva ez a liga jobban teljesít, mint 10 másik liga, amelyek közül sok profi liga. Ez lehetővé tette számunkra, hogy még jobban lássuk a hibákat a pont/meccs mint a liga erősségének előrejelzője esetében, és rávilágított arra is, hogy mennyire fontos figyelembe venni az életkort a liga erősségének meghatározásakor.

Az egyes ligák erősségi együtthatói a nyers P/GP vs. korrigált P/GP esetében: Ez a grafikon az egyes ligák erősségi együtthatóit mutatja a két különböző válaszváltozóra vonatkozóan. Az erősségi együtthatókat ugyanazzal a modellezési módszerrel számították ki.

Amint fentebb említettük, új becslést kellett készíteni a játékosok teljesítményére, mivel a meglévő előrejelzők, például a meccsenkénti pontok torzítottak az életkor, a liga erőssége, a csapat erőssége és az év miatt. A játékostípusok percentiliseinek létrehozása lehetővé teszi, hogy egy kilátogatót összehasonlítsanak más hasonló játékosokkal, ami pontosabb előrejelzést tesz lehetővé. A log P/GP percentilis és az általunk választott módszer nagyon hasznos, mert lehetővé teszi bármely adott játékos teljesítményének előrejelzését a több mint 45 liga bármelyikében. Ennyi liga mellett nem garantált, hogy egy játékos az adott ligából került volna az NHL-be, de a modellmódszer nélkül ez nem szükséges a pontos előrejelzéshez.

Jake Geuntzel korrigált meccsenkénti pontszáma például a 2017-2018-as szezonban a Pittsburgh Penguinsnél 0,94 volt. Ezt a korrigált meccsenkénti pontot használva megjósolhatjuk a korrigált meccsenkénti pontját bármely más ligában. Az alábbiakban néhány gyakoribb ligát mutatunk be, és Jake Guentzel megjósolt korrigált meccsenkénti pontjait az egyes ligákban. Összehasonlításképpen, 2016-2017-ben Jake Guentzel 2,30 korrigált pont per meccs volt az AHL-ben. Az általunk megjósolt 2 korrigált pont/meccs érték meglehetősen közel van hozzá.

A módszerünk egy játékos korrigált meccsenkénti pontjainak előrejelzésére, hogy meghatározzuk, hogyan teljesíthet egy játékos egy adott ligában, egy egyszerű számítás az erősségi együtthatóinkból a korábban leírt modellezési folyamatból. Bármely két liga összehasonlításához vonjuk ki az erősségi együtthatóikat egymásból. Ezután adjuk hozzá ezt az értéket annak a ligának a meccsenkénti korrigált pontjaihoz vagy z-pontszámához, amelyben a játékos adatokat rögzített. A z pontszám és az erősségi együttható különbségének összege adja meg bármely más adott liga korrigált meccsenkénti pontját.

Nem csak egy-egy játékos teljesítményének előrejelzése hasznos scouting célokra, hanem az erősségi együtthatók a liga erősségéről is információt nyújtanak. Az együtthatók figyelembe veszik az életkort, a szezont, a pozíciót és a ligát. Ez lehetővé teheti egy felderítő számára, hogy több erőforrást fektessen be egy olyan ifjúsági ligába, amely esetleg háttérbe szorul. Ez azért van így, mert az életkor nagymértékben meghatározza a meccsenkénti pontszámot, de ha minden más zavaró változót figyelembe veszünk, akkor voltak olyan ifjúsági ligák, amelyek összességében sokkal jobb ligaerősséggel rendelkeztek, mint egyes profi ligák.

Ezek a fogalmak a valós életben is alkalmazhatók. A 2016-os draftot megelőző hónapokban arról folytak a viták, hogy a Columbus Blue Jackets kit fog draftolni a harmadik helyen. A legtöbb scout a finn csatárt, Jesse Puljujarvit értékelte konszenzusos választásnak, de a szurkolók megdöbbenve hallották, hogy a CBJ helyette Pierre-Luc Dubois-t, egy kanadai centert választott. Egy gyors pillantást vetve a számokra azonban kiderül, hogy ez a döntés nem okozhatott meglepetést. Miközben a Liiga profi jégkorongligában játszott, Puljujarvi 50 alapszakaszmeccsen lenyűgöző 28 pontot szerzett, és a Liiga 20 év alatti játékosai között az ötödik legjobb volt. Dubois ezzel szemben egy kisebb hokiligában játszott, de ennek ellenére 62 mérkőzésen szerzett 99 pontjával a QMJHL góllövőlistájának harmadik helyén végzett. Az együtthatók segítségével összehasonlításképpen kiszámolhatjuk a korrigált P/GP értéküket az NHL-ben, és azt találjuk, hogy Dubois statisztikai szempontból megelőzi Puljujarvit. Nyilván nem ez lenne az egyetlen dolog, amit a játékosmegfigyelők figyelembe vennének a draftoláskor, Dubois félelmetes mérete és fizikuma is biztosan szerepet játszott a döntésükben, de feltételezhető, hogy a Blue Jacketsnek jobb képe volt arról, hogyan viszonyulnak egymáshoz az egyes játékosok, amikor Dubois-t választották Puljujarvi helyett.

A játékos-játékos összehasonlítás mellett egy másik alkalmazás a liga-liga összehasonlítás lenne. Visszatérve a Harley vs Heinola példához, értékelhetjük az adott ligáikat más, hasonló státuszú ligákkal. Az NHL és az OHL összehasonlítása helyett, ahol a kontraszt nyilvánvaló, árnyaltabb értékelést lehet végezni, ha az OHL-t más észak-amerikai kisebb ligákkal hasonlítjuk össze. Az alábbi grafikonokból láthatjuk, hogy az OHL valójában a legerősebb liga az NA kisebb ligái között, míg a Liiga a többi profi ligához képest egy közepes rangú liga.

OHL versus más NA juniorligák: Ez a grafikon az összes észak-amerikai juniorliga erősségi együtthatóit mutatja, az OHL-t zölddel kiemelve.

Liiga versus más profi jégkorongligák: Ez a grafikon a világ összes profi jégkorongligájának erősségi együtthatóit mutatja, a Liiga világoskékkel kiemelve.

A korrigált pont/meccs játékos-mérőszámmal nem csak az olyan zavaró változókat lehet kontrollálni, mint a játékos kora, pozíciója, ligája és szezonja, amelyek megváltoztathatják az adott játékos értékének kilátásait. Az alkalmazott modellezési technikák lehetővé teszik a jégkorongbajnokságok játékosainak összehasonlítását a világ minden táján, nem csak a kiemelkedő fő ligákban. Ez lehetővé teszi a csapatok számára, hogy megjósolják, hogyan teljesíthet egy adott játékos a ligájukban a hasonló játékosokhoz képest, ami korábban egy torzított becslő használatával történt. A kiigazított meccsenkénti pontszám-mérő lehetővé teszi a játékosok értékelésének holisztikusabb megközelítését, és utat nyit azoknak a játékosoknak, akiket korábban figyelmen kívül hagytak vagy a perifériára szorultak. Már pusztán a kiigazított pont/játék használatával is számos alkalmazás létezik, de más típusú adatok is felhasználhatók, mint például a scoutok rangsorai vagy a várható gólok stb. A jövőben az összes ligára kiterjedő részletesebb adatokkal ez a módszer is tovább javítható.

A cikkben szereplő kutatást a CBJHAC20 konferencián Katerina Wu is bemutatta. A diákat itt találja.

Kövessen minket a Twitteren @kattaqueue és @madelinejgall!

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.