Which League is Best?

Tämä teos on kirjoitettu yhdessä Madeline Gallin kanssa.

Joidenkin urheilulajien kykyjenetsintä on suoraviivaista (yliopistojalkapallo → NFL), mutta NHL:n kykyjenetsintä voi olla hankalampi prosessi. Kun pelaajia on yli 45 kansainvälisestä jääkiekkoliigasta, joista jokaisella on omat sääntönsä ja vaikeutensa, miten pelaajan laatua voidaan arvioida riittävästi? Liigojen välisiä vertailuja ei ole helppo tehdä; 18 pistettä 18-vuotiaalle, joka pelaa muita 18-vuotiaita vastaan pikkuliigassa, ei pitäisi antaa samaa arvoa kuin 18 pistettä 18-vuotiaalle, joka pelaa NHL:n veteraaneja vastaan.

Tämä on yritetty ottaa huomioon myös muilla tavoin, kuten pelaajien käännösmuuttujilla, kuten Rob Vollmanin jääkiekon käännöskertoimilla ja Gabriel Desjardinin NHL-ekvivalenssiluokituksilla (NHLe). Desjardinin NHLe:ssä käsiteltiin aiemmin pelaajien suorituskyvyn vertailua ja ennustamista liigasta NHL:ään siirtymisten (siirtyminen toisesta liigasta NHL:ään) osalta. Se oli loistava nopeaan, yleiseen vertailuun ja sillä on varmasti etunsa (helppo ja nopea laskea), mutta sen menetelmässä on joitakin haittoja. Ensinnäkin se ei välttämättä kontrolloinut joukkueen laatua, asemaa ja ikää. Käännöstekijät lasketaan sellaisten pelaajien tilastoista, jotka ovat pelanneet vähintään 20 ottelua kyseisessä liigassa ennen kuin ovat pelanneet vähintään 20 ottelua NHL:ssä. Se tarkoittaa, että näistä välivaiheiden siirtymisistä on paljon arvokasta tietoa, jota ei käytetä.

Tässä projektissa esittelemme uuden menetelmän pelaajien suorituskyvyn vertailemiseksi ja ennustamiseksi eri liigojen välillä käyttäen mukautettua z-pistemittaria, joka ottaisi huomioon nämä haitat. Tämä metriikka kontrolloi sellaisia tekijöitä kuten ikä, liiga, kausi ja asema, jotka vaikuttavat pelaajan P/PG-mittariin, ja sitä voitaisiin soveltaa mihin tahansa kiinnostavaan liigaan. Tämä uusi mittari on tarpeen, koska monet ominaisuudet vaihtelevat liigasta toiseen. Erilaisten pelityylien ja vastustajien vaikeusasteen vuoksi ei ole olemassa yhtä yhdenmukaista mittaria, jonka avulla voitaisiin tehdä vertailukelpoisia arvioita pelaajien suorituskyvystä jääkiekkoliigoissa eri puolilla maailmaa. Myös muut tekijät, kuten maalivahdin vahvuus, rangaistusten määrä ja kaukalon mitat, ovat epäjohdonmukaisia eri kansainvälisissä liigoissa. Voi esiintyä skenaarioita, joissa samankaltaisen vahvuuden omaavilla pelaajilla voi näennäisesti olla näennäisesti erilaiset suoritukset.

Yksi esimerkki tästä olisivat Thomas Harley ja Ville Heinola viimeisimmästä vuoden 2019 draftista. Molemmat ovat eri liigojen pelaajia, jotka pelasivat eri vastustajia vastaan ja tekivät hyvin erilaisia lukuja, mutta silti heidät arvioitiin suunnilleen samanlaisiksi. Kanadan juniorijääkiekkoliigassa pelaava amerikkalaissyntyinen puolustaja Harley pelaa tällä hetkellä Mississauga Steelheadsissa Ontario Hockey Leaguessa. Dallas Stars varasi hänet vuoden 2019 NHL Entry Draftin ensimmäisellä kierroksella sijalle 18. Heinola puolestaan on suomalainen jääkiekkoammattilaispuolustaja, joka pelaa tällä hetkellä Liigassa Lukossa lainalla National Hockey Leaguessa pelaavan Winnipeg Jetsin prospectina. Hänet rankattiin yhdeksi parhaista kansainvälisistä luistelijoista, jotka ovat oikeutettuja vuoden 2019 NHL Entry Draftiin. Heinola varattiin Jetsin 20. varaustilaisuudessa. Miten nämä kaksi pelaajaa päätyivät joukkueidensa arvioihin? Todennäköisesti jollakin meidän mittaristomme kaltaisella mittaristolla scouttaustietojen lisäksi.

Meidän metriikassamme saimme inspiraatiota paitsi aiemmista lähestymistavoista, kuten NHLe, myös Elon viimeaikaisesta noususta. Elo on menetelmä pelaajien suhteellisen taitotason laskemiseen nollasummapeleissä. Vaikka Elo luotiin alun perin shakinpelaajien arvosanojen mittaamista varten, sitä voidaan soveltaa myös monissa muissa tilanteissa, kuten ammattiurheilussa. Jos haluat lukea lisää ja nähdä esimerkkejä Elosta urheilussa, 538:n opetusohjelma löytyy täältä. Elo on yksinkertaisesti erityinen malli parittaiselle vertailumallille. Käymme läpi prosessin, jossa loimme parittaisen vertailun/Elo-mallimme.

Aluksi käytimme tietokokonaisuutta, joka sisälsi noin 300 000 havaintoa pelaajan tiedoista (nimi, asema, liiga, syntymäpäivä jne.) ja pelaajien tilastoista (pelatut ottelut, maalit, syötöt jne.), jotka olivat saatavilla, ja jotka oli kaapattu osoitteesta eliteprospects.com. Yksi ensimmäisistä ongelmista, joihin törmäsimme, oli se, millaisen vastemuuttujan voisimme luoda, jotta voisimme vertailla pelaajatilastoja iän, liigan vahvuuden, aseman jne. suhteen. Pelaajien suorituskykyä on laskettu laajasti NHL:ssä; on olemassa erilaisia mittauksia, kuten WAR, GAR, Corsi jne. Tiedonkeruu ei kuitenkaan ole samanlaista kaikissa liigoissa. Jotkin liigat eivät olleet yhtä aktiivisia tilastojen, kuten osumien ja torjuntojen, seurannassa kuin toiset, mikä tarkoitti, että pystyimme käyttämään regressiossamme tekijöinä vain muuttujia, jotka olivat yleisiä kaikissa liigoissa.

Luodessamme uutta vastemuuttujaa halusimme muuttaa piste per peli tavalla, joka ottaa huomioon iän, kauden, aseman ja liigan. Ensimmäinen vaihe oli ottaa pisteitä per peli plus yksi logi. Tällä muunnoksella oli normaalimpi jakauma, kun taas raakapisteet per peli oli hyvin oikealle vino. Vaikka log-muunnos auttoi tietoja näyttämään normaalijakautuneemmilta, log-pisteet per peli ei silti ottanut huomioon edellä lueteltuja muuttujia. Päätimme, että ottaaksemme huomioon tällaiset muuttujat, aiomme luoda z-pisteytyksen kunkin pelaajan log-pisteille ottelua kohden. Ensimmäinen vaihe oli laskea keskiarvo ja keskihajonta kullekin aseman, kauden, liigan ja iän ryhmälle. Sitten kullekin pelaajahavainnolle laskettiin z-pistemäärä käyttämällä keskiarvoa ja keskihajontaa, jotka koskivat muuttujia, joita kontrolloimme. Lopullinen vastemuuttujamme oli siis pistemäärän logaritmin z-pistemäärä plus yksi. Z-pisteet näyttivät olevan vielä normaalijakautuneempia kuin log-pisteet per peli, ja myös puolustajien ja hyökkääjien kaltaisten ryhmien z-pisteet olivat normaalijakautuneita.
Luotiin parivertailumalli, joka on hyvin samanlainen kuin Elo-malli. Aluksi rakennetaan vertailutietokehys. Luomme jokaiselle pelaajalle pelaaja-liigakausien parit, jotta on olemassa pieni datakehys kaikista parittaisista vertailuista niiden liigojen osalta, joissa pelaajat ovat pelanneet. Tämä tarkoittaa sitä, että jos pelaaja on pelannut K:ssa liigassa, kyseisellä pelaajalla on K-valitse-2 paria pelaaja-liiga-kausia. Seuraavaksi poistetaan kaikki parit, joilla on sama liiga, sekä parit, jotka ovat kauempana kuin yhden kauden päässä toisistaan, ja lasketaan tulosmuuttuja. Tämä muuttuja voi olla joko jatkuva tai binäärinen, riippuen käytetystä regressiosta. On tärkeää ymmärtää, että ”vaikeammassa” liigassa pelaavilla olisi itse asiassa pienempi tulosmuuttuja. Tämä perustuu oletukseen, että vaikeammissa liigoissa on paremmat puolustajat ja maalivahdit, mikä vaikeuttaa maalintekoa.

Pelaajan nimi Liiga Kausi Z- Score
Kris Letang QMJHL 2006-07 1.829
Kris Letang NHL 2006-07 1.158
Kris Letang AHL 2007-08 1.557
Esimerkki pätkästä alkuperäisestä tietokokonaisuudesta, jossa on yksityiskohtaiset tiedot Kris Letangin eri liigoista ja Z-pisteistä.
Liiga 1 Kausi 1 Z-tulos 1 Liiga 2 Kausi 2 Z-tulos 1 Z-Score 2 Z-Score Difference
QMJHL 2006-07 1.829 NHL 2006-07 1.158 0.671
NHL 2006-07 1.158 AHL 2007-08 1.557 -0.399
QMJHL 2006-07 1.829 AHL 2007-08 1.557 0.272
Tässä tapauksessa tulosmuuttuja on Z-pisteiden erotus (jatkuva muuttuja), mutta käytetystä regressiotyypistä riippuen se voi olla myös binäärinen voitto/tappio-tulos 0 tai 1.

Parittaisen vertailumallin rakentamisen jälkeen käytettiin erilaisia regressiotyyppejä kertoimien laskemiseksi. Keskityimme käyttämään itse tehtyä logistista mallia, Bradley Terryn mallia (käyttäen R:n BTm-pakettia), jotka molemmat loivat binäärisiä tuloksia, sekä Ordinary Least Squares -regressiota, joka loi jatkuvan tuloksen. Arvioidaksemme, kumpi regressio toimi tarkimpien tulosten luomiseksi, jaoimme ensin parittaiset tiedot 70/30 harjoitus- ja testinäytteisiin. Sen jälkeen ennustimme voiton todennäköisyyden kaikkien liigojen osalta korjattujen pisteiden per peli Z-pisteiden perusteella. Voitolle asetettiin kynnysarvo; jos todennäköisyys oli suurempi kuin kynnysarvo, ennustettu tulos oli = 1. Muussa tapauksessa se oli = 0. Tämän jälkeen ennustettuja tuloksia verrattiin todellisiin tuloksiin kunkin mallin ennustustarkkuuden laskemiseksi. Tulokset esitetään seuraavassa taulukossa.

Kun eri mallinnusmenetelmämme oli luotu, pystyimme käyttämään mallien vahvuuskertoimia luodaksemme liigojen paremmuusjärjestyksen niiden vahvuuden perusteella. Ei ollut yllätys, että jokaisena vuonna vuodesta 2008 vuoteen 2018 ja kokonaisvahvuuskertoimien osalta National Hockey Leaguea pidetään vahvimpana liigana. Toinen liiga, jota pidettiin johdonmukaisesti toiseksi parhaana, oli MM-kisat, mikä on järkevää, koska niissä kilpailevat eri maiden parhaat pelaajat, ja tämä turnaus koostuu monista NHL:ssä pelaavista pelaajista. Pelkästään liigoja tarkasteltaessa AHL, KHL, SHL ja DEL olivat jatkuvasti yli 45 joukkueen vahvimpia liigoja. Lopullisessa rankingissa 10 parasta liigaa olivat NHL, MM-kisat, nuorten MM-kisat, KHL, SHL, AHL, USDP, nuorten MM-kisat U18, DEL ja NLA. Joitakin liigoja, jotka saattoivat olla yllätys, olivat juniorijääkiekkoliigat tai USDP. Nämä liigat ilmestyivät rankingissamme korkeammalle, koska otimme mallissamme huomioon iän. Tämä mahdollisti sen, että vahvuus perustui pelaajien laatuun eikä pelaajien ikään. Jokaisella kolmella luomallamme mallilla oli samanlaiset sijoitukset, joissa oli vain pieniä poikkeamia.

Vahvuuskertoimet ajan mittaan: Yllä olevassa kaaviossa näkyvät kunkin liigan vahvuuskertoimet jokaiselta vuodelta vuosina 2008-2018. Yleisimmin tunnetut liigat ja jatkuvasti vahvat liigat on korostettu yllä.

Sen jälkeen, kun olimme luoneet liigojen paremmuusjärjestyksen oikaistujen pelikohtaisten pisteidemme perusteella, seuraavaksi halusimme nähdä, miten nämä paremmuusjärjestykset vertautuvat pelkkien pelikohtaisten pisteiden käyttöön. Kun käytimme vain pisteitä per peliä, huomasimme, että liigojen vahvuuskertoimille tapahtui kolme asiaa. Liigoilla, joilla oli korkeampi vahvuuskerroin, oli taipumus olla edelleen vahvempia liigoja oikaistun pistemäärän perusteella. Niiden liigojen osalta, jotka olivat kaikkien liigojen keskikastissa, niiden raakapisteitä per peli koskevat vahvuuskertoimet olivat hyvin samankaltaisia kuin niiden oikaistut pisteitä per peli koskevat vahvuuskertoimet. Liigoilla, joilla oli alhaisimmat vahvuuskertoimet raa’an pistemäärän osalta, oli myös huonommat vahvuuskertoimet oikaistun pistemäärän osalta. Ainoat liigat, joiden vahvuuskerroin oli alhaisempi ja joiden vahvuuskerroin parani oikaistun pistemäärän perusteella, olivat liigoja, joissa oli nuoria pelaajia. Tämä suuntaus pätee sekä U20- että U18-junioreiden MM-kilpailuissa ja Yhdysvaltojen lukiossa, Minnesota-liigassa. Minnesotan high school -liigaa pidettiin ylivoimaisesti huonoimpana liigana, kun vastemuuttujana käytettiin raakapisteitä ottelua kohden, mutta kun käytettiin oikaistuja pisteitä ottelua kohden, tämä liiga menestyi paremmin kuin 10 muuta liigaa, joista monet ovat ammattilaisliigoja. Näin saimme selville, että pisteitä per peli ei voida käyttää liigan vahvuuden ennustajana, ja korostimme myös sitä, miten tärkeää on ottaa huomioon ikä liigan vahvuutta määritettäessä.

Strength Coefficients for Each League for Raw P/GP vs Adjusted P/GP: Tämä kuvaaja näyttää kunkin liigan vahvuuskertoimet kahdelle eri vastemuuttujalle. Vahvuuskertoimet laskettiin samalla mallinnusmenetelmällä.

Kuten edellä mainittiin, pelaajien suorituskyvylle oli luotava uusi estimaatti, koska olemassa olevat ennustetekijät, kuten pisteet per peli, ovat vinoutuneita iän, liigan vahvuuden, joukkueen vahvuuden ja vuoden vuoksi. Luomalla prosenttilukuja pelaajatyypeille voidaan potentiaalista pelaajaa verrata muihin samanlaisiin pelaajiin, mikä mahdollistaa tarkemman ennusteen. Log P/GP:n ja valitsemamme menetelmän persentiilit ovat erittäin hyödyllisiä, koska niiden avulla voidaan ennustaa minkä tahansa tietyn pelaajan suorituskyky missä tahansa yli 45 liigan liigassa. Kun liigoja on niin paljon, ei ole varmaa, että pelaaja olisi päässyt kyseisestä liigasta NHL:ään, mutta ilman mallimenetelmää sitä ei tarvita tarkan ennusteen tekemiseen.

Esimerkiksi Jake Geuntzelin oikaistu pistemäärä ottelua kohden kaudella 2017-2018 Pittsburgh Penguinsissa oli 0,94. Käyttämällä tätä oikaistua pistettä per peli, voimme ennustaa hänen oikaistut pisteensä per peli missä tahansa muussa liigassa. Alla on esitetty joitakin yleisimpiä liigoja ja Jake Guentzelin ennustetut oikaistut pistemäärät per peli kussakin näistä liigoista. Vertailun vuoksi mainittakoon, että kaudella 2016-2017 Jake Guentzelin korjattu pistemäärä ottelua kohden oli 2,30 AHL:ssä. Meidän ennustettu oikaistu pistemäärä 2 pistettä per peli on melko lähellä.

Menetelmämme pelaajan oikaistujen pisteiden ennustamisessa ottelua kohden sen määrittämiseksi, miten pelaaja voi suoriutua missä tahansa liigassa, on yksinkertainen laskutoimitus vahvuuskertoimistamme aiemmin kuvatusta mallinnusprosessista. Jos haluat verrata mitä tahansa kahta liigaa, vähennä niiden vahvuuskertoimet toisistaan. Lisää sitten tämä arvo sen liigan oikaistuihin pisteisiin peliä kohti tai z-pisteisiin, jossa pelaaja on tallentanut tietoja. Z-pistemäärän ja vahvuuskertoimen erotuksen summa antaa minkä tahansa toisen tietyn liigan oikaistun pistemäärän ottelua kohden.

Ei yksittäisen pelaajan pelisuorituksen ennustaminen ole pelkästään hyödyllistä kykyjenetsintää varten, vaan vahvuuskertoimien avulla saadaan tietoa liigan vahvuudesta. Kertoimet ottavat huomioon iän, kauden, aseman ja liigan. Tämän avulla kykyjenetsijä voi sijoittaa enemmän resursseja nuorisoliigaan, joka saattaa jäädä varjoon. Tämä johtuu siitä, että ikä on suuri määräävä tekijä pisteitä per peli, mutta kun kaikki muut sekoittavat muuttujat otetaan huomioon, oli joitakin nuorisoliigoja, joilla oli kaiken kaikkiaan paljon parempi liigan vahvuus kuin joillakin ammattilaisliigoilla.

Näillä käsitteillä on myös sovelluksia tosielämässä. Vuoden 2016 varaustilaisuutta edeltävien kuukausien aikana on keskusteltu siitä, ketä Columbus Blue Jackets vetäisi kolmannella varausvuorolla. Useimmat kykyjenetsijät olivat arvostaneet suomalaishyökkääjä Jesse Puljujarvin konsensusvalinnaksi, mutta fanit järkyttyivät kuullessaan, että CBJ valitsi sen sijaan kanadalaisen sentterin Pierre-Luc Dubois’n. Nopea vilkaisu numeroihin paljastaa kuitenkin, että tämän päätöksen ei pitäisi tulla yllätyksenä. Pelatessaan ammattilaiskiekkoilun Liigassa Puljujarvi teki 50 runkosarjaottelussa vakuuttavat 28 pistettä, ja sijoittui viidenneksi parhaaksi alle 20-vuotiaiden Liiga-pelaajien joukossa. Dubois puolestaan pelasi pikkukiekkoliigassa, mutta sijoittui siitä huolimatta QMJHL:n pistepörssin kolmanneksi 99 pisteellä 62 ottelussa. Kertoimien avulla voimme laskea vertailun vuoksi heidän oikaistun P/GP:nsä NHL:ssä, ja havaitsemme Dubois’n johtavan Puljujarvia tilastollisesta näkökulmasta. Ilmeisesti tämä ei olisi ainoa asia, jonka kykyjenetsijät ottaisivat huomioon luonnostellessaan, Dubois’n pelottava koko ja fyysisyys varmasti myös näyttelivät roolia heidän päätöksessään, mutta voisi olettaa, että Blue Jacketsilla oli parempi kuva siitä, miten kukin pelaaja pinoaa toisiaan vastaan valitessaan Dubois’n Puljujarvin sijaan.

Toinen sovellus pelaajakohtaisten vertailujen lisäksi olisi liigakohtaiset vertailut. Palatakseni takaisin esimerkkiin Harley vs Heinola, voimme arvioida heidän keskinäisiä liigojaan muiden samantasoisten liigojen kanssa. Sen sijaan, että verrataan NHL:ää OHL:ään, jossa kontrasti on ilmeinen, voidaan tehdä vivahteikkaampia arvioita vertaamalla OHL:ää muihin Pohjois-Amerikan pikkuliigoihin. Alla olevista kaavioista nähdään, että OHL on itse asiassa NA:n pikkuliigojen vahvin liiga, kun taas Liiga on muihin ammattilaisliigoihin verrattuna keskitasoa.

OHL verrattuna muihin NA:n junioriliigoihin: Tässä kuvaajassa näkyvät kaikkien Pohjois-Amerikan junioriliigojen vahvuuskertoimet, joista OHL on korostettu vihreällä.

Liiga vs. muut ammattilaisjääkiekkoliigat: Tämä kaavio näyttää kaikkien maailman ammattilaisjääkiekkoliigojen vahvuuskertoimet, Liiga on korostettu vaaleansinisellä.

Oikaistulla pisteitä per peli -pelaajamittarilla ei ainoastaan kontrolloida sekoittavia muuttujia, kuten pelaajan ikää, asemaa, liigaa ja kautta, jotka voivat muuttaa näkymiä minkä tahansa pelaajan arvosta. Käytetyt mallinnustekniikat mahdollistavat pelaajavertailut jääkiekkoliigoissa kaikkialla maailmassa, ei vain merkittävissä suurissa liigoissa. Tämä antaa joukkueille mahdollisuuden ennustaa, miten mikäkin pelaaja voi menestyä heidän liigassaan suhteessa samankaltaisiin pelaajiin, mikä aiemmin tehtiin käyttämällä vinoutunutta estimaattoria. Oikaistu pisteitä per peli -mittari mahdollistaa kokonaisvaltaisemman lähestymistavan pelaajien arviointiin ja tarjoaa väylän pelaajille, jotka ovat aiemmin saattaneet jäädä huomiotta tai marginaaliin. On olemassa monia sovelluksia jo pelkästään käyttämällä oikaistuja pisteitä per peli, mutta myös muunlaisia tietoja voidaan käyttää, kuten kykyjenetsijöiden sijoituksia tai odotettuja maaleja jne. Kun tulevaisuudessa saadaan yksityiskohtaisempia tietoja kaikista liigoista, tätä menetelmää voidaan myös parantaa entisestään.

Katerina Wu esitteli tämän artikkelin tutkimuksen myös CBJHAC20-tapahtumassa. Löydät diat täältä.

Seuraa meitä Twitterissä @kattaqueue ja @madelinejgall!

Vastaa

Sähköpostiosoitettasi ei julkaista.