Sursa imaginii: Acest articolAici, ei vorbesc despre adoptarea faimoasei distribuții t, în timp ce majoritatea celorlalți agregatori de sondaje s-ar putea să se mulțumească doar cu omniprezenta distribuție normală.
Cu toate acestea, mergând dincolo de utilizarea unor tehnici sofisticate de modelare statistică, echipa de sub conducerea lui Silver se mândrește cu o metodologie unică – ratingul sondajelor – pentru a-și ajuta modelele să rămână foarte precise și de încredere.
În acest articol, analizăm datele lor cu privire la aceste metode de rating.
Five-Thirty-Eight nu se sfiește să explice modelele lor predictive în termeni foarte tehnici (cel puțin suficient de complecși pentru profani).
Pollster rating and ranking
Există o multitudine de institute de sondare care operează în această țară. Citirea și aprecierea calității acestora poate fi extrem de obositoare și fracționată. Conform site-ului, „Citirea sondajelor poate fi periculoasă pentru sănătate. Simptomele includ selecția de cireșe, excesul de încredere, căderea în mrejele unor cifre de doi lei și judecata pripită. Din fericire, avem un leac”. (sursa)
Există sondaje. Apoi, există sondaje de sondaje. Apoi, există sondaje ponderate ale sondajelor. Mai presus de toate, există un sondaj de sondaje cu ponderi modelate statistic și cu ponderi care se schimbă în mod dinamic.
Vă sună familiar cu alte metodologii celebre de clasificare despre care ați auzit în calitate de cercetător de date? Clasamentul produselor de la Amazon sau clasamentul filmelor de la Netflix? Probabil că da.
În esență, Five-Thirty-Eight folosește acest sistem de rating/clasare pentru a pondera rezultatele sondajelor (rezultatele sondajelor cu clasament ridicat primesc o importanță mai mare și așa mai departe). De asemenea, ei urmăresc în mod activ acuratețea și metodologiile din spatele rezultatului fiecărui sondaj și își ajustează clasamentul pe parcursul anului.
Există sondaje. Apoi, există sondaje de sondaje. Apoi, există sondaje ponderate ale sondajelor. Mai presus de toate, există un sondaj de sondaje cu ponderi care sunt modelate statistic și cu ponderi care se schimbă în mod dinamic.
Este interesant de observat că metodologia lor de clasificare nu clasifică neapărat un sondaj cu o dimensiune mai mare a eșantionului ca fiind unul mai bun. Următoarea captură de ecran de pe site-ul lor demonstrează clar acest lucru. În timp ce institute de sondare precum Rasmussen Reports și HarrisX au eșantioane de dimensiuni mai mari, este, de fapt, Marist College, care primește ratingul A+ cu o dimensiune modestă a eșantionului.
Din fericire, ei au, de asemenea, sursă deschisă a datelor lor de clasificare a sondajelor (împreună cu aproape toate celelalte seturi de date) aici, pe Github. Iar dacă sunteți interesați doar de un tabel arătos, iată-l aici.
Natural, ca om de știință de date, este posibil să doriți să vă uitați mai adânc în datele brute și să înțelegeți lucruri cum ar fi,
- cum se corelează clasamentul lor numeric cu acuratețea sondatorilor
- dacă au o prejudecată partizană în ceea ce privește selectarea anumitor sondatori (în cele mai multe cazuri, aceștia pot fi clasificați ca fiind fie cu înclinații democrate, fie cu înclinații republicane)
- cine sunt cei mai bine cotați sondatori? Realizează ei multe sondaje sau sunt selectivi?
Am încercat să analizăm setul de date pentru a dobândi astfel de informații. Să ne adâncim în cod și în constatări, da?
Analiza
Puteți găsi caietul Jupyter Notebook aici pe repo-ul meu Github.
Sursa
Pentru a începe, puteți extrage datele direct din Github-ul lor, într-un Pandas DataFrame, după cum urmează,
Există 23 de coloane în acest set de date. Iată cum arată acestea,
Câteva transformări și curățări
Observăm că o coloană are ceva spațiu în plus. Alte câteva ar putea avea nevoie de unele extrageri și conversii de tip de date.
După aplicarea acestei extrageri, noul DataFrame are coloane suplimentare, ceea ce îl face mai potrivit pentru filtrare și modelare statistică.