Quanto sono bravi i sondaggisti? Analizzando il dataset di Five-Thirty-Eight

Fonte immagine: Author created by collage (free images)

Questo è un anno elettorale e la scena dei sondaggi intorno alle elezioni (sia presidenziali generali che della Camera/Senato) si sta scaldando. Questo diventerà sempre più eccitante nei prossimi giorni, con tweet, contro-tweet, lotte sui social media, e punditry senza fine in televisione.

Sappiamo che non tutti i sondaggi sono della stessa qualità. Quindi, come dare un senso a tutto questo? Come identificare sondaggisti affidabili usando dati e analisi?

Fonte immagine: (Free for commercial use)

Nel mondo dell’analisi predittiva politica (e di alcune altre questioni come sport, fenomeni sociali, economia, ecc.), Five-Thirty-Eight è un nome formidabile.

Dall’inizio del 2008, il sito ha pubblicato articoli – tipicamente creando o analizzando informazioni statistiche – su una grande varietà di argomenti di politica attuale e notizie politiche. Il sito, gestito dalla rockstar scienziato di dati e statistico Nate Silver, ha raggiunto particolare rilievo e fama diffusa intorno alle elezioni presidenziali del 2012, quando il suo modello ha previsto correttamente il vincitore di tutti i 50 stati e del distretto di Columbia.

Fonte immagine: Wikipedia (Creative Common)

E prima che tu ti schernisca e dica “Ma che mi dici delle elezioni del 2016?”, potresti essere ben consigliato di leggere questo pezzo su come l’elezione di Donald Trump sia rientrata nel normale margine di errore della modellazione statistica.

Per i lettori più politicamente curiosi, hanno un intero sacco di articoli sulle elezioni del 2016 qui.

I professionisti della scienza dei dati dovrebbero prendere in simpatia Five-Thirty-Eight perché non evita di spiegare i loro modelli predittivi in termini altamente tecnici (almeno abbastanza complessi per i profani).

Fonte immagine: Questo articolo

Qui si parla di adottare la famosa distribuzione t, mentre la maggior parte degli altri aggregatori di sondaggi potrebbe accontentarsi dell’onnipresente distribuzione normale.

Tuttavia, andando oltre l’uso di sofisticate tecniche di modellazione statistica, il team sotto Silver si vanta di una metodologia unica – il pollster rating – per aiutare i loro modelli a rimanere altamente accurati e affidabili.

In questo articolo, analizziamo i loro dati su questi metodi di rating.

Five-Thirty-Eight non esita a spiegare i suoi modelli predittivi in termini altamente tecnici (almeno abbastanza complessi per i profani).

Pollster rating e ranking

C’è una moltitudine di sondaggisti che operano in questo paese. Leggere e valutare la qualità di essi può essere molto faticoso e difficile. Come da sito web, “Leggere i sondaggi può essere pericoloso per la salute. I sintomi includono il cherry-picking, l’overconfidence, la caduta per i numeri spazzatura, e l’affrettarsi a giudicare. Per fortuna, abbiamo una cura”. (fonte)

Ci sono i sondaggi. Poi, ci sono i sondaggi dei sondaggi. Poi, ci sono i sondaggi ponderati dei sondaggi. Soprattutto, c’è un sondaggio di sondaggi con pesi modellati statisticamente e pesi che cambiano dinamicamente.

Suona familiare ad altre famose metodologie di classificazione di cui hai sentito parlare come scienziato dei dati? La classifica dei prodotti di Amazon o la classifica dei film di Netflix? Probabilmente sì.

In sostanza, Five-Thirty-Eight utilizza questo sistema di valutazione/classificazione per ponderare i risultati dei sondaggi (ai risultati dei sondaggisti altamente classificati viene data maggiore importanza e così via). Inoltre seguono attivamente l’accuratezza e le metodologie dietro il risultato di ogni sondaggista e aggiustano la loro classifica durante l’anno.

Ci sono i sondaggi. Poi, ci sono i sondaggi dei sondaggi. Poi, ci sono i sondaggi ponderati dei sondaggi. Soprattutto, c’è un sondaggio di sondaggi con pesi modellati statisticamente e pesi che cambiano dinamicamente.

È interessante notare che la loro metodologia di classificazione non valuta necessariamente un sondaggista con una dimensione del campione più grande come migliore. La seguente schermata dal loro sito web lo dimostra chiaramente. Mentre i sondaggisti come Rasmussen Reports e HarrisX hanno dimensioni del campione più grandi, è, infatti, Marist College, che ottiene la valutazione A+ con una dimensione del campione modesta.

Fonte immagine: Schermata del sito web catturata dall’autore il 6 giugno 2020.

Fortunatamente, hanno anche aperto i loro dati di classifica dei sondaggi (insieme a quasi tutti i loro altri set di dati) qui su Github. E se siete interessati solo a una bella tabella, eccola qui.

Naturalmente, come scienziato dei dati, potresti voler guardare più a fondo nei dati grezzi e capire cose come,

  • come la loro classifica numerica si correla con l’accuratezza dei sondaggisti
  • se hanno un pregiudizio di parte nel selezionare particolari sondaggisti (nella maggior parte dei casi, possono essere classificati come di orientamento democratico o repubblicano)
  • chi sono i sondaggisti più quotati? Conducono molti sondaggi o sono selettivi?

Abbiamo provato ad analizzare il set di dati per acquisire tali intuizioni. Scaviamo nel codice e nei risultati, va bene?

L’analisi

Puoi trovare il Jupyter Notebook qui sul mio repo Github.

La fonte

Per iniziare, puoi estrarre i dati direttamente dal loro Github, in un DataFrame Pandas, come segue,

Ci sono 23 colonne in questo dataset. Ecco come appaiono,

Qualche trasformazione e pulizia

Abbiamo notato che una colonna ha dello spazio extra. Alcune altre potrebbero aver bisogno di qualche estrazione e conversione del tipo di dati.

Dopo aver applicato questa estrazione, il nuovo DataFrame ha colonne aggiuntive, che lo rendono più adatto al filtraggio e alla modellazione statistica.

Esaminando e quantizzando la colonna “538 Grade”

La colonna “538 Grades” contiene il nocciolo del dataset – il voto in lettere del sondaggista. Proprio come un normale esame, A+ è meglio di A, e A è meglio di B+. Se tracciamo i conteggi dei voti in lettere, osserviamo 15 gradazioni, in totale, da A+ a F.

Invece di lavorare con così tante gradazioni categoriche, potremmo volerle combinare in un piccolo numero di gradi numerici – 4 per A+/A/A-, 3 per le B, ecc.

Boxplot

Andando nell’analisi visiva, possiamo iniziare con i boxplot.

Supponiamo di voler controllare quale metodo di sondaggio si comporta meglio in termini di errore di previsione. Il set di dati ha una colonna chiamata “Errore medio semplice”, che è definito come “L’errore medio della società, calcolato come la differenza tra il risultato sondato e il risultato effettivo per il margine che separa i primi due classificati nella corsa.”

Allora, potremmo essere interessati a verificare se i sondaggisti con un certo bias di parte hanno più successo nel chiamare correttamente le elezioni rispetto ad altri.

Nota qualcosa di interessante sopra? Se siete un pensatore progressista e liberale, con ogni probabilità, potete essere partigiano del partito democratico. Ma, in media, i sondaggisti con inclinazione repubblicana, chiamano le elezioni più accuratamente e con meno variabilità. Meglio stare attenti a quei sondaggi!

Un’altra colonna interessante nel dataset si chiama “NCPP/AAPOR/Roper”. Essa “indica se la società di sondaggi era un membro del Consiglio nazionale sui sondaggi pubblici, un firmatario dell’iniziativa di trasparenza dell’American Association for Public Opinion Research, o un collaboratore dell’archivio dati del Roper Center for Public Opinion Research. In effetti, un’adesione indica l’adesione a una metodologia di sondaggio più robusta” (fonte).

Come giudicare la validità della suddetta affermazione? Il set di dati ha una colonna chiamata “Plus-Minus avanzato”, che è “un punteggio che confronta il risultato di un sondaggista con quello di altre società di sondaggi che sondano le stesse gare e che pesa maggiormente i risultati recenti. I punteggi negativi sono favorevoli e indicano una qualità superiore alla media” (fonte).

Ecco un boxplot tra questi due parametri. Non solo i sondaggisti, associati a NCCP/AAPOR/Roper, mostrano un punteggio di errore più basso, ma anche una variabilità notevolmente bassa. Le loro previsioni sembrano essere stabili e robuste.

Se siete un pensatore progressista e liberale, con tutta probabilità, potete essere partigiano del partito democratico. Ma, in media, i sondaggisti di orientamento repubblicano chiamano le elezioni in modo più accurato e con meno variabilità.

Piani di dispersione e regressione

Per capire la correlazione tra i parametri, possiamo guardare i piani di dispersione con regressione. Usiamo le librerie Seaborn e Scipy Python e una funzione personalizzata per generare questi grafici.

Per esempio, possiamo mettere in relazione le “Gare chiamate correttamente” con il “Plus-Minus predittivo”. Come da Five-Thirty-Eight, il “Plus-Minus Predittivo” è “una proiezione di quanto sarà accurato il sondaggista nelle elezioni future. Viene calcolato invertendo il punteggio Plus-Minus avanzato di un sondaggista ad una media basata sulle nostre proxy per la qualità metodologica”. (fonte)

Oppure, possiamo controllare come il “Voto numerico” che abbiamo definito, correla con la media degli errori dei sondaggi. Una tendenza negativa indica che un grado numerico più alto è associato a un errore di sondaggio più basso.

Possiamo anche controllare se il “# di sondaggi per l’analisi di bias” aiuta a ridurre il “grado di bias partigiano” che viene assegnato a ciascun sondaggista. Possiamo osservare una relazione al ribasso, indicando che la disponibilità di un alto numero di sondaggi aiuta a ridurre il grado di Partisan Bias. Tuttavia, la relazione sembra altamente non lineare e una scala logaritmica sarebbe stata migliore per adattare la curva.

I sondaggisti più attivi sono più affidabili? Tracciamo l’istogramma del numero di sondaggi e vediamo che segue una legge di potenza negativa. Possiamo filtrare i sondaggisti con un numero molto basso e molto alto di sondaggi e creare un grafico di dispersione personalizzato. Tuttavia, osserviamo una correlazione quasi inesistente tra il numero di sondaggi e il punteggio Predittivo Plus-Minus. Pertanto, un gran numero di sondaggi non porta necessariamente ad un’alta qualità dei sondaggi e al potere predittivo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.