Mennyire jók a közvélemény-kutatók? A Five-Thirty-Eight adathalmazának elemzése
Elemezzük a tiszteletreméltó politikai előrejelző honlap, a Five-Thirty-Eight közvélemény-kutatói rangsorának adathalmazát.
Ez egy választási év, és a választások (mind az általános elnökválasztás, mind a képviselőházi/szenátusi választások) körüli közvélemény-kutatások egyre forróbbak. Ez egyre izgalmasabb lesz az elkövetkező napokban, tweetekkel, ellen-tweetekkel, közösségi média harcokkal és véget nem érő pundizással a televízióban.
Tudjuk, hogy nem minden közvélemény-kutatás egyforma minőségű. Hogyan lehet tehát értelmet adni mindennek? Hogyan ismerjük fel a megbízható közvélemény-kutatókat az adatok és az analitika segítségével?
A kivonás alkalmazása után, az új DataFrame további oszlopokkal rendelkezik, ami alkalmasabbá teszi szűrésre és statisztikai modellezésre.
A “538 Grade” oszlop vizsgálata és kvantálása
Az “538 Grades” oszlopok tartalmazzák az adatállomány lényegét – a közvélemény-kutató betűjeles osztályzatát. Akárcsak egy rendes vizsgán, az A+ jobb, mint az A, és az A jobb, mint a B+. Ha a betűs osztályzatok számát ábrázoljuk, összesen 15 fokozatot figyelhetünk meg, A+-tól F-ig.
Ahelyett, hogy ennyi kategorikus fokozattal dolgoznánk, érdemes ezeket kevés számú numerikus osztályzattal kombinálni – 4 az A+/A/A-, 3 a B-kre stb.
Boxplotok
A vizuális analitikában a boxplotokkal kezdhetjük.
Tegyük fel, hogy meg akarjuk vizsgálni, melyik szavazási módszer teljesít jobban az előrejelzési hiba szempontjából. Az adatkészletben van egy “Egyszerű átlagos hiba” nevű oszlop, amely a következőképpen van definiálva: “A cég átlagos hibája, amelyet a közvélemény-kutatási eredmény és a tényleges eredmény közötti különbségként számítunk ki a verseny első két helyezettjét elválasztó különbségre.”
Ezután érdekelhet minket annak ellenőrzése, hogy a bizonyos pártpolitikai elfogultsággal rendelkező közvélemény-kutatók sikeresebbek-e a választások helyes megítélésében, mint mások.
Észrevettél valami érdekeset fent? Ha progresszív, liberális gondolkodású ember vagy, akkor minden valószínűség szerint a Demokrata Párt párthoz tartozol. De átlagosan a republikánus beállítottságú közvélemény-kutatók pontosabban és kisebb ingadozással mondják meg a választásokat. Jobb, ha vigyázol ezekre a közvélemény-kutatókra!
Az adatkészlet egy másik érdekes oszlopa az “NCPP/AAPOR/Roper”. Ez “azt jelzi, hogy a közvélemény-kutató cég tagja volt-e a National Council on Public Pollsnak, aláírója volt-e az American Association for Public Opinion Research átláthatósági kezdeményezésének, vagy hozzájárult-e a Roper Center for Public Opinion Research adatarchívumához. A tagság gyakorlatilag a szilárdabb közvélemény-kutatási módszertanhoz való ragaszkodást jelzi” (forrás).
Hogyan lehet megítélni a fent említett állítás érvényességét? Az adatkészletben van egy “Advanced Plus-Minus” nevű oszlop, amely “egy olyan pontszám, amely összehasonlítja egy közvélemény-kutató eredményét más, ugyanazokat a versenyeket felmérő közvélemény-kutató cégekkel, és amely a legújabb eredményeket nagyobb súllyal súlyozza. A negatív pontszámok kedvezőek és átlagon felüli minőséget jeleznek” (forrás).
Itt egy boxplot e két paraméter között. Nemcsak az NCCP/AAPOR/Roperhez köthető közvélemény-kutatók mutatnak alacsonyabb hibapontot, hanem jelentősen alacsonyabb variabilitást is. Előrejelzéseik stabilnak és robusztusnak tűnnek.
Ha Ön progresszív, liberálisan gondolkodó ember, minden valószínűség szerint a Demokrata Párthoz pártolhatja magát. De átlagosan a republikánus irányultságú közvélemény-kutatók pontosabban és kisebb ingadozással nevezik meg a választásokat.
Scatter- és regressziós ábrák
A paraméterek közötti összefüggés megértéséhez megnézhetjük a regressziós illesztéssel készült szórásdiagramokat. Ezen ábrák létrehozásához a Seaborn és a Scipy Python könyvtárakat és egy testreszabott függvényt használunk.
Például a “Helyesen hívott futamok” és a “Prediktív plusz-mínusz” összefüggésbe hozható. A Five-Thirty-Eight szerint a “Predictive Plus-Minus” “egy előrejelzés arról, hogy a közvélemény-kutató mennyire lesz pontos a jövőbeli választásokon. Ezt úgy számítják ki, hogy a közvélemény-kutató Advanced Plus-Minus pontszámát visszavezetik egy átlaghoz, amely a módszertani minőségre vonatkozó mutatóinkon alapul”. (forrás)
Vagy megnézhetjük, hogy az általunk meghatározott “Numerikus fokozat” hogyan korrelál a közvélemény-kutatási hibák átlagával. A negatív tendencia azt jelzi, hogy a magasabb numerikus osztályzat alacsonyabb közvélemény-kutatási hibával jár együtt.
Azt is ellenőrizhetjük, hogy a “# of Polls for Bias Analysis” segít-e az egyes közvélemény-kutatókhoz rendelt “Partisan Bias Degree” csökkentésében. Lefelé mutató összefüggést figyelhetünk meg, ami azt jelzi, hogy a nagyszámú közvélemény-kutatás rendelkezésre állása valóban segít csökkenteni a pártos elfogultság mértékét. Az összefüggés azonban erősen nemlineárisnak tűnik, és egy logaritmikus skálázás jobb lett volna a görbe illesztéséhez.
Az aktívabb közvélemény-kutatókban jobban megbízhatunk? Ábrázoljuk a közvélemény-kutatók számának hisztogramját, és azt látjuk, hogy az egy negatív hatványtörvényt követ. Kiszűrhetjük a nagyon alacsony és nagyon magas számú közvélemény-kutatással rendelkező közvélemény-kutatókat, és létrehozhatunk egy egyéni szórásdiagramot. Megfigyelhetjük azonban, hogy a közvélemény-kutatások száma és a prediktív plusz-mínusz pontszám között szinte nem is létezik korreláció. A nagyszámú közvélemény-kutatás tehát nem feltétlenül vezet magas közvélemény-kutatási minőséghez és előrejelző erőhöz.