世論調査会社の実力は? Five-Thirty-Eightのデータセットを分析する
老舗政治予測サイトFive-Thirty-Eightの世論調査員ランキングデータセットを分析します。
今年は選挙の年であり、選挙(大統領総選挙、下院・上院選挙)を巡る世論調査シーンが熱を帯びてきています。 ツイート、カウンターツイート、ソーシャルメディアでの争い、テレビでの果てしない評論活動など、これからますます盛り上がりを見せるでしょう。
すべての世論調査が同じ品質でないことは分かっているはずです。 では、どのように意味をなすのでしょうか。 データと分析を用いて、信頼できる世論調査機関を見極めるにはどうしたらよいでしょうか。
政治(およびスポーツ、社会現象、経済などいくつかの事柄)の予測分析の世界では、Five-Thirty-Eight は手強い名前です。
2008年初頭から、このサイトは現在の政治や政治ニュースにおける幅広いトピックについて記事(通常は統計情報の作成または分析)を公開しています。 ロックスターのデータ科学者であり統計学者であるネイト・シルバーが運営するこのサイトは、そのモデルが 50 州とコロンビア特別区のすべての勝者を正しく予測した 2012 年の大統領選挙の頃に、特に注目され広く知られるようになりました。
そして、「でも、2016年の選挙はどうなんだ」と嘲笑する前に、ドナルド・トランプの当選が統計モデリングの通常の誤差範囲内だったというこの記事を読むとよいでしょう。
より政治に関心のある読者のために、ここでは2016年の選挙に関する記事を一袋用意してくれています。
Data Science Practitioners should take a liking to Five-Thirty-Eight because it is not shy away from explaining their predictive models in terms of highly technical terms (at least complex enough for the layperson).
ここで、彼らは有名な t 分布を採用することについて話していますが、他のほとんどの投票集計会社はどこにでもある正規分布で満足しているかもしれません。
しかしながら、高度な統計モデリング技術を使用するだけではなく、シルバーのチームは、彼らのモデルが高い精度と信頼を維持できるよう、投票者評価という独自の方法論を誇っています。
Five-Thirty-Eight は、高度な専門用語(少なくとも素人には十分複雑)を使って予測モデルを説明することに躊躇しません。
世論調査員の格付けとランキング
この国には多数の世論調査会社が活動しています。 それらの質を読み、評価することは、非常に負担が大きく、骨折り損になりかねません。 このサイトにあるように、「世論調査を読むことは健康に害を及ぼす可能性がある」のです。 その症状には、選択すること、過信すること、ジャンクな数字に騙されること、判断を急ぐことが含まれます。 ありがたいことに、私たちには治療法があります” (出典)
世論調査がある。 そして、世論調査の世論調査がある。 それから、世論調査の重み付けされた世論調査がある。 とりわけ、統計的にモデル化され、動的に変化する重みを持つ投票の投票があります。
データサイエンティストとして聞いたことのある他の有名なランキング手法に見覚えがありませんか? Amazon の製品ランキングや Netflix の映画ランキング? おそらくそうです。
基本的に、Five-Thirty-Eight は、この評価/ランキング システムを使用して、世論調査結果に重みを付けています (高ランクな世論調査結果はより重要視され、そうなっています)。 また、各世論調査会社の結果の背後にある正確さと方法論を積極的に追跡し、年間を通じてランキングを調整します。 そして、世論調査の世論調査があります。 そして、世論調査の重み付けされた世論調査がある。 とりわけ、統計的にモデル化され、動的に変化する重みを持つ世論調査の世論調査があります。
彼らのランキング方法は、必ずしもサンプルサイズが大きい世論調査会社をより良いものとして評価しないことに注目するのが興味深い点です。 彼らのウェブサイトからの次のスクリーンショットは、それを明確に示しています。 Rasmussen ReportsやHarrisXなどの世論調査会社はサンプルサイズが大きいのですが、実際には、サンプルサイズが控えめなMarist CollegeがA+の評価を受けています。
Fortunately, they also open-source their pollster ranking data (along with almost all of its other datasets) here on Github. そして、もしあなたが見栄えのするテーブルにしか興味がないのであれば、ここにあります。
- 世論調査会社の正確さと数値ランキングの相関はどうか
- 特定の世論調査会社を選ぶことに党派的な偏りがあるのか(ほとんどの場合、民主党寄りか共和党寄りに分類されます)
- トップレートの世論調査会社は誰なのか、などなど、データ科学者として、生のデータを深く調べて理解したいと思うこともあることでしょう。 彼らは多くの世論調査を実施しているのか、それとも選択的なのか。
このような洞察を得るために、データセットの分析を試みました。 コードとその結果を見てみましょう。
分析
この Jupyter Notebook は私の Github リポジトリにあります。
ソース
まず始めに、次のように、彼らのGithubから直接データをPandas DataFrameに取り込むことができます,
このデータセットには23カラムがあります。 以下はその様子です。
Some transformation and clean-up
ある列には少しスペースがあることに気がつきました。 他のいくつかは、いくつかの抽出とデータ型の変換が必要かもしれません。