統計学入門
学習成果
- データの中心の指標である平均・中央値・最頻値を認識・記述・計算することができる。
次のデータセットを考える。
4; 5; 6; 6; 7; 7; 7; 7; 8; 8; 9; 10
このデータセットは次のヒストグラムで表すことができる。 各区間の幅は1であり、各値は区間の中央に位置しています。
ヒストグラムは、データの対称的な分布を表示していることがわかります。 ヒストグラムのある点に垂直線を引き、その垂直線の左側と右側の形状が互いに鏡像となるような分布は対称であると言えます。 平均値、中央値、最頻値は、それぞれ7つです。 完全に対称な分布では、平均値と中央値は同じになります。 この例では最頻値が1つ(単峰性)であり、最頻値は平均値や中央値と同じである。 モードが2つある対称分布(バイモーダル)では、2つのモードは平均値や中央値と異なることになります。
このデータのヒストグラムです。 4; 5; 6; 6; 7; 7; 7; 8 のデータのヒストグラムは、対称ではありません。 右側が左側に比べて「切り落とされている」ように見えます。
平均値は6.3、中央値は6.5、最頻値は7です。 平均値は中央値より小さく、両者とも最頻値より小さいことに注意してください。 平均値も中央値も歪みを反映していますが、平均値の方がより歪みを反映しています。
このデータのヒストグラムです。 6;7;7;7;8;8;9;10というデータのヒストグラムも左右対称ではありません。
平均値は7.7、中央値は7.5、最頻値は7である。 3つの統計量のうち、平均値は最も大きく、最頻値は最も小さい。 繰り返しになりますが、平均値が最も偏りを反映しています。
まとめると、一般にデータの分布が左に偏っている場合、平均値は中央値より小さく、それは最頻値より小さいことが多いのですが、平均値は中央値より小さく、最頻値は中央値より小さいのです。 データの分布が右に偏っている場合、最頻値は中央値よりも小さいことが多く、それは平均値よりも小さい。
歪度と対称性は、後の章で確率分布を議論するときに重要になる。
次のビデオは、平均、中央値、最頻値が、データセットの歪度を説明するのに、いかに役立つかをまとめたものである。 このコースでは、レプトカーティックとプラティカーティックという用語は気にしないでください。
例
統計は、比較したり、時には著者を特定するために使用されます。 次のリストは、3人の著者の文字数を比較した単純なランダムサンプルを示しています。
Terry: 7; 9; 3; 3; 4; 1; 3; 2; 2
Davis: 3; 3; 3; 4; 1; 4; 3; 2; 3; 1
Maris: 2; 3; 4; 4; 6; 6; 8; 3
- 3人の著者について点描画を作って形を比べてみてください。
- それぞれの平均値を計算しなさい。
- それぞれの中央値を計算しなさい。
- 形状と中心値の測定値の間に気づいたパターンを記述せよ。
Davis’ distribution has a left (negative) skew
Maris’ distribution is symmetrically shaped. - テリーの平均は 3.7, Davis’ mean is 2.7, Maris’ mean is 4.6.
- テリーの中央値は 3, Davis’ median is 3.テリー’は中央値が 3. 中央値は常に高い点(最頻値)に近く、平均値は尾を引く傾向があるようです。 対称的な分布では、平均と中央値はともに分布の高点に近い中心に位置している。
データの分布を見ると、平均、中央値、最頻値の関係について多くのことがわかる。 分布には3つのタイプがあります。 右(または正)偏の分布は、図3のような形をしています。 左(または負)スキューの分布は、図2のような形をしています。 左右対称の分布は、図1のような形をしています。