Inleiding tot de statistiek
Leerresultaten
- Herkennen, beschrijven en berekenen van de metingen van het middelpunt van gegevens: gemiddelde, mediaan en modus.
Bekijk de volgende gegevensverzameling.
4; 5; 6; 6; 7; 7; 7; 7; 8; 8; 9; 10
Deze gegevensverzameling kan worden weergegeven door het volgende histogram. Elk interval heeft breedte één, en elke waarde bevindt zich in het midden van een interval.
Het histogram geeft een symmetrische verdeling van gegevens weer. Een verdeling is symmetrisch als op een bepaald punt in het histogram een verticale lijn kan worden getrokken, zodanig dat de vorm links en rechts van de verticale lijn spiegelbeelden van elkaar zijn. Het gemiddelde, de mediaan en de modus zijn elk zeven voor deze gegevens. Bij een perfect symmetrische verdeling zijn het gemiddelde en de mediaan gelijk. Dit voorbeeld heeft één modus (unimodaal), en de modus is gelijk aan het gemiddelde en de mediaan. Bij een symmetrische verdeling met twee modi (bimodaal) zijn de twee modi verschillend van het gemiddelde en de mediaan.
Het histogram voor de gegevens: 4; 5; 6; 6; 7; 7; 7; 8 is niet symmetrisch. De rechterkant lijkt “afgehakt” vergeleken met de linkerkant. Een dergelijke verdeling wordt scheef naar links genoemd omdat ze naar links wordt getrokken.
Het gemiddelde is 6,3, de mediaan is 6,5, en de modus is zeven. Merk op dat het gemiddelde kleiner is dan de mediaan, en dat ze allebei kleiner zijn dan de modus. Het gemiddelde en de mediaan geven beide de scheefheid weer, maar het gemiddelde geeft het meer weer.
Het histogram voor de gegevens: 6; 7; 7; 7; 8; 8; 9; 10, is ook niet symmetrisch. Het is scheef naar rechts.
Het gemiddelde is 7,7, de mediaan is 7,5, en de modus is zeven. Van de drie statistieken is het gemiddelde het grootst, terwijl de modus het kleinst is. Ook hier weerspiegelt het gemiddelde de scheefheid het meest.
Om samen te vatten: als de verdeling van de gegevens naar links scheef is, is het gemiddelde over het algemeen lager dan de mediaan, die vaak lager is dan de modus. Als de verdeling van gegevens naar rechts scheef is, is de modus vaak kleiner dan de mediaan, die kleiner is dan het gemiddelde.
Skewness en symmetrie worden belangrijk wanneer we kansverdelingen bespreken in latere hoofdstukken.
Hier is een video die samenvat hoe het gemiddelde, de mediaan en de modus ons kunnen helpen de scheefheid van een dataset te beschrijven. Maak je geen zorgen over de termen leptokurtisch en platykurtisch voor deze cursus.
Voorbeeld
Statistieken worden gebruikt om auteurs te vergelijken en soms te identificeren. De volgende lijsten tonen een eenvoudige steekproef die het aantal letters van drie auteurs vergelijkt.
Terry: 7; 9; 3; 3; 4; 1; 3; 2; 2
Davis: 3; 3; 4; 1; 4; 3; 2; 3; 1
Maris: 2; 3; 4; 4; 6; 6; 8; 3
- Maak een dot plot voor de drie auteurs en vergelijk de vormen.
- Bereken het gemiddelde voor elk.
- Bereken de mediaan voor elk.
- Beschrijf elk patroon dat u opmerkt tussen de vorm en de metingen van het centrum.
Kijken naar de verdeling van gegevens kan veel onthullen over de relatie tussen het gemiddelde, de mediaan en de modus. Er zijn drie soorten verdelingen. Een rechtse (of positieve) scheve verdeling heeft een vorm als in figuur 3. Een links (of negatief) scheve verdeling heeft een vorm als in figuur 2 . Een symmetrische verdeling ziet eruit als in figuur 1.