Statistical Analysis: Katso myös: Merkitsevyys ja luottamusvälit

Katso myös:

Kaikissa tilastollisissa analyyseissä työskentelet todennäköisesti otoksen eikä koko perusjoukon tietojen kanssa. Tuloksesi ei siis välttämättä edusta koko perusjoukkoa – ja voi itse asiassa olla hyvin epätarkka, jos otantasi ei ole ollut kovin hyvä.

Tarvitset siis keinon, jolla voit mitata, kuinka varma olet siitä, että tuloksesi on tarkka, eikä se ole syntynyt vain sattumalta. Tilastotieteilijät käyttävät tähän kahta toisiinsa liittyvää käsitettä: luottamus ja merkitsevyys.

Tällä sivulla selitetään näitä käsitteitä.

Tilastollinen merkitsevyys

Termillä merkitsevyys on tilastotieteessä hyvin erityinen merkitys. Se kertoo, kuinka todennäköistä on, että tulos ei ole syntynyt sattumalta.

Kuvassa sininen ympyrä edustaa koko perusjoukkoa. Kun otat otoksen, otoksesi saattaa olla koko populaatiosta. Se on kuitenkin todennäköisemmin pienempi. Jos se on kaikki keltaisen ympyrän sisältä, olet kattanut melko suuren osan populaatiosta. Voit kuitenkin myös olla epäonninen (tai suunnitella otantamenettelysi huonosti) ja ottaa otoksen vain pienen punaisen ympyrän sisältä. Tällä olisi vakavia vaikutuksia siihen, onko otoksesi edustava koko perusjoukon kannalta.

Yksi parhaista tavoista varmistaa, että katat enemmän perusjoukkoa, on käyttää suurempaa otosta. Otoskoko vaikuttaa vahvasti tulosten tarkkuuteen (ja tästä on lisää sivulla Otanta ja otannan suunnittelu).

Tarkkuuteen vaikuttaa kuitenkin myös toinen tekijä: vaihtelu itse perusjoukon sisällä. Voit arvioida tätä tarkastelemalla tietojesi hajonnan mittareita (ja tästä lisää sivulla Yksinkertainen tilastollinen analyysi). Jos vaihtelua on enemmän, on todennäköisempää, että valitset otoksen, joka ei ole tyypillinen.

Signifikaation käsite yksinkertaisesti yhdistää otoskoon ja populaation vaihtelun ja tekee numeerisen arvion mahdollisuudesta, että olet tehnyt otantavirheen: eli että otoksesi ei edusta populaatiotasi.

Signifikaatio ilmaistaan todennäköisyytenä sille, että tuloksesi ovat syntyneet sattumalta, joka tunnetaan yleisesti p-arvona. Tavallisesti toivot sen olevan alle tietyn arvon, yleensä joko 0,05 (5 %) tai 0,01 (1 %), vaikka joissakin tuloksissa ilmoitetaan myös 0,10 (10 %).

Nollahypoteesi ja vaihtoehtoinen hypoteesi

Toteuttaessasi kokeilun tai markkinatutkimuksen haluat yleensä tietää, vaikuttaako tekosi. Voit siis ilmaista sen hypoteesina:

-x vaikuttaa y:hen.

Tämä tunnetaan tilastotieteessä nimellä ”vaihtoehtoinen hypoteesi”, jota kutsutaan usein nimellä H1.

’Nollahypoteesi’ eli H0 on, että x:llä ei ole vaikutusta y:hen.

Tilastollisesti tarkasteltuna merkitsevyystestauksen tarkoituksena on nähdä, viittaavatko tuloksesi siihen, että nollahypoteesi on hylättävä – tällöin vaihtoehtoinen hypoteesi on todennäköisemmin totta.

Jos tuloksesi eivät ole merkitseviä, et voi hylätä nollahypoteesia, ja sinun on pääteltävä, ettei vaikutusta ole.

P-arvo on todennäköisyys sille, että olisit saanut saamasi tulokset, jos nollahypoteesisi on tosi.

Signifikaation laskeminen

Yksi tapa laskea merkitsevyystestaus on z-arvon käyttö. Tämä kuvaa datapisteen etäisyyttä keskiarvosta standardipoikkeamien lukumääränä (lisätietoja keskiarvosta ja standardipoikkeamasta on sivulla Yksinkertainen tilastollinen analyysi).

Yksinkertaista vertailua varten z-pistemäärä lasketaan kaavalla:

$$z=\\frac{x – \mu}{\sigma}$$$

jossa \(x\) on datapiste, \(\mu\) on populaation tai jakauman keskiarvo ja \(\sigma\) on keskihajonta.

Esitetään esimerkiksi, että halutaan testata, onko jokin pelisovellus suositumpi kuin muut pelit. Oletetaan, että keskimääräinen pelisovellus ladataan 1000 kertaa, ja sen keskihajonta on 110. Meidän peliämme on ladattu 1200 kertaa. Sen z-pistemäärä on:

$$z=\frac{1200-1000}{110}=1.81$$$

Korkeampi z-pistemäärä ilmaisee, että tulos on epätodennäköisempi, että se on syntynyt sattumalta.

Voit käyttää tavallista tilastollista z-taulukkoa muunntaaksesi z-pistemäärän p-arvoksi. Jos p-arvosi on pienempi kuin haluamasi merkitsevyystaso, tuloksesi ovat merkitseviä.

Z-taulukon avulla pelisovelluksemme z-pistemäärä (1,81) muunnetaan p-arvoksi 0,9649. Tämä on parempi kuin haluamamme 5 %:n taso (0,05) (koska 1-0,9649 = 0,0351 eli 3,5 %), joten voimme sanoa, että tulos on merkitsevä.

Huomaa, että populaatiosta otetun otoksen kohdalla on pieni ero, jolloin z-pistemäärä lasketaan kaavalla:

$$z=\frac{(x-\mu)}{(\sigma/\sqrt n)}$$

jossa x on datapiste (tavallisesti otoskeskiarvosi), µ on populaation tai jakauman keskiarvo, σ on keskihajonta ja √n on otoskoon neliöjuuri.

Esimerkki selventää tätä.

Esitetään, että tutkit, saavatko biologian opiskelijat yleensä parempia arvosanoja kuin muita aineita opiskelevat ikätoverinsa. Saatat havaita, että 40 biologin otoksen keskimääräinen koepistemäärä on 80 ja keskihajonta 5, kun taas kaikkien kyseisen yliopiston tai koulun opiskelijoiden keskiarvo on 78 pistettä.

$$z=\frac{(80-78)}{(5/\sqrt 40)}=2.53$$

Z-taulukon avulla 2.53 vastaa p-arvoa 0.9943. Voit vähentää tämän arvosta 1, jolloin saat 0,0054. Tämä on pienempi kuin 1 %, joten voimme sanoa, että tulos on merkitsevä 1 %:n tasolla ja biologit saavat kokeissa parempia tuloksia kuin tämän yliopiston keskiverto-opiskelijat.

Huomaa, että tämä ei välttämättä tarkoita sitä, että biologit ovat fiksumpia tai parempia läpäisemään kokeita kuin muita aineita opiskelevat. Se voi itse asiassa tarkoittaa, että biologian kokeet ovat helpompia kuin muiden oppiaineiden kokeet. Merkitsevän tuloksen löytäminen EI ole todiste kausaalisesta yhteydestä, mutta se kertoo, että kyseessä saattaa olla asia, jota kannattaa tutkia.

Otoksen keskiarvojen merkitsevyyden testaamisesta ja ryhmien välisten erojen testaamisesta kerrotaan lisää sivulla Hypoteesien laatiminen ja testaaminen.

Varmuusvälit

Varmuusväli eli luottamusväli (tai luottamustaso) on arvojen vaihteluvälialue, jonka sisällä on tietty todennäköisyys sille, että aito arvo sijaitsee sen sisällä.

Tehokkaasti se mittaa sitä, kuinka varma olet siitä, että otoksesi keskiarvo (otoskeskiarvo) on sama kuin sen kokonaispopulaation keskiarvo, josta otoksesi otettiin (populaatiokeskiarvo).

Jos esimerkiksi keskiarvosi on 12,4 ja 95 %:n luottamusväli on 10,3-15,6, tämä tarkoittaa, että olet 95 %:n varmuudella varma siitä, että populaatiokeskiarvosi todellinen arvo sijoittuu välille 10,3-15,6. Toisin sanoen, se ei ehkä ole 12,4, mutta olet kohtuullisen varma siitä, että se ei ole kovin erilainen.

Oheinen kaavio näyttää tämän käytännössä muuttujalle, joka noudattaa normaalijakaumaa (lisätietoja tästä on sivulla Tilastolliset jakaumat).

Konfidenssivälin täsmällinen merkitys on se, että jos tekisit kokeesi monta, monta kertaa, 95 % näistä kokeista rakentamistasi väleistä sisältäisi todellisen arvon. Toisin sanoen, 5 %:ssa kokeistasi intervalli EI sisältäisi todellista arvoa.

Kuvasta näet, että 5 %:n todennäköisyydellä luottamusväli ei sisällä populaation keskiarvoa (kaksi 2,5 %:n ”häntää” molemmin puolin). Toisin sanoen yhdessä 20:stä näytteestä tai kokeesta luottamusväliä varten saamamme arvo ei sisällä todellista keskiarvoa: populaation keskiarvo jää itse asiassa luottamusvälin ulkopuolelle.

Varmuusvälin laskeminen

Varmuusvälin laskemisessa käytetään näytteidesi arvoja ja joitain standardimittoja (keskiarvo ja keskihajonta) (ja lisätietoja näiden laskemisesta on sivulla Yksinkertainen tilastollinen analyysi).

Se on helpointa ymmärtää esimerkin avulla.

Esitettäkö, että otimme otoksen 40 henkilön ryhmästä ja havaitsimme, että pituuden keskiarvo oli 159,1 cm ja keskihajonta 25,4.

Standardipoikkeama luottamusvälien laskennassa

Todennäköisesti käyttäisit populaation keskihajontaa luottamusvälin laskemiseen. On kuitenkin hyvin epätodennäköistä, että tietäisit, mikä tämä oli.

Onneksi voit käyttää otoksen keskihajontaa, jos sinulla on tarpeeksi suuri otos. Raja-arvoksi sovitaan yleensä vähintään 30 hengen otoskoko, mutta mitä suurempi, sitä parempi.

Meidän on selvitettävä, onko keskiarvomme kohtuullinen arvio kaikkien ihmisten pituuksista vai valitsimmeko erityisen pitkän (tai lyhyen) otoksen.

Käytämme luottamusvälin laskemiseen kaavaa. Tämä on:

$$keskiarvo \pm z \frac{(SD)}{\sqrt n}$$$

Jossa SD = keskihajonta ja n on havaintojen lukumäärä tai otoskoko.

Z-arvo otetaan tilastollisista taulukoista valitsemallemme vertailujakaumalle. Näissä taulukoissa annetaan z-arvo tietylle luottamusvälille (vaikkapa 95 % tai 99 %).

Tässä tapauksessa mittaamme ihmisten pituuksia, ja tiedämme, että populaation pituudet noudattavat (pääpiirteissään) normaalijakaumaa (lisätietoja tästä on sivulla Tilastolliset jakaumat), joten voimme käyttää normaalijakauman arvoja.

95 %:n luottamusvälin z-arvo on 1,96 normaalijakaumalle (otettu tavallisista tilastollisista taulukoista).

Ylläolevan kaavan avulla 95 %:n luottamusväli on näin ollen:

$$$159.1 \pm 1.96 \frac{(25.4)}{\sqrt 40}$$

Toteuttaessamme tämän laskutoimituksen saamme selville, että luottamusväli on 151,23-166,97 cm. On siis järkevää sanoa, että olemme siis 95-prosenttisen varmoja siitä, että populaation keskiarvo sijoittuu tälle vaihteluvälille.

Z-pistemäärän tai z-arvon ymmärtäminen

Z-pistemäärä on mitta, joka kuvaa keskihajontaa keskiarvosta. Esimerkissämme tiedämme siis, että 95 % arvoista on ± 1,96 keskihajonnan sisällä keskiarvosta:

Varmuusvälin arvioiminen

Yleisenä nyrkkisääntönä voidaan sanoa, että pieni luottamusväli on parempi. Luottamusväli kapenee otoskoon kasvaessa, minkä vuoksi suurempi otos on aina parempi. Kuten otantaa ja otannan suunnittelua käsittelevällä sivullamme kerrotaan, ihanteellisessa kokeessasi olisi mukana koko perusjoukko, mutta tämä ei yleensä ole mahdollista.

Johtopäätös

Varmuusvälit ja merkitsevyys ovat tavanomaisia tapoja osoittaa tilastollisten tulostesi laatu. Sinun odotetaan ilmoittavan ne rutiininomaisesti, kun teet mitä tahansa tilastollista analyysiä, ja sinun tulisi yleensä ilmoittaa tarkat luvut. Näin varmistat, että tutkimuksesi on pätevä ja luotettava.

Vastaa

Sähköpostiosoitettasi ei julkaista.