Análise Estatística: Intervalos de significância e confiança
Em qualquer análise estatística, é provável que você esteja trabalhando com uma amostra, ao invés de dados de toda a população. Seu resultado pode, portanto, não representar toda a população – e poderia, na verdade, ser muito impreciso se sua amostragem não fosse muito boa.
Você precisa, portanto, de uma maneira de medir a certeza de que seu resultado é preciso, e não ocorreu simplesmente por acaso. Os estatísticos usam dois conceitos interligados para isso: confiança e significado.
Esta página explica estes conceitos.
Significado Estatístico
O termo significância tem um significado muito particular em estatística. Ele diz-lhe como é provável que o seu resultado não tenha ocorrido por acaso.
No diagrama, o círculo azul representa toda a população. Quando você tira uma amostra, a sua amostra pode ser de toda a população. No entanto, é mais provável que seja menor. Se for tudo de dentro do círculo amarelo, você teria coberto uma grande parte da população. No entanto, você também pode ter azar (ou ter concebido mal o seu procedimento de amostragem), e só pode ter colhido uma amostra de dentro do pequeno círculo vermelho. Isto teria sérias implicações se a sua amostra fosse representativa de toda a população.
Uma das melhores maneiras de garantir que você cobre mais da população é usar uma amostra maior. O tamanho da sua amostra afeta fortemente a precisão dos seus resultados (e há mais sobre isso na nossa página sobre Amostragem e Desenho de Amostra).
No entanto, outro elemento também afeta a precisão: a variação dentro da própria população. Você pode avaliar isso analisando as medidas de propagação de seus dados (e para mais informações sobre isso, veja nossa página sobre Análise Estatística Simples). Onde há mais variação, há mais chances de você escolher uma amostra que não seja típica.
O conceito de significância simplesmente reúne o tamanho da amostra e a variação populacional, e faz uma avaliação numérica das chances de você ter cometido um erro de amostragem: ou seja, de que sua amostra não represente sua população.
A significância é expressa como uma probabilidade de seus resultados terem ocorrido por acaso, comumente conhecida como um valor p. Você geralmente procura que seja inferior a um determinado valor, geralmente 0,05 (5%) ou 0,01 (1%), embora alguns resultados também informem 0,10 (10%).
Hipótese Nula e Alternativa
Quando você realiza um experimento ou uma pesquisa de mercado, você geralmente quer saber se o que você está fazendo tem um efeito. Você pode então expressá-lo como uma hipótese:
-x terá um efeito sobre y.
Esta é conhecida nas estatísticas como a ‘hipótese alternativa’, muitas vezes chamada H1.
A ‘hipótese nula’, ou H0, é que x não tem efeito sobre y.
Estatisticamente falando, o propósito do teste de significância é ver se seus resultados sugerem que você precisa rejeitar a hipótese nula – nesse caso, a hipótese alternativa é mais provável que seja verdadeira.
Se os seus resultados não forem significativos, você não pode rejeitar a hipótese nula, e você tem que concluir que não há efeito.
O valor p é a probabilidade de você ter obtido os resultados que você obteve se a sua hipótese nula for verdadeira.
Cálculo de significância
Uma maneira de calcular a significância é usar um z-score. Isto descreve a distância de um ponto de dados à média, em termos do número de desvios padrão (para mais informações sobre média e desvio padrão, veja nossa página sobre Análise Estatística Simples).
Para uma comparação simples, o z-score é calculado usando a fórmula:
$$z=\frac{x – \mu}{\sigma}$$
onde \(x\) é o ponto de dados, \mu} é a média da população ou distribuição, e \sigma é o desvio padrão.
Por exemplo, suponha que quiséssemos testar se uma aplicação de jogo era mais popular do que outros jogos. Digamos que o aplicativo de jogo médio é baixado 1000 vezes, com um desvio padrão de 110. O nosso jogo já foi baixado 1200 vezes. A sua pontuação z é:
$$z=\frac{1200-1000}{110}=1.81$$
Um maior z-score indica que o resultado é menos provável que tenha ocorrido por acaso.
Pode usar uma z-table estatística padrão para converter o seu z-score para um valor p. Se o seu valor p for inferior ao seu nível de significância desejado, então os seus resultados são significativos.
Usando a z-table, o z-score para a nossa aplicação de jogo (1,81) converte para um valor p de 0,9649. Isto é melhor que o nosso nível desejado de 5% (0,05) (porque 1-0,9649 = 0,0351, ou 3,5%), por isso podemos dizer que este resultado é significativo.
Nota que existe uma pequena diferença para uma amostra de uma população, onde o z-score é calculado usando a fórmula:
$$z=\frac{(x-\mu)}{(\sigma/\sqrt n)}$$
onde x é o ponto de dados (geralmente a média da sua amostra), µ é a média da população ou distribuição, σ é o desvio padrão, e √n é a raiz quadrada do tamanho da amostra.
Um exemplo tornará isto mais claro.
Se você estiver verificando se os estudantes de biologia tendem a obter melhores notas do que seus pares estudando outras disciplinas. Você pode descobrir que a média de notas para uma amostra de 40 biólogos é 80, com um desvio padrão de 5, comparado com 78 para todos os alunos daquela universidade ou escola.
$$z=\frac{(80-78)}{(5/\sqrt 40)}=2,53$$
Usando a tabela z, 2,53 corresponde a um p-valor de 0,9943. Você pode subtrair isto de 1 para obter 0,0054. Isto é inferior a 1%, portanto podemos dizer que este resultado é significativo no nível de 1%, e os biólogos obtêm melhores resultados em testes do que o estudante médio desta universidade.
Note que isto não significa necessariamente que os biólogos são mais espertos ou melhores em passar nos testes do que aqueles que estudam outras matérias. Isso poderia, de fato, significar que os testes em biologia são mais fáceis do que os de outras disciplinas. Encontrar um resultado significativo NÃO é prova de causalidade, mas diz-lhe que pode haver um problema que queira examinar.
Há mais sobre testes de significância das médias amostrais, e diferenças de testes entre grupos, na nossa página sobre Desenvolvimento de Hipóteses e Testes.
Intervalos de Confiança
Um intervalo de confiança (ou nível de confiança) é um intervalo de valores que tem uma dada probabilidade de que o valor verdadeiro esteja dentro dele.
Fectivamente, mede o quão confiante você está de que a média da sua amostra (a média da amostra) é a mesma que a média da população total da qual a sua amostra foi retirada (a média da população).
Por exemplo, se a sua média é 12,4, e o seu intervalo de confiança de 95% é 10,3-15,6, isto significa que você está 95% certo de que o valor verdadeiro da sua média da população está entre 10,3 e 15,6. Em outras palavras, pode não ser 12,4, mas você está razoavelmente certo de que não é muito diferente.
O diagrama abaixo mostra isso na prática para uma variável que segue uma distribuição normal (para saber mais sobre isso, veja nossa página sobre Distribuições Estatísticas).
O significado preciso de um intervalo de confiança é que se você fizesse seu experimento muitas, muitas vezes, 95% dos intervalos que você construiu a partir desses experimentos conteria o valor verdadeiro. Em outras palavras, em 5% dos seus experimentos, seu intervalo NÃO conteria o valor verdadeiro.
Você pode ver pelo diagrama que existe uma chance de 5% de que o intervalo de confiança não inclua a média da população (as duas ‘caudas’ de 2,5% em cada lado). Em outras palavras, em uma de cada 20 amostras ou experimentos, o valor obtido para o intervalo de confiança não incluirá a média verdadeira: a média da população ficará fora do intervalo de confiança.
Calcular o Intervalo de Confiança
Calcular um intervalo de confiança usa os valores da sua amostra, e algumas medidas padrão (média e desvio padrão) (e para saber mais sobre como calculá-las, veja nossa página sobre Análise Estatística Simples).
É mais fácil de entender com um exemplo.
Suponha que nós amostramos a altura de um grupo de 40 pessoas e descobrimos que a média era de 159,1 cm, e o desvio padrão era de 25,4,
Desvio padrão para intervalos de confiança
De facto, você usaria o desvio padrão da população para calcular o intervalo de confiança. No entanto, é muito improvável que você soubesse o que isso era.
Felizmente, você pode usar o desvio padrão da amostra, desde que você tenha uma amostra grande o suficiente. O ponto de corte é geralmente aceite como sendo uma amostra de 30 ou mais, mas quanto maior, melhor.
Precisamos de saber se a nossa média é uma estimativa razoável das alturas de todas as pessoas, ou se escolhemos uma amostra particularmente alta (ou curta).
Usamos uma fórmula para calcular um intervalo de confiança. Isto é:
$$mean \pm z \frac{(SD)}{\sqrt n}$$
Onde SD = desvio padrão, e n é o número de observações ou o tamanho da amostra.
O valor z é retirado das tabelas estatísticas para a nossa distribuição de referência escolhida. Estas tabelas fornecem o valor z para um intervalo de confiança particular (digamos, 95% ou 99%).
Neste caso, estamos medindo alturas de pessoas, e sabemos que as alturas da população seguem uma distribuição (amplamente) normal (para saber mais sobre isso, veja nossa página sobre Distribuições Estatísticas).
O valor z para um intervalo de confiança de 95% é 1,96 para a distribuição normal (retirado de tabelas estatísticas padrão).
Usando a fórmula acima, o intervalo de confiança de 95% é portanto:
$$159,1 \pm 1,96 \frac{(25,4)}{\sqrt 40}$
Quando realizamos este cálculo, descobrimos que o intervalo de confiança é 151,23-166,97 cm. Portanto, é razoável dizer que estamos 95% confiantes de que a média da população está dentro deste intervalo.
Entendendo a pontuação z ou valor z
O z-score é uma medida de desvios padrão em relação à média. No nosso exemplo, portanto, sabemos que 95% dos valores estarão dentro de ± 1,96 desvios padrão da média:
Assessing Your Confidence Interval
Como regra geral, um pequeno intervalo de confiança é melhor. O intervalo de confiança irá diminuir à medida que o tamanho da sua amostra aumenta, e é por isso que uma amostra maior é sempre preferível. Como explica nossa página sobre amostragem e desenho amostral, seu experimento ideal envolveria toda a população, mas isso geralmente não é possível.
Conclusão
Intervalos de confiança e significância são formas padrão de mostrar a qualidade de seus resultados estatísticos. Espera-se que você os relate rotineiramente ao realizar qualquer análise estatística, e geralmente deve relatar números precisos. Isso garantirá que sua pesquisa seja válida e confiável.