Aprenda a interpretar correctamente os resultados da regressão linear – incluindo casos com transformações de variáveis
Agora hoje em dia existe uma infinidade de algoritmos de aprendizagem de máquinas que podemos tentar encontrar o melhor ajuste para o nosso problema particular. Alguns dos algoritmos têm interpretação clara, outros funcionam como uma caixa preta e podemos usar abordagens como LIME ou SHAP para derivar algumas interpretações.
Neste artigo, eu gostaria de focar na interpretação dos coeficientes do modelo de regressão mais básico, nomeadamente a regressão linear, incluindo as situações em que as variáveis dependentes/independentes foram transformadas (neste caso estou a falar da transformação de log).
Presumo que o leitor esteja familiarizado com a regressão linear (se não houver muitos bons artigos e posts Médias), por isso vou focar-me apenas na interpretação dos coeficientes.
A fórmula básica da regressão linear pode ser vista acima (omiti os resíduos de propósito, para manter as coisas simples e directas). Na fórmula, y denota a variável dependente e x é a variável independente. Para simplificar, vamos assumir que é uma regressão univariada, mas os princípios obviamente também se mantêm para o caso multivariado.
Para colocar em perspectiva, digamos que depois de encaixar o modelo que recebemos: