Regressão Linear Múltipla – definição, conceitos e como aplicar

Regressão Linear Múltipla - definição, conceitos e como aplicar

Modelos de regressão são usados ​​para descrever relacionamentos entre variáveis ​​ajustando uma linha aos dados observados. A regressão linear múltipla permite estimar como uma variável dependente muda conforme a (s) variável (is) independente (s) mudam.

O Que é regressão linear múltipla?

A regressão linear múltipla é usada para estimar a relação entre uma variável dependente e duas ou mais variáveis ​​independentes usando uma linha reta. Você pode utilizar a regressão linear múltipla sempre que desejar, por exemplo:

1 – Quão forte é a relação entre duas ou mais variáveis ​​independentes e uma variável dependente (por exemplo, como a precipitação, temperatura e quantidade de fertilizante adicionado afetam o crescimento da cultura);

2 – O valor da variável dependente em um certo valor das variáveis ​​independentes (por exemplo, o rendimento esperado de uma cultura em certos níveis de chuva, temperatura e adição de fertilizante).

Ficou confuso, vou explicar…

Exemplo

Digamos que você seja um pesquisador de saúde pública interessado em fatores sociais que influenciam as doenças cardíacas. 

Você pesquisa 500 cidades e coleta dados sobre a porcentagem de pessoas em cada cidade que fumam, a porcentagem de pessoas em cada cidade que vão de bicicleta para o trabalho e a porcentagem de pessoas em cada cidade que têm doenças cardíacas.

Como você tem duas variáveis ​​independentes e uma variável dependente, e todas as suas variáveis ​​são quantitativas, neste caso você pode usar a regressão linear múltipla para fazer uma análise da relação existente entre elas.

Suposições de regressão linear múltipla

As mesmas suposições feitas pela regressão linear simples também podem ser feitas na regressão linear múltipla, como:

Homogeneidade de variância (homocedasticidade): o tamanho do erro em nossa previsão não muda significativamente entre os valores da variável independente.

Independência de observações: as observações no conjunto de dados foram coletadas usando métodos estatisticamente válidos e não há relações ocultas entre as variáveis.

É possível que algumas das variáveis ​​independentes estejam realmente correlacionadas umas com as outras, por isso é importante verificá-las antes de desenvolver o modelo de regressão. 

É importante saber que, se duas variáveis ​​independentes são altamente correlacionadas (r2> ~ 0,6), então apenas uma delas deve ser usada no modelo de regressão.

Normalidade: os dados seguirão uma distribuição regular (normal).

Linearidade: a linha de melhor ajuste através dos pontos de dados é uma linha reta, ao invés de uma curva ou algum tipo de fator de agrupamento.

Como realizar uma regressão linear múltipla

Fórmula de regressão linear múltipla

A fórmula para uma regressão linear múltipla é:

A fórmula para uma regressão linear múltipla

  • y = o valor previsto da variável dependente;
  • B0 = (valor de y quando todos os outros parâmetros são definidos como 0);
  • B 1 X 1 = o coeficiente de regressão (B1) da primeira variável independente (X1) (também conhecido como o efeito que o aumento do valor da variável independente tem sobre o valor y previsto);
  • … = faça o mesmo para quantas variáveis ​​independentes você estiver testando;
  • Bn X n = o coeficiente de regressão da última variável independente;
  • e = erro do modelo (também conhecido como quanta variação existe em nossa estimativa de y).

Para encontrar a linha de melhor ajuste para cada variável independente, a regressão linear múltipla calcula três coisas:

  1. Os coeficientes de regressão que levam ao menor erro geral do modelo;
  2. A estatística t do modelo geral;
  3. O valor p associado (qual a probabilidade de a estatística t ter ocorrido por acaso se a hipótese nula de nenhuma relação entre as variáveis ​​dependentes e variáveis independentes fosse verdadeira).

Em seguida, calcula a estatística t e o valor p para cada coeficiente de regressão no modelo.

Regressão linear múltipla em R

Embora seja possível fazer regressão linear múltipla manualmente, isso é muito mais comumente feito por meio de um software estatístico. 

Usaremos R para nossos exemplos porque ele é gratuito, poderoso e amplamente disponível. Para facilitar, clique aqui para baixar o conjunto de dados de amostra para experimentá-lo.

Agora carregue em seu ambiente R o conjunto de dados heart.data que você acabou de baixar e execute o seguinte código:

Código R para regressão linear múltipla
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Este código leva o conjunto de dados heart.data e calcula o efeito que as variáveis independentes biking e smoking sobre a variável dependente heart disease usando a equação para o modelo linear: lm().

Interpretando os resultados

Para visualizar os resultados do modelo, você pode usar a função: summary()

summary(heart.disease.lm)

Esta função pega os parâmetros mais importantes do modelo linear e os coloca em uma tabela semelhante a esta:

Parâmetros mais importantes do modelo linear

O primeiro resumo imprime a fórmula (‘Call’), depois os resíduos do modelo (‘Residuals’). Se os resíduos estiverem aproximadamente centrados em torno de zero e com distribuição semelhante em ambos os lados, como fazem (mediana 0,03, e mínimo e máximo em torno de -2 e 2), então o modelo provavelmente se ajusta à suposição de heterocedasticidade.

Com base na imagem acima, vejamos a seguir estão os coeficientes de regressão do modelo (‘Coefficients’). A linha 1 da tabela de coeficientes é rotulada (Intercept) – esta é a interceptação y da equação de regressão. É útil saber a interceptação estimada para conectá-la à equação de regressão e prever os valores da variável dependente:

heart disease = 15 + (-0.2*biking) + (0.178*smoking) ± e

As coisas mais importantes a serem observadas nesta tabela de saída são as próximas duas tabelas – as estimativas para as variáveis ​​independentes.

A coluna Estimate é o efeito estimado, também chamado de coeficiente de regressão ou valor r2. As estimativas na tabela nos dizem que para cada aumento de 1% no uso de bicicletas para o trabalho, há uma diminuição associada de 0,2% nas doenças cardíacas, e que para cada aumento de 1% no fumo há um aumento associado de 0,17% nas doenças cardíacas.

A coluna Std.error exibe o erro padrão da estimativa. Este número mostra quanta variação existe em torno das estimativas do coeficiente de regressão.

A coluna t value exibe a estatística de teste. A menos que especificado de outra forma, a estatística de teste usada na regressão linear é o valor t de um teste t bilateral. Quanto maior a estatística de teste, menos provável é que os resultados ocorram por acaso.

Já a coluna Pr( > | t | ) mostra o valor p . Isso mostra a probabilidade de o valor t calculado ter ocorrido por acaso se a hipótese nula de nenhum efeito do parâmetro fosse verdadeira.

Como esses valores são tão baixos ( p <0,001 em ambos os casos), podemos rejeitar a hipótese nula e concluir que tanto ir de bicicleta para o trabalho quanto fumar provavelmente influenciam as taxas de doenças cardíacas.

Apresentando os resultados

Ao relatar seus resultados, inclua o efeito estimado (isto é, o coeficiente de regressão), o erro padrão da estimativa e o valor p. Você também deve interpretar seus números para deixar claro para seus leitores o que significa o coeficiente de regressão.

Em nossa pesquisa com 500 cidades, encontramos relações significativas entre a frequência de pedalar para o trabalho e a frequência de doenças cardíacas e a frequência de tabagismo e frequência de doenças cardíacas (p <0,001 para cada).

Especificamente, encontramos uma diminuição de 0,2% (± 0,0014) na frequência de doenças cardíacas para cada aumento de 1% no ciclismo e um aumento de 0,178% (± 0,0035) na frequência de doenças cardíacas para cada 1% de aumento no tabagismo.

Visualizando os resultados em um gráfico

Também pode ser útil incluir um gráfico com seus resultados. A regressão linear múltipla é um pouco mais complicada do que a regressão linear simples, porque há mais parâmetros do que cabem em um gráfico bidimensional.

Regressão linear Múltipla - Resultados me gráfico

No entanto, existem maneiras de exibir seus resultados que incluem os efeitos de várias variáveis ​​independentes na variável dependente, embora apenas uma variável independente possa realmente ser plotada no eixo x.

Conclusão

Aqui, calculamos os valores previstos da variável dependente (doença cardíaca) em toda a gama de valores observados para a porcentagem de pessoas que vão de bicicleta para o trabalho.

Para incluir o efeito do tabagismo na variável independente, calculamos esses valores previstos mantendo o tabagismo constante nas taxas mínimas, médias e máximas observadas de tabagismo.

Espero que tenha gostado, até o próximo artigo!

Compartilhe

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp
Share on print
imprimir
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on print

O que achou deste artigo?

Leia também