Xlera8Name

Compreendendo interceptações de regressão linear em linguagem simples – DATAVERSITY

Muitas vezes sou questionado sobre o papel das interceptações nos modelos de regressão linear – especialmente as interceptações negativas. Aqui está minha postagem no blog sobre esse tópico em palavras simples com termos estatísticos mínimos.  

Modelos de regressão são usados ​​para fazer previsões. O coeficientes na equação defina a relação entre cada variável independente e a variável dependente. O intercepto ou constante no modelo de regressão representa o valor médio da variável resposta quando todas as variáveis ​​preditoras no modelo são iguais a zero. Na regressão linear, o intercepto é o valor da variável dependente, ou seja, Y quando todos os valores são variáveis ​​independentes e Xs são zero. Se X às vezes for igual a 0, a interceptação é simplesmente o valor esperado de Y nesse valor. Matematicamente e pictoricamente, um modelo de regressão linear simples (SLR) é mostrado abaixo.

Mas qual é a interpretação comercial da interceptação no modelo de regressão? Em termos comerciais, uma interceptação representa uma linha de base ou ponto de partida para a variável dependente, se as variáveis ​​independentes forem definidas como zero. O intercepto serve como ponto de partida para avaliar os efeitos das variáveis ​​independentes sobre a variável dependente. Reflete a parcela da variável dependente que não é influenciada pelas variáveis ​​independentes incluídas no modelo. Ajuda a quantificar o impacto das alterações nas variáveis ​​independentes a partir deste valor de referência. Por exemplo, num modelo de previsão de vendas, a interceptação pode representar as vendas esperadas quando todos os esforços de marketing, ou seja, os preditores estão em zero. Em finanças, a interceptação pode representar custos fixos ou indiretos incorridos independentemente do nível de atividade ou de outros fatores. 

Tecnicamente, o intercepto no modelo de regressão linear pode ser positivo, negativo ou até zero.

  1. Interceptação Positiva: Se o intercepto no modelo de regressão for positivo, significa que o valor previsto da variável dependente (Y) quando a variável independente (X) é zero é positivo. Isto implica que a linha de regressão cruza o eixo y acima do valor zero.
  2. Interceptação negativa: Por outro lado, se a interceptação em um modelo de regressão linear for negativa, significa que o valor previsto de Y quando X é zero é negativo. Neste caso, a linha de regressão cruza o eixo y abaixo do valor zero.
  3. Interceptação zero: Se a interceptação em um modelo de regressão for zero, isso implica que a linha de regressão passa pela origem (0,0) no gráfico. Isto significa que o valor previsto da variável dependente é zero quando todas as variáveis ​​independentes também são zero. Em outras palavras, não há termo constante adicional na equação de regressão. Esta situação é extremamente taxativa e muito teórica.

Basicamente, você lida com interceptações negativas ou positivas e, quando se depara com a interceptação negativa, você lida com a interceptação negativa da mesma forma que lidaria com uma interceptação positiva. Mas, em termos práticos, uma intercepção negativa pode ou não fazer sentido, dependendo do contexto dos dados que estão a ser analisados. Por exemplo, se você estiver analisando a temperatura do dia (X) e as vendas de sorvete (Y), um intercepto negativo não seria significativo, pois é impossível ter vendas negativas. Contudo, noutros domínios, como a análise financeira, uma intercepção negativa poderia fazer sentido.

Abaixo estão algumas abordagens que você pode considerar quando tiver interceptações negativas:

  1. Verifique se há erros e suposições nos dados: Antes de fazer qualquer ajuste, certifique-se de que as suposições da regressão sejam atendidas. Isso inclui linearidade, independência, homocedasticidade (relativa aos resíduos), normalidade das variáveis ​​de dados e resíduos, valores discrepantes e muito mais. Se estes pressupostos forem violados, é necessário abordá-los primeiro.
  2. Aplique visão de negócios e bom senso e verifique se a interpretação da interceptação negativa faz sentido prático. Uma interceptação negativa pode fazer sentido dependendo do que a interceptação representa. Por exemplo, em dados financeiros, uma intercepção negativa poderia indicar um ponto de partida abaixo de zero, o que pode ser perfeitamente razoável. Mas se você estiver analisando dados sobre temperatura e vendas de sorvetes, uma interceptação negativa não seria significativa, pois é impossível ter vendas negativas.
  3. Centralize as variáveis. Os modelos de regressão são válidos apenas para um determinado intervalo de valores de dados. Mas às vezes, os valores das variáveis ​​independentes e dependentes podem estar fora do intervalo determinado. Nesse sentido, a centralização envolve subtrair um valor constante ou média aritmética de uma variável (independente) de cada um de seus valores. Isto pode facilitar a interpretação, especialmente se as variáveis ​​independentes (Xs) tiverem valores zero. Basicamente, ao centralizar as variáveis ​​em torno de suas médias, o intercepto representa o valor previsto da variável dependente quando as variáveis ​​independentes estão em seus valores médios. Além disso, em alguns casos, valores extremos ou discrepantes nos dados podem levar à instabilidade numérica nos modelos de regressão. A centralização de variáveis ​​pode mitigar esses problemas, reduzindo a escala das variáveis ​​e tornando o modelo de regressão mais estável.
  4. Certifique-se de que as variáveis ​​de confusão estejam no modelo de regressão. Adicionar variáveis ​​explicativas adicionais ou variáveis ​​de confusão ao modelo de regressão pode ajudar a explicar o intercepto negativo.

No geral, é importante notar que os modelos de regressão linear são baseados em suposições. Em primeiro lugar, assumem uma relação linear entre variáveis, o que nem sempre pode ser verdadeiro em cenários do mundo real. Além disso, a regressão linear depende de dados normalmente distribuídos e é muito sensível a valores discrepantes. Por último, mas não menos importante, a regressão linear pode não funcionar bem com relações não lineares e, nesses casos, modelos mais complexos, como regressão polinomial ou regressão não linear, podem ser mais apropriados.

Referência

Fale Conosco

Olá! Como posso ajudá-lo?