Muitas vezes sou questionado sobre o papel das interceptações nos modelos de regressão linear – especialmente as interceptações negativas. Aqui está minha postagem no blog sobre esse tópico em palavras simples com termos estatísticos mínimos.
Modelos de regressão são usados para fazer previsões. O coeficientes na equação defina a relação entre cada variável independente e a variável dependente. O intercepto ou constante no modelo de regressão representa o valor médio da variável resposta quando todas as variáveis preditoras no modelo são iguais a zero. Na regressão linear, o intercepto é o valor da variável dependente, ou seja, Y quando todos os valores são variáveis independentes e Xs são zero. Se X às vezes for igual a 0, a interceptação é simplesmente o valor esperado de Y nesse valor. Matematicamente e pictoricamente, um modelo de regressão linear simples (SLR) é mostrado abaixo.
Mas qual é a interpretação comercial da interceptação no modelo de regressão? Em termos comerciais, uma interceptação representa uma linha de base ou ponto de partida para a variável dependente, se as variáveis independentes forem definidas como zero. O intercepto serve como ponto de partida para avaliar os efeitos das variáveis independentes sobre a variável dependente. Reflete a parcela da variável dependente que não é influenciada pelas variáveis independentes incluídas no modelo. Ajuda a quantificar o impacto das alterações nas variáveis independentes a partir deste valor de referência. Por exemplo, num modelo de previsão de vendas, a interceptação pode representar as vendas esperadas quando todos os esforços de marketing, ou seja, os preditores estão em zero. Em finanças, a interceptação pode representar custos fixos ou indiretos incorridos independentemente do nível de atividade ou de outros fatores.
Tecnicamente, o intercepto no modelo de regressão linear pode ser positivo, negativo ou até zero.
- Interceptação Positiva: Se o intercepto no modelo de regressão for positivo, significa que o valor previsto da variável dependente (Y) quando a variável independente (X) é zero é positivo. Isto implica que a linha de regressão cruza o eixo y acima do valor zero.
- Interceptação negativa: Por outro lado, se a interceptação em um modelo de regressão linear for negativa, significa que o valor previsto de Y quando X é zero é negativo. Neste caso, a linha de regressão cruza o eixo y abaixo do valor zero.
- Interceptação zero: Se a interceptação em um modelo de regressão for zero, isso implica que a linha de regressão passa pela origem (0,0) no gráfico. Isto significa que o valor previsto da variável dependente é zero quando todas as variáveis independentes também são zero. Em outras palavras, não há termo constante adicional na equação de regressão. Esta situação é extremamente taxativa e muito teórica.
Basicamente, você lida com interceptações negativas ou positivas e, quando se depara com a interceptação negativa, você lida com a interceptação negativa da mesma forma que lidaria com uma interceptação positiva. Mas, em termos práticos, uma intercepção negativa pode ou não fazer sentido, dependendo do contexto dos dados que estão a ser analisados. Por exemplo, se você estiver analisando a temperatura do dia (X) e as vendas de sorvete (Y), um intercepto negativo não seria significativo, pois é impossível ter vendas negativas. Contudo, noutros domínios, como a análise financeira, uma intercepção negativa poderia fazer sentido.
Abaixo estão algumas abordagens que você pode considerar quando tiver interceptações negativas:
- Verifique se há erros e suposições nos dados: Antes de fazer qualquer ajuste, certifique-se de que as suposições da regressão sejam atendidas. Isso inclui linearidade, independência, homocedasticidade (relativa aos resíduos), normalidade das variáveis de dados e resíduos, valores discrepantes e muito mais. Se estes pressupostos forem violados, é necessário abordá-los primeiro.
- Aplique visão de negócios e bom senso e verifique se a interpretação da interceptação negativa faz sentido prático. Uma interceptação negativa pode fazer sentido dependendo do que a interceptação representa. Por exemplo, em dados financeiros, uma intercepção negativa poderia indicar um ponto de partida abaixo de zero, o que pode ser perfeitamente razoável. Mas se você estiver analisando dados sobre temperatura e vendas de sorvetes, uma interceptação negativa não seria significativa, pois é impossível ter vendas negativas.
- Centralize as variáveis. Os modelos de regressão são válidos apenas para um determinado intervalo de valores de dados. Mas às vezes, os valores das variáveis independentes e dependentes podem estar fora do intervalo determinado. Nesse sentido, a centralização envolve subtrair um valor constante ou média aritmética de uma variável (independente) de cada um de seus valores. Isto pode facilitar a interpretação, especialmente se as variáveis independentes (Xs) tiverem valores zero. Basicamente, ao centralizar as variáveis em torno de suas médias, o intercepto representa o valor previsto da variável dependente quando as variáveis independentes estão em seus valores médios. Além disso, em alguns casos, valores extremos ou discrepantes nos dados podem levar à instabilidade numérica nos modelos de regressão. A centralização de variáveis pode mitigar esses problemas, reduzindo a escala das variáveis e tornando o modelo de regressão mais estável.
- Certifique-se de que as variáveis de confusão estejam no modelo de regressão. Adicionar variáveis explicativas adicionais ou variáveis de confusão ao modelo de regressão pode ajudar a explicar o intercepto negativo.
No geral, é importante notar que os modelos de regressão linear são baseados em suposições. Em primeiro lugar, assumem uma relação linear entre variáveis, o que nem sempre pode ser verdadeiro em cenários do mundo real. Além disso, a regressão linear depende de dados normalmente distribuídos e é muito sensível a valores discrepantes. Por último, mas não menos importante, a regressão linear pode não funcionar bem com relações não lineares e, nesses casos, modelos mais complexos, como regressão polinomial ou regressão não linear, podem ser mais apropriados.
Referência
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://www.dataversity.net/understanding-linear-regression-intercepts-in-plain-language/