Xlera8

일반 언어로 선형 회귀 절편 이해 – DATAVERSITY

선형 회귀 모델에서 절편, 특히 음수 절편의 역할에 대해 자주 질문을 받습니다. 다음은 최소한의 통계 용어를 사용하여 해당 주제에 대한 간단한 단어를 다룬 내 블로그 게시물입니다.  

회귀 모델은 예측을 수행하는 데 사용됩니다. 그만큼 방정식의 계수 각 독립변수와 종속변수 사이의 관계를 정의합니다. 회귀 모델의 절편 또는 상수는 모델의 모든 예측 변수가 0일 때 반응 변수의 평균 값을 나타냅니다. 선형 회귀에서 절편은 종속 변수의 값입니다. 즉, 모든 값이 독립 변수이고 X가 XNUMX인 경우 Y입니다. X가 XNUMX인 경우 절편은 단순히 해당 값에서 예상되는 Y 값입니다. 수학적으로나 그림으로 단순 선형 회귀(SLR) 모델이 아래에 나와 있습니다.

그러나 회귀 모델에서 절편에 대한 비즈니스 해석은 무엇입니까? 비즈니스 측면에서 절편은 독립 변수가 0으로 설정된 경우 종속 변수의 기준선 또는 시작점을 나타냅니다. 절편은 독립변수가 종속변수에 미치는 영향을 평가하기 위한 시작점 역할을 합니다. 모형에 포함된 독립변수의 영향을 받지 않는 종속변수의 부분을 반영합니다. 이는 이 기준값에서 독립변수의 변화가 미치는 영향을 정량화하는 데 도움이 됩니다. 예를 들어 판매 예측 모델에서 절편은 모든 마케팅 노력, 즉 예측 변수가 0일 때 예상되는 판매를 나타낼 수 있습니다. 재무에서 절편은 활동 수준이나 기타 요인에 관계없이 발생하는 고정 비용 또는 간접비를 나타낼 수 있습니다. 

기술적으로 선형 회귀 모델의 절편은 양수, 음수 또는 0일 수도 있습니다.

  1. 포지티브 인터셉트: 회귀모델의 절편이 양수이면 독립변수(X)가 0일 때 종속변수(Y)의 예측값이 양수라는 뜻이다. 이는 회귀선이 0 값 위의 y축과 교차함을 의미합니다.
  2. 네거티브 인터셉트: 반대로 선형 회귀 모델의 절편이 음수이면 X가 0일 때 Y의 예측 값이 음수라는 의미입니다. 이 경우 회귀선은 0 값 아래의 y축과 교차합니다.
  3. 제로 인터셉트: 회귀 모델의 절편이 0,0이면 회귀선이 그래프의 원점(XNUMX)을 통과한다는 의미입니다. 이는 모든 독립변수도 XNUMX일 때 종속변수의 예측값이 XNUMX이라는 것을 의미합니다. 즉, 회귀식에는 추가적인 상수항이 없습니다. 이 상황은 매우 속도적이고 매우 이론적입니다.

기본적으로 음수 또는 양수 절편을 처리하고, 음수 절편을 발견하면 양수 절편을 처리할 때와 동일한 방식으로 음수 절편을 처리합니다. 그러나 실제적인 측면에서 부정적인 절편은 분석되는 데이터의 맥락에 따라 의미가 있을 수도 있고 그렇지 않을 수도 있습니다. 예를 들어, 당일 기온(X)과 아이스크림 판매량(Y)을 분석하는 경우 음수 매출이 불가능하므로 음수 절편은 의미가 없습니다. 그러나 재무 분석과 같은 다른 영역에서는 부정적인 차단이 의미가 있을 수 있습니다.

다음은 부정적인 절편이 있을 때 고려할 수 있는 몇 가지 접근 방식입니다.

  1. 데이터 오류 및 가정 확인: 조정을 하기 전에 회귀 가정이 충족되는지 확인하세요. 여기에는 선형성, 독립성, 등분산성(잔차 관련), 데이터 변수 및 잔차의 정규성, 특이치 등이 포함됩니다. 이러한 가정이 위반되면 먼저 이를 해결해야 합니다.
  2. 비즈니스 통찰력과 상식을 적용하고 부정적인 절편의 해석이 실용적인지 확인하십시오. 부정적인 절편은 절편이 나타내는 내용에 따라 의미가 있을 수 있습니다. 예를 들어, 재무 데이터에서 음수 절편은 0 미만의 시작점을 나타낼 수 있으며 이는 완전히 합리적일 수 있습니다. 그러나 아이스크림의 온도와 매출에 대한 데이터를 분석하는 경우 부정적인 매출이 불가능하므로 부정적인 절편은 의미가 없습니다.
  3. 변수를 중앙에 배치합니다. 회귀 모델은 지정된 데이터 값 범위에 대해서만 유효합니다. 그러나 때로는 독립변수와 종속변수의 값이 주어진 범위를 벗어나는 경우가 있습니다. 이와 관련하여 센터링에는 각 값에서 상수 값 또는 변수(독립)의 산술 평균을 빼는 작업이 포함됩니다. 이렇게 하면 특히 독립 변수(X)의 값이 0인 경우 해석이 더 쉬워집니다. 기본적으로, 평균을 중심으로 변수를 중심화함으로써 절편은 독립 변수가 평균값에 있을 때 종속 변수의 예측 값을 나타냅니다. 또한 어떤 경우에는 데이터의 극단값이나 이상치가 회귀 모델의 수치적 불안정성을 초래할 수 있습니다. 변수를 중앙에 배치하면 변수의 규모를 줄이고 회귀 모델을 더욱 안정적으로 만들어 이러한 문제를 완화할 수 있습니다.
  4. 회귀 모델에 교란변수가 있는지 확인합니다. 회귀 모델에 추가 설명 변수나 교란 변수를 추가하면 부정적인 절편을 설명하는 데 도움이 될 수 있습니다.

전반적으로 선형 회귀 모델은 가정을 기반으로 한다는 점에 유의하는 것이 중요합니다. 첫째, 실제 시나리오에서는 항상 적용되지 않을 수 있는 변수 간의 선형 관계를 가정합니다. 또한 선형 회귀는 정규 분포 데이터에 의존하며 이상값에 매우 민감합니다. 마지막으로, 선형 회귀는 비선형 관계에서는 잘 수행되지 않을 수 있으며, 이러한 경우 다항 회귀 또는 비선형 회귀와 같은 더 복잡한 모델이 더 적절할 수 있습니다.

참조

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?