Stora data

Förstå linjär regression intercepts i klarspråk – DATAVERSITY

Tidsstämpel: 26 april 2024 3: 35 AM
Källnod: 2736844

Återutgiven av Platon

Jag får ofta frågan om intercepternas roll i linjära regressionsmodeller – särskilt de negativa intercepten. Här är mitt blogginlägg om det ämnet i enkla ord med minimala statistiska termer.

Regressionsmodeller används för att göra förutsägelser. De koefficienter i ekvationen definiera sambandet mellan varje oberoende variabel och den beroende variabeln. Skärningspunkten eller konstanten i regressionsmodellen representerar medelvärdet av svarsvariabeln när alla prediktorvariabler i modellen är lika med noll. I linjär regression är skärningen värdet på den beroende variabeln, dvs Y när alla värden är oberoende variabler och X är noll. Om X ibland är lika med 0, är skärningen helt enkelt det förväntade värdet av Y vid det värdet. Matematiskt och bildmässigt visas en enkel linjär regression (SLR) modell nedan.

Men vad är affärstolkningen av intercept i regressionsmodellen? I affärsmässiga termer representerar en intercept en baslinje eller startpunkt för den beroende variabeln, om de oberoende variablerna är inställda på noll. Interceptet fungerar som utgångspunkt för att utvärdera effekterna av de oberoende variablerna på den beroende variabeln. Den återspeglar den del av den beroende variabeln som inte påverkas av de oberoende variablerna som ingår i modellen. Det hjälper till att kvantifiera effekten av förändringar i de oberoende variablerna från detta baslinjevärde. Till exempel, i en försäljningsförutsägelsemodell, kan interceptet representera den förväntade försäljningen när alla marknadsföringsinsatser, dvs prediktorerna är noll. Inom finans kan avlyssningen representera fasta eller overheadkostnader som uppstår oavsett aktivitetsnivå eller andra faktorer.

Tekniskt sett kan skärningen i den linjära regressionsmodellen vara positiv, negativ eller till och med noll.

Positiv intercept: Om skärningen i regressionsmodellen är positiv betyder det att det förutsagda värdet av den beroende variabeln (Y) när den oberoende variabeln (X) är noll är positivt. Detta innebär att regressionslinjen korsar y-axeln ovanför nollvärdet.
Negativ skärning: Omvänt, om skärningen i en linjär regressionsmodell är negativ, betyder det att det förutsagda värdet på Y när X är noll är negativt. I detta fall korsar regressionslinjen y-axeln under nollvärdet.
Noll skärning: Om skärningen i en regressionsmodell är noll, innebär det att regressionslinjen går genom origo (0,0) på grafen. Det betyder att det förutsagda värdet för den beroende variabeln är noll när alla oberoende variabler också är noll. Det finns med andra ord ingen ytterligare konstant term i regressionsekvationen. Denna situation är extremt snabb och mycket teoretisk.

I grund och botten hanterar du negativa eller positiva intercept, och när du stöter på den negativa intercepten hanterar du den negativa intercepten på samma sätt som du skulle hantera en positiv intercept. Men i praktiska termer kan en negativ avlyssning vara meningsfull eller inte, beroende på sammanhanget för de data som analyseras. Till exempel, om du analyserar dagens temperatur (X) och försäljning av glass (Y), skulle en negativ avlyssning inte vara meningsfull eftersom det är omöjligt att ha negativ försäljning. Men inom andra områden som finansiell analys kan en negativ avlyssning vara vettig.

Nedan följer några tillvägagångssätt som du kan överväga när du har negativa avlyssningar:

Kontrollera efter datafel och antaganden: Innan du gör några justeringar, se till att regressionsantagandena är uppfyllda. Detta inkluderar linjäritet, oberoende, homoskedasticitet (avseende residualer), normalitet för datavariabler och residualer, extremvärden och mer. Om dessa antaganden kränks är det nödvändigt att ta itu med dem först.
Tillämpa affärssinne och sunt förnuft och kontrollera om tolkningen av den negativa intercepten är praktiskt vettig. En negativ intercept kan vara vettig beroende på vad intercepten representerar. Till exempel, i finansiell data, kan en negativ intercept indikera en startpunkt under noll, vilket kan vara helt rimligt. Men om du analyserar data om temperatur och försäljning av glass, skulle en negativ avlyssning inte vara meningsfull eftersom det är omöjligt att ha negativ försäljning.
Centrera variablerna. Regressionsmodeller är endast giltiga för ett givet intervall av datavärden. Men ibland kan värdena för de oberoende och de beroende variablerna ligga utanför det givna intervallet. I detta avseende innebär centrering att subtrahera ett konstant värde eller aritmetiskt medelvärde för en variabel (oberoende) från vart och ett av dess värden. Detta kan göra tolkningen lättare, speciellt om de oberoende variablerna (X) har nollvärden. I grund och botten, genom att centrera variablerna kring deras medelvärden, representerar skärningen det förutsagda värdet av den beroende variabeln när de oberoende variablerna har sina medelvärden. I vissa fall kan extrema värden eller extremvärden i data också leda till numerisk instabilitet i regressionsmodellerna. Centreringsvariabler kan mildra dessa problem genom att minska storleken på variablerna och göra regressionsmodellen mer stabil.
Se till att störande variabler finns i regressionsmodellen. Att lägga till ytterligare förklarande variabler eller förväxlande variabler till regressionsmodellen kan hjälpa till att förklara den negativa skärningen.

Sammantaget är det viktigt att notera att linjära regressionsmodeller är baserade på antaganden. För det första antar de ett linjärt samband mellan variabler, vilket kanske inte alltid stämmer i verkliga scenarier. Dessutom beror linjär regression på normalfördelad data och är mycket känslig för extremvärden. Sist men inte minst, linjär regression kanske inte fungerar bra med icke-linjära relationer, och i sådana fall kan mer komplexa modeller som polynomregression eller icke-linjär regression vara mer lämpliga.

Hänvisning