Xlera8

Lineaarisen regression sieppausten ymmärtäminen selkeällä kielellä – DATAVERSITY

Minulta kysytään usein leikkauspisteiden roolista lineaarisissa regressiomalleissa – erityisesti negatiivisissa leikkauspisteissä. Tässä on blogikirjoitukseni tästä aiheesta yksinkertaisin sanoin minimaalisilla tilastollisilla termeillä.  

Ennusteiden tekemiseen käytetään regressiomalleja. The kertoimet yhtälössä määrittää kunkin riippumattoman muuttujan ja riippuvan muuttujan välisen suhteen. Leikkauspiste tai vakio regressiomallissa edustaa vastemuuttujan keskiarvoa, kun kaikki mallin ennustajamuuttujat ovat nolla. Lineaarisessa regressiossa leikkauspiste on riippuvan muuttujan arvo, eli Y, kun kaikki arvot ovat riippumattomia muuttujia ja Xs ovat nollia. Jos X joskus on 0, leikkauspiste on yksinkertaisesti Y:n odotusarvo kyseisellä arvolla. Matemaattisesti ja kuvallisesti alla on esitetty yksinkertainen lineaariregressiomalli (SLR).

Mutta mikä on sieppauksen liiketoiminnallinen tulkinta regressiomallissa? Liiketoiminnan kannalta leikkauspiste edustaa riippuvan muuttujan perusviivaa tai aloituspistettä, jos riippumattomat muuttujat on asetettu nollaan. Leikkauspiste toimii lähtökohtana arvioitaessa riippumattomien muuttujien vaikutuksia riippuvaan muuttujaan. Se heijastaa sitä osaa riippuvasta muuttujasta, johon malliin sisältyvät riippumattomat muuttujat eivät vaikuta. Se auttaa kvantifioimaan riippumattomien muuttujien muutosten vaikutusta tästä perusarvosta. Esimerkiksi myynnin ennustemallissa leikkauspiste saattaa edustaa odotettua myyntiä, kun kaikki markkinointiponnistelut eli ennustajat ovat nollassa. Rahoituksessa leikkaus voi edustaa kiinteitä tai yleiskustannuksia, jotka aiheutuvat toiminnan tasosta tai muista tekijöistä riippumatta. 

Teknisesti lineaarisen regressiomallin leikkauspiste voi olla positiivinen, negatiivinen tai jopa nolla.

  1. Positiivinen sieppaus: Jos leikkauspiste regressiomallissa on positiivinen, se tarkoittaa, että riippumattoman muuttujan (Y) ennustettu arvo riippumattoman muuttujan (X) ollessa nolla on positiivinen. Tämä tarkoittaa, että regressioviiva ylittää y-akselin nollaarvon yläpuolella.
  2. Negatiivinen sieppaus: Päinvastoin, jos leikkauspiste lineaarisen regressiomallissa on negatiivinen, se tarkoittaa, että Y:n ennustettu arvo, kun X on nolla, on negatiivinen. Tässä tapauksessa regressioviiva ylittää y-akselin nolla-arvon alapuolella.
  3. Zero Intercept: Jos leikkauspiste regressiomallissa on nolla, se tarkoittaa, että regressioviiva kulkee kaavion origon (0,0) kautta. Tämä tarkoittaa, että riippuvan muuttujan ennustettu arvo on nolla, kun kaikki riippumattomat muuttujat ovat myös nollia. Toisin sanoen regressioyhtälössä ei ole ylimääräistä vakiotermiä. Tämä tilanne on erittäin nopea ja hyvin teoreettinen.

Periaatteessa käsittelet negatiivisia tai positiivisia sieppauksia, ja kun kohtaat negatiivisen sieppauksen, käsittelet negatiivista sieppausta samalla tavalla kuin käsittelet positiivista sieppausta. Käytännössä negatiivinen sieppaus voi kuitenkin olla järkevä analysoitavan tiedon kontekstista riippuen. Jos esimerkiksi analysoit päivän lämpötilaa (X) ja jäätelön myyntiä (Y), negatiivinen leikkaus ei olisi mielekästä, koska negatiivinen myynti on mahdotonta. Kuitenkin muilla aloilla, kuten talousanalyysissä, negatiivinen sieppaus voi olla järkevää.

Alla on joitakin lähestymistapoja, joita voit harkita, kun sinulla on negatiivisia sieppauksia:

  1. Tarkista datavirheet ja oletukset: Ennen kuin teet mitään muutoksia, varmista, että regressiooletukset täyttyvät. Tämä sisältää lineaarisuuden, riippumattomuuden, homoskedastisuuden (koskee residuaaleja), datamuuttujien ja jäännösten normaalisuutta, poikkeavia arvoja ja paljon muuta. Jos näitä oletuksia rikotaan, niihin on ensin puututtava.
  2. Käytä liiketajua ja maalaisjärkeä ja tarkista, onko negatiivisen sieppauksen tulkinta käytännössä järkevää. Negatiivinen leikkaus voi olla järkevä riippuen siitä, mitä leikkaus edustaa. Esimerkiksi taloustiedoissa negatiivinen leikkauspiste voi osoittaa aloituspisteen nollan alapuolella, mikä voi olla täysin järkevää. Mutta jos analysoit jäätelön lämpötilaa ja myyntiä koskevia tietoja, negatiivinen leikkaus ei olisi mielekästä, koska negatiivinen myynti on mahdotonta.
  3. Keskitä muuttujat. Regressiomallit ovat voimassa vain tietylle data-arvoalueelle. Mutta joskus riippumattomien ja riippuvien muuttujien arvot voivat olla annetun alueen ulkopuolella. Tässä suhteessa keskittämiseen kuuluu muuttujan (riippumattoman) vakioarvon tai aritmeettisen keskiarvon vähentäminen kustakin sen arvosta. Tämä voi helpottaa tulkintaa, varsinkin jos riippumattomilla muuttujilla (Xs) on nolla arvoa. Periaatteessa keskittämällä muuttujat keskiarvojensa ympärille leikkauspiste edustaa riippuvan muuttujan ennustettua arvoa, kun riippumattomat muuttujat ovat keskiarvoissaan. Joissakin tapauksissa datan ääriarvot tai poikkeamat voivat myös johtaa numeeriseen epävakauteen regressiomalleissa. Muuttujien keskittäminen voi lieventää näitä ongelmia pienentämällä muuttujien mittakaavaa ja tekemällä regressiomallista vakaamman.
  4. Varmista, että regressiomallissa on hämmentäviä muuttujia. Ylimääräisten selittävien muuttujien tai hämmentäviä muuttujia lisääminen regressiomalliin voi auttaa selittämään negatiivisen leikkauspisteen.

Kaiken kaikkiaan on tärkeää huomata, että lineaariset regressiomallit perustuvat oletuksiin. Ensinnäkin ne olettavat muuttujien välisen lineaarisen suhteen, mikä ei välttämättä aina pidä paikkaansa tosielämän skenaarioissa. Lisäksi lineaarinen regressio riippuu normaalisti jakautuneista tiedoista ja on erittäin herkkä poikkeaville arvoille. Viimeisenä mutta ei vähäisimpänä, lineaarinen regressio ei välttämättä toimi hyvin epälineaaristen suhteiden kanssa, ja tällaisissa tapauksissa monimutkaisemmat mallit, kuten polynomiregressio tai epälineaarinen regressio, voivat olla sopivampia.

Viite

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?