Xlera8

درک رهگیری های رگرسیون خطی به زبان ساده - DATAVERSITY

اغلب از من در مورد نقش رهگیری ها در مدل های رگرسیون خطی - به ویژه رهگیری های منفی - سؤال می شود. در اینجا پست وبلاگ من در مورد آن موضوع با کلمات ساده با حداقل عبارات آماری است.  

از مدل های رگرسیون برای پیش بینی استفاده می شود. را ضرایب در معادله رابطه بین هر متغیر مستقل و متغیر وابسته را تعریف کنید. وقفه یا ثابت در مدل رگرسیون نشان دهنده مقدار میانگین متغیر پاسخ زمانی است که همه متغیرهای پیش بینی کننده در مدل برابر با صفر باشند. در رگرسیون خطی، وقفه مقدار متغیر وابسته است، یعنی زمانی که همه مقادیر متغیر مستقل هستند و Xs صفر هستند. اگر X گاهی اوقات برابر با 0 باشد، وقفه صرفاً مقدار مورد انتظار Y در آن مقدار است. از نظر ریاضی و تصویری، یک مدل رگرسیون خطی ساده (SLR) در زیر نشان داده شده است.

اما تفسیر تجاری رهگیری در مدل رگرسیون چیست؟ در شرایط تجاری، اگر متغیرهای مستقل روی صفر تنظیم شده باشند، یک رهگیری نشان دهنده یک خط پایه یا نقطه شروع برای متغیر وابسته است. رهگیری به عنوان نقطه شروع برای ارزیابی اثرات متغیرهای مستقل بر متغیر وابسته عمل می کند. بخشی از متغیر وابسته را نشان می دهد که تحت تأثیر متغیرهای مستقل موجود در مدل قرار نمی گیرد. این به تعیین کمیت تأثیر تغییرات در متغیرهای مستقل از این مقدار پایه کمک می کند. به عنوان مثال، در یک مدل پیش‌بینی فروش، زمانی که تمام تلاش‌های بازاریابی، یعنی پیش‌بینی‌کننده‌ها در صفر هستند، رهگیری ممکن است فروش مورد انتظار را نشان دهد. در امور مالی، رهگیری می تواند نشان دهنده هزینه های ثابت یا سربار باشد که صرف نظر از سطح فعالیت یا سایر عوامل متحمل می شوند. 

از نظر فنی، فاصله در مدل رگرسیون خطی می تواند مثبت، منفی یا حتی صفر باشد.

  1. رهگیری مثبت: اگر وقفه در مدل رگرسیون مثبت باشد، به این معنی است که مقدار پیش بینی شده متغیر وابسته (Y) زمانی که متغیر مستقل (X) صفر باشد مثبت است. این بدان معناست که خط رگرسیون از محور y بالای مقدار صفر عبور می کند.
  2. رهگیری منفی: برعکس، اگر وقفه در یک مدل رگرسیون خطی منفی باشد، به این معنی است که مقدار پیش‌بینی‌شده Y زمانی که X صفر است منفی است. در این حالت، خط رگرسیون از محور y زیر مقدار صفر عبور می کند.
  3. رهگیری صفر: اگر وقفه در یک مدل رگرسیون صفر باشد، به این معنی است که خط رگرسیون از مبدا (0,0) روی نمودار می گذرد. این بدان معناست که مقدار پیش‌بینی‌شده متغیر وابسته زمانی صفر است که همه متغیرهای مستقل نیز صفر باشند. به عبارت دیگر، هیچ عبارت ثابت اضافی در معادله رگرسیون وجود ندارد. این وضعیت بسیار نرخ و بسیار تئوری است.

اساساً شما با رهگیری های منفی یا مثبت برخورد می کنید و وقتی با رهگیری منفی روبرو می شوید با رهگیری منفی به همان روشی برخورد می کنید که با رهگیری مثبت برخورد می کنید. اما از نظر عملی، یک رهگیری منفی ممکن است بسته به زمینه داده های مورد تجزیه و تحلیل منطقی باشد یا نباشد. برای مثال، اگر دمای روز (X) و فروش بستنی (Y) را تجزیه و تحلیل می‌کنید، یک رهگیری منفی معنی‌دار نخواهد بود، زیرا غیرممکن است که فروش منفی داشته باشید. با این حال، در سایر حوزه‌ها مانند تحلیل مالی، رهگیری منفی می‌تواند منطقی باشد.

در زیر چند رویکرد وجود دارد که می توانید در صورت داشتن رهگیری منفی در نظر بگیرید:

  1. بررسی خطاها و مفروضات داده ها: قبل از انجام هر گونه تعدیل، اطمینان حاصل کنید که مفروضات رگرسیون برآورده شده است. این شامل خطی بودن، استقلال، همسانی (مربوط به باقیمانده ها)، نرمال بودن متغیرها و باقیمانده های داده، نقاط پرت و غیره است. در صورت نقض این مفروضات، لازم است ابتدا به آنها رسیدگی شود.
  2. هوش تجاری و عقل سلیم را به کار بگیرید و بررسی کنید که آیا تفسیر رهگیری منفی منطقی است یا خیر. یک رهگیری منفی ممکن است بسته به اینکه رهگیری نشان دهنده چه چیزی باشد منطقی باشد. به عنوان مثال، در داده های مالی، یک رهگیری منفی می تواند نقطه شروع زیر صفر را نشان دهد که ممکن است کاملاً منطقی باشد. اما اگر داده‌های مربوط به دما و فروش بستنی را تجزیه و تحلیل می‌کنید، رهگیری منفی معنی‌دار نخواهد بود، زیرا غیرممکن است که فروش منفی داشته باشید.
  3. متغیرها را در مرکز قرار دهید. مدل های رگرسیون فقط برای یک محدوده معین از مقادیر داده معتبر هستند. اما گاهی اوقات، مقادیر متغیرهای مستقل و وابسته می توانند خارج از محدوده داده شده باشند. در این راستا، مرکزیت شامل کم کردن یک مقدار ثابت یا میانگین حسابی یک متغیر (مستقل) از هر یک از مقادیر آن است. این می تواند تفسیر را آسان تر کند، به خصوص اگر متغیرهای مستقل (Xs) دارای مقادیر صفر باشند. اساساً، با متمرکز کردن متغیرها حول میانگین آنها، وقفه نشان دهنده مقدار پیش بینی شده متغیر وابسته زمانی است که متغیرهای مستقل در مقادیر میانگین خود باشند. همچنین در برخی موارد، مقادیر شدید یا پرت در داده‌ها می‌تواند منجر به بی‌ثباتی عددی در مدل‌های رگرسیونی شود. متغيرهاي مركز مي توانند با كاهش مقياس متغيرها و پايدارتر كردن مدل رگرسيون، اين مسائل را كاهش دهند.
  4. اطمینان حاصل کنید که متغیرهای مخدوش کننده در مدل رگرسیون قرار دارند. افزودن متغیرهای توضیحی اضافی یا متغیرهای مخدوش کننده به مدل رگرسیون ممکن است به توضیح رهگیری منفی کمک کند.

به طور کلی، توجه به این نکته مهم است که مدل‌های رگرسیون خطی مبتنی بر مفروضات هستند. اولا، آنها یک رابطه خطی بین متغیرها را فرض می کنند که ممکن است همیشه در سناریوهای دنیای واقعی صادق نباشد. علاوه بر این، رگرسیون خطی به داده‌های توزیع شده عادی بستگی دارد و به مقادیر پرت بسیار حساس است. آخرین اما نه کم‌اهمیت، رگرسیون خطی ممکن است با روابط غیرخطی خوب عمل نکند، و در چنین مواردی، مدل‌های پیچیده‌تر مانند رگرسیون چند جمله‌ای یا رگرسیون غیر خطی ممکن است مناسب‌تر باشند.

ارجاع

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟