رگرسیون خطی چیست؟ توضیح ساده و کاربردی
رگرسیون خطی چیست؟
اگر تازه وارد دنیای آمار، تحلیل داده یا یادگیری ماشین شده باشید، احتمال زیادی دارد که با اصطلاح رگرسیون خطی روبهرو شوید. اما واقعاً رگرسیون خطی چیست و چرا اینقدر مهم است؟
به زبان ساده، رگرسیون خطی یک روش برای پیشبینی است. این مدل تلاش میکند رابطه بین یک یا چند عامل را با یک نتیجه عددی پیدا کند. یعنی بررسی میکند که اگر بعضی دادهها تغییر کنند، نتیجه نهایی چقدر تغییر میکند.
رگرسیون خطی یکی از سادهترین و مهمترین مدلها در یادگیری ماشین و تحلیل داده است. چون هم درک آن نسبتاً آسان است و هم در بسیاری از مسائل واقعی کاربرد دارد.
رگرسیون خطی به زبان ساده یعنی چه؟
برای درک سادهتر، فرض کنید میخواهید قیمت یک خانه را پیشبینی کنید. طبیعی است که عواملی مثل متراژ خانه، محله، سن ساختمان و تعداد اتاقها روی قیمت اثر بگذارند.
رگرسیون خطی به ما کمک میکند بفهمیم این عوامل چه رابطهای با قیمت خانه دارند و بر اساس دادههای قبلی، قیمت تقریبی یک خانه جدید را پیشبینی کنیم.
یعنی اگر دادههای زیادی از خانههای مختلف داشته باشیم، این مدل یک الگوی کلی پیدا میکند و از روی آن، مقدارهای جدید را حدس میزند.
چرا به آن رگرسیون خطی میگویند؟
دلیل استفاده از واژه خطی این است که این مدل فرض میکند بین ورودیها و خروجی، یک رابطه نسبتاً مستقیم و خطی وجود دارد. اگر این رابطه را روی نمودار رسم کنیم، معمولاً به شکل یک خط مستقیم یا چیزی نزدیک به آن دیده میشود.
مثلاً فرض کنید هرچه ساعات مطالعه بیشتر شود، نمره آزمون هم بیشتر شود. اگر این افزایش تقریباً منظم و مستقیم باشد، رگرسیون خطی میتواند این رابطه را مدلسازی کند.
یک مثال ساده از رگرسیون خطی
فرض کنید میخواهیم رابطه بین ساعات مطالعه و نمره امتحان را بررسی کنیم.
دادههای ما ممکن است چیزی شبیه این باشد:
- دانشآموزی که ۲ ساعت مطالعه کرده، نمره ۱۲ گرفته است.
- دانشآموزی که ۴ ساعت مطالعه کرده، نمره ۱۵ گرفته است.
- دانشآموزی که ۶ ساعت مطالعه کرده، نمره ۱۸ گرفته است.
در اینجا رگرسیون خطی تلاش میکند یک رابطه پیدا کند و مثلاً بگوید اگر دانشآموزی ۵ ساعت درس بخواند، احتمالاً چه نمرهای میگیرد.
این دقیقاً یکی از کاربردهای اصلی رگرسیون خطی است: پیشبینی مقدارهای عددی.
رگرسیون خطی چگونه کار میکند؟
رگرسیون خطی با استفاده از دادههای گذشته، یک خط بهترین برازش پیدا میکند. این خط بهگونهای رسم میشود که تا حد ممکن به همه نقاط داده نزدیک باشد.
هدف مدل این است که اختلاف بین مقدار واقعی و مقدار پیشبینیشده را کمتر کند. هرچه این اختلاف کمتر باشد، مدل بهتر عمل کرده است.
به زبان ساده، رگرسیون خطی سعی میکند به این سوال پاسخ دهد:
اگر ورودی تغییر کند، خروجی تقریباً چقدر تغییر میکند؟
فرمول ساده رگرسیون خطی
فرم ساده رگرسیون خطی معمولاً به این شکل نوشته میشود:
y=a+bx
y = a + bx
در این فرمول:
- y مقدار خروجی یا چیزی است که میخواهیم پیشبینی کنیم
- x ورودی یا عامل اثرگذار است
- a مقدار ثابت است
- b نشان میدهد که با تغییر x، مقدار y چقدر تغییر میکند
اگر بخواهیم خیلی ساده بگوییم، این فرمول یک خط را نشان میدهد که با کمک آن میتوانیم خروجی را تخمین بزنیم.
رگرسیون خطی در یادگیری ماشین چه کاربردی دارد؟
رگرسیون خطی یکی از اولین الگوریتمهایی است که در یادگیری ماشین آموزش داده میشود. دلیلش این است که هم فهم آن آسانتر است و هم پایه بسیاری از مدلهای پیشرفتهتر را روشن میکند.
کاربردهای رایج رگرسیون خطی
- پیشبینی قیمت خانه
- تخمین فروش یک محصول
- پیشبینی درآمد
- تحلیل رابطه بین تبلیغات و فروش
- برآورد هزینهها
- تحلیل دادههای اقتصادی و مالی
برای مثال، یک شرکت ممکن است بخواهد بداند اگر بودجه تبلیغاتش بیشتر شود، فروش آن تقریباً چقدر افزایش پیدا میکند. در چنین شرایطی، رگرسیون خطی میتواند ابزار مفیدی باشد.
انواع رگرسیون خطی
رگرسیون خطی معمولاً به دو نوع اصلی تقسیم میشود:
۱٫ رگرسیون خطی ساده
در این نوع، فقط یک متغیر ورودی داریم.
مثلاً:
- ساعات مطالعه ← نمره امتحان
- متراژ خانه ← قیمت خانه
۲٫ رگرسیون خطی چندگانه
در این نوع، چند متغیر ورودی به طور همزمان روی خروجی اثر میگذارند.
مثلاً برای پیشبینی قیمت خانه، فقط متراژ کافی نیست. عواملی مثل:
- متراژ
- منطقه
- سن ساختمان
- تعداد اتاق
همگی میتوانند در مدل استفاده شوند.
مزایای رگرسیون خطی چیست؟
رگرسیون خطی با وجود سادگی، مزایای مهمی دارد:
ساده و قابل فهم است
یکی از مهمترین مزایای این مدل، سادگی آن است. حتی افراد تازهکار هم میتوانند منطق کلی آن را یاد بگیرند.
سریع اجرا میشود
رگرسیون خطی معمولاً نسبت به مدلهای پیچیدهتر، سرعت بیشتری در آموزش و اجرا دارد.
برای شروع تحلیل داده بسیار مناسب است
اگر بخواهید رابطه بین متغیرها را بررسی کنید، رگرسیون خطی یک نقطه شروع عالی است.
تفسیر نتایج آن راحتتر است
در بسیاری از مدلهای پیچیده، فهمیدن علت تصمیم مدل سخت است. اما در رگرسیون خطی معمولاً میتوان راحتتر توضیح داد که هر عامل چه اثری روی خروجی داشته است.
محدودیتهای رگرسیون خطی
با وجود کاربرد زیاد، رگرسیون خطی همیشه بهترین انتخاب نیست. این مدل محدودیتهایی هم دارد.
فرض میکند رابطه خطی است
اگر رابطه واقعی بین دادهها پیچیده یا غیرخطی باشد، رگرسیون خطی نمیتواند آن را به خوبی نشان دهد.
به دادههای پرت حساس است
اگر در دادهها چند مقدار غیرعادی وجود داشته باشد، ممکن است خط مدل را تغییر دهند و دقت پیشبینی کاهش پیدا کند.
برای همه مسائل مناسب نیست
رگرسیون خطی بیشتر برای پیشبینی مقادیر عددی استفاده میشود. اگر بخواهیم دستهبندی انجام دهیم، باید از مدلهای دیگری استفاده کنیم.
تفاوت رگرسیون خطی با طبقهبندی چیست؟
گاهی افراد تازهکار این دو مفهوم را با هم اشتباه میگیرند.
-
رگرسیون خطی برای پیشبینی عدد استفاده میشود.
مثلاً پیشبینی قیمت، نمره یا فروش
-
طبقهبندی برای تعیین دسته استفاده میشود.
مثلاً تشخیص اینکه یک ایمیل اسپم است یا نیست
پس اگر خروجی ما یک عدد باشد، رگرسیون خطی میتواند مناسب باشد. اما اگر خروجی یک دسته یا برچسب باشد، باید سراغ روشهای دیگر برویم.
چه زمانی از رگرسیون خطی استفاده میشود؟
معمولاً وقتی شرایط زیر وجود داشته باشد، رگرسیون خطی گزینه خوبی است:
- خروجی ما عددی باشد
- رابطه بین متغیرها تا حدی خطی باشد
- بخواهیم یک مدل ساده و قابل تفسیر داشته باشیم
- بخواهیم سریع یک تحلیل اولیه انجام دهیم
به همین دلیل، این مدل در آموزش، پژوهش، اقتصاد، بازاریابی، کسبوکار و تحلیل داده بسیار پرکاربرد است.
یک جمعبندی ساده
اگر بخواهیم خیلی خلاصه بگوییم، رگرسیون خطی روشی برای پیدا کردن رابطه بین متغیرها و پیشبینی یک مقدار عددی است. این مدل با استفاده از دادههای قبلی، یک خط مناسب پیدا میکند و از روی آن مقدارهای جدید را تخمین میزند.
به همین دلیل، وقتی کسی میپرسد رگرسیون خطی چیست، میتوان گفت:
رگرسیون خطی یک روش ساده و کاربردی برای پیشبینی اعداد بر اساس دادههای گذشته است.