رگرسیون خطی یا تنازل خطی یا وایازی خطی یکی از روش های تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری ست برای پیش بینی یک متغیر از روی یک یا چند متغیر دیگر. به عنوان مثال برای پیش بینی قیمت خانه می توان از یک مدل رگرسیون استفاده کرد که در آن از متغیرهایی همچون مساحت خانه (متراژ)، تعداد اتاق ها و سرویس های بهداشتی، موقعیت خانه (شهر و/یا محله) و سایر اطلاعات استفاده شده است. یکی از ساده ترین مدل های رگرسیون، رگرسیون خطی است که در آن متغیر وابسته — متغیری که قرار است پیش بینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیش بینی می شود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر به دست آمده ضرب می شود؛ جواب نهائی مجموع حاصل ضرب ها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین به دست آمده است.
امید ریاضی مانده ها صفر است.
مانده ها از یک توزیع طبیعی پیروی می کنند.
مانده ها از هم مستقل هستند.
واریانس مانده ها ثابت است.
بین متغیرهای مستقل هم خطی وجود ندارد.
رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است.
فرایند تخمین سعی می کند ضرایبِ مدل رگرسیون خطی را به گونه ای انتخاب کند که با داده های موجود همخوانی داشته باشد، یعنی پیش بینی ها به مقادیر مستقل نزدیک باشند. از این رو یادگیریِ مدل رگرسیون، نمونه ای از فرایند بهینه سازی است که راه های مختلفی برای حل آن وجود دارد. اگر ضرایب مدل را با β {\displaystyle \beta } ، متغیر وابسته برای داده i {\displaystyle i} ام را با y i {\displaystyle y_{i}} و متغیرهای مستقل این داده را با بردار x i → {\displaystyle {\vec {x_{i}}}} نمایش دهیم، پیش بینی مدل برای این داده β → . x i → {\displaystyle {\vec {\beta }}\,.\,{\vec {x_{i}}}} خواهد بود. برای نزدیکی هرچه بیشتر پیش بینی ها به داده های مستقل، فرایند یادگیری سعی می کند مجموع مربع تفاضل آن ها را - که در مدل سازی آماری به آن تابع هزینه می گویند - کمینه کند. یکی از روش های متداول برای کمینه کردن این تابع، روش کمترین مربعات است. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده های مستقل با ماتریس ترانهاده آن است، فرآیندی که می تواند پرهزینه و ناکارا باشد، به خصوص زمانی که تعداد متغیرهای مستقل و داده ها زیاد است. علاوه بر این ممکن است ماتریس نهائی وارونه ناپذیر باشد. از این رو، برای کمینه کردن تابع هزینه عموماً از روش های جایگزین مانند گرادیان کاهشی تصادفی استفاده می شود. در این روش ابتدا پارامتر مدل را به صورت تصادفی مقداردهی می کنند و هر بار به کمک نمونه ای تصادفی از داده ها در جهت خلاف گرادیان حرکت کرده و پارامتر را به روز می کنند. این کار آنقدر ادامه پیدا می کند تا گرادیان به اندازهٔ کافی کوچک شود. از آنجا که تابع هزینه محدب است، تنها یک کمینه برایش وجود دارد و روش گرادیان کاهشی حتماً به جواب خواهد رسید.
اگر فرض را بر این قرار دهیم که متغیر وابسته از یک توزیع طبیعی با میانگینی که ترکیبی خطی از متغیرهای مستقل است و واریانسی ثابت پیروی می کند، و متغیرهای وابسته نسبت به هم مستقلند آنگاه برآورد درست نمایی بیشینه با پارامتری که از کمینه کردن تابع هزینه به دست می آید یکی خواهد بود. این تعبیر احتمالی برای محافظت مدل از بیش برازش مورد استفاده قرار می گیرد، به این شکل که با استفاده از قانون بیز فرض می شود خود پارامترهای مدل هم از یک توزیع احتمال که آن را توزیع پیشین می نامند پیروی می کنند و سپس با مشاهدهٔ داده ها، احتمال پسین محاسبه و بیشینه می شود. اگر احتمال پیشین به گونه ای باشد که پارامترهایی که نُرم کمتری دارند محتمل تر باشند مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این باعث حفاظت مدل از بیش برازش می شود.
رگرسیون خطی یک مدل آماری برای پیش بینی یک متغیر از روی یک یا چند متغیر دیگر است. به متغیری که پیش بینی بر روی آن انجام می شود متغیر وابسته و به متغیرهایی که پیش بینی به کمک آن ها انجام می شود متغیرهای مستقل می گویند. متغیر وابسته را معمولاً با y {\displaystyle y} نمایش می دهند و متغیرهای مستقل را با x {\displaystyle x} . اگر چند متغیر مستقل وجود داشته باشد برای سهولت کار همه را در یک بردار x → {\displaystyle {\vec {x}}} می گنجانند. اگر متغیر وابسته مقادیر عددی بگیرد مسئله مدل سازی رگرسیون نام می گیرد و در غیر این صورت دسته بندی آماری.
امید ریاضی مانده ها صفر است.
مانده ها از یک توزیع طبیعی پیروی می کنند.
مانده ها از هم مستقل هستند.
واریانس مانده ها ثابت است.
بین متغیرهای مستقل هم خطی وجود ندارد.
رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است.
فرایند تخمین سعی می کند ضرایبِ مدل رگرسیون خطی را به گونه ای انتخاب کند که با داده های موجود همخوانی داشته باشد، یعنی پیش بینی ها به مقادیر مستقل نزدیک باشند. از این رو یادگیریِ مدل رگرسیون، نمونه ای از فرایند بهینه سازی است که راه های مختلفی برای حل آن وجود دارد. اگر ضرایب مدل را با β {\displaystyle \beta } ، متغیر وابسته برای داده i {\displaystyle i} ام را با y i {\displaystyle y_{i}} و متغیرهای مستقل این داده را با بردار x i → {\displaystyle {\vec {x_{i}}}} نمایش دهیم، پیش بینی مدل برای این داده β → . x i → {\displaystyle {\vec {\beta }}\,.\,{\vec {x_{i}}}} خواهد بود. برای نزدیکی هرچه بیشتر پیش بینی ها به داده های مستقل، فرایند یادگیری سعی می کند مجموع مربع تفاضل آن ها را - که در مدل سازی آماری به آن تابع هزینه می گویند - کمینه کند. یکی از روش های متداول برای کمینه کردن این تابع، روش کمترین مربعات است. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده های مستقل با ماتریس ترانهاده آن است، فرآیندی که می تواند پرهزینه و ناکارا باشد، به خصوص زمانی که تعداد متغیرهای مستقل و داده ها زیاد است. علاوه بر این ممکن است ماتریس نهائی وارونه ناپذیر باشد. از این رو، برای کمینه کردن تابع هزینه عموماً از روش های جایگزین مانند گرادیان کاهشی تصادفی استفاده می شود. در این روش ابتدا پارامتر مدل را به صورت تصادفی مقداردهی می کنند و هر بار به کمک نمونه ای تصادفی از داده ها در جهت خلاف گرادیان حرکت کرده و پارامتر را به روز می کنند. این کار آنقدر ادامه پیدا می کند تا گرادیان به اندازهٔ کافی کوچک شود. از آنجا که تابع هزینه محدب است، تنها یک کمینه برایش وجود دارد و روش گرادیان کاهشی حتماً به جواب خواهد رسید.
اگر فرض را بر این قرار دهیم که متغیر وابسته از یک توزیع طبیعی با میانگینی که ترکیبی خطی از متغیرهای مستقل است و واریانسی ثابت پیروی می کند، و متغیرهای وابسته نسبت به هم مستقلند آنگاه برآورد درست نمایی بیشینه با پارامتری که از کمینه کردن تابع هزینه به دست می آید یکی خواهد بود. این تعبیر احتمالی برای محافظت مدل از بیش برازش مورد استفاده قرار می گیرد، به این شکل که با استفاده از قانون بیز فرض می شود خود پارامترهای مدل هم از یک توزیع احتمال که آن را توزیع پیشین می نامند پیروی می کنند و سپس با مشاهدهٔ داده ها، احتمال پسین محاسبه و بیشینه می شود. اگر احتمال پیشین به گونه ای باشد که پارامترهایی که نُرم کمتری دارند محتمل تر باشند مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این باعث حفاظت مدل از بیش برازش می شود.
رگرسیون خطی یک مدل آماری برای پیش بینی یک متغیر از روی یک یا چند متغیر دیگر است. به متغیری که پیش بینی بر روی آن انجام می شود متغیر وابسته و به متغیرهایی که پیش بینی به کمک آن ها انجام می شود متغیرهای مستقل می گویند. متغیر وابسته را معمولاً با y {\displaystyle y} نمایش می دهند و متغیرهای مستقل را با x {\displaystyle x} . اگر چند متغیر مستقل وجود داشته باشد برای سهولت کار همه را در یک بردار x → {\displaystyle {\vec {x}}} می گنجانند. اگر متغیر وابسته مقادیر عددی بگیرد مسئله مدل سازی رگرسیون نام می گیرد و در غیر این صورت دسته بندی آماری.
wiki: رگرسیون خطی