کلمه جو
صفحه اصلی

نیکویی برازش

دانشنامه عمومی

پس از تخمین یک مدل خطی خاص، سوالی که مطرح می شود این است که : خط وایازش تخمین زده شده چه میزان با مشاهدات واقعی تطابق دارد؟یک معیار سنجش مناسب برای نیکویی برازش (یا برازندگی)، نسبت واریانس نمونه ای y است که بوسیلهٔ مدل توضیح داده می شود. این متغیر R 2 {\displaystyle \mathbb {R} ^{2}\,} نامیده شده و به صورت زیر تعریف می شود :رابطه (۱-۱) R 2 = V ^ ( y ^ i ) V ^ ( y i ) = 1 / ( N − 1 ) ∑ i = 1 N ( y ^ i − y ¯ ) 2 1 / ( N − 1 ) ∑ i = 1 N ( y i − y ¯ ) 2 , {\displaystyle \mathbb {R} ^{2}\,={\dfrac {{\hat {V}}({\hat {y}}_{i})}{{\hat {V}}(y_{i})}}={\dfrac {1/(N-1)\sum _{i=1}^{N}({\hat {y}}_{i}-{\bar {y}})^{2}}{1/(N-1)\sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}},} که در این رابطه y ^ i = x i   b {\displaystyle {\hat {y}}_{i}=x_{i}\ b} است و y ¯ = ( 1 / N ) ∑ y i {\displaystyle {\bar {y}}=(1/N)\sum y_{i}} بیانگر میانگین نمونه ای y i {\displaystyle y_{i}} می باشد . توجه داشته باشید که y ¯ {\displaystyle {\bar {y}}} مساوی میانگین نمونه ای y ^ i {\displaystyle {\hat {y}}_{i}\,} است . از شرط مرتبه اول داریم : ∑ i = 1 N e i   x i k = 0 , k = 1 , . . . , K {\displaystyle \sum _{i=1}^{N}e_{i}\ x_{ik}=0,k=1,...,K} در نتیجه می توانیم y i {\displaystyle y_{i}} را به صورت زیر تعریف نماییم : y i = y ^ i   + e i , {\displaystyle y_{i}={\hat {y}}_{i}\ +e_{i},} که در آن ∑ e i y ^ i = 0 {\displaystyle \sum e_{i}{\hat {y}}_{i}=0} است. در بسیاری از مدل های مشابه که شامل عرض از مبدأ هستند رابطه زیر برقرار است : رابطه (2-1) V ^ ( y i ) = V ^ ( y ^ i ) + V ^ ( e i ) , {\displaystyle {\hat {V}}(y_{i})={\hat {V}}({\hat {y}}_{i})+{\hat {V}}(e_{i}),} که V ^ ( e i ) = s 2 , {\displaystyle {\hat {V}}(e_{i})=s^{2},} است. با استفاده از این رابطه می توان R 2 {\displaystyle R^{2}} را به صورت زیر بازنویسی کرد :رابطه(۳-۱) R 2 = 1 − V ^ ( e i ) V ^ ( y i ) = 1 − 1 / ( N − 1 ) ∑ i = 1 N e i 2 1 / ( N − 1 ) ∑ i = 1 N ( y i − y ¯ ) 2 {\displaystyle \mathbb {R} ^{2}\,=1-{\dfrac {{\hat {V}}(e_{i})}{{\hat {V}}(y_{i})}}=1-{\dfrac {1/(N-1)\sum _{i=1}^{N}e_{i}^{2}}{1/(N-1)\sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}}} فوق نشان می دهد که واریانس نمونه ای y i {\displaystyle y_{i}} را می توان به صورت حاصل جمع واریانس های نمونه ای دو جزء متعامد تجزیه نمود : تخمین زن y ^ i {\displaystyle {\hat {y}}_{i}} و e i {\displaystyle e_{i}} )residual) .بنابراین R 2 {\displaystyle \mathbb {R} ^{2}\,} بیان می کند که چه نسبتی از تغییرات نمونه در y i {\displaystyle y_{i}} توسط مدل توضیح داده می شود.اگر مدل مورد مطالعه شامل عرض از مبدأ باشد دو عبارت فوق برای تعیین R 2 {\displaystyle \mathbb {R} ^{2}\,} معادلند.علاوه بر این در این مورد می توان نشان داد که مقدار R 2 {\displaystyle \mathbb {R} ^{2}\,} همواره بین صفر و یک قرار دارد. تن ها اگر تمام e i = 0 {\displaystyle e_{i}=0} باشند R 2 {\displaystyle \mathbb {R} ^{2}\,} مساوی یک خواهد بود و مقدار صفر R 2 {\displaystyle \mathbb {R} ^{2}\,} نشان می دهد که مدل به جزمیانگین نمونه ای y i {\displaystyle y_{i}} هیچ چیز دیگری را توضیح نمی دهد. در یک مورد استثنایی که مدل شامل عرض از مبدأ نیست دو عبارت مطرح شده برای R 2 {\displaystyle \mathbb {R} ^{2}\,} معادل نیستند و این بدین دلیل است که رابطهٔ (۲-۱)نقض می شود زیرا ∑ i = 1 N e i {\displaystyle \sum _{i=1}^{N}e_{i}} دیگر معادل صفر نمی باشد.در این وضعیت ممکن است مقدار R 2 {\displaystyle \mathbb {R} ^{2}\,} محاسبه شده از رابطه ی(3-1) منفی گردد. یک روش اندازه گیری جایگزین که به طور معمول به وسیلهٔ نرم افزارها مورد استفاده قرار می گیرد اگر عرض از مبدأ وجود نداشته باشد u n c e n t r e d R 2 {\displaystyle uncentred\mathbb {R} ^{2}} است که طبق رابطهٔ زیر تعریف می گردد و مقدار آن بزرگتر از R 2 , {\displaystyle \mathbb {R} ^{2},} استاندارد است :رابطه (۴-۱) u n c e n t r e d R 2 = ∑ i = 1 N y ^ i 2 ∑ i = 1 N   y i 2 = 1 − ∑ i = 1 N   e i 2 ∑ i = 1 N   y i 2 {\displaystyle uncentred\mathbb {R} ^{2}={\dfrac {\sum _{i=1}^{N}{\hat {y}}_{i}^{2}}{\sum _{i=1}^{N}\ y_{i}^{2}}}=1-{\dfrac {\sum _{i=1}^{N}\ e_{i}^{2}}{\sum _{i=1}^{N}\ y_{i}^{2}}}} از آنجا که R 2 {\displaystyle \mathbb {R} ^{2}\,} تغییرات توضیح داده شده در y i {\displaystyle y_{i}} را توضیح می دهد نسبت به تغییر این متغیر حساس است . بنابراین در مدلهایی که مصرف را توضیح می دهند، تغییرات در مصرف یا رشد مصرف الزاماً توسط مقادیر R 2 {\displaystyle \mathbb {R} ^{2}\,} شان قابل مقایسه با هم نمی باشند. به عنوان مثال تغییر در مصرف کل برای یک کشور مورد نظر معمولاً آسان تر از توضیح تغییرات cross-sectional مصرف در سطح خانوار هاست. در نتیجه معیار قطعی برای اینکه یک مقدار R 2 {\displaystyle \mathbb {R} ^{2}\,} کم یا زیاد تلقی شود وجود نداردمثلا مقدار ۰.۲ ممکن است در کارکرد خاص بزرگ و در سایر موارد کم تلقی شود و حتی مقدار ۰.۹۵ ممکن است در یک مورد خاص کم به شمار آیدگاهی اوقات R 2 {\displaystyle \mathbb {R} ^{2}\,} به عنوان معیاری برای کیفیت مدل آماری تفسیر می شود که در این حالت چیزی به جز کیفیت تقریب خطی را اندازه گیری نمی نماید هنگامی که رویکردOLS برای بدست آوردن بهترین تقریب خطی توسعه داده شود، صرف نظر از درستی مدل و اعتبار فرضیاتش، تخمین مدل خطی به وسیلهٔ OLS بهترین R 2 {\displaystyle \mathbb {R} ^{2}\,} ممکن را بدست می دهد. هر روش تخمین دیگر اگرچه دارای تخمین زن با مشخصات آماری بهتر تحت فرضیاتش باشد، منجر به R 2 {\displaystyle \mathbb {R} ^{2}\,} کمتر ی خواهد شد. هنگامی که مدل توسط OLS تخمین زده نشود دو رابطهٔ (۱-۱) و (۲-۱)معادل نیستند و روشن نیست R 2 {\displaystyle \mathbb {R} ^{2}\,} چگونه باید تعریف شود . برای استفاده های بعدی ما تعریف جایگزینی برای R 2 {\displaystyle \mathbb {R} ^{2}\,} ارائه می نماییم که برای OLS معادل روابط(۱-۱) و (۲-۱)و برای هر تخمین زن دیگری بین صفر و یک خواهد بود.رابطه(۵-۱) R 2 = c o r r 2 ( y i , y ^ i ) = ( ∑ ( y i − y ¯ ) ( y ^ i − y ¯ ) ) 2 ( ∑ ( y i − y ¯ ) 2 ) ( ∑ ( y ^ i − y ¯ ) 2 ) {\displaystyle \mathbb {R} ^{2}=corr^{2}(y_{i},{\hat {y}}_{i})={\dfrac {(\sum (y_{i}-{\bar {y}})({\hat {y}}_{i}-{\bar {y}}))^{2}}{(\sum (y_{i}-{\bar {y}})^{2})(\sum ({\hat {y}}_{i}-{\bar {y}})^{2})}}} که بیانگر مجذور ضریب همبستگی بین مقدار واقعی و fitted value هاست . در نتیجه R 2 {\displaystyle \mathbb {R} ^{2}\,} مهم ترین جنبه از نتایج تخمین ما به شمار نمی آید. مشکل دیگر R 2 {\displaystyle \mathbb {R} ^{2}\,} این است که مقدار ان با افزایش تعداد متغیرهای توضیح دهنده کاهش نمی یابد. یک راه معمول برای حل این مشکل تصحیح واریانس تخمین زده شده برای درجات آزادی است. این امر a d j u s t e d R 2 {\displaystyle adjusted\mathbb {R} ^{2}\,} یا R 2 ¯ {\displaystyle {\bar {R^{2}}}} را نتیجه می دهد که طبق رابطهٔ زیر تعریف می شود :رابطه(۶-۱) R 2 ¯ = 1 − 1 / ( N − K ) ∑ i = 1 N e i 2 1 / ( N − 1 ) ∑ i = 1 N ( y i − y ¯ ) 2 {\displaystyle {\bar {R^{2}}}=1-{\dfrac {1/(N-K)\sum _{i=1}^{N}e_{i}^{2}}{1/(N-1)\sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}}} این روش محاسبهٔ نیکویی برازش مقداری جریمه برای افزایش تعداد متغیرهای توضیح دهنده در مدل در نظر می گیرد و بنابراین هنگامی که متغیرهای توضیح دهنده به مدل اضافه می شوند افزایش نخواهند یافت. در حقیقت آن ممکن است با اضافه شدن یک متغیر به جمع متغیرهای توضیح دهنده کاهش یابد. توجه کنید که در بسیاری از موارد R 2 ¯ {\displaystyle {\bar {R^{2}}}} ممکن است مقداری منفی باشد و همچنین مقدار آن کوچکتر از R 2 {\displaystyle \mathbb {R} ^{2}\,} خواهد بود مگر اینکه مدل تنها شامل جزء ثابت بوده و هر دو مقدار مساوی صفر گردند.
۲۰۰۴(A GUIDE TO ECONOMETRICS(VERBEEK

پیشنهاد کاربران

goodness of fit


کلمات دیگر: