گرادیان تقویتی یا گرادیان بوستینگ (به انگلیسی: Gradient boosting) یک روش یادگیری ماشین برای مسائل رگرسیون و طبقه بندی است. مدل گرادیان تقویتی ترکیبی خطی از یک سری مدل های ضعیف است که به صورت تناوبی برای ایجاد یک مدل نهائیِ قوی ساخته شده است.
F 0 = arg min γ ∑ i = 1 n L ( y i , γ ) {\displaystyle F_{0}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}}
برای m {\displaystyle m} از 1 {\displaystyle 1} تا M {\displaystyle M} :
برای i {\displaystyle i} از 1 {\displaystyle 1} تا n {\displaystyle n} :
r i m = − F ( x ) = F m − 1 ( x ) {\displaystyle r_{im}=-\left_{F(x)=F_{m-1}(x)}}
مانند دیگر روش های تقویتی (بوستینگ)، گرادیان تقویتی (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدل های ضعیف برای ایجاد یک مدل قوی و کارآمد است. ساده ترین مثال برای توضیح گرادیان تقویتی، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم F {\displaystyle F} برای کمینه کردن 1 n ∑ i ( y ^ i − y i ) 2 {\displaystyle {\frac {1}{n}}\sum _{i}({\hat {y}}_{i}-y_{i})^{2}} یا میانگین مربعات خطا است. در اینجا y i ^ = F ( x i ) {\displaystyle {\hat {y_{i}}}=F(x_{i})} ، n {\displaystyle n} تعداد داده های ماست و ( x i , y i ) {\displaystyle (x_{i},y_{i})} داده i {\displaystyle i} ام است.
برای پیدا کردن F {\displaystyle F} به صورت مرحله ای عمل می کنیم. در مرحله m {\displaystyle m} به مدل F m {\displaystyle F_{m}} که تا به حال ساخته ایم یک مدل دیگر اضافه می کنیم به اسم h {\displaystyle h} و مدل F m + 1 {\displaystyle F_{m+1}} را می سازیم، به عبارت دیگر F m + 1 ( x ) = F m ( x ) + h ( x ) {\displaystyle F_{m+1}(x)=F_{m}(x)+h(x)} . مدل h {\displaystyle h} را به گونه ای انتخاب می کنیم که بتواند تفاضل y {\displaystyle y} با پیش بینی مدلِ مرحله قبلی را پیش بینی کند یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)} را، در اینجا پیش بینی مرحله قبلی F m ( x ) {\displaystyle F_{m}(x)} است. به عبارت دیگر هدف پیش بینی باقیمانده هاست، یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)} . باقیمانده ها را از یک منظر دیگر نیز می توان دید، آن ها در واقع منفی گرادیان مربع خطا هستند، یعنی منفی گرادیان تابع 1 2 ( F ( x ) − y ) 2 {\displaystyle {\frac {1}{2}}\left(F(x)-y\right)^{2}} .
فرض کنید داده هایکه مدل برای یادگیری از آن ها استفاده می کند { ( x 1 , y 1 ) , … , ( x n , y n ) } {\displaystyle \{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}} باشد و هدف از یادگیری، کمینه کردن یک تابع ضرر به اسم L {\displaystyle L} باشد. یعنی F ^ = arg min F E x , y {\displaystyle {\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}}
F 0 = arg min γ ∑ i = 1 n L ( y i , γ ) {\displaystyle F_{0}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}}
برای m {\displaystyle m} از 1 {\displaystyle 1} تا M {\displaystyle M} :
برای i {\displaystyle i} از 1 {\displaystyle 1} تا n {\displaystyle n} :
r i m = − F ( x ) = F m − 1 ( x ) {\displaystyle r_{im}=-\left_{F(x)=F_{m-1}(x)}}
مانند دیگر روش های تقویتی (بوستینگ)، گرادیان تقویتی (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدل های ضعیف برای ایجاد یک مدل قوی و کارآمد است. ساده ترین مثال برای توضیح گرادیان تقویتی، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم F {\displaystyle F} برای کمینه کردن 1 n ∑ i ( y ^ i − y i ) 2 {\displaystyle {\frac {1}{n}}\sum _{i}({\hat {y}}_{i}-y_{i})^{2}} یا میانگین مربعات خطا است. در اینجا y i ^ = F ( x i ) {\displaystyle {\hat {y_{i}}}=F(x_{i})} ، n {\displaystyle n} تعداد داده های ماست و ( x i , y i ) {\displaystyle (x_{i},y_{i})} داده i {\displaystyle i} ام است.
برای پیدا کردن F {\displaystyle F} به صورت مرحله ای عمل می کنیم. در مرحله m {\displaystyle m} به مدل F m {\displaystyle F_{m}} که تا به حال ساخته ایم یک مدل دیگر اضافه می کنیم به اسم h {\displaystyle h} و مدل F m + 1 {\displaystyle F_{m+1}} را می سازیم، به عبارت دیگر F m + 1 ( x ) = F m ( x ) + h ( x ) {\displaystyle F_{m+1}(x)=F_{m}(x)+h(x)} . مدل h {\displaystyle h} را به گونه ای انتخاب می کنیم که بتواند تفاضل y {\displaystyle y} با پیش بینی مدلِ مرحله قبلی را پیش بینی کند یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)} را، در اینجا پیش بینی مرحله قبلی F m ( x ) {\displaystyle F_{m}(x)} است. به عبارت دیگر هدف پیش بینی باقیمانده هاست، یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)} . باقیمانده ها را از یک منظر دیگر نیز می توان دید، آن ها در واقع منفی گرادیان مربع خطا هستند، یعنی منفی گرادیان تابع 1 2 ( F ( x ) − y ) 2 {\displaystyle {\frac {1}{2}}\left(F(x)-y\right)^{2}} .
فرض کنید داده هایکه مدل برای یادگیری از آن ها استفاده می کند { ( x 1 , y 1 ) , … , ( x n , y n ) } {\displaystyle \{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}} باشد و هدف از یادگیری، کمینه کردن یک تابع ضرر به اسم L {\displaystyle L} باشد. یعنی F ^ = arg min F E x , y {\displaystyle {\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}}
wiki: گرادیان تقویتی