کلمه جو
صفحه اصلی

گرادیان تقویتی

دانشنامه عمومی

گرادیان تقویتی یا گرادیان بوستینگ (به انگلیسی: Gradient boosting) یک روش یادگیری ماشین برای مسائل رگرسیون و طبقه بندی است. مدل گرادیان تقویتی ترکیبی خطی از یک سری مدل های ضعیف است که به صورت تناوبی برای ایجاد یک مدل نهائیِ قوی ساخته شده است.
F 0 = arg ⁡ min γ ∑ i = 1 n L ( y i , γ ) {\displaystyle F_{0}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}}
برای m {\displaystyle m}   از 1 {\displaystyle 1}   تا M {\displaystyle M}  :
برای i {\displaystyle i}   از 1 {\displaystyle 1}   تا n {\displaystyle n}  :
r i m = − F ( x ) = F m − 1 ( x ) {\displaystyle r_{im}=-\left_{F(x)=F_{m-1}(x)}}
مانند دیگر روش های تقویتی (بوستینگ)، گرادیان تقویتی (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدل های ضعیف برای ایجاد یک مدل قوی و کارآمد است. ساده ترین مثال برای توضیح گرادیان تقویتی، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم F {\displaystyle F}   برای کمینه کردن 1 n ∑ i ( y ^ i − y i ) 2 {\displaystyle {\frac {1}{n}}\sum _{i}({\hat {y}}_{i}-y_{i})^{2}}   یا میانگین مربعات خطا است. در اینجا y i ^ = F ( x i ) {\displaystyle {\hat {y_{i}}}=F(x_{i})}  ، n {\displaystyle n}   تعداد داده های ماست و ( x i , y i ) {\displaystyle (x_{i},y_{i})}   داده i {\displaystyle i}  ام است.
برای پیدا کردن F {\displaystyle F}   به صورت مرحله ای عمل می کنیم. در مرحله m {\displaystyle m}   به مدل F m {\displaystyle F_{m}}   که تا به حال ساخته ایم یک مدل دیگر اضافه می کنیم به اسم h {\displaystyle h}   و مدل F m + 1 {\displaystyle F_{m+1}}   را می سازیم، به عبارت دیگر F m + 1 ( x ) = F m ( x ) + h ( x ) {\displaystyle F_{m+1}(x)=F_{m}(x)+h(x)}  . مدل h {\displaystyle h}   را به گونه ای انتخاب می کنیم که بتواند تفاضل y {\displaystyle y}   با پیش بینی مدلِ مرحله قبلی را پیش بینی کند یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)}   را، در اینجا پیش بینی مرحله قبلی F m ( x ) {\displaystyle F_{m}(x)}   است. به عبارت دیگر هدف پیش بینی باقیمانده هاست، یعنی y − F m ( x ) {\displaystyle y-F_{m}(x)}  . باقیمانده ها را از یک منظر دیگر نیز می توان دید، آن ها در واقع منفی گرادیان مربع خطا هستند، یعنی منفی گرادیان تابع 1 2 ( F ( x ) − y ) 2 {\displaystyle {\frac {1}{2}}\left(F(x)-y\right)^{2}}  .
فرض کنید داده هایکه مدل برای یادگیری از آن ها استفاده می کند { ( x 1 , y 1 ) , … , ( x n , y n ) } {\displaystyle \{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}}   باشد و هدف از یادگیری، کمینه کردن یک تابع ضرر به اسم L {\displaystyle L}   باشد. یعنی F ^ = arg ⁡ min F E x , y {\displaystyle {\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}}


کلمات دیگر: