یادگیری تقویتی یکی از گرایش های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله، با توجه به گستردگی اش، در زمینه های گوناگونی بررسی می شود. مانند: نظریه بازی ها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینه سازی بر مبنای شبیه سازی. در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزه ای که در آن روش یادگیری تقویتی مطالعه می شود برنامه نویسی تخمینی پویای (approximate dynamic programming) خوانده می شود. این مسئله در تئوری کنترل بهینه نیز مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگی های آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازیها بیشتر به بررسی تعادل های ایجاد شده تحت عقلانیت محدود می پردازد.
برای مسئله یک مدل وجود دارد اما راه حل تحلیلی ای وجود ندارد.
فقط یک محیط شبیه سازی شده از مسئله در دسترس است (موضوع بحث بهینه سازی بر مبنای شبیه سازی)
هنگامی که تنها راه برای به دست آوردن اطلاعات از محیط تعامل با آن باشد.
در یادگیری ماشینی با توجه به این که بسیاری از الگوریتم های یادگیری تقویتی از تکنیک های برنامه نویسی پویا استفاده می کنند معمولاً مسئله تحت عنوان یک فرایند تصمیم گیری مارکف مدل می شود. تفاوت اصلی بین روش های سنتی و الگوریتم های یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرایند تصمیم گیری ندارد و این که این روش روی فرایندهای مارکف بسیار بزرگی کار می کند که روش های سنتی در آنجا ناکارآمدند.
یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارامد نیز از بیرون اصلاح نمی شوند، و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره برداری از دانش اندوخته شده دارد. این سبک-سنگین کردن بین بهره برداری و اکتشاف در یادگیری تقویتی برای فرایندهای مارکف متناهی، تقریباً به طور کامل در مسئلهٔ راهزن چند دست (Multi-armed bandit) بررسی شده.
یک مدل ابتدایی یادگیری تقویتی از:
برای مسئله یک مدل وجود دارد اما راه حل تحلیلی ای وجود ندارد.
فقط یک محیط شبیه سازی شده از مسئله در دسترس است (موضوع بحث بهینه سازی بر مبنای شبیه سازی)
هنگامی که تنها راه برای به دست آوردن اطلاعات از محیط تعامل با آن باشد.
در یادگیری ماشینی با توجه به این که بسیاری از الگوریتم های یادگیری تقویتی از تکنیک های برنامه نویسی پویا استفاده می کنند معمولاً مسئله تحت عنوان یک فرایند تصمیم گیری مارکف مدل می شود. تفاوت اصلی بین روش های سنتی و الگوریتم های یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرایند تصمیم گیری ندارد و این که این روش روی فرایندهای مارکف بسیار بزرگی کار می کند که روش های سنتی در آنجا ناکارآمدند.
یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارامد نیز از بیرون اصلاح نمی شوند، و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره برداری از دانش اندوخته شده دارد. این سبک-سنگین کردن بین بهره برداری و اکتشاف در یادگیری تقویتی برای فرایندهای مارکف متناهی، تقریباً به طور کامل در مسئلهٔ راهزن چند دست (Multi-armed bandit) بررسی شده.
یک مدل ابتدایی یادگیری تقویتی از:
wiki: یادگیری تقویتی