نگاهی (طولانی) به یادگیری تقویتی – بخش دوم
متن زیر ترجمه A (Long) Peek into Reinforcement Learning است.
سایر بخش های این مقاله را در لینک های زیر در دسترس هستند
فهرست
فرآیندهای تصمیمگیری مارکوف
به بیان رسمیتر، تقریباً تمام مسائل RL را میتوان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالتها در MDP دارای ویژگی "مارکوف" هستند، با اشاره به این واقعیت که آینده فقط به وضعیت فعلی بستگی دارد، نه گذشته:
یا به عبارت دیگر، آینده و گذشته با توجه به زمان حال به طور مشروط مستقل هستند ، زیرا وضعیت فعلی تمام آماری را که برای تصمیم گیری در مورد آینده نیاز داریم در بر میگیرد.
فرآیند تصمیم گیری مارکف از پنج عنصر تشکیل شده است
که در آن نمادها همان مفاهیم کلیدی در بخش قبل را دارند و به خوبی با تنظیمات مشکل RL همسو می شوند:
مجموعه ای از حالات مجموعه ای از اقدامات تابع احتمال انتقال عامل تخفیف برای پاداش های آینده. در یک محیط ناشناخته، ما دانش کاملی در مورد و آن نداریم
معادلات بلمن
معادلات بلمن به مجموعهای از معادلات اشاره دارد که تابع ارزش را به پاداش فوری به اضافه ارزشهای آتی تخفیفدار تجزیه میکند.
به طور مشابه برای Q-value،
معادلات انتظار بلمن
فرآیند بهروزرسانی بازگشتی را میتوان بیشتر تجزیه کرد تا معادلاتی باشد که بر روی هر دو توابع حالت-مقدار و اقدام-مقدار ساخته شدهاند. همانطور که در مراحل اقدام آینده پیش می رویم، V و Q را به طور متناوب با پیروی از خط مشی
معادلات بهینهسازی بلمن
اگر ما فقط به مقادیر بهینه علاقهمند باشیم، به جای محاسبه انتظارات منتج از یک خط مشی، میتوانیم بدون استفاده از یک خط مشی، در طول بروزرسانیهای جایگزین، مستقیماً به حداکثر بازده بپردازیم. به طور خلاصه: مقادیر بهینه V ∗ و Q ∗ بهترین بازدههایی هستند که میتوانیم به دست آوریم، که در اینجا تعریف شدهاند.
جای تعجب نیست که آنها بسیار شبیه معادلات انتظار بلمن هستند.
اگر اطلاعات کاملی از محیط داشته باشیم، به یک مشکل برنامهریزی تبدیل میشود که توسط DP قابل حل است. متأسفانه، در اکثر سناریوها، ما
بنابراین ما نمیتوانیم MDPها را با استفاده مستقیم از معادلات بلمن حل کنیم، اما پایهی نظری بسیاری از الگوریتمهای RL را میگذارد.