نگاهی (طولانی) به یادگیری تقویتی – بخش دوم
به بیان رسمیتر، تقریباً تمام مسائل RL را میتوان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالتها در MDP دارای ویژگی “مارکوف” هستند،
به بیان رسمیتر، تقریباً تمام مسائل RL را میتوان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالتها در MDP دارای ویژگی “مارکوف” هستند،