نگاهی (طولانی) به یادگیری تقویتی – بخش دوم
به بیان رسمیتر، تقریباً تمام مسائل RL را میتوان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالتها در MDP دارای ویژگی “مارکوف” هستند،
به بیان رسمیتر، تقریباً تمام مسائل RL را میتوان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالتها در MDP دارای ویژگی “مارکوف” هستند،
چند خبر هیجان انگیز در زمینه هوش مصنوعی (AI) به تازگی در سال های اخیر اتفاق افتاده است. AlphaGo بهترین بازیکن حرفه ای انسان را در بازی Go شکست داد. خیلی زود الگوریتم توسعه یافته AlphaGo Zero بدون نظارت بر دانش بشری، AlphaGo را ۱۰۰-۰ شکست داد.