reinforcement_learning - نارمین

نگاهی (طولانی) به یادگیری تقویتی – بخش دوم

به بیان رسمی‌تر، تقریباً تمام مسائل RL را می‌توان به عنوان فرآیندهای تصمیم گیری مارکوف (MDP) در نظر گرفت. تمام حالت‌ها در MDP دارای ویژگی “مارکوف” هستند،

نگاهی (طولانی) به یادگیری تقویتی – بخش اول

چند خبر هیجان انگیز در زمینه هوش مصنوعی (AI) به تازگی در سال های اخیر اتفاق افتاده است. AlphaGo بهترین بازیکن حرفه ای انسان را در بازی Go شکست داد. خیلی زود الگوریتم توسعه یافته AlphaGo Zero بدون نظارت بر دانش بشری، AlphaGo را ۱۰۰-۰ شکست داد.

نگاهی (طولانی) به یادگیری تقویتی – بخش دوم

نگاهی (طولانی) به یادگیری تقویتی – بخش اول

دانشنامه