این صفحه شامل اصطلاحات واژه نامه یادگیری تقویتی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
در یادگیری تقویتی ، مکانیزمی است که توسط آن عامل بین حالات محیط انتقال می یابد. عامل با استفاده از یک خط مشی اقدام را انتخاب می کند.
در یادگیری تقویتی ، نهادی که از سیاستی برای به حداکثر رساندن بازده مورد انتظار حاصل از انتقال بین حالت های محیط استفاده می کند.
به طور کلی تر، یک عامل نرم افزاری است که به طور مستقل مجموعه ای از اقدامات را در تعقیب یک هدف، با توانایی سازگاری با تغییرات محیط خود، برنامه ریزی و اجرا می کند. به عنوان مثال، عوامل مبتنی بر LLM ممکن است از LLM برای تولید یک طرح استفاده کنند، به جای اعمال سیاست یادگیری تقویتی.
در یادگیری تقویتی، هویت زیر با تابع Q بهینه برآورده می شود:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
الگوریتم های یادگیری تقویتی این هویت را برای ایجاد یادگیری Q از طریق قانون به روز رسانی زیر اعمال می کنند:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
فراتر از یادگیری تقویتی، معادله بلمن در برنامه نویسی پویا کاربرد دارد. به مدخل ویکی پدیا برای معادله بلمن مراجعه کنید.
مترادف Deep Q-Network .
در یادگیری Q ، یک شبکه عصبی عمیق که عملکردهای Q را پیشبینی میکند.
Critic مترادف Deep Q-Network است.
مخفف Deep Q-Network .
در یادگیری تقویتی، جهانی که عامل را در خود دارد و به عامل اجازه می دهد تا وضعیت آن جهان را مشاهده کند. به عنوان مثال، جهان نشان داده شده می تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند یک پیچ و خم باشد. هنگامی که عامل یک عمل را در محیط اعمال می کند، آنگاه محیط بین حالت ها تغییر می کند.
در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط .
در یادگیری تقویتی، خط مشی ای است که یا از خط مشی تصادفی با احتمال اپسیلون پیروی می کند یا در غیر این صورت یک خط مشی حریصانه . به عنوان مثال، اگر اپسیلون 0.9 باشد، خط مشی در 90 درصد مواقع از خط مشی تصادفی و 10 درصد مواقع از خط مشی حریصانه پیروی می کند.
در طول اپیزودهای متوالی، الگوریتم ارزش اپسیلون را کاهش می دهد تا از پیروی از یک خط مشی تصادفی به پیروی از یک خط مشی حریصانه تبدیل شود. با تغییر خط مشی، عامل ابتدا به طور تصادفی محیط را کاوش می کند و سپس حریصانه از نتایج اکتشاف تصادفی سوء استفاده می کند.
در یادگیری تقویتی، یک تکنیک DQN برای کاهش همبستگی های زمانی در داده های آموزشی استفاده می شود. عامل انتقال حالت ها را در یک بافر پخش مجدد ذخیره می کند و سپس انتقال ها را از بافر پخش مجدد برای ایجاد داده های آموزشی نمونه برداری می کند.
در یادگیری تقویتی، خط مشی ای است که همیشه اقدامی را با بالاترین بازده مورد انتظار انتخاب می کند.
نموداری که نشان دهنده مدل تصمیم گیری است که در آن تصمیمات (یا اقدامات ) برای پیمایش دنباله ای از حالت ها با این فرض که خاصیت مارکوف وجود دارد، اتخاذ می شود. در یادگیری تقویتی ، این انتقال بین حالت ها یک پاداش عددی را برمی گرداند.
یک ویژگی از محیط های خاص، که در آن انتقال حالت به طور کامل توسط اطلاعات ضمنی در وضعیت فعلی و عملکرد عامل تعیین می شود.
در یادگیری تقویتی، نقشهبرداری احتمالی یک عامل از حالتها به اقدامات .
در یادگیری تقویتی ، تابعی است که بازده مورد انتظار از انجام یک اقدام در یک حالت و سپس پیروی از یک خط مشی معین را پیش بینی می کند.
تابع Q به عنوان تابع مقدار حالت-عمل نیز شناخته می شود.
در یادگیری تقویتی ، الگوریتمی است که به عامل اجازه می دهد تا تابع Q بهینه فرآیند تصمیم گیری مارکوف را با استفاده از معادله بلمن یاد بگیرد. فرآیند تصمیم مارکوف یک محیط را مدل می کند.
در یادگیری تقویتی ، خط مشی ای است که یک عمل را به طور تصادفی انتخاب می کند.
خانواده ای از الگوریتم ها که یک خط مشی بهینه را یاد می گیرند و هدف آنها به حداکثر رساندن بازده در تعامل با یک محیط است. به عنوان مثال، پاداش نهایی اکثر بازی ها پیروزی است. سیستمهای یادگیری تقویتی میتوانند در انجام بازیهای پیچیده با ارزیابی دنبالهای از حرکات بازی قبلی که در نهایت منجر به برد و دنبالههایی که در نهایت منجر به باخت میشوند، متخصص شوند.
استفاده از بازخورد ارزیابیکنندگان انسانی برای بهبود کیفیت پاسخهای یک مدل. به عنوان مثال، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با یک ایموجی 👍 یا 👎 ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.
در الگوریتمهای DQN مانند، حافظهای که عامل برای ذخیره انتقال حالت برای استفاده در بازپخش تجربه استفاده میکند.
در یادگیری تقویتی، با توجه به یک خط مشی خاص و یک وضعیت خاص، بازدهی مجموع تمام پاداش هایی است که عامل انتظار دارد هنگام دنبال کردن خط مشی از وضعیت تا پایان قسمت دریافت کند. عامل ماهیت تاخیری پاداشهای مورد انتظار را با تنزیل پاداشها با توجه به انتقال وضعیت مورد نیاز برای به دست آوردن پاداش محاسبه میکند.
بنابراین، اگر ضریب تخفیف \(\gamma\)باشد و \(r_0, \ldots, r_{N}\)نشان دهنده پاداش ها تا پایان قسمت باشد، محاسبه بازده به شرح زیر است:
در یادگیری تقویتی، نتیجه عددی انجام یک عمل در حالتی است که توسط محیط تعریف شده است.
در یادگیری تقویتی، مقادیر پارامتری که پیکربندی فعلی محیط را توصیف می کند، که عامل برای انتخاب یک عمل از آنها استفاده می کند.
مترادف تابع Q.
در یادگیری تقویتی ، اجرای Q-learning با استفاده از یک جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عمل .
در Deep Q-learning ، یک شبکه عصبی که یک تقریب پایدار از شبکه عصبی اصلی است، که در آن شبکه عصبی اصلی یا یک تابع Q یا یک خط مشی را اجرا می کند. سپس، می توانید شبکه اصلی را بر روی مقادیر Q پیش بینی شده توسط شبکه هدف آموزش دهید. بنابراین، از حلقه بازخوردی که زمانی رخ میدهد که شبکه اصلی بر روی مقادیر Q پیشبینیشده توسط خودش آموزش میدهد، جلوگیری میکنید. با اجتناب از این بازخورد، ثبات تمرین افزایش می یابد.
در یادگیری تقویتی ، شرایطی است که تعیین میکند چه زمانی یک قسمت به پایان میرسد، مانند زمانی که عامل به وضعیت خاصی میرسد یا از تعداد آستانه انتقال حالت فراتر میرود. به عنوان مثال، در tic-tac-toe (همچنین به عنوان noughts و crosses شناخته میشود)، یک قسمت زمانی خاتمه مییابد که بازیکن سه فاصله متوالی را علامتگذاری کند یا زمانی که همه فاصلهها علامتگذاری شوند.
در یادگیری تقویتی ، دنباله ای از تاپل ها است که دنباله ای از انتقال حالت عامل را نشان می دهد، که در آن هر تاپل مربوط به حالت، عمل ، پاداش و حالت بعدی برای یک انتقال حالت معین است.