این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

واژه نامه یادگیری ماشینی: یادگیری تقویتی

این صفحه شامل اصطلاحات واژه نامه یادگیری تقویتی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

عمل

#rl

در یادگیری تقویتی ، مکانیزمی است که توسط آن عامل بین حالات محیط انتقال می یابد. عامل با استفاده از یک خط مشی اقدام را انتخاب می کند.

عامل

#rl

در یادگیری تقویتی ، نهادی که از سیاستی برای به حداکثر رساندن بازده مورد انتظار حاصل از انتقال بین حالت های محیط استفاده می کند.

به طور کلی تر، یک عامل نرم افزاری است که به طور مستقل مجموعه ای از اقدامات را در تعقیب یک هدف، با توانایی سازگاری با تغییرات محیط خود، برنامه ریزی و اجرا می کند. به عنوان مثال، عوامل مبتنی بر LLM ممکن است از LLM برای تولید یک طرح استفاده کنند، به جای اعمال سیاست یادگیری تقویتی.

معادله بلمن

#rl

در یادگیری تقویتی، هویت زیر با تابع Q بهینه برآورده می شود:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

الگوریتم های یادگیری تقویتی این هویت را برای ایجاد یادگیری Q از طریق قانون به روز رسانی زیر اعمال می کنند:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

فراتر از یادگیری تقویتی، معادله بلمن در برنامه نویسی پویا کاربرد دارد. به مدخل ویکی پدیا برای معادله بلمن مراجعه کنید.

سی

منتقد

#rl

مترادف Deep Q-Network .

دی

Deep Q-Network (DQN)

#rl

در یادگیری Q ، یک شبکه عصبی عمیق که عملکردهای Q را پیش‌بینی می‌کند.

Critic مترادف Deep Q-Network است.

DQN

#rl

مخفف Deep Q-Network .

محیط

#rl

در یادگیری تقویتی، جهانی که عامل را در خود دارد و به عامل اجازه می دهد تا وضعیت آن جهان را مشاهده کند. به عنوان مثال، جهان نشان داده شده می تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند یک پیچ و خم باشد. هنگامی که عامل یک عمل را در محیط اعمال می کند، آنگاه محیط بین حالت ها تغییر می کند.

قسمت

#rl

در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط .

سیاست حریصانه اپسیلون

#rl

در یادگیری تقویتی، خط مشی ای است که یا از خط مشی تصادفی با احتمال اپسیلون پیروی می کند یا در غیر این صورت یک خط مشی حریصانه . به عنوان مثال، اگر اپسیلون 0.9 باشد، خط مشی در 90 درصد مواقع از خط مشی تصادفی و 10 درصد مواقع از خط مشی حریصانه پیروی می کند.

در طول اپیزودهای متوالی، الگوریتم ارزش اپسیلون را کاهش می دهد تا از پیروی از یک خط مشی تصادفی به پیروی از یک خط مشی حریصانه تبدیل شود. با تغییر خط مشی، عامل ابتدا به طور تصادفی محیط را کاوش می کند و سپس حریصانه از نتایج اکتشاف تصادفی سوء استفاده می کند.

تکرار را تجربه کنید

#rl

در یادگیری تقویتی، یک تکنیک DQN برای کاهش همبستگی های زمانی در داده های آموزشی استفاده می شود. عامل انتقال حالت ها را در یک بافر پخش مجدد ذخیره می کند و سپس انتقال ها را از بافر پخش مجدد برای ایجاد داده های آموزشی نمونه برداری می کند.

جی

سیاست حریصانه

#rl

در یادگیری تقویتی، خط مشی ای است که همیشه اقدامی را با بالاترین بازده مورد انتظار انتخاب می کند.

فرآیند تصمیم گیری مارکوف (MDP)

#rl

نموداری که نشان دهنده مدل تصمیم گیری است که در آن تصمیمات (یا اقدامات ) برای پیمایش دنباله ای از حالت ها با این فرض که خاصیت مارکوف وجود دارد، اتخاذ می شود. در یادگیری تقویتی ، این انتقال بین حالت ها یک پاداش عددی را برمی گرداند.

دارایی مارکوف

#rl

یک ویژگی از محیط های خاص، که در آن انتقال حالت به طور کامل توسط اطلاعات ضمنی در وضعیت فعلی و عملکرد عامل تعیین می شود.

خط مشی

#rl

در یادگیری تقویتی، نقشه‌برداری احتمالی یک عامل از حالت‌ها به اقدامات .

تابع Q

#rl

در یادگیری تقویتی ، تابعی است که بازده مورد انتظار از انجام یک اقدام در یک حالت و سپس پیروی از یک خط مشی معین را پیش بینی می کند.

تابع Q به عنوان تابع مقدار حالت-عمل نیز شناخته می شود.

یادگیری کیو

#rl

در یادگیری تقویتی ، الگوریتمی است که به عامل اجازه می دهد تا تابع Q بهینه فرآیند تصمیم گیری مارکوف را با استفاده از معادله بلمن یاد بگیرد. فرآیند تصمیم مارکوف یک محیط را مدل می کند.

آر

سیاست تصادفی

#rl

در یادگیری تقویتی ، خط مشی ای است که یک عمل را به طور تصادفی انتخاب می کند.

یادگیری تقویتی (RL)

#rl

خانواده ای از الگوریتم ها که یک خط مشی بهینه را یاد می گیرند و هدف آنها به حداکثر رساندن بازده در تعامل با یک محیط است. به عنوان مثال، پاداش نهایی اکثر بازی ها پیروزی است. سیستم‌های یادگیری تقویتی می‌توانند در انجام بازی‌های پیچیده با ارزیابی دنباله‌ای از حرکات بازی قبلی که در نهایت منجر به برد و دنباله‌هایی که در نهایت منجر به باخت می‌شوند، متخصص شوند.

یادگیری تقویتی از بازخورد انسانی (RLHF)

#تولید کننده هوش مصنوعی

#rl

استفاده از بازخورد ارزیابی‌کنندگان انسانی برای بهبود کیفیت پاسخ‌های یک مدل. به عنوان مثال، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با یک ایموجی 👍 یا 👎 ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.

بافر پخش مجدد

#rl

در الگوریتم‌های DQN مانند، حافظه‌ای که عامل برای ذخیره انتقال حالت برای استفاده در بازپخش تجربه استفاده می‌کند.

برگشت

#rl

در یادگیری تقویتی، با توجه به یک خط مشی خاص و یک وضعیت خاص، بازدهی مجموع تمام پاداش هایی است که عامل انتظار دارد هنگام دنبال کردن خط مشی از وضعیت تا پایان قسمت دریافت کند. عامل ماهیت تاخیری پاداش‌های مورد انتظار را با تنزیل پاداش‌ها با توجه به انتقال وضعیت مورد نیاز برای به دست آوردن پاداش محاسبه می‌کند.

بنابراین، اگر ضریب تخفیف $\gamma$باشد و $r_0, \ldots, r_{N}$نشان دهنده پاداش ها تا پایان قسمت باشد، محاسبه بازده به شرح زیر است:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

جایزه

#rl

در یادگیری تقویتی، نتیجه عددی انجام یک عمل در حالتی است که توسط محیط تعریف شده است.

اس

حالت

#rl

در یادگیری تقویتی، مقادیر پارامتری که پیکربندی فعلی محیط را توصیف می کند، که عامل برای انتخاب یک عمل از آنها استفاده می کند.

تابع مقدار حالت-عمل

#rl

مترادف تابع Q.

تی

یادگیری Q جدولی

#rl

در یادگیری تقویتی ، اجرای Q-learning با استفاده از یک جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عمل .

شبکه هدف

#rl

در Deep Q-learning ، یک شبکه عصبی که یک تقریب پایدار از شبکه عصبی اصلی است، که در آن شبکه عصبی اصلی یا یک تابع Q یا یک خط مشی را اجرا می کند. سپس، می توانید شبکه اصلی را بر روی مقادیر Q پیش بینی شده توسط شبکه هدف آموزش دهید. بنابراین، از حلقه بازخوردی که زمانی رخ می‌دهد که شبکه اصلی بر روی مقادیر Q پیش‌بینی‌شده توسط خودش آموزش می‌دهد، جلوگیری می‌کنید. با اجتناب از این بازخورد، ثبات تمرین افزایش می یابد.

شرط خاتمه

#rl

در یادگیری تقویتی ، شرایطی است که تعیین می‌کند چه زمانی یک قسمت به پایان می‌رسد، مانند زمانی که عامل به وضعیت خاصی می‌رسد یا از تعداد آستانه انتقال حالت فراتر می‌رود. به عنوان مثال، در tic-tac-toe (همچنین به عنوان noughts و crosses شناخته می‌شود)، یک قسمت زمانی خاتمه می‌یابد که بازیکن سه فاصله متوالی را علامت‌گذاری کند یا زمانی که همه فاصله‌ها علامت‌گذاری شوند.

خط سیر

#rl

در یادگیری تقویتی ، دنباله ای از تاپل ها است که دنباله ای از انتقال حالت عامل را نشان می دهد، که در آن هر تاپل مربوط به حالت، عمل ، پاداش و حالت بعدی برای یک انتقال حالت معین است.