Glossar zum maschinellen Lernen: Reinforcement Learning

Diese Seite enthält Glossarbegriffe zum Reinforcement Learning. Alle Glossarbegriffe finden Sie hier.

A

Aktion

#rl

Beim Reinforcement Learning der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.

Agent

#rl

Beim Bestärkendes Lernen die Entität, die eine Richtlinie verwendet, um die erwartete Rendite des Wechsels zwischen den Zuständen der Umgebung zu maximieren.

Im Allgemeinen ist ein Agent eine Software, die autonom eine Reihe von Aktionen zur Erreichung eines Ziels plant und ausführt und sich in der Lage ist, sich an Änderungen in der Umgebung anzupassen. Beispielsweise könnten LLM-basierte Agents das LMM verwenden, um einen Plan zu erstellen, anstatt eine Richtlinie für Reinforcement Learning anzuwenden.

B

Bellman-Gleichung

#rl

Beim Reinforcement Learning wird die folgende Identität durch die optimale Q-Funktion erfüllt:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Die Algorithmen des Reinforcement Learning wenden diese Identität über die folgende Aktualisierungsregel an, um Q-learning zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Neben Reinforcement Learning ist die Bellman-Gleichung auch auf die dynamische Programmierung anwendbar. Weitere Informationen finden Sie im Wikipedia-Eintrag zur Bellman-Gleichung.

C

Kritiker

#rl

Synonym für Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

In Q-learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.

Kritik ist ein Synonym für Deep Q-Network.

DQN

#rl

Abkürzung für Deep Q-Network

E

Umgebung

#rl

Beim Reinforcement Learning die Welt, die den Agent enthält und dem Agent die Beobachtung des Status dieser Welt ermöglicht. Die repräsentierte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.

Folge

#rl

Beim Reinforcement Learning jeder der wiederholten Versuche des Agents, eine Umgebung zu lernen.

Epsilon-Greedy-Richtlinie

#rl

Beim Reinforcement Learning eine Richtlinie, die entweder einer Zufallsrichtlinie mit Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn der Wert für Epsilon beispielsweise 0, 9 beträgt, dann folgt die Richtlinie in 90% der Fälle einer Zufallsrichtlinie und in 10% der Fälle einer Greedy-Richtlinie.

Über aufeinanderfolgende Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen Richtlinie hin eine gierige Richtlinie zu befolgen. Durch die Verschiebung der Richtlinie untersucht der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann gierig die Ergebnisse der zufälligen explorativen Datenanalyse aus.

Erneute Wiedergabe

#rl

Beim Reinforcement Learning wird ein DQN-Verfahren verwendet, um zeitliche Korrelationen in Trainingsdaten zu reduzieren. Der Agent speichert Zustandsübergänge in einem Wiederholungspuffer und probiert dann Übergänge aus dem Wiederholungspuffer aus, um Trainingsdaten zu erstellen.

G

Greedy-Richtlinie

#rl

Beim Reinforcement Learning eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rendite auswählt.

M

Markov-Entscheidungsprozess (MDP)

#rl

Diagramm, das das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) zum Navigieren durch eine Folge von Bundesstaaten unter der Annahme der Markov-Property getroffen werden. Beim Bestärkendes Lernen geben diese Übergänge zwischen Stadien eine numerische Prämie zurück.

Markov-Property

#rl

Eigenschaft bestimmter Umgebungen, bei denen Statusübergänge vollständig durch die Informationen im aktuellen Status und die Aktion des Agents bestimmt werden.

P

policy

#rl

Beim Reinforcement Learning die probabilistische Zuordnung eines Agents von Bundesstaaten zu Aktionen.

F

Q-Funktion

#rl

Beim Bestärkendes Lernen ist dies die Funktion, die die erwartete Rückgabe einer Aktion in einem Status und anschließendes Befolgen einer bestimmten Richtlinie vorhersagt.

Die Q-Funktion wird auch als Status-Aktionswert-Funktion bezeichnet.

Q-Learning

#rl

Reinforcement Learning, ein Algorithmus, mit dem ein Agent die optimale Q-Funktion eines Markov-Entscheidungsprozesses anhand der Bellman-Gleichung erlernt. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

R

Zufallsrichtlinie

#rl

Beim bestärkenden Lernen eine Richtlinie, die eine Aktion nach dem Zufallsprinzip auswählt.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie erlernen, deren Ziel darin besteht, bei der Interaktion mit einer Umgebung den Return zu maximieren. Die ultimative Belohnung der meisten Spiele ist beispielsweise der Sieg. Bestärkende Lernsysteme können zu Experten für komplexe Spiele werden, indem sie Sequenzen früherer Spielzüge bewerten, die schließlich zu Siegen und Sequenzen, die letztendlich zu Niederlagen führen, ausgewertet werden.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeKI
#rl

Das Feedback von Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Beispielsweise kann ein RLHF-Mechanismus Nutzer bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Anhand dieses Feedbacks kann das System dann seine zukünftigen Antworten anpassen.

Wiederholungspuffer

#rl

In DQN-ähnlichen Algorithmen der Arbeitsspeicher, der vom Agent zum Speichern von Statusübergängen zur Verwendung in der Erholung von Erfahrungen verwendet wird.

return

#rl

Beim Reinforcement Learning ist die Summe bei einer bestimmten Richtlinie und einem bestimmten Bundesstaat die Summe aller Belohnungen, die der Agent erhält, wenn er die Richtlinie vom Bundesstaat bis zum Ende der Folge befolgt. Der Agent berücksichtigt die Verzögerung erwarteter Prämien, indem er Prämien entsprechend den für den Erhalt der Prämie erforderlichen Statusumstellungen reduziert.

Wenn also der Rabattfaktor \(\gamma\)beträgt und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, wird die Rendite so berechnet:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

eine Belohnung

#rl

Beim Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.

S

state

#rl

Beim Reinforcement Learning die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, mit der der Agent eine Aktion auswählt.

State-Action-Wert-Funktion

#rl

Synonym für Q-Funktion.

T

Tabellarisches Q-Learning

#rl

Implementieren Sie beim bestärkenden Lernen Q-learning mithilfe einer Tabelle, in der die Q-Funktionen für jede Kombination aus Zustand und Aktion gespeichert werden.

Zielnetzwerk

#rl

In Deep Q-learning ein neuronales Netzwerk, das eine stabile Näherung des neuronalen Hauptnetzwerks ist, wobei das neuronale Hauptnetzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. Daher verhindern Sie die Feedbackschleife, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert. Durch das Vermeiden dieses Feedbacks erhöht sich die Stabilität des Trainings.

Kündigungsbedingung

#rl

Beim Bestärkendes Lernen werden die Bedingungen definiert, die bestimmen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Status erreicht oder einen Schwellenwert für Statusübergänge überschreitet. Bei Tic-Tac-Toe (auch als „Noughts“ und „Crosses“ bezeichnet) endet eine Folge entweder, wenn ein Spieler drei aufeinanderfolgende Leerzeichen markiert oder wenn alle Leerzeichen markiert sind.

Flugbahn

#rl

Beim Reinforcement Learning ist eine Folge von Tupeln, die eine Folge von Statusübergängen des Agents darstellen, wobei jedes Tupel dem Zustand, Aktion, Belohnung und dem nächsten Zustand für einen bestimmten Zustandsübergang entspricht.