Machine Learning Glossary

In diesem Glossar werden allgemeine Begriffe des maschinellen Lernens sowie spezifische Begriffe für TensorFlow definiert.

A

Ablation

Ein Verfahren zur Bewertung der Bedeutung eines Features oder einer Komponente durch vorübergehendes Entfernen aus einem Modell. Anschließend trainieren Sie das Modell ohne dieses Feature oder diese Komponente neu. Wenn das neu trainierte Modell deutlich schlechter abschneidet, war das entfernte Feature oder die entfernte Komponente wahrscheinlich wichtig.

Angenommen, Sie trainieren ein Klassifizierungsmodell für 10 Features und erreichen im Test-Dataset eine Genauigkeit von 88 %. Um die Wichtigkeit des ersten Features zu prüfen, können Sie das Modell nur mit den neun anderen Merkmalen neu trainieren. Wenn das neu trainierte Modell deutlich schlechter abschneidet (z. B. eine Genauigkeit von 55 %), war das entfernte Feature wahrscheinlich wichtig. Umgekehrt gilt: Wenn das neu trainierte Modell gleich gut funktioniert, wäre dieses Feature wahrscheinlich nicht so wichtig.

Ablation kann auch dabei helfen, die Bedeutung von:

  • Größere Komponenten, z. B. das gesamte Subsystem eines größeren ML-Systems
  • Prozesse oder Techniken, z. B. ein Schritt zur Datenvorverarbeitung

In beiden Fällen können Sie beobachten, wie sich die Systemleistung ändert (oder nicht ändert), nachdem Sie die Komponente entfernt haben.

A/B-Tests

Eine statistische Methode zum Vergleich von zwei (oder mehr) Techniken – dem A und dem B. Normalerweise ist A eine vorhandene Technik und B eine neue Technik. Mit A/B-Tests wird nicht nur ermittelt, welches Verfahren besser funktioniert, sondern auch, ob der Unterschied statistisch signifikant ist.

Bei A/B-Tests wird in der Regel ein einzelner Messwert für zwei Techniken verglichen. Wie lässt sich beispielsweise die Modellgenauigkeit bei zwei Techniken vergleichen? Bei A/B-Tests kann jedoch auch eine beliebige endliche Anzahl von Messwerten verglichen werden.

Beschleuniger-Chip

#GoogleCloud

Kategorie spezialisierter Hardwarekomponenten zur Durchführung wichtiger Berechnungen für Deep-Learning-Algorithmen.

Beschleunigerchips (oder kurz Beschleuniger) können die Geschwindigkeit und Effizienz von Trainings- und Inferenzaufgaben im Vergleich zu einer Allzweck-CPU erheblich erhöhen. Sie eignen sich ideal für das Training neuronaler Netzwerke und ähnliche rechenintensive Aufgaben.

Beispiele für Beschleuniger-Chips:

  • Tensor Processing Units (TPUs) von Google mit dedizierter Hardware für Deep Learning.
  • Die GPUs von NVIDIA, die ursprünglich für die Grafikverarbeitung entwickelt wurden, ermöglichen eine parallele Verarbeitung, die die Verarbeitungsgeschwindigkeit erheblich erhöhen kann.

Genauigkeit

#fundamentals

Die Anzahl der Vorhersagen für die korrekte Klassifizierung geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das 40 richtige und 10 falsche Vorhersagen getroffen hat, hat beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die Binärklassifizierung liefert spezifische Namen für die verschiedenen Kategorien richtiger Vorhersagen und falscher Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung lautet also wie folgt:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen Sie die Genauigkeit mit Precision und Recall.

Aktion

#rl

Beim bestärkenden Lernen der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke nicht lineare (komplexe) Beziehungen zwischen Features und dem Label lernen können.

Beliebte Aktivierungsfunktionen sind:

Die Diagramme von Aktivierungsfunktionen sind niemals gerade Linien. Beispielsweise besteht das Diagramm der ReLU-Aktivierungsfunktion aus zwei geraden Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0, der entlang der x-Achse von -unfinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, geschwungenes Diagramm mit x-Werten, die die Domain von -unendlich bis +positiv abdecken, während y-Werte einen Bereich von fast 0 bis fast 1 umfassen. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung 0,0,5 beträgt.Die Steigung nimmt allmählich ab, wenn der absolute Wert von x ansteigt.

aktives Lernen

Ein Trainingsansatz, bei dem der Algorithmus einige der Daten auswählt, aus denen er lernt. Aktives Lernen ist besonders nützlich, wenn Beispiele mit Labels knapp oder teuer zu beschaffen sind. Anstatt blind nach einer Vielzahl von Beispielen mit Labels zu suchen, sucht ein aktiver Lernalgorithmus selektiv nach dem bestimmten Bereich von Beispielen, die zum Lernen benötigt werden.

AdaGrad

Einen ausgefeilten Algorithmus für den Gradientenabstieg, der die Gradienten jedes Parameters neu skaliert und jedem Parameter effektiv eine unabhängige Lernrate zuweist. Eine ausführliche Erläuterung finden Sie in diesem AdaGrad-Dokument.

Agent

#rl

Beim bestärkenden Lernen die Entität, die eine Richtlinie verwendet, um die erwartete Rendite zu maximieren, die aus dem Wechsel zwischen Zuständen der Umgebung erzielt wird.

Im Allgemeinen ist ein Agent Software, die automatisch eine Reihe von Aktionen zur Verfolgung eines Ziels plant und ausführt und sich an Änderungen in der Umgebung anpasst. Beispielsweise können LLM-basierte Agents das LLM verwenden, um einen Plan zu erstellen, anstatt eine Richtlinie für Reinforcement Learning anzuwenden.

Agglomeratives Clustering

#clustering

Siehe Hierarchisches Clustering.

Anomalieerkennung

Prozess der Identifizierung von Ausreißern. Wenn der Mittelwert für ein bestimmtes Feature beispielsweise 100 mit einer Standardabweichung von 10 beträgt, sollte die Anomalieerkennung einen Wert von 200 als verdächtig markieren.

AR

Abkürzung für Augmented Reality.

Bereich unter der PR-Kurve

Siehe PR AUC (Area under the PR Curve).

Bereich unter der ROC-Kurve

Siehe AUC (Bereich unter der ROC-Kurve).

künstliche allgemeine Intelligenz

Ein nicht menschlicher Mechanismus, der ein breites Spektrum an Problemlösung, Kreativität und Anpassungsfähigkeit demonstriert. Ein Programm, das künstliche Intelligenz demonstriert, könnte beispielsweise Text übersetzen, Symphonien komponieren und sich bei Spielen durchsetzen, die noch nicht erfunden wurden.

künstliche Intelligenz

#fundamentals

Ein nicht-menschliches Programm oder model, das komplexe Aufgaben lösen kann. Beispielsweise ist ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten in radiologischen Bildern identifiziert, beide mit künstlicher Intelligenz.

Formal ist maschinelles Lernen ein Teilbereich der künstlichen Intelligenz. In den letzten Jahren haben einige Unternehmen jedoch damit begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

aufmerksamkeit

#language

Mechanismus in einem neuronalen Netzwerk, der die Bedeutung eines bestimmten Wortes oder Teils eines Worts angibt. Attention komprimiert die Menge an Informationen, die ein Modell benötigt, um das nächste Token/Wort vorherzusagen. Ein typischer Aufmerksamkeitsmechanismus kann aus einer gewichteten Summe über eine Reihe von Eingaben bestehen, wobei die Gewichtung für jede Eingabe von einem anderen Teil des neuronalen Netzwerks berechnet wird.

Weitere Informationen finden Sie unter Selbstaufmerksamkeit und Mehrkopf-Selbstaufmerksamkeit, die die Bausteine von Transformer sind.

Attribut

#fairness

Synonym für feature.

Bei der Fairness beim maschinellen Lernen beziehen sich Attribute häufig auf Eigenschaften, die Einzelpersonen betreffen.

Stichprobenerhebung für Attribute

#df

Taktik zum Trainieren einer Entscheidungsstruktur, bei der jeder Entscheidungsbaum beim Erlernen der Bedingung nur eine zufällige Teilmenge möglicher Features berücksichtigt. In der Regel wird für jeden Knoten eine andere Teilmenge von Features abgefragt. Im Gegensatz dazu werden beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling alle möglichen Merkmale für jeden Knoten berücksichtigt.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die die Fähigkeit eines binären Klassifizierungsmodells darstellt, positive Klassen von negativen Klassen zu trennen. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (lila Rechtecken) trennt. Dieses unrealistisch perfekte Modell hat eine AUC von 1,0:

Eine Zahlengerade mit 8 positiven Beispielen auf einer Seite und 9 negativen Beispielen auf der anderen Seite.

Umgekehrt zeigt die folgende Abbildung die Ergebnisse für ein Klassifikatormodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Sequenz der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen zwei Extremen. Zum Beispiel trennt das folgende Modell Positive von negativen Werten etwas, sodass eine AUC irgendwo zwischen 0,5 und 1,0 liegt:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Sequenz der Beispiele ist negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

AUC ignoriert alle Werte, die Sie für den Klassifizierungsschwellenwert festgelegt haben. Stattdessen berücksichtigt AUC alle möglichen Klassifizierungsschwellenwerte.

augmented reality

#image

Eine Technologie, die ein computergeneriertes Bild über die Sicht eines Nutzers auf die reale Welt blendet und so eine zusammengesetzte Ansicht liefert.

Autoencoder

#language
#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und Decodierer. Autoencoder basieren auf dem folgenden zweistufigen Prozess:

  1. Der Encoder ordnet die Eingabe einem (in der Regel verlustbehafteten) niedrigdimensionalen (Zwischen)format zu.
  2. Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigdimensionale Format dem ursprünglichen, höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden durchgängig trainiert, indem sie versuchen, die ursprüngliche Eingabe aus dem Zwischenformat des Encoders so genau wie möglich zu rekonstruieren. Da das Zwischenformat kleiner (niedrigerer Dimension) als das Originalformat ist, ist der Autoencoder gezwungen zu lernen, welche Informationen in der Eingabe wichtig sind. Die Ausgabe ist dann nicht exakt mit der Eingabe identisch.

Beispiel:

  • Wenn es sich bei den Eingabedaten um eine Grafik handelt, ähnelt die nicht exakte Kopie der Originalgrafik, könnte aber etwas abgeändert werden. Vielleicht werden bei der ungenauen Kopie Rauschen aus der Originalgrafik entfernt oder einige fehlende Pixel eingefügt.
  • Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der den Originaltext nachahmt (aber nicht damit identisch ist).

Weitere Informationen finden Sie unter Variative Autoencoder.

Automatisierungsverzerrung

#fairness

Wenn ein menschlicher Entscheidungsträger Empfehlungen eines automatisierten Entscheidungssystems gegenüber Informationen ohne Automatisierung bevorzugt, auch wenn das automatisierte Entscheidungssystem Fehler macht.

AutoML

Jeder automatisierte Prozess zum Erstellen von Modellen für maschinelles Lernen. AutoML kann z. B. automatisch die folgenden Aufgaben ausführen:

  • Suchen Sie nach dem Modell, das am besten geeignet ist.
  • Stimmen Sie Hyperparameter ab.
  • Daten vorbereiten (einschließlich Feature Engineering)
  • Stellen Sie das resultierende Modell bereit.

AutoML ist für Data Scientists nützlich, da es ihnen bei der Entwicklung von ML-Pipelines Zeit und Aufwand ersparen und die Vorhersagegenauigkeit verbessern kann. Es ist auch für Laien nützlich, da es komplizierte ML-Aufgaben für sie leichter zugänglich macht.

automatisch regressives Modell

#language
#image
#generativeKI

Ein model, das eine Vorhersage anhand seiner eigenen vorherigen Vorhersagen leitet. Automatisch regressive Sprachmodelle sagen beispielsweise das nächste Token basierend auf den zuvor vorhergesagten Tokens voraus. Alle Transformer-basierten Large Language Models sind automatisch regressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle normalerweise nicht automatisch regressiv, da sie ein Bild in einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritten generieren. Bestimmte Bildgenerierungsmodelle sind jedoch automatisch regressiv, da sie das Bild schrittweise generieren.

Hilfsverlust

Eine Verlustfunktion, die in Verbindung mit der Hauptverlustfunktion eines neuronalen Netzwerks Modells verwendet wird und dazu beiträgt, das Training während der frühen Iterationen zu beschleunigen, wenn Gewichtungen zufällig initialisiert werden.

Hilfsverlustfunktionen übertragen effektive Verläufe an die früheren Ebenen. Dies erleichtert die Konvergenz während des Trainings, da das Problem mit dem Gradientenverschwinden beseitigt wird.

durchschnittliche Precision

Messwert zum Zusammenfassen der Leistung einer Rangfolge von Ergebnissen. Zur Berechnung der durchschnittlichen Precision wird der Durchschnitt der depth-Werte für jedes relevante Ergebnis berechnet (jedes Ergebnis in der Rangliste, in der sich der Recall im Verhältnis zum vorherigen Ergebnis erhöht).

Siehe auch Fläche unter der PR-Kurve.

Achsenausrichtung

#df

In einem Entscheidungsbaum eine Bedingung, die nur ein einziges Feature umfasst. Wenn die Fläche beispielsweise ein Element ist, lautet die Bedingung für die Achsenausrichtung:

area > 200

Kontrast zur schrägen Bedingung

B

Rückpropagierung

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzwerks beinhaltet viele Iterationen des folgenden Zyklus mit zwei Durchläufen:

  1. Während der Vorwärtsterminierung verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu erhalten. Das System vergleicht jede Vorhersage mit jedem label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust in diesem Beispiel. Das System aggregiert die Verluste für alle Beispiele, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während der Rückwärtspropagierung (Rückpropagierung) reduziert das System den Verlust, da die Gewichtung aller Neuronen in allen verborgenen Schichten angepasst wird.

Neuronale Netzwerke umfassen oft viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die auf bestimmte Neuronen angewendeten Gewichtungen erhöht oder verringert werden sollen.

Die Lernrate ist ein Multiplikator, der den Grad steuert, um den die Gewichtung bei jedem Rückwärtsgang erhöht oder verringert wird. Eine große Lernrate erhöht oder verringert jede Gewichtung mehr als eine geringe Lernrate.

In rechnerischer Hinsicht implementiert die Rückpropagierung die Kettenregel aus Kalkulation. Das heißt, bei der Rückpropagierung wird die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet.

Vor Jahren mussten ML-Anwender Code schreiben, um die Rückpropagierung zu implementieren. Moderne ML-APIs wie TensorFlow implementieren jetzt die Rückpropagierung für Sie. Geschafft!

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes einzelne Modell mit einer zufälligen Teilmenge von Trainingsbeispielen trainiert wird, die mit Ersatzstichproben erfasst wurden. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Bagging steht für Aggregating von Schnürsenkeln.

Bag of Words

#language

Darstellung der Wörter in einer Wortgruppe oder Passage, unabhängig von deren Reihenfolge. Beispielsweise stellt eine Bag of Words die folgenden drei Sätze identisch dar:

  • Der Hund springt
  • springt den Hund
  • Hund springt

Jedes Wort wird einem Index in einem dünnen Vektor zugeordnet, wobei der Vektor einen Index für jedes Wort im Vokabular hat. Beispielsweise wird der Ausdruck der Hund springt einem Featurevektor mit Werten ungleich null in den drei Indexen zugeordnet, die den Wörtern the, dog und jumps entsprechen. Bei einem Wert ungleich null kann es sich um einen der folgenden Werte handeln:

  • Eine 1, die angibt, dass ein Wort vorhanden ist.
  • Gibt an, wie oft ein Wort in einer Tasche erscheint. Wenn die Formulierung beispielsweise the kastanthund ist ein Hund mit kastanienbraunem Fell lautet, würden sowohl maroon als auch dog als 2 dargestellt und die anderen Wörter als 1.
  • Ein anderer Wert, z. B. der Logarithmus der Häufigkeit, mit der ein Wort in einem Paket vorkommt.

baseline

Ein model, das als Bezugspunkt zum Vergleich der Leistung eines anderen (in der Regel komplexeren) Modells verwendet wird. Ein logistisches Regressionsmodell kann beispielsweise als gute Referenz für ein tiefes Modell dienen.

Bei einem bestimmten Problem hilft die Referenz Modellentwicklern dabei, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

Batch

#fundamentals

Die Beispiele, die in einer Trainingsdurchlaufphase verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Wie sich ein Batch auf eine Epoche bezieht, wird unter Epoche erläutert.

Batch-Inferenz

#TensorFlow
#GoogleCloud

Der Prozess des Ableitens von Vorhersagen für mehrere Beispiele ohne Label, unterteilt in kleinere Teilmengen („Batches“).

Für die Batchinferenz können die Parallelisierungsfeatures von Beschleuniger-Chips genutzt werden. Das heißt, mehrere Beschleuniger können gleichzeitig Vorhersagen für verschiedene Batches von Beispielen ohne Label ableiten, wodurch die Anzahl der Inferenzen pro Sekunde drastisch erhöht wird.

Batchnormalisierung

Normalisierung der Ein- und Ausgabe der Aktivierungsfunktionen in einer verborgenen Ebene Die Batchnormalisierung bietet folgende Vorteile:

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden sind beliebte Strategien für die Batchgröße aufgeführt:

  • Stochastic Gradient Descent (SGD) mit einer Batchgröße von 1.
  • Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainings-Dataset entspricht. Wenn das Trainings-Dataset beispielsweise eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist normalerweise eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000 liegt. Mini-Batches sind normalerweise die effizienteste Strategie.

Bayessches neuronales Netzwerk

Ein probabilistisches neuronales Netzwerk, das Unsicherheit in Gewichtungen und Ausgaben berücksichtigt. Ein Regressionsmodell für ein neuronales Standardnetzwerk prognostiziert normalerweise einen skalaren Wert. Ein Standardmodell prognostiziert beispielsweise einen Hauspreis von 853.000. Im Gegensatz dazu prognostiziert ein Bayes'sches neuronales Netzwerk eine Verteilung von Werten. Beispielsweise prognostiziert ein bayessches Modell einen Hauspreis von 853.000 mit einer Standardabweichung von 67.200.

Ein Bayes'sches neuronales Netzwerk stützt sich auf den Bayesschen Satz, um Unsicherheiten in Gewichtungen und Vorhersagen zu berechnen. Ein Bayes'sches neuronales Netzwerk kann nützlich sein, wenn es wichtig ist, Unsicherheit zu quantifizieren, beispielsweise bei Modellen für Arzneimittel. Bayessche neuronale Netzwerke können auch dazu beitragen, eine Überanpassung zu vermeiden.

Bayes'sche Optimierung

Verfahren eines probabilistischen Regressionsmodells zur Optimierung rechenintensiver Zielfunktionen. Stattdessen wird ein Ersatzwert optimiert, der die Unsicherheit mithilfe eines bayesschen Lernverfahrens quantifiziert. Da die Bayes'sche Optimierung selbst sehr teuer ist, wird sie in der Regel verwendet, um kostenintensive Aufgaben zu optimieren, die eine kleine Anzahl von Parametern haben, z. B. die Auswahl von Hyperparametern.

Bellman-Gleichung

#rl

Beim Reinforcement Learning die folgende Identität, die von der optimalen Q-Funktion erfüllt wird:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorithmen für Reinforcement Learning wenden diese Identität an, um Q-Learning anhand der folgenden Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Die Bellman-Gleichung kann nicht nur für bestärkendes Lernen verwendet werden, sondern auch für die dynamische Programmierung. Weitere Informationen finden Sie im Wikipedia-Eintrag zur Bellman-Gleichung.

BERT (Bidirektionale Encoder-Darstellungen von Transformers)

#language

Eine Modellarchitektur für die Textdarstellung. Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für die Textklassifizierung oder andere ML-Aufgaben fungieren.

BERT hat die folgenden Eigenschaften:

Zu den BERT-Varianten gehören:

Eine Übersicht über BERT finden Sie unter BERT für Open Sourcing: hochmodernes Pre-Training für Natural Language Processing.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Vorurteile, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Voreingenommenheiten können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Interaktion der Nutzer mit einem System auswirken. Zu diesen Formen von Verzerrungen gehören:

2. Systematischer Fehler, der durch eine Stichproben- oder Meldemethode verursacht wird. Zu diesen Formen von Verzerrungen gehören:

Nicht zu verwechseln mit dem Begriff in ML-Modellen oder der Vorhersageverzerrung.

Verzerrung (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Versatz von einem Ursprung. Verzerrung ist ein Parameter in Modellen für maschinelles Lernen, der durch eines der folgenden Elemente symbolisiert wird:

  • b
  • W0

Verzerrungen sind beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet Verzerrung einfach "y-Achsenabschnitt". Die Verzerrung der Linie in der folgenden Abbildung beträgt beispielsweise 2.

Diagramm einer Geraden mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Verzerrung liegt vor, weil nicht alle Modelle am Ursprung (0,0) beginnen. Beispiel: Ein Freizeitpark kostet 2 € und für jede Stunde, die ein Kunde übernachtet, weitere 0,5 €. Daher hat ein Modell, das die Gesamtkosten zuordnet, eine Verzerrung von 2, da die niedrigsten Kosten 2 € betragen.

Voreingenommenheit ist nicht zu verwechseln mit Voreingenommenheit in Bezug auf Ethik und Fairness oder Vorhersageverzerrungen.

bidirektional

#language

Begriff zur Beschreibung eines Systems, das den Text auswertet, der sowohl vorangegangen als auch nach einem Zieltextabschnitt folgt. Im Gegensatz dazu wertet ein unidirektionales System nur den Text aus, der einem Zieltextabschnitt vorher ist.

Nehmen wir als Beispiel ein maskiertes Sprachmodell, das in der folgenden Frage Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen muss, die den Unterstrich darstellen:

Was ist _____ bei dir?

Ein unidirektionales Sprachmodell müsste seine Wahrscheinlichkeiten nur auf dem Kontext stützen, der von den Wörtern "Was", "ist" und "der" bereitgestellt wird. Im Gegensatz dazu könnte ein bidirektionales Sprachmodell auch Kontext von „mit“ und „Sie“ erhalten, was dem Modell helfen kann, bessere Vorhersagen zu generieren.

Bidirektionales Sprachmodell

#language

Ein Sprachmodell, das auf Basis des vorherigen und folgenden Textes die Wahrscheinlichkeit bestimmt, dass ein bestimmtes Token an einer bestimmten Stelle in einem Textauszug vorhanden ist.

Bigram

#seq
#language

Ein N-Gramm mit N=2.

Binäre Klassifizierung

#fundamentals

Eine Art der Klassifizierungsaufgabe, die eine von zwei sich gegenseitig ausschließende Klassen vorhersagt:

Die folgenden beiden ML-Modelle führen beispielsweise jeweils eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mail-Nachrichten Spam (positive Klasse) oder kein Spam (negative Klasse) sind.
  • Ein Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person eine bestimmte Krankheit (die positive Klasse) oder nicht diese Krankheit hat (die negative Klasse).

Im Kontrast zur Klassifizierung mit mehreren Klassen stehen.

Siehe auch logistische Regression und Klassifizierungsschwellenwert.

Binärbedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel yes oder no. Das folgende Beispiel ist eine binäre Bedingung:

temperature >= 100

Im Kontrast zur nicht binären Bedingung stehen.

Gruppieren

Synonym für bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Wert zwischen 0, 0 und einschließlich 1, 0, der die Qualität einer Übersetzung zwischen zwei menschlichen Sprachen (z.B.zwischen Englisch und Russisch) angibt. Ein BLEU-Wert von 1,0 zeigt eine perfekte Übersetzung an, ein BLEU-Wert von 0,0 auf eine schlechte Übersetzung.

Boosting

Verfahren des maschinellen Lernens, das eine Reihe einfacher und nicht sehr genauer Klassifikatoren (sogenannte schwache Klassifikatoren genannt) iterativ zu einem Klassifikator mit hoher Genauigkeit (einem „starken“ Klassifikator) kombiniert, indem die Beispiele, die das Modell derzeit falsch klassifiziert, hochgeskaliert werden.

Begrenzungsrahmen

#image

In einem Bild die Koordinaten (x, y) eines Rechtecks um einen Bereich von Interesse, wie den Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen mit den Koordinaten (275, 1271) oben links und den Koordinaten (2954, 2761) unten rechts grenzt den Körper des Hundes um.

Broadcasting

Erweiterung der Form eines Operanden in einer mathematischen Matrixoperation auf Dimensionen, die für diese Operation kompatibel sind. Bei der linearen Algebra müssen beispielsweise die beiden Operanden in einer Matrixaddierung die gleichen Maße haben. Folglich können Sie keine Matrix der Form (m, n) zu einem Vektor der Länge n hinzufügen. Broadcasting ermöglicht diesen Vorgang, indem der Vektor der Länge n virtuell auf eine Matrix der Form (m, n) erweitert wird, indem dieselben Werte in jeder Spalte nach unten repliziert werden.

Angesichts der folgenden Definitionen verbietet die lineare Algebra beispielsweise A+B, da A und B unterschiedliche Dimensionen haben:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Broadcasting ermöglicht jedoch die Operation A+B durch die virtuelle Erweiterung von B auf:

 [[2, 2, 2],
  [2, 2, 2]]

Daher ist A+B jetzt eine gültige Operation:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Weitere Informationen finden Sie in der folgenden Beschreibung der Übertragung in NumPy.

Bucketing

#fundamentals

Konvertieren eines einzelnen Merkmals in mehrere binäre Merkmale, die als Buckets oder bins bezeichnet werden, in der Regel auf der Grundlage eines Wertebereichs. Das ausgewählte Element ist in der Regel ein kontinuierliches Element.

Anstatt die Temperatur als einzelnes kontinuierliches Gleitkommaelement darzustellen, können Sie beispielsweise Temperaturbereiche in separate Buckets aufteilen, z. B.:

  • <= 10 Grad Celsius wäre der „kalte“ Bucket.
  • 11 bis 24 °C wäre der „gemäße“-Bucket.
  • >= 25 Grad Celsius wäre der „warme“ Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Beispielsweise befinden sich die Werte 13 und 22 beide im gemäßigten Bucket, sodass das Modell die beiden Werte gleich behandelt.

C

Kalibrierungsschicht

Eine Anpassung nach der Vorhersage, in der Regel zur Berücksichtigung von Vorhersageverzerrungen. Die angepassten Vorhersagen und Wahrscheinlichkeiten sollten der Verteilung eines beobachteten Satzes von Labels entsprechen.

Kandidatengenerierung

#recsystems

Der erste Satz Empfehlungen, die von einem Empfehlungssystem ausgewählt wurden. Nehmen wir z. B. einen Buchladen mit 100.000 Titeln. In der Phase der Kandidatenerstellung wird eine viel kleinere Liste geeigneter Bücher für einen bestimmten Nutzer erstellt, z. B. 500. Aber selbst 500 Bücher sind viel zu viele, um sie einem Nutzer zu empfehlen. Nachfolgende, teurere Phasen eines Empfehlungssystems (z. B. Bewertung und Neurangierung) reduzieren diese 500 auf einen viel kleineren, nützlicheren Satz von Empfehlungen.

Stichprobenerhebung bei Kandidaten

Optimierung während der Trainingszeit, die eine Wahrscheinlichkeit für alle positiven Labels berechnet, beispielsweise unter Verwendung von Softmax, aber nur für eine Zufallsstichprobe negativer Labels. Beim Beispiel mit den Bezeichnungen beagle und dog werden bei der Kandidatenstichprobe die vorhergesagten Wahrscheinlichkeiten und die entsprechenden Verlustbegriffe für Folgendes berechnet:

  • Beagle
  • Hund
  • Eine zufällige Teilmenge der verbleibenden negativen Klassen (z. B. cat, lollipop, fence).

Die Idee dahinter ist, dass die negativen Klassen aus weniger häufig negativer Verstärkung lernen können, solange die positiven Klassen immer eine ordnungsgemäß positive Verstärkung erhalten. Dies wird tatsächlich empirisch beobachtet.

Die Stichprobennahme ist recheneffizienter als Trainingsalgorithmen, die Vorhersagen für alle negativen Klassen berechnen, insbesondere wenn die Anzahl der negativen Klassen sehr groß ist.

Kategorische Daten

#fundamentals

Elemente mit einem bestimmten Satz möglicher Werte. Nehmen wir als Beispiel ein kategoriales Feature mit dem Namen traffic-light-state, das nur einen der folgenden drei möglichen Werte haben kann:

  • red
  • yellow
  • green

Durch die Darstellung von traffic-light-state als kategoriales Merkmal kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrverhalten lernen.

Kategorische Merkmale werden manchmal als diskrete Merkmale bezeichnet.

Einen Kontrast zu numerischen Daten

kausales Language Model

#language

Synonym für unidirektionales Sprachmodell.

Informationen zum Kontrast zwischen verschiedenen Richtungsansätzen bei der Sprachmodellierung finden Sie unter bidirektionales Sprachmodell.

Schwerpunkt

#clustering

Der Mittelpunkt eines Clusters, der durch einen k-Means- oder k-median-Algorithmus festgelegt wird. Wenn beispielsweise k 3 ist, findet der k-Means- oder k-Median-Algorithmus 3 Schwerpunkte.

Schwerpunktbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die Daten in nicht hierarchischen Clustern organisieren. k-Means ist der am häufigsten verwendete zentroidbasierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen.

Chain-of-Thought Prompting

#language
#generativeKI

Prompt Engineering, bei der ein Large Language Model (LLM) dazu animiert wird, seine Gründe Schritt für Schritt zu erklären. Betrachten Sie beispielsweise den folgenden Prompt und achten Sie dabei besonders auf den zweiten Satz:

Wie viele g-Kräfte würde ein Fahrer in einem Auto erleben, das in 7 Sekunden von 0 auf 60 Meilen pro Stunde fährt? Zeigen Sie in der Antwort alle relevanten Berechnungen an.

Die Antwort des LLM würde wahrscheinlich:

  • Zeigen Sie eine Reihe physikalischer Formeln, wobei Sie die Werte 0, 60 und 7 an der richtigen Stelle einfügen.
  • Erklären Sie, warum diese Formeln gewählt wurden und was die verschiedenen Variablen bedeuten.

Eine Denkkette zwingt das LLM, alle Berechnungen durchzuführen, was zu einer richtigeren Antwort führen kann. Darüber hinaus können Nutzer mithilfe von Chain-of-Though-Prompts die Schritte des LLM prüfen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#language
#generativeKI

Inhalt eines wechselseitigen Dialogs mit einem ML-System, in der Regel ein Large Language Model. Die vorherige Interaktion in einem Chat (was Sie eingegeben haben und wie das Large Language Model geantwortet hat) wird zum Kontext für nachfolgende Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Model.

checkpoint

Daten, die den Status der Parameter eines Modells bei einem bestimmten Trainingsdurchlauf erfassen. Prüfpunkte ermöglichen das Exportieren von Modellgewichtungen oder das Ausführen von Trainings über mehrere Sitzungen hinweg. Prüfpunkte ermöglichen auch das Training früherer Fehler (z. B. Jobpräemption).

Bei der Feinabstimmung ist der Ausgangspunkt für das Training des neuen Modells ein bestimmter Prüfpunkt des vortrainierten Modells.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und nicht eine Klasse vorher.

Klassifizierungsmodell

#fundamentals

Ein model, dessen Vorhersage eine model ist. Im Folgenden finden Sie alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Maple? Oak? Affenbrot?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte Erkrankung vorhersagt.

Im Gegensatz dazu sagen Regressionsmodelle Zahlen statt Klassen voraus.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage entweder der positiven Klasse oder der negativen Klasse umwandelt. Beachten Sie, dass der Klassifizierungsschwellenwert ein Wert ist, den ein Mensch auswählt, und kein Wert, der durch das Modelltraining ausgewählt wird.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert kleiner als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts beeinflusst die Anzahl der falsch positiven und falsch negativen Ergebnisse erheblich.

Dataset mit klassenunausgeglichenem Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem sich die Gesamtzahl der Labels jeder Klasse erheblich unterscheidet. Nehmen wir als Beispiel ein binäres Klassifizierungs-Dataset, dessen zwei Labels wie folgt aufgeteilt sind:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1, sodass dies ein Dataset ohne Klassenungleichgewicht ist.

Im Gegensatz dazu ist das folgende Dataset nicht klassenungleichmäßig, da das Verhältnis von negativen Labels zu positiven Labels relativ nahe bei 1 liegt:

  • 517 ausschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch klassenunausgewogen sein. Beispielsweise ist das folgende Klassifizierungs-Dataset mit mehreren Klassen ebenfalls klassenunausgewogen, da ein Label weit mehr Beispiele als die anderen beiden enthält:

  • 1.000.000 Labels mit der Klasse „green“
  • 200 Labels mit der Klasse „lila“
  • 350 Labels mit der Klasse „orange“

Siehe auch Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch eine oder beide der folgenden Aktionen:

  • Reduzieren von feature-Werten, die über einem maximalen Schwellenwert liegen, auf diesen maximalen Schwellenwert.
  • Erhöhen von Featurewerten, die unter einem Mindestschwellenwert liegen, bis zu diesem Mindestgrenzwert.

Angenommen, < 0,5% der Werte für ein bestimmtes Feature liegen außerhalb des Bereichs 40–60. In diesem Fall könnten Sie so vorgehen:

  • Alle Werte über 60 (der maximale Schwellenwert) werden auf genau 60 reduziert.
  • Alle Werte unter 40 (die Mindestgrenze) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal dazu führen, dass Gewichte während des Trainings überlaufen. Einige Ausreißer können Messwerte wie die Genauigkeit auch drastisch beeinträchtigen. Das Abschneiden ist eine gängige Methode, um den Schaden zu begrenzen.

Mit der Gradientenklimmung werden während des Trainings Gradientenwerte innerhalb eines festgelegten Bereichs erzwungen.

Cloud TPU

#TensorFlow
#GoogleCloud

Ein spezieller Hardwarebeschleuniger zum Beschleunigen von ML-Arbeitslasten in Google Cloud.

Clustering

#clustering

Gruppieren verwandter Beispiele, insbesondere beim unüberwachten Lernen Sobald alle Beispiele gruppiert sind, kann ein Mensch jedem Cluster optional Bedeutung verleihen.

Es gibt viele Clustering-Algorithmen. Der k-Means-Algorithmus Cluster beispielsweise anhand ihrer Nähe zu einem Schwerpunkt, wie im folgenden Diagramm:

Ein zweidimensionales Diagramm, in dem die x-Achse mit der Baumbreite und die y-Achse mit der Baumhöhe beschriftet sind. Die Grafik enthält zwei Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die einem Schwerpunkt am nächsten sind, werden als Cluster 1 kategorisiert, während die Datenpunkte, die dem anderen Schwerpunkt am nächsten sind, als Cluster 2 kategorisiert werden.

Ein menschlicher Forscher könnte dann die Cluster überprüfen und beispielsweise Cluster 1 als „Zwergbäume“ und Cluster 2 mit „Bäume in voller Größe“ kennzeichnen.

Nehmen wir als weiteres Beispiel einen Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert:

Dutzende Datenpunkte sind in konzentrischen Kreisen angeordnet, die fast wie Löcher um die Mitte einer Dartscheibe herum angeordnet sind. Der innerste Ring der Datenpunkte wird als Cluster 1 kategorisiert, der mittlere Ring wird als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

Co-Anpassung

Wenn Neuronen Muster in Trainingsdaten vorhersagen, indem sie sich fast ausschließlich auf die Ausgaben bestimmter anderer Neuronen verlassen, anstatt auf das Verhalten des Netzwerks als Ganzes. Wenn die Muster, die eine Co-Anpassung verursachen, in den Validierungsdaten nicht vorhanden sind, führt die Co-Anpassung zu einer Überanpassung. Die Dropout-Regularisierung reduziert die Co-Anpassung, da das Dropout dafür sorgt, dass Neuronen sich nicht nur auf bestimmte andere Neuronen verlassen können.

kollaboratives Filtern

#recsystems

Vorhersagen zu den Interessen eines Nutzers basierend auf den Interessen vieler anderer Nutzer treffen. Das kollaborative Filtern wird häufig in Empfehlungssystemen verwendet.

Konzeptabweichung

Eine Verschiebung in der Beziehung zwischen Elementen und dem Label. Im Laufe der Zeit verringert eine Konzeptabweichung die Qualität eines Modells.

Während des Trainings lernt das Modell die Beziehung zwischen den Features und ihren Labels im Trainings-Dataset. Wenn die Labels im Trainings-Dataset gute Proxys für die reale Welt sind, sollte das Modell gute Vorhersagen in der realen Welt treffen. Aufgrund von Konzeptabweichungen neigen die Vorhersagen des Modells jedoch im Laufe der Zeit dazu, sich zu verschlechtern.

Betrachten Sie beispielsweise ein binäres Klassifizierungsmodell, das vorhersagt, ob ein bestimmtes Automodell „kraftstoffeffizient“ ist oder nicht. Mögliche Funktionen:

  • Fahrzeuggewicht
  • Motorkompressung
  • Übertragungstyp

Das Label ist entweder:

  • spritsparend
  • nicht spritsparend

Das Konzept des „kraftstoffsparenden Autos“ ändert sich jedoch immer wieder. Ein Automodell mit dem Label Kraftstoffeffizienz im Jahr 1994 würde 2024 mit hoher Wahrscheinlichkeit als nicht kraftstoffsparend gekennzeichnet werden. Ein Modell, das unter Konzeptabweichungen leidet, macht im Laufe der Zeit immer weniger nützliche Vorhersagen.

Vergleichen Sie sie mit der Instationarität.

Bedingung

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und (y > 0).

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrastbedingung mit Blatt

Weitere Informationen

Konfabulation

#language

Synonym für Halluzination.

Konfabulation ist technisch wahrscheinlich ein besserer Begriff als Halluzination. Halluzinationen wurden jedoch zuerst beliebt.

Konfiguration

Das Zuweisen der anfänglichen Attributwerte, die zum Trainieren eines Modells verwendet werden, umfasst Folgendes:

In Projekten für maschinelles Lernen kann die Konfiguration über eine spezielle Konfigurationsdatei oder mithilfe von Konfigurationsbibliotheken wie der folgenden erfolgen:

Bestätigungsverzerrung

#fairness

Die Tendenz, Informationen so zu suchen, zu interpretieren, zu bevorzugen und in Erinnerung zu rufen, dass bereits bestehende Überzeugungen oder Hypothesen bestätigt werden. Entwickler von maschinellem Lernen können versehentlich Daten auf eine Weise erfassen oder kennzeichnen, die ein Ergebnis beeinflusst, das ihre bestehenden Überzeugungen unterstützt. Der Bestätigungsfehler ist eine Form der impliziten Voreingenommenheit.

Die Testverzerrung ist eine Form der Bestätigungsverzerrung, bei der ein Experimentator Modelle trainiert, bis eine bereits bestehende Hypothese bestätigt wurde.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammenfasst. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell:

Tumor (prognostiziert) Kein Tumor (prognostiziert)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, hat das Modell 18 richtig und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Nicht-Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Mit der Wahrheitsmatrix für ein Klassifizierungsproblem mit mehreren Klassen können Sie Fehlermuster erkennen. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein Klassifizierungsmodell mit drei Klassen, das drei verschiedene Iristypen (Virginica, Versicolor und Setosa) kategorisiert. Als die Grundwahrheit Virginica war, zeigt die Wahrheitsmatrix, dass das Modell Versicolor viel eher fälschlicherweise vorhersagt als Setosa:

  Setosa (prognostiziert) Versicolor (vorhergesagt) Virginica (prognostiziert)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Ein weiteres Beispiel: Eine Wahrheitsmatrix könnte aufzeigen, dass ein Modell, das dafür trainiert wurde, handschriftliche Ziffern zu erkennen, fälschlicherweise 9 statt 4 vorhersagt oder fälschlicherweise 1 statt 7 vorhersagt.

Wahrheitsmatrizes enthalten genügend Informationen, um verschiedene Leistungsmesswerte wie Precision und Recall zu berechnen.

Wahlkreis-Parsing

#language

Das Unterteilen eines Satzes in kleinere grammatische Strukturen („Bestandteile“). Ein späterer Teil des ML-Systems, z. B. ein Natural Language Understanding-Modell, kann die Bestandteile leichter parsen als der ursprüngliche Satz. Betrachten Sie beispielsweise den folgenden Satz:

Mein Freund hat zwei Katzen adoptiert.

Ein Wahlkreisparser kann diesen Satz in die folgenden zwei Bestandteile unterteilen:

  • Mein Freund ist eine Nominalphrase.
  • zwei Katzenadoptionen ist eine Verbphrase.

Diese Personen lassen sich in kleinere Unterteilungen unterteilen. Zum Beispiel kann das Verb

hat zwei Katzen adoptiert

könnte weiter unterteilt werden in:

  • adopted ist ein Verb.
  • zwei Katzen ist eine weitere Nominalphrase.

kontextbezogene Spracheinbettung

#language
#generativeKI

Eine Einbettung, die dem „Verstehen“ von Wörtern und Wortgruppen so nahe kommt, wie es menschliche Muttersprachler können. Kontextbasierte Spracheinbettungen können komplexe Syntax, Semantik und Kontext verstehen.

Sehen wir uns als Beispiel Einbettungen des englischen Wortes cow an. Ältere Einbettungen wie word2vec können englische Wörter darstellen, sodass der Abstand im Einbettungsbereich von cow zu bull der Entfernung von ewe (weibliche Schafe) zu ram (männliche Schafe) oder von weiblich zu männlich entspricht. Kontextbasierte Spracheinbettungen können noch einen Schritt weiter gehen: Sie erkennen, dass englischsprachige Nutzer gelegentlich das Wort Kuh verwenden, um entweder Kuh oder Stier zu bedeuten.

Kontextfenster

#language
#generativeKI

Die Anzahl der Tokens, die ein Modell in einer bestimmten Eingabeaufforderung verarbeiten kann. Je größer das Kontextfenster, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu liefern.

stetiges Feature

#fundamentals

Ein Gleitkomma-Feature mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Stellen Sie einen Kontrast mit der diskreten Funktion her.

willkürliche Stichproben

Verwendung eines Datasets, das nicht wissenschaftlich erfasst wurde, um schnelle Experimente durchzuführen. Später ist es unerlässlich, auf ein wissenschaftlich gesammeltes Dataset umzustellen.

Konvergenz

#fundamentals

Ein Status, der erreicht wird, wenn sich die Verlustwerte bei jeder Iteration sehr gering oder gar nicht ändern. Die folgende Verlustkurve zeigt beispielsweise eine Konvergenz bei etwa 700 Iterationen an:

kartesisches Diagramm. Die X-Achse steht für Verlust. Die Y-Achse ist die Anzahl der Trainingsdurchläufe. Der Verlust ist in den ersten Iterationen sehr hoch, sinkt aber stark. Nach etwa 100 Iterationen steigt der Verlust immer noch absteigend, aber viel schrittweiser. Nach etwa 700 Iterationen bleibt der Verlust stabil.

Ein Modell konvergiert, wenn zusätzliches Training das Modell nicht verbessert.

Beim Deep Learning bleiben Verlustwerte manchmal über viele Iterationen konstant oder nahezu so, bevor sie schließlich absteigend. Während eines langen Zeitraums mit konstanten Verlustwerten kann es vorkommen, dass Sie vorübergehend ein falsches Konvergenzgefühl haben.

Siehe auch Vorzeitiges Beenden.

konvexe Funktion

Eine Funktion, bei der der Bereich über dem Graphen der Funktion eine konvexe Menge ist. Die prototypische konvexe Funktion hat in etwa die Form des Buchstabens U. Im Folgenden sind z. B. alle konvexen Funktionen aufgeführt:

U-förmige Kurven mit jeweils einem Minimalpunkt.

Im Gegensatz dazu ist die folgende Funktion nicht konvex. Beachten Sie, dass die Region über dem Diagramm keine konvexe Menge ist:

Eine W-förmige Kurve mit zwei verschiedenen lokalen Minimalpunkten.

Eine strikt konvexe Funktion hat genau einen lokalen Minimalpunkt, der auch der globale Minimalpunkt ist. Die klassischen U-förmigen Funktionen sind strikt konvexe Funktionen. Einige konvexe Funktionen (z. B. gerade Linien) sind jedoch nicht u-förmig.

Konvex-Optimierung

Verfahren, bei dem mathematische Verfahren wie das Gradientenverfahren verwendet werden, um das Minimum einer konvexen Funktion zu ermitteln. Ein Großteil der Forschung im Bereich des maschinellen Lernens hat sich darauf konzentriert, verschiedene Probleme als konvexe Optimierungsprobleme zu formulieren und diese Probleme effizienter zu lösen.

Vollständige Details finden Sie unter Boyd und Vandenberghe, Convex-Optimierung.

konvexe Menge

Eine Teilmenge des euklidischen Raums, bei der eine zwischen zwei Punkten in der Teilmenge gezogene Linie vollständig innerhalb der Teilmenge bleibt. Die folgenden beiden Formen sind beispielsweise konvexe Sätze:

Abbildung eines Rechtecks Weitere Abbildung eines Ovals.

Im Gegensatz dazu sind die folgenden beiden Formen keine konvexen Mengen:

Eine Abbildung eines Kreisdiagramms mit einem fehlenden Segment.
          Eine weitere Abbildung eines extrem unregelmäßigen Polygons.

Faltung

#image

In der Mathematik, beiläufig gesprochen, eine Mischung aus zwei Funktionen. Beim maschinellen Lernen vermischt eine Faltung den Convolutional-Filter und die Eingabematrix, um Gewichtungen zu trainieren.

Der Begriff „Faltung“ im maschinellen Lernen ist oft eine Kurzform, um sich entweder auf Convolutional Operations oder auf Convolutional Layer zu beziehen.

Ohne Faltungen müsste ein Algorithmus für maschinelles Lernen für jede Zelle in einem großen Tensor eine eigene Gewichtung lernen. Beispielsweise müsste ein Algorithmus für maschinelles Lernen, der mit 2.000 x 2.000 Bildern trainiert wird, 4 Millionen separate Gewichtungen finden. Dank Faltungen muss ein Algorithmus für maschinelles Lernen lediglich für jede Zelle im Faltungsfilter Gewichtungen finden. Dadurch wird der für das Training des Modells erforderliche Arbeitsspeicher erheblich reduziert. Wenn der Faltungsfilter angewendet wird, wird er einfach über die Zellen hinweg repliziert, sodass jede Zelle mit dem Filter multipliziert wird.

Convolutional-Filter

#image

Einer der beiden Akteure bei einem Faltungsvorgang. (Der andere Akteur ist ein Segment einer Eingabematrix.) Ein Faltungsfilter ist eine Matrix mit demselben Rang wie die Eingabematrix, jedoch mit einer kleineren Form. Bei einer Eingabematrix von 28 x 28 könnte der Filter beispielsweise eine beliebige 2D-Matrix sein, die kleiner als 28 x 28 ist.

Bei der fotografischen Bearbeitung werden alle Zellen in einem Faltungsfilter normalerweise auf ein konstantes Muster aus Einsen und Nullen gesetzt. Beim maschinellen Lernen werden Faltungsfilter normalerweise mit Zufallszahlen versehen. Das Netzwerk trainiert dann die idealen Werte.

Convolutional Layer

#image

Eine Schicht eines neuronalen Deep-Learning-Netzwerks, in dem ein Convolutional-Filter an einer Eingabematrix vorbeiführt. Betrachten Sie beispielsweise den folgenden Faltungsfilter für 3 x 3-Elemente:

Eine 3x3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Faltungsschicht, die aus 9 Faltungsvorgängen mit der 5x5-Eingabematrix besteht. Beachten Sie, dass jeder Faltungsvorgang auf ein anderes 3x3-Segment der Eingabematrix angewendet wird. Die resultierende 3x3-Matrix (rechts) besteht aus den Ergebnissen der neun Faltungsoperationen:

Eine Animation, die zwei Matrizen zeigt. Die erste Matrix ist die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [131,41].
          Die zweite Matrix ist die 3x3-Matrix: [[181,303,618], [115,338,605], [169,351,560]].
          Die zweite Matrix wird berechnet, indem der Faltungsfilter [[0, 1, 0], [1, 0, 1], [0, 1, 0]] auf verschiedene 3x3-Teilmengen der 5x5-Matrix angewendet wird.

Convolutional Neural Network

#image

Ein neuronales Netzwerk, in dem mindestens eine Schicht eine Convolutional Layer ist. Ein typisches Convolutional neuronales Netzwerk besteht aus einer Kombination der folgenden Schichten:

Convolutional Neural Networks hatten großen Erfolg bei bestimmten Arten von Problemen, z. B. bei der Bilderkennung.

Faltungsvorgang

#image

Die folgende zweistufige mathematische Operation:

  1. Elementweise Multiplikation des Faltungsfilters und eines Slice einer Eingabematrix. (Das Segment der Eingabematrix hat den gleichen Rang und die gleiche Größe wie der Faltungsfilter.)
  2. Addition aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5x5-Eingabematrix:

Die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,2,170,

Stellen Sie sich nun den folgenden 2x2-Faltungsfilter vor:

Die 2x2-Matrix: [[1, 0], [0, 1]]

Jede Faltungsvorgang umfasst ein einzelnes 2x2-Segment der Eingabematrix. Angenommen, wir verwenden das 2x2-Segment oben links in der Eingabematrix. Die Faltungsvorgang für dieses Slice sieht also so aus:

Anwendung des Faltungsfilters [[1, 0], [0, 1]] auf den 2x2-Abschnitt oben links der Eingabematrix, also [[128,97], [35,22]].
          Der Faltungsfilter lässt die 128 und 22 unverändert, setzt aber 97 und 35 durch Null. Folglich ergibt die Faltung den Wert 150 (128 + 22).

Eine Convolutional Layer besteht aus einer Reihe von Faltungsvorgängen, die sich jeweils auf ein anderes Segment der Eingabematrix auswirken.

Kosten

Synonym für loss.

gemeinsames Training

Ein Ansatz für halbüberwachtes Lernen, der besonders nützlich ist, wenn alle der folgenden Bedingungen erfüllt sind:

Beim gemeinsamen Training werden unabhängige Signale zu einem stärkeren Signal verstärkt. Betrachten Sie beispielsweise ein Klassifizierungsmodell, das einzelne Gebrauchtwagen als Gut oder Schlecht kategorisiert. Eine Gruppe von Vorhersagefunktionen kann sich auf aggregierte Merkmale wie das Jahr, die Marke und das Modell des Autos konzentrieren. Eine andere Gruppe von Vorhersagefunktionen könnte sich auf den Fahrverlauf des Vorbesitzers und den Wartungsverlauf des Autos konzentrieren.

Der wegweisende Artikel zum gemeinsamen Training heißt Combining Labeled and Unlabeled Data with Co-Training von Blum und Mitchell.

kontrafaktische Fairness

#fairness

Fairness-Messwert, der prüft, ob ein Klassifikator für eine Person dasselbe Ergebnis erzielt wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme eines oder mehrerer sensibler Attribute. Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode zur Aufdeckung potenzieller Ursachen von Verzerrungen in einem Modell.

Eine ausführlichere Beschreibung der kontrafaktischen Fairness finden Sie im Artikel When Worlds Collide: Integrate Different kontraffactsäres in Fairness.

Abdeckungsverzerrung

#fairness

Siehe Auswahlverzerrung.

Crash Blossom

#language

Ein Satz oder Satz mit mehrdeutiger Bedeutung. Absturzblüten stellen ein erhebliches Problem beim Natural Language Understanding dar. Die Überschrift Red Tape Holds Up Skyscraper ist beispielsweise ein Crash Blossom, da ein NLU-Modell die Schlagzeile wörtlich oder im übertragenen Sinne interpretieren könnte.

Kritiker

#rl

Synonym für Deep Q-Network.

Kreuzentropie

Eine Generalisierung von Logverlust zu Klassifizierungsproblemen mit mehreren Klassen. Die Kreuzentropie quantifiziert die Differenz zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Perplexität.

Kreuzvalidierung

Ein Mechanismus zum Schätzen, wie gut sich ein model auf neue Daten verallgemeinern würde. Dazu wird das Modell an einer oder mehreren sich nicht überschneidenden Datenteilmengen getestet, die aus dem model zurückgehalten werden.

Kumulierte Verteilungsfunktion (Kumulierte Verteilungsfunktion)

Eine Funktion, die die Häufigkeit von Stichproben definiert, die kleiner oder gleich einem Zielwert sind. Stellen Sie sich zum Beispiel eine Normalverteilung kontinuierlicher Werte vor. Eine CDF gibt an, dass etwa 50% der Stichproben kleiner oder gleich dem Mittelwert sein sollten und dass etwa 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

Datenanalyse

Verständnis von Daten durch Berücksichtigung von Stichproben, Messungen und Visualisierungen gewinnen Die Datenanalyse kann besonders nützlich sein, wenn ein Dataset zum ersten Mal empfangen wird, bevor das erste model erstellt wird. Sie ist auch wichtig, um Tests zu verstehen und Probleme mit dem System zu beheben.

Datenerweiterung

#image

Künstliches Erhöhen des Umfangs und der Anzahl der Trainingsbeispiele durch Umwandlung vorhandener Beispiele, um zusätzliche Beispiele zu erstellen. Angenommen, Bilder sind eines Ihrer Features, das Dataset enthält jedoch nicht genügend Bildbeispiele, damit das Modell nützliche Verknüpfungen lernen kann. Idealerweise fügen Sie dem Dataset genügend Bilder mit Label hinzu, damit das Modell richtig trainiert werden kann. Wenn dies nicht möglich ist, kann die Datenerweiterung jedes Bild drehen, strecken und spiegeln, um viele Varianten des Originalbilds zu erzeugen. Dadurch werden möglicherweise genügend Daten mit Labels geliefert, um ein exzellentes Training zu ermöglichen.

DataFrame

#fundamentals

Ein beliebter Datentyp pandas zur Darstellung von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle. Jede Spalte eines DataFrames hat einen Namen (eine Kopfzeile) und jede Zeile ist durch eine eindeutige Nummer gekennzeichnet.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert. Der einzige Unterschied ist, dass jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auf der offiziellen pandas.DataFrame-Referenzseite.

Datenparallelität

Eine Methode zur Skalierung von Training oder Inferenz, bei der ein vollständiges Modell auf mehrere Geräte repliziert wird und dann eine Teilmenge der Eingabedaten an jedes Gerät übergibt. Datenparallelität kann Training und Inferenz für sehr große Batchgrößen ermöglichen. Die Datenparallelität setzt jedoch voraus, dass das Modell klein genug ist, um auf alle Geräte zu passen.

Datenparallelität beschleunigt normalerweise das Training und die Inferenz.

Siehe auch Modellparallelität.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate organisiert sind:

  • Tabelle
  • Eine Datei im CSV-Format (Comma-Separated Values, durch Kommas getrennte Werte)

Dataset API (tf.data)

#TensorFlow

Eine allgemeine TensorFlow API, mit der Daten gelesen und in eine Form umgewandelt werden, die ein Algorithmus für maschinelles Lernen erfordert Ein tf.data.Dataset-Objekt steht für eine Abfolge von Elementen, bei denen jedes Element einen oder mehrere Tensors enthält. Ein tf.data.Iterator-Objekt bietet Zugriff auf die Elemente einer Dataset.

Ausführliche Informationen zur Dataset API finden Sie im TensorFlow-Programmierhandbuch unter tf.data: TensorFlow-Eingabepipelines erstellen.

Entscheidungsgrenze

Das Trennzeichen zwischen Klassen, das ein Modell in einer binären Klasse oder in Klassifizierungsproblemen mit mehreren Klassen erlernt hat. In der folgenden Abbildung, die ein binäres Klassifizierungsproblem darstellt, ist die Entscheidungsgrenze beispielsweise die Grenze zwischen der orangefarbenen und der blauen Klasse:

Eine klar definierte Grenze zwischen einer Klasse und einer anderen.

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Eine Entscheidungsstruktur fasst die Vorhersagen seiner Entscheidungsbäume zusammen, um eine Vorhersage zu treffen. Zu den beliebten Arten von Entscheidungsforen gehören Random Forests und Gradient Boosted Trees.

Entscheidungsschwellenwert

Synonym für Klassifizierungsschwellenwert.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Reihe von conditions besteht und conditions. Das folgende Beispiel zeigt einen Entscheidungsbaum:

Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

Decoder

#language

Im Allgemeinen ist jedes ML-System, das von einer verarbeiteten, dichten oder internen Darstellung in eine Rohdarstellung, eine dünnbesetzte oder externe Darstellung konvertiert.

Decodierer sind häufig eine Komponente eines größeren Modells, in dem sie häufig mit einem Encoder gekoppelt sind.

Bei Sequenz-zu-Sequenz-Aufgaben beginnt ein Decoder mit dem internen Status, der vom Encoder generiert wird, um die nächste Sequenz vorherzusagen.

Die Definition eines Decoders in der Transformer-Architektur finden Sie unter Transformer.

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer verborgenen Schicht.

Ein tiefes Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum breiten Modell

neuronales Deep-Learning-Netzwerk

Synonym für Deep Model.

Deep Q-Network (DQN)

#rl

In Q-Learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.

Critic ist ein Synonym für „Deep Q-Network“.

demografische Gleichheit

#fairness

Fairness-Messwert, der erfüllt wird, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich zum Beispiel sowohl Lilliputianer als auch die Brobdingnagians an der Glubbdubdrib University bewerben, wird die demografische Parität erreicht, wenn der Prozentsatz der zugelassenen Lilliputianer dem Prozentsatz der zugelassenen Brobdingnagier entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt höher qualifiziert ist als die andere.

Im Gegensatz dazu können Klassifizierungsergebnisse von sensiblen Attributen abhängig sein. Für bestimmte Ground-Truth-Labels dürfen jedoch keine sensiblen Attribute verwendet werden. In der Visualisierung Diskriminierung durch intelligentes maschinelles Lernen bekämpfen finden Sie die Vor- und Nachteile der Optimierung der demografischen Gleichheit.

Entrauschen

#language

Ein gängiger Ansatz für selbstüberwachtes Lernen, bei dem:

  1. Rauschen wird dem Datensatz künstlich hinzugefügt.
  2. Das model versucht, das Rauschen zu entfernen.

Die Rauschunterdrückung ermöglicht das Lernen aus Beispielen ohne Labels. Das ursprüngliche Dataset dient als Ziel oder Label und die verrauschten Daten als Eingabe.

In einigen maskierten Sprachmodellen wird die Rauschunterdrückung so verwendet:

  1. Rauschen wird einem Satz ohne Label künstlich hinzugefügt, indem einige der Tokens maskiert werden.
  2. Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, in der Regel ein Tensor mit Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 seiner Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast zur dünnbesetzten Funktion

Dichte Schicht

Synonym für vollständig verbundene Ebene.

Tiefe

#fundamentals

Die Summe der folgenden Messwerte in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

Deepwise Separable Convolutional Neural Network (sepCNN)

#image

Eine auf Inception basierende Architektur eines Convolutional Neural Network, bei der Inception-Module jedoch durch tiefenweise trennbare Faltungen ersetzt werden. Wird auch Xception genannt.

Eine tiefenweise trennbare Faltung (auch als trennbare Faltung abgekürzt) faktorisiert eine standardmäßige 3D-Faltung in zwei separate Faltungsvorgänge, die recheneffizienter sind: zuerst eine tiefe Faltung mit einer Tiefe von 1 (n × n × 1) und dann eine punktweise Faltung mit Länge und Breite von 1 (1 n × 1).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Convolutions.

abgeleitetes Label

Synonym für Proxylabel.

Gerät

#TensorFlow
#GoogleCloud

Ein überlasteter Begriff mit den folgenden zwei möglichen Definitionen:

  1. Hardwarekategorie, auf der eine TensorFlow-Sitzung ausgeführt werden kann, einschließlich CPUs, GPUs und TPUs.
  2. Beim Trainieren eines ML-Modells auf Beschleuniger-Chips (GPUs oder TPUs) ist der Teil des Systems, der Tensoren und Einbettungen tatsächlich manipuliert. Das Gerät wird auf Beschleuniger-Chips ausgeführt. Im Gegensatz dazu wird der Host normalerweise auf einer CPU ausgeführt.

Differential Privacy

Beim maschinellen Lernen ein Anonymisierungsansatz, um zu verhindern, dass sensible Daten (z. B. personenbezogene Daten einer Person), die im Trainingssatz eines Modells enthalten sind, offengelegt werden. Dieser Ansatz sorgt dafür, dass das model nicht viel über eine bestimmte Person lernt oder sich daran erinnert. Dies wird erreicht, indem während des Modelltrainings Stichproben erhoben und Rauschen hinzugefügt werden, um einzelne Datenpunkte zu verbergen und das Risiko der Offenlegung vertraulicher Trainingsdaten zu verringern.

Differential Privacy wird auch außerhalb des maschinellen Lernens verwendet. Beispielsweise verwenden Data Scientists manchmal Differential Privacy, um die Privatsphäre des Einzelnen zu schützen, wenn Produktnutzungsstatistiken für verschiedene demografische Merkmale berechnet werden.

Dimensionsreduzierung

Verringern der Anzahl der Dimensionen, die zur Darstellung eines bestimmten Elements in einem Featurevektor verwendet werden, in der Regel durch Umwandlung in einen Einbettungsvektor

Dimensionen

Überladener Begriff mit einer der folgenden Definitionen:

  • Die Anzahl der Koordinatenebenen in einem Tensor. Beispiel:

    • Ein Skalar hat null Dimensionen. Zum Beispiel: ["Hello"].
    • Ein Vektor hat eine Dimension, z. B. [3, 5, 7, 11].
    • Eine Matrix hat zwei Dimensionen. Beispiel: [[2, 4, 18], [5, 7, 14]].

    Sie können eine bestimmte Zelle in einem eindimensionalen Vektor mit einer Koordinate eindeutig angeben. Sie benötigen zwei Koordinaten, um eine bestimmte Zelle in einer zweidimensionalen Matrix eindeutig zu definieren.

  • Die Anzahl der Einträge in einem Featurevektor.

  • Die Anzahl der Elemente in einer Einbettungsebene.

direkte Aufforderungen

#language
#generativeKI

Synonym für Zero-Shot-Prompting.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Ein Element, dessen Werte nur Tier, Gemüse oder Mineral sein dürfen, ist beispielsweise ein diskretes (oder kategoriales) Element.

Kontrast zur kontinuierlichen Funktion

Diskriminatives Modell

Ein model, das model aus einem Satz von einem oder mehreren model vorhersagt. Formal definieren diskriminative Modelle die bedingte Wahrscheinlichkeit einer Ausgabe anhand der Merkmale und Gewichtungen, d. h.:

p(output | features, weights)

Beispielsweise ist ein Modell, das vorhersagt, ob eine E-Mail aufgrund von Features und Gewichtungen Spam ist, ein diskriminierendes Modell.

Die überwiegende Mehrheit der Modelle für überwachtes Lernen, einschließlich Klassifizierungs- und Regressionsmodellen, sind diskriminierende Modelle.

Im Vergleich zum generativen Modell

Diskriminator

Ein System, das bestimmt, ob Beispiele echt oder vorgetäuscht sind.

Alternativ das Subsystem in einem generativen kontradiktorischen Netzwerk, das bestimmt, ob die vom Generator erstellten Beispiele echt oder gefälscht sind.

unterschiedliche Auswirkungen

#fairness

Entscheidungen über Personen treffen, die unterschiedliche Untergruppen von Bevölkerungsgruppen unverhältnismäßig beeinflussen, Dies bezieht sich in der Regel auf Situationen, in denen ein algorithmischer Entscheidungsprozess einigen Untergruppen mehr schadet oder Nutzen hat als andere.

Angenommen, ein Algorithmus, der die Berechtigung eines Lilliputianers für einen Mini-Hauskredit mit höherer Wahrscheinlichkeit als „nicht geeignet“ einstuft, ist wahrscheinlicher, wenn seine Postanschrift eine bestimmte Postleitzahl enthält. Wenn Big-Endian-Lilliputians eher Postadressen mit dieser Postleitzahl haben als Little-Endian Lilliputians, kann dieser Algorithmus zu unterschiedlichen Auswirkungen führen.

Im Kontrast zur Unterscheidungsbehandlung, die sich auf Unterschiede konzentriert, die entstehen, wenn die Merkmale von Untergruppen explizite Eingaben für einen algorithmischen Entscheidungsprozess sind.

unterschiedliche Behandlung

#fairness

Berücksichtigung sensibler Attribute von Personen in einem algorithmischen Entscheidungsprozess, sodass verschiedene Untergruppen von Menschen unterschiedlich behandelt werden.

Stellen Sie sich zum Beispiel einen Algorithmus vor, der anhand der Daten, die sie in ihrem Kreditantrag angeben, den Anspruch von Lilliputians für einen Mini-Hauskredit ermittelt. Wenn der Algorithmus die Verknüpfung eines Lilliputian als Big-Endian oder Little-Endian als Eingabe verwendet, werden unterschiedliche Methoden für diese Dimension verwendet.

Im Gegensatz dazu stehen unterschiedliche Auswirkungen, bei denen die Unterschiede in den gesellschaftlichen Auswirkungen von algorithmischen Entscheidungen auf Untergruppen im Mittelpunkt stehen, unabhängig davon, ob diese Untergruppen Eingaben für das Modell sind.

Destillation

#generativeKI

Der Vorgang, bei dem die Größe eines model (als model bezeichnet) zu einem kleineren Modell (model) reduziert wird, das die Vorhersagen des ursprünglichen Modells so genau wie möglich emuliert. Die Destillation ist nützlich, da das kleinere Modell gegenüber dem größeren Modell (Lehrkraft) zwei wesentliche Vorteile hat:

  • Schnellere Inferenzzeit
  • Geringerer Speicher- und Energieverbrauch

Die Vorhersagen des Schülers/Studenten sind jedoch normalerweise nicht so gut wie die der Lehrkraft.

Bei der Destillation wird das Schülermodell so trainiert, dass eine Verlustfunktion anhand der Differenz zwischen den Ausgaben der Vorhersagen der Schüler- und Lehrermodelle minimiert wird.

Vergleichen Sie die Destillation mit den folgenden Begriffen:

Verteilung

Die Häufigkeit und der Bereich verschiedener Werte für ein bestimmtes Feature oder Label. Eine Verteilung gibt an, wie wahrscheinlich ein bestimmter Wert ist.

Die folgende Abbildung zeigt Histogramme von zwei verschiedenen Verteilungen:

  • Links die Verteilung des Vermögens im Verhältnis zur Anzahl der Menschen, die diesen Reichtum besitzen.
  • Rechts eine Normalverteilung der Größe im Vergleich zur Anzahl der Personen mit dieser Größe.

Zwei Histogramme. Ein Histogramm zeigt eine Potenzgesetzverteilung mit dem Wohlstand auf der x-Achse und der Anzahl der Personen mit diesem Wohlstand auf der y-Achse. Die meisten Menschen haben sehr wenig Vermögen, einige hingegen viel. Das andere Histogramm zeigt eine Normalverteilung mit Höhe auf der x-Achse und die Anzahl der Personen mit dieser Größe auf der y-Achse. Die meisten Menschen befinden sich irgendwo in der Nähe des Mittelwerts.

Wenn Sie die Verteilung der einzelnen Features und Labels verstehen, können Sie leichter bestimmen, wie Sie Werte normalisieren und Ausreißer erkennen.

Der Ausdruck out of distribution bezieht sich auf einen Wert, der nicht im Dataset enthalten ist oder sehr selten ist. Ein Bild des Planeten Saturn würde z. B. bei einem Dataset mit Katzenbildern nicht als Verteilung angesehen werden.

divisives Clustering

#clustering

Siehe Hierarchisches Clustering.

Downsampling

#image

Überladener Begriff, der Folgendes bedeuten kann:

  • Reduzieren der Informationsmenge in einem Feature, um ein Modell effizienter trainieren zu können. Beispielsweise wird vor dem Trainieren eines Bilderkennungsmodells ein Downsampling von Bildern hoher Auflösung auf ein Format mit geringerer Auflösung durchgeführt.
  • Training an einem unverhältnismäßig niedrigen Prozentsatz an überrepräsentierten Klassenbeispielen, um das Modelltraining für unterrepräsentierte Klassen zu verbessern. In einem Dataset mit unausgeglichenen Klassen zum Beispiel neigen Modelle dazu, viel über die Mehrheitsklasse und nicht genug über die Minderheitsklasse zu erfahren. Das Downsampling trägt dazu bei, den Umfang des Trainings auf die Mehrheits- und Minderheitenklassen auszugleichen.

DQN

#rl

Abkürzung für Deep Q-Network.

Dropout-Regularisierung

Eine Form der Regularisierung, die zum Trainieren von neuronalen Netzwerken nützlich ist. Die Dropout-Regularisierung entfernt eine zufällige Auswahl einer festen Anzahl von Einheiten in einer Netzwerkschicht für einen einzelnen Gradientenschritt. Je mehr Einheiten ausgelassen werden, desto stärker ist die Regularisierung. Dies ist vergleichbar mit dem Training des Netzwerks, um ein exponentiell großes Ensemble kleinerer Netzwerke zu emulieren. Weitere Informationen finden Sie unter Dropout: Eine einfache Möglichkeit, eine Überanpassung neuronaler Netzwerke zu verhindern.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich ausgeführt wird. Die Begriffe dynamisch und online sind Synonyme im maschinellen Lernen. Im Folgenden werden gängige Anwendungen von Dynamisch und Online im maschinellen Lernen aufgeführt:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Beim dynamischen Training (oder Online-Training) wird das Training regelmäßig oder kontinuierlich ausgeführt.
  • Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, bei dem Vorhersagen nach Bedarf generiert werden.

dynamisches Modell

#fundamentals

Ein model, das häufig (vielleicht sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „lebenslang Lernender“, der sich ständig an sich weiterentwickelnde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Im Kontrast zum statischen Modell stehen.

E

eifrig hingerichtet

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der operations sofort ausgeführt werden Im Gegensatz dazu werden in der Grafikausführung aufgerufene Vorgänge erst ausgeführt, wenn sie explizit ausgewertet wurden. Die zügige Ausführung ist eine imperative Schnittstelle, ähnlich wie der Code in den meisten Programmiersprachen. Schnelle Ausführungsprogramme lassen sich im Allgemeinen viel leichter debuggen als Graphausführungsprogramme.

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Training beendet wird, bevor der Verlust von Trainingsverlusten nachlässt. Beim vorzeitigen Beenden stoppen Sie das Training des Modells absichtlich, wenn der Verlust bei einem Validierungs-Dataset zunimmt, d. h. wenn sich die Leistung der Generalisierung verschlechtert.

Entfernung der Erde (EMD)

Ein Maß für die relative Ähnlichkeit zweier Verteilungen. Je geringer die Entfernung ist, desto ähnlicher sind die Verteilungen.

Strecke bearbeiten

#language

Ein Maß dafür, wie ähnlich zwei Textzeichenfolgen einander sind. Beim maschinellen Lernen ist die Bearbeitung des Abstands nützlich, da er sich einfach berechnen lässt und eine effektive Möglichkeit ist, zwei Strings zu vergleichen, die bekanntermaßen ähnlich sind, oder weil sie einem bestimmten String ähnlich sind.

Es gibt mehrere Definitionen für die Entfernung von Entfernungen, die jeweils unterschiedliche Stringoperationen verwenden. Die Levenshtein-Distanz berücksichtigt beispielsweise die wenigsten Lösch-, Einfüge- und Ersetzungsvorgänge.

Zum Beispiel ist der Levenshtein-Abstand zwischen den Wörtern „Herz“ und „darts“ 3, da die folgenden drei Bearbeitungen die kleinsten Änderungen sind, mit denen ein Wort in das andere umgewandelt wird:

  1. Herz → herabsetzen („h“ durch „d“ ersetzen)
  2. deart → dart (löschen "e")
  3. dart → darts (einfügen "s")

Einsum-Notation

Eine effiziente Notation, um zu beschreiben, wie zwei Tensoren kombiniert werden sollen. Die Tensoren werden kombiniert, indem die Elemente eines Tensors mit den Elementen des anderen Tensors multipliziert und dann die Produkte summiert werden. Die Einsum-Notation verwendet Symbole, um die Achsen jedes Tensors zu identifizieren. Diese Symbole werden neu angeordnet, um die Form des neuen resultierenden Tensors anzugeben.

NumPy stellt eine gängige Einsum-Implementierung bereit.

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Ebene, die anhand eines hochdimensionalen kategorialen Merkmals trainiert wird, um schrittweise einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Eine Einbettungsebene ermöglicht einem neuronalen Netzwerk ein wesentlich effizienteres Training als das Training nur anhand des hochdimensionalen kategorialen Merkmals.

So unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Baumart ist ein Element in Ihrem Modell. Die Eingabeebene Ihres Modells enthält also einen One-Hot-Vektor mit 73.000 Elementen. Beispielsweise würde baobab in etwa so dargestellt:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente enthalten den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training durch die Multiplikation von 72.999 Nullen sehr zeitaufwendig. Vielleicht wählen Sie für die Einbettungsebene 12 Dimensionen aus. Folglich lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Einbettungsbereich

#language

Der d-dimensionale Vektorraum, dem Elemente aus einem höherdimensionalen Vektorraum zugeordnet sind. Im Idealfall enthält der Einbettungsraum eine Struktur, die aussagekräftige mathematische Ergebnisse liefert. In einem idealen Einbettungsbereich lassen sich beispielsweise durch die Addition und Subtraktion von Einbettungen Aufgaben der Wortanalyse lösen.

Das Punktprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Im Allgemeinen ein Array von Gleitkommazahlen aus jeder verborgenen Ebene, die die Eingaben für diese verborgene Ebene beschreibt. Ein Einbettungsvektor ist häufig ein Array von Gleitkommazahlen, die in einer Einbettungsebene trainiert wurden. Angenommen, eine Einbettungsebene muss für jede der 73.000 Baumarten auf der Erde einen Einbettungsvektor lernen. Vielleicht ist das folgende Array der Einbettungsvektor für einen Affenbrotbaum:

Ein Array aus 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor ist kein Haufen Zufallszahlen. Eine Einbettungsschicht bestimmt diese Werte durch Training, ähnlich wie ein neuronales Netzwerk während des Trainings andere Gewichtungen erlernt. Jedes Element des Arrays ist eine Bewertung anhand eines Merkmals einer Baumart. Welches Element stellt das Merkmal welcher Baumart dar? Das ist für Menschen sehr schwer zu erkennen.

Das mathematisch bemerkenswerte Teil eines Einbettungsvektors besteht darin, dass ähnliche Elemente ähnliche Mengen von Gleitkommazahlen haben. Ähnliche Baumarten haben beispielsweise einen ähnlichen Satz von Gleitkommazahlen als unterschiedliche Baumarten. Mammutbäume und Mammutbäume sind verwandte Baumarten. Daher haben sie eine ähnliche Gleitkommazahl wie Mammutbäume und Kokospalmen. Die Zahlen im Einbettungsvektor ändern sich jedes Mal, wenn Sie das Modell neu trainieren, auch wenn Sie das Modell mit identischer Eingabe neu trainieren.

empirische kumulative Verteilungsfunktion (eCDF oder EDF)

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem echten Dataset basiert. Der Wert der Funktion an einem beliebigen Punkt entlang der x-Achse ist der Bruchteil der Beobachtungen im Dataset, die kleiner oder gleich dem angegebenen Wert sind.

empirische Risikominimierung (ERM)

Auswählen der Funktion, die den Verlust im Trainings-Dataset minimiert Das steht im Gegensatz zur strukturellen Risikominimierung.

Encoder

#language

Im Allgemeinen ist jedes ML-System, das von einer unformatierten, dünnbesetzten oder externen Darstellung in eine besser verarbeitete, dichtere oder internere Darstellung konvertiert.

Encoder sind häufig eine Komponente eines größeren Modells, in dem sie häufig mit einem Decodierer gekoppelt sind. Einige Transformer koppeln Encoder mit Decodern, während andere nur den Encoder oder nur den Decoder verwenden.

Einige Systeme verwenden die Ausgabe des Encoders als Eingabe für ein Klassifizierungs- oder Regressionsnetzwerk.

Bei Sequenz-zu-Sequenz-Aufgaben nimmt ein Encoder eine Eingabesequenz an und gibt einen internen Status (einen Vektor) zurück. Dann verwendet der Decoder diesen internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformer.

Ensemble

Eine Sammlung von Modellen, die unabhängig trainiert wurden und deren Vorhersagen gemittelt oder aggregiert werden. In vielen Fällen liefert ein Ensemble bessere Vorhersagen als ein einzelnes Modell. Ein Random Forest ist beispielsweise ein Ensemble, das aus mehreren Entscheidungsbäumen besteht. Beachten Sie, dass nicht alle Entscheidungswälder Ensembles sind.

Entropie

#df

In der Informationstheorie wird beschrieben, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird als Entropie auch definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie einer Menge mit den zwei möglichen Werten "0" und "1" (z. B. die Labels in einem binären Klassifizierungsproblem) setzt sich wie folgt zusammen:

  H = -p log p - q log q = -p log p - (1-p) * log (1–p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Anteil an den „1“-Beispielen.
  • q ist der Bruchteil der Beispiele mit „0“. Beachten Sie, dass q = (1 - p) ist.
  • log ist im Allgemeinen log2. In diesem Fall ist die Entropieeinheit ein wenig.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Daher ist der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein Satz, der perfekt ausgeglichen ist (z. B. 200 „0“ und 200 „1“), hätte eine Entropie von 1,0 Bit pro Beispiel. Wenn eine Menge unausgewogen wird, steigt ihre Entropie in Richtung 0,0.

In Entscheidungsbäumen hilft die Entropie bei der Formulierung eines Informationsgewinns, damit der Splitter die Bedingungen während des Wachstums eines Entscheidungsbaums zur Klassifizierung auswählen kann.

Entropie vergleichen mit:

Die Entropie wird oft als Shannnon-Entropie bezeichnet.

Umgebung

#rl

Beim Reinforcement Learning ist die Welt, die den Agent enthält und es dem Agent ermöglicht, diesen Zustand zu beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.

Folge

#rl

Beim Reinforcement Learning wird jeder der wiederholten Versuche des Agent, eine Umgebung zu erlernen, ausgeführt.

Epoche

#fundamentals

Einen vollständigen Trainingsdurchlauf für das gesamte Trainings-Dataset, sodass jedes Beispiel einmal verarbeitet wurde

Eine Epoche stellt N/Batchgröße von Trainingsiterationen dar, wobei N die Gesamtzahl der Beispiele ist.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher erfordert eine einzelne Epoche 20 Iterationen:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Epsilon-Richtlinie „Greedy“

#rl

Beim Reinforcement Learning eine Richtlinie, die entweder einer Zufallsrichtlinie mit Epsilon-Wahrscheinlichkeit oder einer Greetenrichtlinie folgt. Wenn beispielsweise Epsilon 0, 9 ist, folgt die Richtlinie in 90% der Fälle einer zufälligen Richtlinie und in 10% der Fälle einer gierigen Richtlinie.

Über aufeinanderfolgende Folgen reduziert der Algorithmus den Epsilon-Wert, um von einer zufälligen Richtlinie zu einer gierigen Richtlinie zu wechseln. Beim Verschieben der Richtlinie erkundet der Agent zuerst nach dem Zufallsprinzip die Umgebung und nutzt dann gierig die Ergebnisse der zufälligen Erkundung.

Chancengleichheit

#fairness

Fairnessmesswert, um zu beurteilen, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleichermaßen gut vorhersagt. Mit anderen Worten: Wenn das gewünschte Ergebnis für ein Modell die positive Klasse ist, wäre es das Ziel, dass die Rate wirklich positiver Ergebnisse für alle Gruppen gleich ist.

Die Chancengleichheit hängt mit der gleichmäßigen Wahrscheinlichkeit zusammen. Dies setzt voraus, dass sowohl die Rate richtig positiver Ergebnisse als auch die Raten falsch positiver Ergebnisse für alle Gruppen gleich sind.

Angenommen, die Glubbdubdrib University lässt sowohl Lilliputianer als auch die Brobdingnagians zu einem strengen Mathematikprogramm zu. Die weiterführenden Schulen von Lilliputian bieten einen soliden Lehrplan für Mathematikkurse an und die überwiegende Mehrheit der Studenten ist für das Universitätsprogramm qualifiziert. An den Sekundarschulen der Brobdingnagians werden überhaupt keine Mathematikkurse angeboten, sodass infolgedessen weit weniger Schüler qualifiziert sind. Die Chancengleichheit ist für die bevorzugte Bezeichnung „zugelassen“ im Hinblick auf die Nationalität erfüllt (Lilliputian oder Brobdingnag), wenn qualifizierte Schüler mit gleicher Wahrscheinlichkeit zugelassen werden, unabhängig davon, ob sie Lilliputianer oder Brobdingnager sind.

Angenommen, 100 Lilliputianer und 100 Brobdingnagians bewerben sich an der Glubbdubdrib University und Entscheidungen über die Zulassung werden wie folgt getroffen:

Tabelle 1. Bewerber in Lilliputen (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen Schüler/Studenten: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler/Studenten: 7/10 = 70%
Gesamtprozentsatz der zugelassenen Schüler in Lilliputen: (45 + 3) ÷ 100 = 48%

 

Tabelle 2: Bewerber aus dem Brobdingnag-Programm (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen Schüler/Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler/Studenten: 81/90 = 90%
Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5 + 9) ÷ 100 = 14%

Die obigen Beispiele erfüllen die Chancengleichheit bei der Akzeptanz qualifizierter Studenten, da sowohl qualifizierte Lilliputianer als auch Qualifizierte Brobdingnagians eine Chance von 50% haben, zugelassen zu werden.

Während die Chancengleichheit erfüllt ist, sind die folgenden beiden Fairness-Messwerte nicht erfüllt:

  • demografische Parität: Lilliputer und Brobdingnagier werden zu unterschiedlichen Zeiten für die Universität zugelassen. 48% der Lilliputianer werden zugelassen, aber nur 14% der Brobdingnagischen Studenten sind zugelassen.
  • gleichmäßige Chancen: Qualifizierte Lilliputianer und Brobdingnagian-Studenten haben zwar die gleichen Chancen, zugelassen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputianer und Brobdingnagians beide die gleiche Chance haben, abgelehnt zu werden, wird nicht erfüllt. Bei unqualifizierten Lilliputianern liegt die Ablehnungsrate bei 70 %, bei unqualifizierten Brobdingnagians bei 90 %.

Detailliertere Informationen zur Chancengleichheit finden Sie unter Chancengleichheit beim überwachten Lernen. In der Visualisierung Diskriminierung durch intelligentes maschinelles Lernen angreifen finden Sie Informationen zu den Nachteilen bei der Optimierung der Chancengleichheit.

ausgeglichene Chancen

#fairness

Ein Fairness-Messwert, um zu beurteilen, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs gleichermaßen gut in Bezug auf die positive Klasse und die negative Klasse vorhersagt – und nicht nur auf eine oder die andere Klasse. Mit anderen Worten: Sowohl die Rate richtig positiver Ergebnisse als auch die Rate falsch negativer Ergebnisse sollte für alle Gruppen gleich sein.

Analysierte Chancen stehen im Zusammenhang mit der Chancengleichheit, bei der nur Fehlerraten für eine einzelne Klasse (positiv oder negativ) im Mittelpunkt stehen.

Nehmen wir beispielsweise an, die Glubbdubdrib University erlaubt sowohl den Lilliputianern als auch der Brobdingnagians ein strenges Mathematikprogramm. Die weiterführenden Schulen der Lilliputians bieten ein umfangreiches Lehrangebot für Mathematikkurse an und die überwiegende Mehrheit der Schülerinnen und Schüler ist für das Universitätsprogramm qualifiziert. An den Sekundarschulen der Brobdingnagians werden überhaupt keine Mathematikkurse angeboten. Daher sind weit weniger Schüler qualifiziert. Die Chancengleichheit ist gegeben, vorausgesetzt, dass ein Bewerber unabhängig davon, ob er ein Lilliputer oder ein Brobdingnager ist, mit gleicher Wahrscheinlichkeit für das Programm zugelassen wird.

Angenommen, 100 Lilliputianer und 100 Brobdingnagians bewerben sich bei der Glubbdubdrib University und Entscheidungen über die Zulassung werden wie folgt getroffen:

Tabelle 3 Bewerber in Lilliputen (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen Schüler/Studenten: 45/90 = 50%
Prozentsatz der nicht qualifizierten Schüler/Studenten, die abgelehnt wurden: 8/10 = 80%
Gesamtprozentsatz der zugelassenen Schüler in Lilliputen: (45 + 2) ÷ 100 = 47%

 

Tabelle 4 Bewerber aus dem Brobdingnag-Programm (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen Schüler/Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler/Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5 + 18) ÷ 100 = 23%

Die Chancengleichheit ist erfüllt, da qualifizierte lilliputische und Brobdingnagian-Studierende eine 50-prozentige Chance haben, zugelassen zu werden, und unqualifizierte Lilliputian- und Brobdingnagian-Schüler eine Chance von 80 %, abgelehnt zu werden.

Gleichförmige Chancen sind in Chancengleichheit beim überwachten Lernen formell so definiert: „Predictor Ŷ erfüllt die gleichen Chancen in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig und an Y bedingt sind.“

Estimator

#TensorFlow

Eine verworfene TensorFlow API. Verwenden Sie tf.keras anstelle von Schätzern.

Kennenlernen

Prozess der Messung der Qualität der Vorhersagen eines Modells für maschinelles Lernen. Bei der Entwicklung eines Modells wenden Sie in der Regel Bewertungsmesswerte nicht nur auf das Trainings-Dataset an, sondern auch auf ein Validierungs-Dataset und ein Test-Dataset. Sie können auch Bewertungsmesswerte verwenden, um verschiedene Modelle miteinander zu vergleichen.

Beispiel

#fundamentals

Die Werte einer Zeile mit features und möglicherweise eines Labels. Beispiele für überwachtes Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein Beispiel mit einem Label besteht aus einem oder mehreren Merkmalen und einem Label. Beispiele mit Label werden während des Trainings verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehreren Merkmalen, aber ohne Label. Beispiele ohne Label werden bei der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse von Studenten zu bestimmen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 Gut
19 34 1.020 Großartig
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist normalerweise die Rohquelle für ein Beispiel. Ein Beispiel besteht also in der Regel aus einer Teilmenge der Spalten im Dataset. Außerdem können die Merkmale in einem Beispiel auch synthetische Merkmale wie Feature-Crosses enthalten.

Wiederholung

#rl

Beim Reinforcement Learning: ein DQN-Verfahren, mit dem zeitliche Korrelationen in Trainingsdaten reduziert werden. Der Agent speichert Statusübergänge in einem Replay-Zwischenspeicher und erstellt dann anhand von Übergängen aus dem Wiedergabezwischenspeicher Trainingsdaten.

Verzerrungen des Experimentators

#fairness

Siehe Bestätigungsverzerrung.

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz von Verläufen in neuronalen Deep-Learning-Netzwerken (insbesondere in neuronalen neuronalen Netzwerken), die überraschend steil (hoch) werden. Steile Farbverläufe führen häufig zu sehr großen Aktualisierungen der Gewichtungen jedes Knotens in einem neuronalen Deep-Learning-Netzwerk.

Modelle, die unter dem Problem des explodierenden Gradienten leiden, werden schwer oder unmöglich zu trainieren. Dieses Problem lässt sich möglicherweise durch das Abschneiden des Farbverlaufs beheben.

Vergleiche das Problem mit dem Problem mit dem Farbverlaufsverschwinden.

F

F1

Einen Sammelmesswert für die binäre Klassifizierung, der sowohl auf Genauigkeit als auch auf Trefferquote basiert. Die Formel lautet:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Hier ein Beispiel:

  • Precision = 0,6
  • Recall = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Wenn Precision und Recall ziemlich ähnlich sind (wie im vorherigen Beispiel), liegt F1 nah an ihrem Mittelwert. Wenn sich Precision und Recall erheblich unterscheiden, liegt F1 näher am niedrigeren Wert. Beispiel:

  • Precision = 0,9
  • Recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Fairness-Beschränkung

#fairness
Anwenden einer Einschränkung auf einen Algorithmus, um dafür zu sorgen, dass eine oder mehrere Definitionen von Fairness erfüllt sind. Beispiele für Fairness-Einschränkungen:

Fairness-Messwert

#fairness

Eine mathematische Definition von „Fairness“, die messbar ist. Zu den häufig verwendeten Fairness-Messwerten gehören:

Viele Fairness-Messwerte schließen sich gegenseitig aus; siehe dazu auch die Inkompatibilität von Fairness-Messwerten.

Falsch-negativ (FN)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Das Modell sagt beispielsweise vorher, dass eine bestimmte E-Mail-Nachricht kein Spam ist (die negative Klasse), bei dieser E-Mail-Nachricht jedoch tatsächlich Spam.

Rate falsch negativer Ergebnisse

Anteil der tatsächlichen positiven Beispiele, für die das Modell die negative Klasse versehentlich vorhergesagt hat. Die folgende Formel berechnet die Rate falsch negativer Ergebnisse:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Falsch positives Ergebnis (FP)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise vorher, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse), aber diese E-Mail-Nachricht tatsächlich kein Spam ist.

Rate falsch positiver Ergebnisse (FPR)

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell die positive Klasse versehentlich vorhergesagt hat. Mit der folgenden Formel wird die Falsch-Positiv-Rate berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Falsch-Positiv-Rate ist die x-Achse in einer ROC-Kurve.

Feature

#fundamentals

Eine Eingabevariable für ein ML-Modell. Ein Beispiel besteht aus einem oder mehreren Features. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse von Studenten zu bestimmen. Die folgende Tabelle zeigt drei Beispiele, die jeweils drei Funktionen und ein Label enthalten:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 92
19 34 1.020 84
18 92 1012 87

Stellen Sie einen Kontrast mit label her.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „übergreifende“ kategoriale oder Bucket-basierte Features gebildet wird.

Betrachten Sie beispielsweise ein "Stimmungsprognosemodell", das die Temperatur in einem der folgenden vier Buckets darstellt:

  • freezing
  • chilly
  • temperate
  • warm

Und stellt die Windgeschwindigkeit in einer der folgenden drei Kategorien dar:

  • still
  • light
  • windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig von den vorherigen sieben verschiedenen Buckets trainiert. Das Modell wird also z. B. mit freezing unabhängig vom Training trainiert, z. B. mit windy.

Alternativ können Sie eine Featureverknüpfung für Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank Featureverknüpfungen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy-Tag und einem freezing-still-Tag lernen.

Wenn Sie ein synthetisches Feature aus zwei Merkmalen erstellen, die jeweils viele verschiedene Buckets haben, ergeben sich für die resultierende Featureverknüpfung eine große Anzahl möglicher Kombinationen. Wenn ein Feature beispielsweise 1.000 Buckets hat und das andere 2.000 Buckets, hat die resultierende Featureverknüpfung 2.000.000 Buckets.

Formal ist ein Kreuz ein kartesisches Produkt.

Featureverknüpfungen werden hauptsächlich mit linearen Modellen und selten bei neuronalen Netzwerken verwendet.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Bestimmen, welche Features beim Trainieren eines Modells nützlich sein könnten
  2. Konvertieren von Rohdaten aus dem Dataset in effiziente Versionen dieser Merkmale

Beispielsweise könnten Sie feststellen, dass temperature eine nützliche Funktion sein könnte. Anschließend können Sie mit Bucketing experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal als Feature-Extraktion oder Featurisierung bezeichnet.

Featureextraktion

Überladener Begriff mit einer der folgenden Definitionen:

Featurewichtigkeiten

#df

Synonym für variable Wichtigkeiten.

Feature-Set

#fundamentals

Die Gruppe von Features, mit denen Ihr Modell für maschinelles Lernen trainiert wird. Zum Beispiel können die Postleitzahl, die Immobiliengröße und der Immobilienzustand einen einfachen Feature-Set für ein Modell darstellen, das Immobilienpreise vorhersagt.

Featurespezifikation

#TensorFlow

Beschreibt die erforderlichen Informationen zum Extrahieren von features-Daten aus dem tf.Example-Protokollzwischenspeicher. Da der Protokollpuffer von tf.Example nur ein Container für Daten ist, müssen Sie Folgendes angeben:

  • Die zu extrahierenden Daten (d. h. die Schlüssel für die Funktionen)
  • Der Datentyp (z. B. float oder int)
  • Länge (fest oder variabel)

Featurevektor

#fundamentals

Das Array der feature-Werte besteht aus einem Beispiel. Der Featurevektor wird während des Trainings und während der Inferenz eingegeben. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.
          Die Eingabeebene enthält zwei Knoten, wobei einer den Wert 0,92 und der andere den Wert 0,56 enthält.

In jedem Beispiel werden unterschiedliche Werte für den Featurevektor bereitgestellt. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie Features im Featurevektor dargestellt werden. Ein binäres kategoriales Merkmal mit fünf möglichen Werten könnte beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Featurevektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1,0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Nehmen wir als weiteres Beispiel an, Ihr Modell besteht aus drei Merkmalen:

  • Ein binäres kategoriales Feature mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Feature mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 0.0, 1.0]
  • ein Gleitkommaelement; Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt werden. Bei den Beispielwerten in der vorherigen Liste wäre der Featurevektor:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Featurisierung

Der Prozess, bei dem Merkmale aus einer Eingabequelle wie einem Dokument oder Video extrahiert und in einem Featurevektor zugeordnet werden.

Einige ML-Experten verwenden die Featurisierung als Synonym für Feature Engineering oder Feature-Extraktion.

föderiertes Lernen

Ein Ansatz für verteiltes maschinelles Lernen, bei dem Modelle für maschinelles Lernen mithilfe dezentralisierter Beispiele auf Geräten wie Smartphones trainiert. Beim föderierten Lernen lädt eine Teilmenge von Geräten das aktuelle Modell von einem zentralen koordinierenden Server herunter. Die Geräte verwenden die auf den Geräten gespeicherten Beispiele, um das Modell zu verbessern. Die Geräte laden dann die Modellverbesserungen (jedoch nicht die Trainingsbeispiele) auf den Koordinierungsserver hoch, wo sie mit anderen Updates zusammengefasst werden, um ein verbessertes globales Modell zu erzeugen. Nach der Aggregation werden die von Geräten berechneten Modellaktualisierungen nicht mehr benötigt und können verworfen werden.

Da die Trainingsbeispiele nie hochgeladen werden, folgt das föderierte Lernen den Datenschutzgrundsätzen der fokussierten Datenerhebung und Datenminimierung.

Weitere Informationen zum föderierten Lernen finden Sie in dieser Anleitung.

Feedback Loop

#fundamentals

Eine Situation beim maschinellen Lernen, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Beispielsweise beeinflusst ein Modell, das Filme empfiehlt, die Filme, die sich Nutzer ansehen. Dies wiederum wirkt sich auf nachfolgende Filmempfehlungsmodelle aus.

Neuronales Feed-Forward-Netzwerk (FFN)

Ein neuronales Netzwerk ohne zyklische oder rekursive Verbindungen. Herkömmliche neuronale Deep-Learning-Netzwerke sind beispielsweise neuronale Feed-Forward-Netzwerke. Im Gegensatz dazu sind recurrent neuronale Netzwerke, die zyklisch sind.

Lernen mit wenigen Schritten

Ein Ansatz für maschinelles Lernen, der häufig für die Objektklassifizierung verwendet wird und zum Trainieren effektiver Klassifikatoren mit nur einer kleinen Anzahl von Trainingsbeispielen entwickelt wurde.

Weitere Informationen finden Sie unter One-Shot Learning und Zero-Shot Learning.

Wenige-Shot-Prompts

#language
#generativeKI

Eine Prompt mit mehreren Beispielen, die zeigen, wie das Large Language Model reagieren soll. Die folgende lange Aufforderung enthält beispielsweise zwei Beispiele, die zeigen, wie ein Large Language Model eine Abfrage beantwortet.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Vereinigtes Königreich: GBP Ein weiteres Beispiel.
Indien: Die eigentliche Abfrage.

Wenig-shot-Prompts führen in der Regel zu besseren Ergebnissen als Zero-Shot-Prompts und One-Shot-Prompts. Für „wenige-shot“-Prompts ist jedoch ein längerer Prompt erforderlich.

Wenig-shot-Prompts sind eine Form von wenig-shot-Lernen, die auf Prompt-basiertes Lernen angewendet wird.

Geige

#language

Eine Konfigurationsbibliothek speziell für Python, die die Werte von Funktionen und Klassen ohne invasiven Code oder invasive Infrastruktur festlegt. Im Fall von Pax – und anderen ML-Codebasen – stellen diese Funktionen und Klassen Modelle und Trainings Hyperparameter dar.

Fiddle geht davon aus, dass Codebasen für maschinelles Lernen typischerweise in folgende Kategorien unterteilt sind:

  • Bibliothekscode, der die Layer und Optimierungstools definiert.
  • Dataset-"glue"-Code, der die Bibliotheken aufruft und alles miteinander verkabelt.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einer nicht bewerteten und veränderlichen Form.

Feinabstimmung

#language
#image
#generativeKI

Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der für ein vortrainiertes Modell ausgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Die vollständige Trainingssequenz für einige Large Language Models sieht beispielsweise so aus:

  1. Vor dem Training:Trainieren Sie ein Large Language Model mit einem umfangreichen allgemeinen Dataset, z. B. allen englischsprachigen Wikipedia-Seiten.
  2. Feinabstimmung:Trainieren Sie das vortrainierte Modell, um eine bestimmte Aufgabe auszuführen, z. B. das Antworten auf medizinische Abfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende Beispiele, die sich auf die spezifische Aufgabe konzentrieren.

Ein weiteres Beispiel für die vollständige Trainingssequenz für ein großes Bildmodell:

  1. Vor dem Training:Trainieren Sie ein großes Bildmodell mit einem umfangreichen allgemeinen Bild-Dataset, z. B. allen Bildern in Wikimedia Commons.
  2. Feinabstimmung:Trainieren Sie das vortrainierte Modell, um eine bestimmte Aufgabe auszuführen, z. B. das Generieren von Bildern von Orcas.

Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:

  • Änderung aller vorhandenen Parameter des vortrainierten Modells. Dies wird auch als vollständige Feinabstimmung bezeichnet.
  • Nur einige der vorhandenen Parameter des vortrainierten Modells ändern (in der Regel die Schichten, die der Ausgabeschicht am nächsten sind) und andere vorhandene Parameter unverändert lassen (normalerweise die Ebenen, die der Eingabeschicht am nächsten sind). Weitere Informationen finden Sie unter Parametereffiziente Abstimmung.
  • Es werden weitere Ebenen hinzugefügt, in der Regel über den vorhandenen Ebenen, die der Ausgabeebene am nächsten sind.

Die Feinabstimmung ist eine Form des Lerntransfers. Daher kann für die Feinabstimmung eine andere Verlustfunktion oder ein anderer Modelltyp als beim Trainieren des vortrainierten Modells verwendet werden. Sie können beispielsweise ein vortrainiertes großes Bildmodell optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen:

Kristallgrau

#language

Eine leistungsstarke Open-Source-Bibliothek für Deep Learning auf der Grundlage von JAX. Flax bietet Funktionen zum Training von neuronalen Netzwerken sowie Methoden zur Bewertung ihrer Leistung.

Flachsformer

#language

Eine Open-Source-Transformer-Bibliothek, die auf Flax aufbaut und in erster Linie für Natural Language Processing und multimodale Forschung entwickelt wurde.

Vergiss Gate

#seq

Der Teil einer Zelle vom Typ Long Short-Term Memory, der den Informationsfluss durch die Zelle reguliert. Forget-Gatter behalten den Kontext aufrecht, indem sie entscheiden, welche Informationen aus dem Zellenstatus verworfen werden sollen.

Full Softmax

Synonym für Softmax.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

vollständig verbundene Ebene

Eine verborgene Ebene, in der jeder Knoten mit jedem Knoten in der nachfolgenden versteckten Ebene verbunden ist.

Eine vollständig verbundene Ebene wird auch als dichte Ebene bezeichnet.

Funktionstransformation

Eine Funktion, die eine Funktion als Eingabe verwendet und eine transformierte Funktion als Ausgabe zurückgibt. JAX verwendet Funktionstransformationen.

G

GAN

Abkürzung für Generative Adversarial Network.

Generalisierung

#fundamentals

Fähigkeit eines Modells, korrekte Vorhersagen für neue, zuvor unbekannte Daten zu treffen. Ein Modell, das generalisierbar ist, ist das Gegenteil eines Modells mit Überanpassung.

Generalisierungskurve

#fundamentals

Ein Diagramm des Trainingsverlusts und des Validierungsverlusts als Funktion der Anzahl der Iterationen.

Mithilfe einer Generalisierungskurve können Sie eine mögliche Überanpassung erkennen. Die folgende Generalisierungskurve deutet beispielsweise auf eine Überanpassung hin, da der Validierungsverlust letztendlich erheblich höher ist als der Trainingsverlust.

Ein kartesischer Graph, in dem die y-Achse mit Verlust und die x-Achse mit Iterationen beschriftet sind. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt den Trainingsverlust und das andere den Validierungsverlust.
          Die beiden Diagramme fangen ähnlich an, aber der Trainingsverlust fällt letztendlich weitaus geringer als der Validierungsverlust.

allgemeines lineares Modell

Eine Generalisierung von Regressionsmodellen mit den kleinsten Quadraten, die auf dem Gaußschen Rauschen basieren, für andere Modelltypen auf der Grundlage anderer Arten von Rauschen wie Poisson-Rauschen oder kategorialem Rauschen. Beispiele für generalisierte lineare Modelle:

Die Parameter eines generalisierten linearen Modells können mithilfe der konvexen Optimierung ermittelt werden.

Generalisierte lineare Modelle haben die folgenden Eigenschaften:

  • Die durchschnittliche Vorhersage des optimalen Regressionsmodells der kleinsten Quadrate entspricht dem Durchschnittslabel der Trainingsdaten.
  • Die durchschnittliche Wahrscheinlichkeit, die vom optimalen logistischen Regressionsmodell vorhergesagt wird, entspricht dem Durchschnittslabel der Trainingsdaten.

Die Leistungsfähigkeit eines generalisierten linearen Modells wird durch seine Merkmale begrenzt. Im Gegensatz zu einem tiefen Modell kann ein generalisiertes lineares Modell nicht „neue Features lernen“.

Generative Adversarial Network (GAN)

Ein System zum Erstellen neuer Daten, in dem ein Generator Daten erstellt und ein Diskriminator bestimmt, ob die erstellten Daten gültig oder ungültig sind.

generative KI

#language
#image
#generativeKI

Ein aufstrebendes transformatives Feld ohne formale Definition. Dennoch sind sich die meisten Experten einig, dass Generative-AI-Modelle folgende Inhalte erstellen („generieren“) können:

  • komplex
  • kohärent
  • ursprünglich

Ein Generative-AI-Modell kann beispielsweise anspruchsvolle Aufsätze oder Bilder erstellen.

Mit einigen früheren Technologien wie LSTMs und RNNs können auch eigene und kohärente Inhalte generiert werden. Einige Experten betrachten diese früheren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI komplexere Ergebnisse erfordert, als diese früheren Technologien erzeugen können.

Im Gegensatz zu prädiktivem ML.

generatives Modell

Praktisch gesprochen, ein Modell, das einen der folgenden Schritte ausführt:

  • Erstellt (generiert) neue Beispiele aus dem Trainings-Dataset. Ein generatives Modell könnte beispielsweise nach dem Training mit einem Dataset von Gedichten Gedichte erstellen. Der Generator eines generativen kontradiktorischen Netzwerks fällt in diese Kategorie.
  • Bestimmt die Wahrscheinlichkeit, dass ein neues Beispiel aus dem Trainings-Dataset stammt oder mit demselben Mechanismus erstellt wurde, mit dem das Dataset erstellt wurde. Nach dem Training mit einem Dataset, das aus englischen Sätzen besteht, könnte ein generatives Modell beispielsweise die Wahrscheinlichkeit bestimmen, dass eine neue Eingabe ein gültiger englischer Satz ist.

Ein generatives Modell kann theoretisch die Verteilung von Beispielen oder bestimmten Merkmalen in einem Dataset erkennen. Das bedeutet:

p(examples)

Unüberwachtes Lernen ist generativ.

Im Kontrast zu diskriminativen Modellen stehen.

Generator

Das Subsystem innerhalb eines generativen kontradiktorischen Netzwerks, das neue Beispiele erstellt.

Im Kontrast zum diskriminativen Modell stehen.

Gini-Verunreinigung

#df

Einen Messwert, der Entropie ähnelt. Splitter verwenden Werte, die von Gini-Verunreinigungen oder Entropie abgeleitet werden, um Bedingungen für die Entscheidungsbäume zu erstellen. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den aus „Gini“ abgeleiteten Messwert. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Verunreinigung wird auch als Gini-Index oder einfach Gini bezeichnet.

Goldenes Dataset

Eine Reihe manuell ausgewählter Daten, die Ground Truth erfassen. Teams können ein oder mehrere goldene Datasets verwenden, um die Qualität eines Modells zu bewerten.

Einige goldene Datasets erfassen verschiedene Subdomains der Grundwahrheit. Ein goldenes Dataset für die Bildklassifizierung könnte beispielsweise die Lichtverhältnisse und die Bildauflösung erfassen.

GPT (Generativer vortrainierter Transformer)

#language

Eine Familie von Transformer-basierten Large Language Models, die von OpenAI entwickelt wurden.

GPT-Varianten können für mehrere Modalitäten angewendet werden, darunter:

  • Bildgenerierung (z. B. ImageGPT)
  • Text-zu-Bild-Generierung (z. B. DALL-E)

Farbverlauf

Der Vektor von partiellen Ableitungen unter Berücksichtigung aller unabhängigen Variablen. Beim maschinellen Lernen ist der Gradient der Vektor von partiellen Ableitungen der Modellfunktion. Der Farbverlauf zeigt in Richtung des steilsten Aufstiegs.

Gradientenakkumulation

Eine Rückpropagierung, bei der die Parameter nur einmal pro Epoche und nicht einmal pro Iteration aktualisiert werden. Nach der Verarbeitung jedes Mini-Batch wird durch die Gradientenakkumulation einfach eine laufende Summe von Gradienten aktualisiert. Nach der Verarbeitung des letzten Minibatches in der Epoche aktualisiert das System schließlich die Parameter anhand der Summe aller Gradientenänderungen.

Die Gradientenakkumulation ist nützlich, wenn die Batchgröße im Vergleich zum verfügbaren Arbeitsspeicher für das Training sehr groß ist. Wenn Arbeitsspeicher ein Problem ist, besteht die natürliche Tendenz darin, die Batchgröße zu reduzieren. Wenn Sie jedoch die Batchgröße bei der normalen Rückpropagierung verringern, wird die Anzahl der Parameteraktualisierungen erhöht. Durch die Gradientakkumulation kann das Modell Arbeitsspeicherprobleme vermeiden, aber dennoch effizient trainieren.

Gradient Boosted (Entscheidungsbaum) (GBT)

#df

Eine Art von Entscheidungsstruktur, in dem:

Gradientenverstärkung

#df

Einen Trainingsalgorithmus, mit dem schwache Modelle trainiert werden, um die Qualität eines starken Modells iterativ zu verbessern (den Verlust zu reduzieren). Ein schwaches Modell könnte beispielsweise ein lineares oder ein kleines Entscheidungsbaummodell sein. Ein starkes Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boostings wird bei jeder Iteration ein schwaches Modell darauf trainiert, den Verlustgradient des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie beim Gradientenverfahren.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das erste starke Modell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird und der Lernrate beim Gradientenabstieg entspricht.
  • $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, den Verlustgrad von $F_{i}$ vorherzusagen.

Moderne Varianten des Gradienten-Boostings beinhalten auch die zweite Ableitung des Verlusts (hessisch).

Entscheidungsbäume werden häufig als schwache Modelle beim Gradienten-Boosting verwendet. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsbäume).

Farbverlauf-Clipping

#seq

Ein häufig verwendeter Mechanismus zur Entschärfung des Problems des explodierenden Gradienten, indem der Maximalwert von Gradienten künstlich begrenzt (begrenzt) wird, wenn ein Modell mit Gradientenabstieg trainiert wird.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlust. Beim Gradientenabstieg werden Gewichtungen und Verzerrungen iterativ angepasst, um schrittweise die beste Kombination zur Minimierung des Verlusts zu finden.

Das Gradientenverfahren ist älter – viel, viel älter – als das maschinelle Lernen.

Grafik

#TensorFlow

Eine Berechnungsspezifikation in TensorFlow. Knoten im Diagramm stellen Vorgänge dar. Kanten sind gerichtet und stellen die Übergabe des Ergebnisses eines Vorgangs (Tensor) als Operanden an einen anderen Vorgang dar. Mit TensorBoard können Sie ein Diagramm visualisieren.

Graph Execution

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der das Programm zuerst eine Grafik erstellt und diese dann vollständig oder teilweise ausführt. Die Grafikausführung ist der Standardausführungsmodus in TensorFlow 1.x.

Im Kontrast zu gezielter Ausführung stehen.

Gierige Richtlinien

#rl

Beim Reinforcement Learning eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rendite auswählt.

Ground Truth

#fundamentals

Realität.

Die Sache, die tatsächlich passiert ist.

Betrachten Sie beispielsweise ein binäres Klassifizierungsmodell, das vorhersagt, ob ein Student im ersten Universitätsjahr innerhalb von sechs Jahren seinen Abschluss machen wird. Die Grundwahrheit für dieses Modell ist, ob der Student tatsächlich innerhalb von sechs Jahren

Gruppenattributionsverzerrung

#fairness

Unter der Annahme, dass das, was für eine Person wahr ist, auch für alle in dieser Gruppe gilt. Die Auswirkungen einer Gruppenattributionsverzerrung können sich verschlimmern, wenn zur Datenerhebung willkürliche Stichproben verwendet werden. In einer nicht repräsentativen Stichprobe können Zuordnungen gegeben werden, die nicht der Realität entsprechen.

Weitere Informationen finden Sie unter Out-Group-Homogenitätsverzerrung und In-Group-Verzerrung.

H

KI-Halluzination

#language

Erstellung einer plausibel scheinen, aber faktisch falschen Ausgabe durch ein generatives KI-Modell, das eine Behauptung über die reale Welt zu geben scheint. Ein generatives KI-Modell, das behauptet, Barack Obama sei 1865 gestorben, heißt beispielsweise Halluzinieren.

Hash-Technologie

Beim maschinellen Lernen ein Mechanismus zum Bucketing kategorialer Daten, insbesondere wenn die Anzahl der Kategorien groß ist, die Anzahl der tatsächlich im Dataset vorkommenden Kategorien jedoch vergleichsweise klein.

Auf der Erde gibt es beispielsweise etwa 73.000 Baumarten. Sie können jede der 73.000 Baumarten in 73.000 separaten kategorialen Buckets darstellen. Wenn nur 200 dieser Baumarten tatsächlich in einem Dataset vorkommen, können Sie die Baumarten auch mithilfe von Hashing in etwa 500 Buckets unterteilen.

Ein einzelner Bucket könnte mehrere Baumarten enthalten. Zum Beispiel könnten Affenbrotbäume und Roter Ahorn – zwei genetisch unterschiedliche Arten – in denselben Bucket gestellt werden. Unabhängig davon ist das Hashen eine gute Möglichkeit, große kategoriale Sets der ausgewählten Anzahl von Buckets zuzuordnen. Beim Hashing wird ein kategoriales Merkmal mit einer großen Anzahl möglicher Werte in eine viel kleinere Anzahl von Werten umgewandelt, indem Werte auf deterministische Weise gruppiert werden.

Heuristik

Eine einfache und schnell implementierte Lösung für ein Problem. Zum Beispiel: „Mit einer Heuristik haben wir eine Genauigkeit von 86% erreicht. Als wir zu einem neuronalen Deep-Learning-Netzwerk wechselten, stieg die Genauigkeit auf 98%.“

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (die Features) und der Ausgabeschicht (die Vorhersage). Jede versteckte Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene, die zwei Elemente enthält. Die zweite Schicht ist eine verborgene Schicht mit drei Neuronen. Die dritte Schicht ist eine verborgene Schicht mit zwei Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Jedes Feature hat drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jedes Neuron der zweiten Schicht hat zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jedes Neuron der dritten Schicht hat eine Kante, die jeweils auf die Ausgabeschicht verweist.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine versteckte Schicht. Die obige Abbildung zeigt beispielsweise ein neuronales Deep-Learning-Netzwerk, da das Modell zwei versteckte Schichten enthält.

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die eine Baumstruktur von Clustern erstellen. Das hierarchische Clustering eignet sich gut für hierarchische Daten, z. B. botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim agglomerativen Clustering wird zuerst jedes Beispiel einem eigenen Cluster zugewiesen. Anschließend werden die nächstgelegenen Cluster iterativ zusammengeführt, um eine hierarchische Struktur zu erstellen.
  • Divisives Clustering gruppiert zuerst alle Beispiele in einem Cluster und teilt den Cluster dann iterativ in eine hierarchische Struktur auf.

Im Gegensatz zu zentroidbasiertem Clustering.

Scharnierverlust

Eine Familie von Verlustfunktionen für die Klassifizierung, die darauf abzielt, die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel zu entfernen, um so den Abstand zwischen den Beispielen und der Grenze zu maximieren. KSVMs nutzen Scharnierverlust (oder eine damit verbundene Funktion, z. B. das quadratische Scharnierverlust). Für die binäre Klassifizierung wird die Scharnierverlustfunktion so definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Dabei ist y das tatsächliche Label, entweder -1 oder +1, und y' die Rohausgabe des Klassifikatormodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Folglich sieht ein Diagramm des Scharniersverlusts im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm, das aus zwei verbundenen Liniensegmenten besteht. Das erste Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und endet auf unbestimmte Zeit mit einer Steigung von 0.

historische Voreingenommenheit

#fairness

Eine Art der Voreingenommenheit, die bereits auf der Welt existiert und in ein Dataset eingedrungen ist. Diese Voreingenommenheiten spiegeln in der Regel bestehende kulturelle Stereotypen, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen wider.

Stellen Sie sich beispielsweise ein Klassifizierungsmodell vor, das vorhersagt, ob ein Kreditantragsteller im Verzug ist oder nicht. Das Modell wurde mit historischen Standarddaten für Kredite aus den 1980er-Jahren von lokalen Banken in zwei verschiedenen Gemeinden trainiert. Wenn frühere Bewerber aus Community A sechsmal häufiger einen Kredit in Anspruch nehmen als Bewerber aus Community B, lernt das Modell möglicherweise eine historische Verzerrung. Dies würde dazu führen, dass das Modell Kredite in Community A weniger wahrscheinlich bewilligt, auch wenn die historischen Bedingungen, die dazu geführt haben, dass die höheren Standardraten dieser Community nicht mehr relevant waren, nicht mehr relevant waren.

Holdout-Daten

Beispiele werden während des Trainings absichtlich nicht verwendet („hervorgehoben“). Das Validierungs-Dataset und das Test-Dataset sind Beispiele für Holdout-Daten. Mit Holdout-Daten können Sie die Fähigkeit Ihres Modells bewerten, andere Daten als die Daten zu verallgemeinern, mit denen es trainiert wurde. Der Verlust des Holdout-Datasets liefert eine bessere Schätzung des Verlusts für ein nicht gesehenes Dataset als der Verlust des Trainings-Datasets.

Gastgeber

#TensorFlow
#GoogleCloud

Wenn Sie ein ML-Modell auf Beschleuniger-Chips (GPUs oder TPUs) trainieren, ist dies der Teil des Systems, der Folgendes steuert:

  • Der gesamte Ablauf des Codes.
  • Die Extraktion und Transformation der Eingabepipeline.

Der Host wird normalerweise auf einer CPU und nicht auf einem Beschleunigerchip ausgeführt. Das device manipuliert Tensoren auf den Beschleunigerchips.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienstwährend aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Beispielsweise ist die Lernrate ein Hyperparameter. Sie können die Lernrate vor einer Trainingseinheit auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie die Lernrate für die nächste Trainingseinheit vielleicht auf 0,003 festlegen.

Im Gegensatz dazu stehen Parameter für die verschiedenen Gewichtungen und Verzerrungen, die das Modell während des Trainings lernt.

Hyperplane

Begrenzung, die einen Bereich in zwei untergeordnete Bereiche trennt. Eine Linie ist beispielsweise eine Hyperebene in zwei Dimensionen und eine Ebene eine Hyperebene in drei Dimensionen. Beim maschinellen Lernen ist in der Regel eine Hyperebene die Grenze, die einen hochdimensionalen Raum trennt. Kernel-Unterstützungsvektormaschinen verwenden Hyperebenen, um positive von negativen Klassen zu trennen, oft in einem sehr hochdimensionalen Bereich.

I

i.d.

Abkürzung für unabhängig und identisch verteilt.

bilderkennung

#image

Prozess, der Objekte, Muster oder Konzepte in einem Bild klassifiziert. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung.

unausgeglichenes Dataset

Synonym für class-unbalanced dataset.

impliziter Bias

#fairness

Das automatische Herstellen einer Zuordnung oder Annahme basierend auf den eigenen Gedankenmodellen und Erinnerungen. Implizite Voreingenommenheit kann folgende Auswirkungen haben:

  • Wie Daten erhoben und klassifiziert werden.
  • Design und Entwicklung von ML-Systemen

Beispielsweise kann ein Ingenieur beim Erstellen eines Klassifikators für Hochzeitsfotos das Vorhandensein eines weißen Kleides auf einem Foto als Element nutzen. Weiße Kleider waren jedoch nur zu bestimmten Zeiten und in bestimmten Kulturen üblich.

Siehe auch Bestätigungsverzerrung.

Imputation

Kurzform der Wertberechnung.

Inkompatibilität von Fairness-Messwerten

#fairness

Konzept, das besagt, dass einige Konzepte von Fairness gegenseitig nicht kompatibel sind und nicht gleichzeitig befriedigt werden können. Daher gibt es keinen einzigen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Dies mag zwar entmutigend erscheinen, aber eine Inkompatibilität von Fairness-Messwerten bedeutet nicht, dass Fairness-Bemühungen ergebnislos sind. Stattdessen schlägt er vor, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu verhindern, die für die jeweiligen Anwendungsfälle spezifisch sind.

Weitere Informationen zu diesem Thema finden Sie unter Über die (Un-)Möglichkeit von Fairness.

kontextbezogenes Lernen

#language
#generativeKI

Synonym für wenige-shot-Prompting.

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert und bei denen jeder gezeichnete Wert nicht von zuvor gezeichneten Werten abhängt. Ein i.i.d. ist das ideale Gas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der realen Welt aber so gut wie nie genau zu finden ist. Die Verteilung der Besucher einer Webseite kann beispielsweise über ein kurzes Zeitfenster hinweg ablaufen. Das heißt, die Verteilung ändert sich während dieses kurzen Zeitfensters nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Instationarität.

individuelle Fairness

#fairness

Ein Fairness-Messwert, mit dem geprüft wird, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy kann beispielsweise auf individuelle Fairness achten, indem sichergestellt wird, dass zwei Studenten mit identischen Noten und standardisierten Prüfungsergebnissen die gleiche Wahrscheinlichkeit zur Zulassung erhalten.

Beachten Sie, dass die individuelle Fairness vollständig davon abhängt, wie Sie „Ähnlichkeit“ (in diesem Fall Noten und Prüfungsergebnisse) definieren. Sie laufen außerdem Gefahr, neue Fairness-Probleme aufzustellen, wenn beim Ähnlichkeitsmesswert wichtige Informationen fehlen (z. B. die Gründlichkeit des Lehrplans eines Lernenden).

Detailliertere Informationen zu Fairness beim einzelnen Nutzer finden Sie unter Fairness beim Bewusstsein.

Inferenz

#fundamentals

Beim maschinellen Lernen der Prozess des Treffens von Vorhersagen durch Anwenden eines trainierten Modells auf Beispiele ohne Label.

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Inferenzpfad

#df

In einem Entscheidungsbaum wird während der Inferenz die Route eines bestimmten Beispiels vom Stamm zu anderen Bedingungen verwendet, die mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Feature-Werten an:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt erreicht (Zeta).

Ein Entscheidungsbaum, der aus vier Bedingungen und fünf Blättern besteht.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad vom Stamm zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, führt der Inferenzpfad zur nächsten Bedingung (z > 0). Da die Antwort „Nein“ lautet, verläuft der Inferenzpfad zu seinem Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Informationsgewinn

#df

In Entscheidungsstrukturen die Differenz zwischen der Entropie eines Knotens und der gewichteten Summe (nach Anzahl der Beispiele) der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

Somit befinden sich 40% der Beispiele in einem untergeordneten Knoten und 60% in dem anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Die gewonnenen Informationen sind also:

  • Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropie-Summe der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter schaffen Bedingungen, die den Informationsgewinn maximieren.

In-Group-Verzerrung

#fairness

Zeigt eine Parteilichkeit gegenüber der eigenen Gruppe oder eigenen Merkmalen. Wenn Tester oder Prüfer aus Freunden, Familienmitgliedern oder Kollegen des Entwicklers für maschinelles Lernen bestehen, kann die In-Group-Verzerrung Produkttests oder das Dataset ungültig machen.

Die In-Group-Verzerrung ist eine Form der Gruppenzuordnungsverzerrung. Siehe auch Out-Group-Homogenitätsverzerrung.

Eingabegenerator

Ein Mechanismus, mit dem Daten in ein neuronales Netzwerk geladen werden.

Ein Eingabegenerator kann man sich als eine Komponente vorstellen, die für die Verarbeitung von Rohdaten in Tensoren verantwortlich ist, die iteriert werden, um Batches für Training, Auswertung und Inferenz zu generieren.

Eingabeebene

#fundamentals

Die Ebene eines neuronalen Netzwerks, das den Featurevektor enthält. Das heißt, die Eingabeebene enthält Beispiele für Training oder Inferenz. Die Eingabeebene im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Merkmalen:

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.

Eingefügte Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die prüft, ob ein Element in einer Gruppe von Elementen vorhanden ist. Das folgende Beispiel zeigt eine festgelegte Bedingung:

  house-style in [tudor, colonial, cape]

Wenn während der Inferenz der Wert des Elements im Hausstil tudor, colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert des Elements im Hausstil ein anderer Wert ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

Eingesetzte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Features getestet werden.

Instanz

Synonym für example.

Anweisung Feinabstimmung

#generativeKI

Eine Form der Feinabstimmung, mit der die Fähigkeit eines generativen KI-Modells verbessert wird, Anweisungen zu befolgen. Bei der Feinabstimmung von Anweisungen wird ein Modell anhand einer Reihe von Anweisungsaufforderungen trainiert, die in der Regel eine Vielzahl von Aufgaben abdecken. Das resultierende, auf Anweisungen abgestimmte Modell generiert dann tendenziell nützliche Antworten auf Zero-Shot-Prompts für eine Vielzahl von Aufgaben.

Vergleichen mit:

Interpretierbarkeit

#fundamentals

Fähigkeit, die Schlussfolgerungen eines ML-Modells für einen Menschen auf verständliche Weise zu erklären oder zu präsentieren.

Die meisten linearen Regressionsmodelle beispielsweise sind hoch interpretierbar. (Sie müssen sich nur die trainierten Gewichtungen für jedes Feature ansehen.) Auch Entscheidungsforen sind gut interpretierbar. Einige Modelle erfordern jedoch eine ausgefeilte Visualisierung, damit sie interpretierbar werden.

Sie können das Learning Interpretability Tool (LIT) verwenden, um ML-Modelle zu interpretieren.

Vereinbarung zwischen Ratern

Ein Maß dafür, wie oft sich die Prüfer bei der Erledigung einer Aufgabe einig sind. Wenn die Bewerter sich nicht einig sind, müssen die Aufgabenanleitung möglicherweise verbessert werden. Wird manchmal auch als Vereinbarung zwischen den Kommentierenden oder Zuverlässigkeit zwischen Evaluatoren bezeichnet. Siehe auch Cohen's Kappa, eine der beliebtesten Messungen zwischen Rater Vereinbarungen.

Interpunktion über Union (IoU)

#image

Schnittmenge zweier Mengen, geteilt durch ihre Vereinigung. Bei Bilderkennungsaufgaben für maschinelles Lernen wird IoU verwendet, um die Genauigkeit des vorhergesagten Begrenzungsrahmens des Modells in Bezug auf den Ground-Truth-Begrenzungsrahmen zu messen. In diesem Fall ist der IoU für die beiden Begrenzungsrahmen das Verhältnis zwischen dem sich überschneidenden Bereich und der Gesamtfläche. Sein Wert reicht von 0 (keine Überschneidung des vorhergesagten Begrenzungsrahmens und des Grundwahrheits-Begrenzungsrahmens) bis 1 (der vorhergesagter Begrenzungsrahmen und der Ground-Truth-Begrenzungsrahmen haben genau dieselben Koordinaten).

In der folgenden Abbildung ist beispielsweise Folgendes zu sehen:

  • Der vorhergesagte Begrenzungsrahmen (die Koordinaten, die begrenzen, wo das Modell die Nachttabelle im Gemälde vorhersagt) ist lila dargestellt.
  • Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die festlegen, wo sich die Nachttabelle im Gemälde tatsächlich befindet) ist grün umrandet.

Das Gemälde von Vincents Schlafzimmer in Arles von van Gogh, mit zwei verschiedenen Begrenzungsrahmen um den Nachttisch neben dem Bett. Der Ground-Truth-Begrenzungsrahmen (in grün) umgibt die Nachttabelle perfekt. Der vorhergesagte Begrenzungsrahmen (in lila) ist um 50% nach unten und rechts vom Ground-Truth-Begrenzungsrahmen verschoben. Er umschließt das untere rechte Viertel der Nachttabelle, verfehlt aber den Rest der Tabelle.

Hier ist die Schnittmenge der Begrenzungsrahmen für Vorhersage und Ground Truth (unten links) 1 und die Vereinigung der Begrenzungsrahmen für Vorhersage und Ground Truth (unten rechts) 7, sodass der IoU \(\frac{1}{7}\)ist.

Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Quadranten unterteilt. Insgesamt gibt es sieben Quadranten, da sich der Quadrant unten rechts des Ground-Truth-Begrenzungsrahmens und der linke obere Quadrant des vorhergesagten Begrenzungsrahmens überlappen. Dieser sich überschneidende Abschnitt (grün hervorgehoben) stellt die Kreuzung dar und hat eine Fläche von „1“. Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Quadranten unterteilt. Insgesamt gibt es sieben Quadranten, da sich der Quadrant unten rechts des Ground-Truth-Begrenzungsrahmens und der linke obere Quadrant des vorhergesagten Begrenzungsrahmens überlappen.
          Das gesamte Innere, das von beiden Begrenzungsrahmen (grün hervorgehoben) umgeben ist, stellt die Vereinigung dar und hat eine Fläche von 7.

IoU

Abkürzung für Intersection over Union.

Elementmatrix

#recsystems

In Empfehlungssystemen eine Matrix von Einbettungsvektoren, die durch die Matrixfaktorisierung generiert wird und latente Signale zu jedem Element enthält. Jede Zeile der Elementmatrix enthält den Wert eines einzelnen latenten Merkmals für alle Elemente. Sehen wir uns als Beispiel ein Filmempfehlungssystem an. Jede Spalte in der Elementmatrix repräsentiert einen einzelnen Film. Die latenten Signale können Genres oder schwer zu interpretierende Signale sein, die komplexe Interaktionen zwischen Genre, Stars, Filmalter oder anderen Faktoren beinhalten.

Die Elementmatrix hat dieselbe Anzahl von Spalten wie die Zielmatrix, die faktorisiert wird. Bei einem Filmempfehlungssystem, das 10.000 Filmtitel auswertet, hat die Elementmatrix beispielsweise 10.000 Spalten.

items

#recsystems

In einem Empfehlungssystem die Entitäten, die ein System empfiehlt. Videos sind beispielsweise die Artikel, die in einem Videogeschäft empfohlen werden, während Bücher die Artikel sind, die eine Buchhandlung empfiehlt.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der Gewichtungen und Verzerrungen des Modells – während des Trainings. Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 beträgt, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Training eines neuronalen Netzwerks umfasst ein einzelner Durchlauf die folgenden beiden Durchgänge:

  1. Ein Vorwärtsdurchlauf zum Auswerten des Verlusts eines einzelnen Batches.
  2. Eine Rückwärtsterminierung (Rückpropagierung), um die Parameter des Modells basierend auf dem Verlust und der Lernrate anzupassen.

J

JAX

Eine Array-Computing-Bibliothek, die XLA (Accelerated Linear Algebra) und automatische Differenzierung für numerisches Hochleistungs-Computing vereint. JAX bietet eine einfache und leistungsstarke API zum Schreiben von beschleunigtem numerischen Code mit zusammensetzbaren Transformationen. JAX bietet unter anderem folgende Funktionen:

  • grad (automatische Differenzierung)
  • jit (Just-in-Time-Kompilierung)
  • vmap (automatische Vektorisierung oder Batchverarbeitung)
  • pmap (Parallelisierung)

JAX ist eine Sprache zum Ausdrucken und Zusammensetzen von Transformationen von numerischem Code. Sie ähnelt der Python-Bibliothek NumPy, ist jedoch im Umfang sehr viel größer. Tatsächlich ist die .numpy-Bibliothek unter JAX eine funktional äquivalente, aber vollständig umgeschriebene Version der Python-NumPy-Bibliothek.

JAX eignet sich besonders gut, um viele Aufgaben des maschinellen Lernens zu beschleunigen. Dazu werden die Modelle und Daten in eine für GPU- und TPU-Beschleunigerchips geeignete Form umgewandelt.

Flax, Optax, Pax und viele weitere Bibliotheken basieren auf der JAX-Infrastruktur.

K

Keras

Eine beliebte Python-API für maschinelles Lernen. Keras wird auf verschiedenen Deep-Learning-Frameworks ausgeführt, einschließlich TensorFlow, wo es als tf.keras zur Verfügung gestellt wird.

Kernel Support Vector Machines (KSVMs)

Klassifizierungsalgorithmus, der darauf abzielt, den Abstand zwischen positiven und negativen Klassen zu maximieren, indem Eingabedatenvektoren einem höherdimensionalen Bereich zugeordnet werden. Stellen Sie sich beispielsweise ein Klassifizierungsproblem vor, bei dem das Eingabe-Dataset hundert Merkmale hat. Um den Abstand zwischen positiven und negativen Klassen zu maximieren, könnte eine KSVM diese Merkmale intern einem Bereich mit Millionen Dimensionen zuordnen. KSVMs verwendet eine Verlustfunktion namens Hinge-Verlust.

Keypoints

#image

Die Koordinaten bestimmter Merkmale in einem Bild. Bei einem Bilderkennungsmodell, das Blumenarten unterscheidet, können beispielsweise die Mittelpunkte der einzelnen Blütenblätter, die Stiele oder die Stapel entsprechen.

k-Fold-Kreuzvalidierung

Algorithmus zur Vorhersage der Generalisierung eines Modells auf neue Daten. Das k in k-facher Faltung bezieht sich auf die Anzahl gleicher Gruppen, in die Sie die Beispiele eines Datasets unterteilen, d. h., Sie trainieren und testen Ihr Modell k-mal. Für jede Trainings- und Testrunde wird eine andere Gruppe als Test-Dataset verwendet und alle verbleibenden Gruppen bilden das Trainings-Dataset. Nach k Trainings- und Testdurchläufen berechnen Sie den Mittelwert und die Standardabweichung der ausgewählten Testmesswerte.

Angenommen, Ihr Dataset besteht aus 120 Beispielen. Nehmen wir weiter an, Sie setzen k auf 4. Daher teilen Sie das Dataset nach dem Mischen der Beispiele in vier gleiche Gruppen mit je 30 Beispielen auf und führen vier Trainings-/Testrunden durch:

Ein Dataset, das in vier gleiche Gruppen von Beispielen unterteilt ist. In Runde 1 werden die ersten drei Gruppen für das Training und die letzte Gruppe für Tests verwendet. In Runde 2 werden die ersten beiden Gruppen und die letzte Gruppe für das Training verwendet, während die dritte Gruppe für Tests verwendet wird. In Runde 3 werden die erste und die letzten beiden Gruppen für das Training verwendet, während die zweite Gruppe für Tests verwendet wird.
          In Runde 4 wird die erste Gruppe für Tests und die letzten drei Gruppen für das Training verwendet.

Beispielsweise kann Mean Squared Error (MSE) der aussagekräftigste Messwert für ein lineares Regressionsmodell sein. Daher ermitteln Sie den Mittelwert und die Standardabweichung der MSE für alle vier Runden.

k-Means

#clustering

Ein beliebter Clustering-Algorithmus, der Beispiele für unüberwachtes Lernen gruppiert. Der k-Means-Algorithmus führt im Wesentlichen folgende Schritte aus:

  • Die besten k-Mittelpunkte (sogenannte Schwerpunkte) werden iterativ bestimmt.
  • Weist jedes Beispiel dem nächstgelegenen Schwerpunkt zu. Die Beispiele, die dem gleichen Schwerpunkt am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt Schwerpunkte aus, um das kumulative Quadrat der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt zu minimieren.

Betrachten Sie zum Beispiel das folgende Diagramm der Hundehöhe zur Hundebreite:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Bei k=3 bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel ist dem nächstgelegenen Schwerpunkt zugewiesen, was drei Gruppen ergibt:

Dasselbe kartesische Diagramm wie in der vorherigen Abbildung, nur mit drei hinzugefügten Schwerpunkten.
          Die vorherigen Datenpunkte werden in drei verschiedenen Gruppen gruppiert, wobei jede Gruppe die Datenpunkte darstellt, die einem bestimmten Schwerpunkt am nächsten sind.

Stellen Sie sich vor, ein Hersteller möchte die idealen Größen für Hundepullover in den Größen S, M und L ermitteln. Die drei Schwerpunkte geben die mittlere Höhe und Breite jedes Hundes in diesem Cluster an. Der Hersteller sollte also die Pullovergrößen wahrscheinlich auf diesen drei Schwerpunkten basieren. Der Schwerpunkt eines Clusters ist normalerweise kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen k-Means für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Mit k-Means können Beispiele über viele Funktionen hinweg gruppiert werden.

k-Medianwert

#clustering

Clustering-Algorithmus, der eng mit k-Means verwandt ist. Der praktische Unterschied zwischen den beiden ist folgende:

  • In k-Means werden Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidaten und jedem seiner Beispiele bestimmt.
  • Beim k-Median werden Schwerpunkte durch Minimieren der Summe der Entfernung zwischen einem Schwerpunktkandidaten und jedem seiner Beispiele bestimmt.

Beachten Sie, dass sich auch die Definitionen von Entfernung unterscheiden:

  • k-Means basiert auf der euklidischen Entfernung vom Schwerpunkt zu einem Beispiel. (In zwei Dimensionen bedeutet die euklidische Entfernung, dass zur Berechnung der Hypotenuse der Satz des Pythagoras verwendet wird.) Die k-Means-Distanz zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Der k-Medianwert basiert auf der Entfernung von Manhattan vom Schwerpunkt zu einem Beispiel. Diese Entfernung ist die Summe der absoluten Deltas in jeder Dimension. Der k-Medianabstand zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0-Regularisierung

#fundamentals

Ein Typ der Regularisierung, die die Gesamtzahl der Gewichtungen ungleich null in einem Modell benachteiligt. Beispielsweise würde ein Modell mit 11 Gewichtungen ungleich null stärker bestraft als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen tatsächlichen label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier sehen Sie als Beispiel die Berechnung des L1-Verlusts für einen Batch aus fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist weniger empfindlich auf Ausreißer als der L2-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Art der Regularisierung, bei der Gewichtungen proportional zur Summe des absoluten Werts der Gewichtungen bestraft werden. Mit der L1-Regularisierung können irrelevante oder kaum relevante Features genau 0 gewichtet werden. Ein Feature mit einer Gewichtung von 0 wird effektiv aus dem Modell entfernt.

Kontrast zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen tatsächlichen label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier sehen Sie als Beispiel die Berechnung des L2-Verlusts für einen Batch aus fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Quadrat des Deltas
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2-Verlust

Aufgrund der Quadrate verstärkt der L2-Verlust den Einfluss von Ausreißern. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Der L1-Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Beachten Sie, dass ein einzelner Ausreißer 9 von 16 ausmacht.

Regressionsmodelle verwenden in der Regel den L2-Verlust als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist eine andere Bezeichnung für L2-Verlust.

L2-Regularisierung

#fundamentals

Art der Regularisierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Die L2-Regularisierung trägt dazu bei, Ausreißerwerte (mit hohen positiven oder niedrigen negativen Werten) näher an 0, aber nicht ganz bei 0 zu bewegen. Features mit Werten, die sehr nahe bei 0 liegen, verbleiben im Modell, haben aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert die Generalisierung in linearen Modellen immer.

Kontrast zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen der „Antwort“- oder „Ergebnis“ eines Beispiels.

Jedes Beispiel mit Label besteht aus einem oder mehreren Features und einem Label. Beispielsweise lautet das Label in einem Dataset zur Spamerkennung wahrscheinlich entweder „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset kann das Label die Regenmenge darstellen, die während eines bestimmten Zeitraums gefallen ist.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Features und ein Label enthält. Die folgende Tabelle zeigt beispielsweise drei Beispiele für ein Hausbewertungsmodell mit jeweils drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen zu Beispielen ohne Label getroffen.

Beispiel mit Labels gegenüber Beispielen ohne Label gegenüberstellen.

Labelleck

Eine Modelldesignfehler, bei der ein Feature ein Proxy für das Label ist. Stellen Sie sich beispielsweise ein binäres Klassifizierungsmodell vor, das vorhersagt, ob ein potenzieller Kunde ein bestimmtes Produkt kaufen wird. Angenommen, eines der Merkmale für das Modell ist ein boolescher Wert mit dem Namen SpokeToCustomerAgent. Nehmen wir weiter an, dass ein Kunden-Agent erst zugewiesen wird, nachdem der potenzielle Kunde das Produkt tatsächlich gekauft hat. Während des Trainings lernt das Modell schnell die Verknüpfung zwischen SpokeToCustomerAgent und dem Label.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein Begriff mit Überlastung. Hier konzentrieren wir uns auf die Definition des Begriffs innerhalb der Regularisierung.

LaMDA (Language Model for Dialogue Applications)

#language

Ein Transformer-basiertes Large Language Model, das von Google entwickelt wurde und mit einem großen Dialog-Dataset trainiert wurde, das realistische dialogorientierte Antworten generieren kann.

LaMDA: Unsere bahnbrechende Unterhaltungstechnologie bietet einen Überblick.

landmarks

#image

Synonym für keypoints.

Language Model

#language

Ein model, das die Wahrscheinlichkeit eines model oder einer Abfolge von Tokens in einer längeren Tokensequenz schätzt.

Large Language Model

#language

Ein informeller Begriff ohne strikte Definition, der normalerweise für ein Sprachmodell mit einer hohen Anzahl von Parametern steht. Einige Large Language Models enthalten über 100 Milliarden Parameter.

latenter Bereich

#language

Synonym für embeddingspace.

Layer

#fundamentals

Eine Reihe von Neuronen in einem neuronalen Netzwerk. Drei gängige Ebenentypen sind:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Merkmalen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite versteckte Schicht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Layers auch Python-Funktionen, die Tensors und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Layers API (tf.layers)

#TensorFlow

Eine TensorFlow API zum Erstellen eines neuronalen Deep-Learning-Netzwerks als Zusammensetzung von Ebenen. Mit der Layers API können Sie verschiedene Arten von Ebenen erstellen, z. B.:

Die Layers API folgt den API-Konventionen für Ebenen von Keras. Das heißt, abgesehen von einem anderen Präfix haben alle Funktionen in der Layers API dieselben Namen und Signaturen wie ihre Gegenstücke in der Keras Layers API.

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Learning Interpretability Tool (LIT)

Ein visuelles, interaktives Modellverständnis- und Datenvisualisierungstool.

Sie können Open-Source-LIT zum Interpretieren von Modellen verwenden oder zur Visualisierung von Text-, Bild- und Tabellendaten verwenden.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Gradientenabstiegsalgorithmus mitteilt, wie stark die Gewichtungen und Verzerrungen bei jeder Iteration angepasst werden sollen. Eine Lernrate von 0,3 würde beispielsweise Gewichtungen und Verzerrungen dreimal stärker anpassen als eine Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig ansetzen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch einstellen, hat der Gradientenabstieg häufig Probleme beim Erreichen der Konvergenz.

Regression der kleinsten Quadrate

Lineares Regressionsmodell, das durch die Minimierung des L2-Verlusts trainiert wurde.

Linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nur durch Addition und Multiplikation dargestellt werden kann.

Das Diagramm einer linearen Beziehung ist eine Linie.

Kontrast mit nicht linear

lineares Modell

#fundamentals

Ein model, das eine model pro model zuweist, um model zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu ist die Beziehung zwischen Merkmalen und Vorhersagen in tiefen Modellen im Allgemeinen nicht linear.

Lineare Modelle sind in der Regel einfacher zu trainieren und interpretierbar als tiefe Modelle. Komplexe Modelle können jedoch komplexe Beziehungen zwischen Merkmalen erlernen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

Lineare Regression mit logistischer Regression gegenüberstellen Vergleichen Sie die Regression außerdem der Klassifizierung.

LIT (LIT)

Abkürzung für das Learning Interpretability Tool (LIT), das zuvor als Language Interpretability Tool bezeichnet wurde.

LLM

#language

Abkürzung für Large Language Model.

logistische Regression

#fundamentals

Eine Art von Regressionsmodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben die folgenden Eigenschaften:

  • Das Label ist kategorial. Der Begriff logistische Regression bezieht sich in der Regel auf eine binäre logistische Regression, d. h. auf ein Modell, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger gebräuchliche Variante, die multinomiale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. Bei Labels mit mehr als zwei möglichen Werten können mehrere Logverlusteinheiten parallel platziert werden.
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten für kategoriale Labels vorhersagen.

Stellen Sie sich beispielsweise ein logistisches Regressionsmodell vor, das die Wahrscheinlichkeit berechnet, dass eine eingegebene E-Mail Spam oder kein Spam ist. Angenommen, das Modell sagt bei der Inferenz 0,72 vorher. Daher schätzt das Modell:

  • Eine Wahrscheinlichkeit von 72 %, dass es sich bei der E-Mail um Spam handelt.
  • Eine Wahrscheinlichkeit von 28 %, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y') durch Anwenden einer linearen Funktion von Eingabemerkmalen.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 (ausschließlich) umwandelt.

Wie jedes Regressionsmodell sagt auch ein logistisches Regressionsmodell eine Zahl vorher. Diese Zahl wird jedoch normalerweise wie folgt Teil eines binären Klassifizierungsmodells:

  • Wenn die vorhergesagte Zahl größer ist als der Klassifizierungsschwellenwert, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logits

Der Vektor von unbearbeiteten (nicht normalisierten) Vorhersagen, die ein Klassifizierungsmodell generiert und der normalerweise dann an eine Normalisierungsfunktion übergeben wird. Wenn das Modell ein Klassifizierungsproblem mit mehreren Klassen löst, werden Logits normalerweise zu einer Eingabe für die Softmax-Funktion. Die Softmax-Funktion generiert dann einen Vektor von (normalisierten) Wahrscheinlichkeiten mit einem Wert für jede mögliche Klasse.

Logverlust

#fundamentals

Die Verlustfunktion, die bei einer binären logistischen Regression verwendet wird.

Logwahrscheinlichkeiten

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Langzeitspeicher (LSTM)

#seq

Eine Art von Zelle in einem rekurrenten neuronalen Netzwerk, die zur Verarbeitung von Datensequenzen in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bilduntertitel verwendet wird. LSTMs beheben das Problem des verschwindenden Gradienten, das beim Trainieren von RNNs aufgrund langer Datensequenzen auftritt. Sie speichern den Verlauf in einem internen Speicherstatus auf der Grundlage neuer Eingaben und neuer Kontexte aus vorherigen Zellen im RNN.

LoRA

#language
#generativeKI

Abkürzung für Anpassungsfähigkeit bei niedrigem Rang.

Niederlage

#fundamentals

Messung während des Trainings eines überwachten Modells: Ein Messwert, der angibt, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Eine Verlustfunktion berechnet den Verlust.

Verlust-Aggregator

Eine Art von Algorithmus für maschinelles Lernen, der die Leistung eines Modells verbessert, indem die Vorhersagen mehrerer Modelle kombiniert und diese Vorhersagen für eine einzige Vorhersage verwendet werden. Dadurch kann ein Verlust-Aggregator die Varianz der Vorhersagen reduzieren und die Genauigkeit der Vorhersagen verbessern.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainingsdurchläufe. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm des Verlusts im Vergleich zu den Trainingsdurchläufen, das einen schnellen Rückgang des Verlusts für die ersten Iterationen zeigt, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen.

Verlustkurven können Ihnen helfen festzustellen, wann Ihr Modell konvergent oder überanpassung ist.

Verlustkurven können alle der folgenden Verlusttypen darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Während des Trainings oder Tests eine mathematische Funktion, die den Verlust bei einem Batch von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen treffen, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, den eine Verlustfunktion zurückgibt.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die entsprechende Verlustfunktion für die Art von Modell aus, das Sie erstellen. Beispiel:

Verlustoberfläche

Ein Diagramm mit Gewichtung(en) im Vergleich zu Verlust. Beim Gradientenverfahren wird das Gewicht bzw. die Gewichte ermittelt, bei denen die Verlustoberfläche ein lokales Minimum hat.

Anpassungsfähigkeit auf niedrigem Rang (LoRA)

#language
#generativeKI

Ein Algorithmus zur Durchführung einer parametereffizienten Feinabstimmung, mit der nur ein Teil der Parameter eines großen Sprachmodells abgestimmt wird. LoRA bietet die folgenden Vorteile:

  • Abstimmungen sind schneller als bei Techniken, die eine Feinabstimmung aller Parameter eines Modells erfordern.
  • Senkt die Rechenkosten für Inferenzen im fein abgestimmten Modell.

Ein auf LoRA abgestimmtes Modell erhält oder verbessert die Qualität seiner Vorhersagen.

LoRA ermöglicht mehrere spezialisierte Versionen eines Modells.

LSTM

#seq

Abkürzung für Long Short-Term Memory.

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell aus Eingabedaten trainiert. Das trainierte Modell kann nützliche Vorhersagen anhand neuer (noch nie gesehener) Daten treffen, die aus derselben Verteilung stammen, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf Fachgebiete für solche Programme oder Systeme.

Mehrheitsklasse

#fundamentals

Das gebräuchlichere Label in einem von Klassen unausgeglichenen Dataset. Bei einem Dataset mit 99% negativen Labels und 1% positiven Labels sind die negativen Labels beispielsweise die Mehrheitsklasse.

Im Kontrast zur Minderheitsklasse stehen.

Markov-Entscheidungsprozess (MDP)

#rl

Diagramm, das das Entscheidungsmodell darstellt, in dem Entscheidungen (oder Aktionen) getroffen werden, um sich in einer Abfolge von Zuständen zu bewegen, und zwar unter der Annahme, dass die Markov-Eigenschaft zutrifft. Beim bestärkenden Lernen liefern diese Übergänge zwischen Status eine numerische Prämie.

Markov-Eigenschaft

#rl

Eine Eigenschaft bestimmter Umgebungen, in denen Zustandsübergänge vollständig durch Informationen bestimmt werden, die im aktuellen Status und der Aktion des Agents liegen.

maskiertes Sprachmodell

#language

Ein Sprachmodell, das die Wahrscheinlichkeit vorhersagt, wie wahrscheinlich es ist, dass Kandidatentokens in einer Sequenz Lücken füllen. Ein maskiertes Sprachmodell kann beispielsweise Wahrscheinlichkeiten für Kandidatenwörter berechnen, um die Unterstreichung im folgenden Satz zu ersetzen:

Der ____ im Hut kam zurück.

In der Literatur wird normalerweise die Zeichenfolge „MASK“ anstelle einer Unterstreichung verwendet. Beispiel:

Die Maske im Hut kam zurück.

Die meisten modernen maskierten Sprachmodelle sind bidirektional.

matplotlib

Eine Open-Source-Python-2D-Plot-Bibliothek. Mit matplotlib können Sie verschiedene Aspekte des maschinellen Lernens visualisieren.

Matrixfaktorisierung

#recsystems

In der Mathematik ein Mechanismus zum Ermitteln der Matrizen, deren Punktprodukt sich einer Zielmatrix nähert.

In Empfehlungssystemen enthält die Zielmatrix häufig die Bewertungen der Nutzer zu Artikeln. Die Zielmatrix für ein Filmempfehlungssystem könnte beispielsweise wie folgt aussehen, wobei die positiven Ganzzahlen Nutzerbewertungen sind und 0 bedeutet, dass der Nutzer den Film nicht bewertet hat:

  Casablanca Die Philadelphia Story Black Panther Wonder Woman Pulp Fiction
Nutzer 1 5 3 0.0 2 0.0
Nutzer 2 4.0 0.0 0.0 1.0 5
Nutzer 3 3 1.0 4.0 5,0 0.0

Das Filmempfehlungssystem zielt darauf ab, Nutzerbewertungen für Filme ohne Altersfreigabe vorherzusagen. Beispiel: Mag Nutzer 1 Black Panther?

Ein Ansatz für Empfehlungssysteme ist die Matrixfaktorisierung zum Generieren der folgenden beiden Matrizen:

  • Eine Nutzermatrix, die durch die Anzahl der Nutzer × die Anzahl der Einbettungsdimensionen dargestellt wird.
  • Eine Elementmatrix in Form der Anzahl der Einbettungsdimensionen × der Anzahl der Elemente

Die Verwendung der Matrixfaktorisierung für drei Nutzer und fünf Elemente könnte beispielsweise die folgende Nutzer- und Artikelmatrix ergeben:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Das Skalarprodukt der Nutzer- und Artikelmatrix liefert eine Empfehlungsmatrix, die nicht nur die ursprünglichen Nutzerbewertungen, sondern auch Vorhersagen für die Filme enthält, die jeder Nutzer nicht gesehen hat. Nehmen wir zum Beispiel die Bewertung von Nutzer 1 von Casablanca, also 5, 0. Das Punktprodukt, das dieser Zelle in der Empfehlungsmatrix entspricht, sollte hoffentlich etwa bei 5,0 liegen.Es ist:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Und was noch wichtiger ist: Wird Nutzer 1 Black Panther mögen? Wird das Punktprodukt der ersten Zeile und der dritten Spalte verwendet, erhalten Sie eine vorhergesagte Bewertung von 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Die Matrixfaktorisierung ergibt in der Regel eine Nutzer- und Artikelmatrix, die zusammen wesentlich kompakter als die Zielmatrix ist.

Mittlerer absoluter Fehler (MAE)

Der durchschnittliche Verlust pro Beispiel bei Verwendung des L1-Verlusts. Berechnen Sie den mittleren absoluten Fehler wie folgt:

  1. Berechnen Sie den L1-Verlust für einen Batch.
  2. Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten Sie zum Beispiel die Berechnung des L1-Verlusts im folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Verlust (Differenz zwischen tatsächlichem und vorhergesagtem)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist also 8 und die Anzahl der Beispiele ist 5. Daher lautet der mittlere absolute Fehler:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Kontrast des mittleren absoluten Fehlers mit mittlerer quadratischer Fehler und wurzel der mittleren quadratischen Abweichung.

Mittlerer quadratischer Fehler (MSE)

Der durchschnittliche Verlust pro Beispiel bei Verwendung des L2-Verlusts. Den mittleren quadratischen Fehler berechnen:

  1. Berechnen Sie den L2-Verlust für einen Batch.
  2. Teilen Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten wir zum Beispiel den Verlust bei dem folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert Vorhersage des Modells Verlust Quadratischer Verlust
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2-Verlust

Dementsprechend ist der mittlere quadratische Fehler:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Der mittlere quadratische Fehler ist ein beliebtes Trainingsoptimierungstool, insbesondere für die lineare Regression.

Kontrast des mittleren quadratischen Fehlers mit mittlerer absoluter Fehler und wurzel der mittleren quadratischen Fehler.

TensorFlow Playground verwendet den mittleren quadratischen Fehler zur Berechnung von Verlustwerten.

Mesh-Netzwerk

#TensorFlow
#GoogleCloud

Ein Begriff in der parallelen ML-Programmierung, der sich auf die Zuweisung der Daten und das Modell zu TPU-Chips und die Definition, wie diese Werte fragmentiert oder repliziert werden, bezieht.

„Mesh“ ist ein Begriff mit Überlastung, der Folgendes bedeuten kann:

  • Physisches Layout von TPU-Chips
  • Ein abstraktes logisches Konstrukt zur Zuordnung der Daten und des Modells zu den TPU-Chips.

In beiden Fällen wird ein Mesh-Netzwerk als Form angegeben.

Meta-Learning

#language

Teilmenge des maschinellen Lernens, die einen Lernalgorithmus erkennt oder verbessert. Ein Meta-Lernsystem kann auch darauf abzielen, ein Modell so zu trainieren, dass es schnell eine neue Aufgabe aus einer kleinen Datenmenge oder aus Erfahrungen aus vorherigen Aufgaben lernt. Meta-Lernalgorithmen zielen in der Regel auf Folgendes ab:

  • Verbessern oder erlernen Sie manuell entwickelte Funktionen (z. B. einen Initialisierer oder ein Optimierungstool).
  • Daten- und recheneffizienter arbeiten
  • Generalisierung verbessern

Meta-Lernen bezieht sich auf wenige Schritte.

Messwert

#TensorFlow

Eine Statistik, die für Sie von Interesse ist.

Ein Ziel ist ein Messwert, den ein ML-System zu optimieren versucht.

Metrics API (tf.metrics)

Eine TensorFlow API zum Bewerten von Modellen. Beispielsweise gibt tf.metrics.accuracy an, wie oft die Vorhersagen eines Modells mit den Labels übereinstimmen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batch, der in einer Iteration verarbeitet wird. Die Batchgröße eines Minibatches liegt in der Regel zwischen 10 und 1.000 Beispielen.

Angenommen, das gesamte Trainings-Dataset (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen außerdem die Batchgröße jedes Minibatches auf 20 fest. Daher wird bei jeder Iteration der Verlust bei 20 zufälligen 1.000 Beispielen bestimmt und dann die Gewichtungen und die Verzerrungen entsprechend angepasst.

Es ist viel effizienter, den Verlust bei einem Mini-Batch zu berechnen als den Verlust bei allen Beispielen im vollständigen Batch.

stochastischer Mini-Batch-Gradientenabstieg

Einen Gradientenabstiegsalgorithmus, der Minibatches verwendet. Mit anderen Worten: Beim stochastischen Mini-Batch-Gradientenverfahren wird der Gradient anhand einer kleinen Teilmenge der Trainingsdaten geschätzt. Beim regulären stochastischen Gradientenabstieg wird ein Mini-Batch der Größe 1 verwendet.

Minimax-Verlust

Eine Verlustfunktion für generative kontradiktorische Netzwerke, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und echten Daten basiert.

Im ersten Artikel wird der minimale Verlust verwendet, um generative kontradiktorische Netzwerke zu beschreiben.

Minderheitenklasse

#fundamentals

Das weniger gebräuchliche Label in einem von Klassen unausgeglichenen Dataset. Bei einem Dataset mit 99% negativen Labels und 1% positiven Labels sind die positiven Labels beispielsweise die Minderheitenklasse.

Im Kontrast zur Hauptklasse stehen.

ML

Abkürzung für Machine Learning.

MNIST

#image

Ein von LeCun, Cortes und Burges kompiliertes öffentlich zugängliches Dataset mit 60.000 Bildern, wobei jedes Bild zeigt, wie ein Mensch manuell eine bestimmte Ziffer von 0 bis 9 geschrieben hat. Jedes Bild wird als 28x28-Array mit Ganzzahlen gespeichert, wobei jede Ganzzahl ein Graustufenwert zwischen 0 und 255 ist.

MNIST ist ein kanonisches Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie in der MNIST-Datenbank für handschriftliche Ziffern.

Modalität

#language

Eine allgemeine Datenkategorie. Zahlen, Text, Bilder, Video und Audio sind beispielsweise fünf verschiedene Modalitäten.

model

#fundamentals

Im Allgemeinen jedes mathematische Konstrukt, das Eingabedaten verarbeitet und Ausgabe zurückgibt. Anders ausgedrückt ist ein Modell der Satz von Parametern und die Struktur, die ein System benötigt, um Vorhersagen zu treffen. Beim überwachten maschinellen Lernen verwendet ein Modell ein Beispiel als Eingabe und leitet eine Vorhersage als Ausgabe ab. Beim überwachten maschinellen Lernen unterscheiden sich die Modelle etwas. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

Beim unüberwachten maschinellen Lernen werden ebenfalls Modelle generiert. Dies ist in der Regel eine Funktion, mit der ein Eingabebeispiel dem am besten geeigneten Cluster zugeordnet werden kann.

Modellkapazität

Komplexität der Probleme, die ein Modell erkennen kann. Je komplexer die Probleme, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells erhöht sich in der Regel mit der Anzahl der Modellparameter. Eine formelle Definition der Klassifikatorkapazität finden Sie unter VC-Dimension.

Modellkaskadierung

#generativeKI

Ein System, das das ideale model für eine bestimmte Inferenzabfrage auswählt.

Stellen Sie sich eine Gruppe von Modellen vor, die von sehr groß (viele Parameter) bis deutlich kleiner (viel weniger Parameter) reichen. Sehr große Modelle verbrauchen mehr Rechenressourcen zum Zeitpunkt der Inferenz als kleinere Modelle. Sehr große Modelle können jedoch in der Regel komplexere Anfragen ableiten als kleinere Modelle. Bei der Modellkaskadierung wird die Komplexität der Inferenzabfrage bestimmt und dann das geeignete Modell für die Inferenz ausgeführt. Die Hauptmotivation für die Modellkaskadierung besteht darin, die Inferenzkosten zu reduzieren. Dazu werden in der Regel kleinere Modelle und für komplexere Abfragen nur ein größeres Modell ausgewählt.

Stellen Sie sich vor, ein kleines Modell wird auf einem Smartphone und eine größere Version dieses Modells auf einem Remoteserver ausgeführt. Eine gute Modellkaskadierung reduziert Kosten und Latenz, da das kleinere Modell einfache Anfragen verarbeiten kann und nur das Remotemodell für die Verarbeitung komplexer Anfragen aufgerufen wird.

Siehe auch Routermodell.

Modellparallelität

#language

Methode zum Skalieren von Training oder Inferenz, bei der verschiedene Teile eines model auf verschiedenen model platziert werden. Modellparallelität ermöglicht Modelle, die zu groß für ein einzelnes Gerät sind.

Zur Implementierung der Modellparallelität führt ein System in der Regel folgende Schritte aus:

  1. Teilt das Modell in kleinere Teile auf.
  2. Verteilt das Training dieser kleineren Teile auf mehrere Prozessoren. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
  3. Kombiniert die Ergebnisse, um ein einzelnes Modell zu erstellen.

Die Modellparallelität verlangsamt das Training.

Siehe auch Datenparallelität.

Modellrouter

#generativeKI

Der Algorithmus, der das ideale model für model bei der model bestimmt. Ein Modellrouter ist in der Regel ein Modell für maschinelles Lernen, das schrittweise lernt, das beste Modell für eine bestimmte Eingabe auszuwählen. Ein Modellrouter kann jedoch manchmal ein einfacherer Algorithmus ohne maschinelles Lernen sein.

Modelltraining

Prozess zur Bestimmung des besten model.

Erfolge

Ein ausgefeilter Algorithmus für den Gradientenabstieg, bei dem ein Lernschritt nicht nur von der Ableitung im aktuellen Schritt, sondern auch von den Ableitungen der unmittelbar vorhergehenden Schritte abhängt. Im Moment wird ein exponentiell gewichteter gleitender Durchschnitt der Gradienten im Zeitverlauf berechnet, ähnlich wie im Impuls in der Physik. Eine Dynamik verhindert manchmal, dass das Lernen im lokalen Minima hängen bleibt.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eine der folgenden drei Klassen sein:

  • Iris Setosa
  • Iris virginica
  • Iris Vericolor

Ein mit dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt, führt eine Klassifizierung mit mehreren Klassen durch.

Klassifizierungsprobleme, die zwischen genau zwei Klassen unterscheiden, sind hingegen binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die mehrklassige Klassifizierung auf mehr als zwei Cluster.

logistische Regression mit mehreren Klassen

Verwendung der logistischen Regression bei Klassifizierungsproblemen mit mehreren Klassen.

mehrköpfige Selbstaufmerksamkeit

#language

Eine Erweiterung der Selbstaufmerksamkeit, die den Selbstaufmerkungsmechanismus mehrmals auf jede Position in der Eingabesequenz anwendet.

Transformers führte die mehrköpfige Selbstaufmerksamkeit ein.

multimodales Modell

#language

Ein Modell, dessen Eingaben und/oder Ausgaben mehr als eine Modalität enthalten. Angenommen, ein Modell verwendet ein Bild und eine Textuntertitelung (zwei Modalitäten) als Merkmale und gibt eine Punktzahl aus, die angibt, wie angemessen die Textuntertitel für das Bild ist. Die Eingaben dieses Modells sind multimodal und die Ausgabe unimodal.

multinomische Klassifizierung

Synonym für mehrklassige Klassifizierung.

multinomiale Regression

Synonym für logistische Regression mit mehreren Klassen.

Multitasking

Verfahren des maschinellen Lernens, bei dem ein einzelnes model für die Ausführung mehrerer model trainiert wird.

Multitaskingmodelle werden durch das Training mit Daten erstellt, die für die verschiedenen Aufgaben geeignet sind. So kann das Modell lernen, Informationen über die Aufgaben hinweg zu teilen, und das Modell kann so effektiver lernen.

Ein für mehrere Aufgaben trainiertes Modell hat häufig verbesserte Generalisierungsfähigkeiten und ist bei der Verarbeitung verschiedener Datentypen robuster.

N

NaN-Trap

Wenn eine Zahl in Ihrem Modell während des Trainings zu einer NaN wird, was dazu führt, dass viele oder alle anderen Zahlen in Ihrem Modell irgendwann zu einer NaN werden.

NaN ist eine Abkürzung für Not a Namber.

Natural Language Understanding

#language

Ermittlung der Absichten eines Nutzers anhand dessen, was er eingegeben oder gesagt hat. Beispielsweise verwendet eine Suchmaschine Natural Language Understanding, um anhand dessen, was der Nutzer eingegeben oder gesagt hat, zu bestimmen, wonach er sucht.

negative Klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, das das Modell testet, und die negative Klasse die andere Möglichkeit. Beispiel:

  • Die negative Klasse bei einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise „Kein Spam“.

Im Kontrast zur positiven Klasse stehen.

negative Stichprobenerhebung

Synonym für Stichprobenerhebung.

Neural Architecture Search (NAS)

Eine Technik zum automatischen Entwerfen der Architektur eines neuronalen Netzwerks. NAS-Algorithmen können den für das Training eines neuronalen Netzwerks erforderlichen Zeit- und Ressourcenaufwand reduzieren.

NAS verwendet in der Regel:

  • Ein Suchbereich, d. h. eine Reihe möglicher Architekturen.
  • Eine Fitnessfunktion, die ein Maß dafür ist, wie gut eine bestimmte Architektur bei einer bestimmten Aufgabe funktioniert.

NAS-Algorithmen beginnen oft mit einer kleinen Gruppe möglicher Architekturen und erweitern schrittweise den Suchbereich, wenn der Algorithmus lernt, welche Architekturen effektiv sind. Die Fitnessfunktion basiert in der Regel auf der Leistung der Architektur in einem Trainings-Dataset. Der Algorithmus wird normalerweise mit einer Technik des bestärkenden Lernens trainiert.

NAS-Algorithmen haben sich bei der Suche nach leistungsfähigen Architekturen für eine Vielzahl von Aufgaben wie Bildklassifizierung, Textklassifizierung und maschinelle Übersetzung erwiesen.

neuronales Netzwerk

#fundamentals

Ein model mit mindestens einer model. Ein neuronales Deep-Learning-Netzwerk ist eine Art neuronales Netz, das mehr als eine verborgene Schicht enthält. Das folgende Diagramm zeigt beispielsweise ein neuronales Deep-Learning-Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen der ersten verborgenen Schicht separat mit beiden Neuronen in der zweiten versteckten Schicht verbunden ist.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken im Gehirn und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen zwischen verschiedenen Merkmalen und dem Label nachahmen.

Siehe auch Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Beim maschinellen Lernen eine eindeutige Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgenden zwei Schritte aus:

  1. Berechnet die gewichtete Summe von Eingabewerten, multipliziert mit den entsprechenden Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron in der ersten ausgeblendeten Schicht akzeptiert Eingaben von den Featurewerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht, die über die erste hinausgeht, akzeptiert Eingaben von den Neuronen der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Schicht akzeptiert beispielsweise Eingaben von den Neuronen in der ersten verborgenen Schicht.

In der folgenden Abbildung werden zwei Neuronen und ihre Eingaben dargestellt.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Zwei Neuronen sind hervorgehoben: eines in der ersten ausgeblendeten Schicht und eines in der zweiten ausgeblendeten Schicht. Das hervorgehobene Neuron in der ersten ausgeblendeten Schicht erhält Eingaben von beiden Features auf der Eingabeebene. Das hervorgehobene Neuron in der zweiten versteckten Schicht erhält Eingaben von jedem der drei Neuronen in der ersten ausgeblendeten Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen und anderen Teilen von Nervensystemen nach.

N-Gramm

#seq
#language

Eine geordnete Folge von N-Wörtern. Zum Beispiel ist wirklich madly ein Gewicht von 2 Gramm. Da die Reihenfolge wichtig ist, unterscheidet sich madly wirklich von 2 Gramm von wirklich verrückt.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm umgehen, gehen, zu Mittag essen, Abendessen essen
3 Trigramm oder 3-Gramm zu viel gegessen, drei blinde Mäuse, die Glocke läuten
4 4 Gramm im Park spazieren gehen, Staub im Wind, der Junge aß Linsen

Viele Natural Language Understanding-Modelle verwenden N-Gramme, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Beispiel: Ein Nutzer hat drei Blinde eingegeben. Ein auf Trigrammen basierendes NLU-Modell würde wahrscheinlich vorhersehen, dass der Nutzer das nächste Mal Mäuse tippt.

Vergleichen Sie N-Gramme mit Bag of Words, bei denen es sich um ungeordnete Wortreihen handelt.

NLU

#language

Abkürzung für Natural Language Understanding.

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum eine beliebige Bedingung oder jedes Blatt.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

Knoten (TensorFlow-Grafik)

#TensorFlow

Einen Vorgang in einem TensorFlow-Graphen.

Rauschen

Im Großen und Ganzen ist das alles, was das Signal in einem Dataset verdeckt. Rauschen kann auf verschiedene Weise in Daten eingebracht werden. Beispiel:

  • Manuelle Bewerter machen bei der Beschriftung Fehler.
  • Menschen und Instrumente nehmen Featurewerte falsch auf oder lassen sie aus.

nicht binäre Bedingung

#df

Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „Hund“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens „penguin“.

nicht linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden kann. Eine lineare Beziehung kann als Linie dargestellt werden. Eine nicht lineare Beziehung kann nicht als Linie dargestellt werden. Betrachten Sie beispielsweise zwei Modelle, die jeweils ein einzelnes Merkmal mit einem einzigen Label in Verbindung bringen. Das Modell auf der linken Seite ist linear und das Modell rechts nicht linear:

Zwei Diagramme. Ein Diagramm ist eine Linie, also eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve, die Beziehung ist also nicht linear.

Schweigeverzerrung

#fairness

Siehe Auswahlverzerrung.

Nichtstationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen ändern, in der Regel zeitlich. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist für die meiste Zeit des Jahres null, aber für kurze Zeit sehr groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Kontrast mit Stationarität.

Normalisierung

#fundamentals

Im Großen und Ganzen der Prozess zum Umwandeln des tatsächlichen Wertebereichs einer Variablen in einen Standardwertbereich, z. B.:

  • -1 bis +1
  • 0 bis 1
  • Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals beträgt 800 bis 2.400. Im Rahmen des Feature Engineering haben Sie die Möglichkeit, die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 zu normalisieren.

Die Normalisierung ist eine häufige Aufgabe beim Feature Engineering. Modelle werden in der Regel schneller trainiert (und liefern bessere Vorhersagen), wenn jedes numerische Merkmal im Featurevektor ungefähr den gleichen Bereich hat.

Neuheitserkennung

Der Prozess, bei dem festgestellt wird, ob ein neues (neues) Beispiel aus derselben Verteilung wie das Trainings-Dataset stammt. Mit anderen Worten: Nach dem Training mit dem Trainings-Dataset bestimmt die Neuheitserkennung, ob ein neues Beispiel (während der Inferenz oder während des zusätzlichen Trainings) ein Ausreißer ist.

Kontrast zur Ausreißererkennung

numerische Daten

#fundamentals

Elemente, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden Ein Hausbewertungsmodell würde beispielsweise die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten darstellen. Wenn ein Element als numerische Daten dargestellt wird, haben die Werte des Elements eine mathematische Beziehung zum Label. Das heißt, die Anzahl der Quadratmeter in einem Haus steht wahrscheinlich in irgendeiner mathematischen Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Ganzzahlige Postleitzahlen sollten jedoch in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, dass die Postleitzahl 20000 nicht doppelt (oder halb so stark) wie eine Postleitzahl von 10.000 ist. Obwohl verschiedene Postleitzahlen mit unterschiedlichen Immobilienwerten korrelieren können wir nicht davon ausgehen, dass die Immobilienwerte bei der Postleitzahl 20000 doppelt so wertvoll sind wie die Immobilienwerte bei der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Merkmale werden manchmal als kontinuierliche Features bezeichnet.

NumPy

Eine Open-Source-Bibliothek für Mathematik, die effiziente Arrayvorgänge in Python ermöglicht. pandas basiert auf NumPy.

O

Ziel

Ein Messwert, den der Algorithmus zu optimieren versucht.

Zielfunktion

Die mathematische Formel oder der Messwert, den ein Modell optimieren soll. Die Zielfunktion für eine lineare Regression ist beispielsweise in der Regel Mean Squared Loss. Beim Training eines linearen Regressionsmodells wird daher versucht, den mittleren quadratischen Verlust zu minimieren.

In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.

Siehe auch Verlust.

schräge Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Feature umfasst. Wenn beispielsweise Höhe und Breite beide Elemente sind, gilt Folgendes als schräge Bedingung:

  height > width

Kontrast zur Bedingung Achsenausrichtung.

Offlinegerät

#fundamentals

Synonym für static.

Offline-Inferenz

#fundamentals

Der Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache speichert (speichert). Anwendungen können dann auf die abgeleitete Vorhersage aus dem Cache zugreifen, anstatt das Modell noch einmal auszuführen.

Stellen Sie sich beispielsweise ein Modell vor, das alle vier Stunden lokale Wettervorhersagen (Vorhersagen) generiert. Nach jeder Modellausführung speichert das System alle lokalen Wettervorhersagen im Cache. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Kontrast zu Online-Inferenz stehen.

One-Hot-Codierung

#fundamentals

Darstellung kategorialer Daten als Vektor mit:

  • Ein Element ist auf „1“ festgelegt.
  • Alle anderen Elemente sind auf 0 gesetzt.

Die One-Hot-Codierung wird in der Regel zur Darstellung von Strings oder Kennungen verwendet, die eine endliche Menge möglicher Werte haben. Angenommen, ein bestimmtes kategoriales Feature namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte wie folgt darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell basierend auf jedem der fünf Länder unterschiedliche Verbindungen lernen.

Die Darstellung eines Features als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist die numerische Darstellung skandinavischer Länder keine gute Wahl. Betrachten Sie beispielsweise die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ wird 4

Bei numerischer Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, mit diesen Zahlen zu trainieren. Allerdings ist Island nicht doppelt so viel (oder halb so viel) wie Norwegen, daher würde das Modell einige seltsame Schlussfolgerungen ziehen.

One-Shot Learning

Ein Ansatz für maschinelles Lernen, der häufig für die Objektklassifizierung verwendet wird und mit dem anhand eines einzigen Trainingsbeispiels effektive Klassifikatoren erlernt werden sollen.

Siehe auch wenige Änderungen und Zero-Shot-Lernen.

One-Shot-Prompting

#language
#generativeKI

Prompt mit einem Beispiel, das zeigt, wie das Large Language Model reagieren soll. Der folgende Prompt enthält beispielsweise ein Beispiel für ein Large Language Model, wie es eine Abfrage beantworten sollte.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Indien: Die eigentliche Abfrage.

Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen:

Eins gegen alle

#fundamentals

Bei einem Klassifizierungsproblem mit n Klassen eine Lösung, die aus n separaten binären Klassifikatoren besteht – einem binären Klassifikator für jedes mögliche Ergebnis. Bei einem Modell, das Beispiele als tierisch, pflanzlich oder Mineral klassifiziert, würde eine Ein-gegen-alle-Lösung die folgenden drei separaten binären Klassifikatoren bereitstellen:

  • Tier oder kein Tier
  • Gemüse gegen Gemüse
  • Mineral im Vergleich zu nicht Mineral

online

#fundamentals

Synonym für dynamic.

Online-Inferenz

#fundamentals

Vorhersagen bei Bedarf generieren. Angenommen, eine Anwendung übergibt eine Eingabe an ein Modell und gibt eine Anfrage für eine Vorhersage aus. Ein System, das Onlineinferenzen verwendet, reagiert auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die Anwendung zurückgibt.

Im Kontrast zu Offline-Inferenz.

Vorgang (Vorgang)

#TensorFlow

Jede Prozedur in TensorFlow, die einen Tensor erstellt, manipuliert oder zerstört. Eine Matrixmultiplikation ist beispielsweise ein Vorgang, der zwei Tensoren als Eingabe verwendet und einen Tensor als Ausgabe generiert.

Optax

Eine Bibliothek zur Gradientenverarbeitung und Optimierung für JAX. Optax erleichtert die Forschung durch die Bereitstellung von Bausteinen, die auf kundenspezifische Weise neu kombiniert werden können, um parametrische Modelle wie neuronale Deep-Learning-Netzwerke zu optimieren. Weitere Ziele:

  • Eine lesbare, gut getestete und effiziente Implementierung von Kernkomponenten.
  • Steigern Sie die Produktivität, indem Sie Low-Level-Elemente zu benutzerdefinierten Optimierern (oder anderen Komponenten zur Gradientenverarbeitung) kombinieren können.
  • Beschleunigen Sie die Akzeptanz neuer Ideen, indem Sie es allen einfach machen, einen Beitrag zu leisten.

Optimierungstool

Eine spezifische Implementierung des Gradientenabstiegsalgorithmus. Gängige Optimierer sind:

  • AdaGrad steht für „ADAptive GRADient Abstammung“.
  • Adam, was für ADAptive with Momentum steht.

Out-Group-Homogenitätsverzerrung

#fairness

Die Tendenz, Mitglieder der externen Gruppe beim Vergleichen von Einstellungen, Werten, Persönlichkeitsmerkmalen und anderen Eigenschaften ähnlich zu betrachten. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren, und out-group auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie ein Dataset erstellen, indem Sie Personen bitten, Attribute zu externen Gruppen anzugeben, sind diese Attribute möglicherweise weniger differenziert und stereotypisiert als Attribute, die die Teilnehmer für Personen in ihrer Gruppe auflisten.

Die Lilliputianer könnten beispielsweise die Häuser anderer Lilliputianer sehr detailliert beschreiben und kleine Unterschiede in Architekturstilen, Fenstern, Türen und Größen nennen. Dieselben Lilliputianer könnten jedoch einfach erklären, dass die Bruderdingen alle in identischen Häusern leben.

Die Out-Group-Homogenitätsverzerrung ist eine Form der Gruppenattributionsverzerrung.

Siehe auch In-Group-Verzerrung.

Ausreißererkennung

Der Prozess zum Identifizieren von Ausreißern in einem Trainings-Dataset.

Im Kontrast zur Neuheitserkennung stehen.

erkennen

Werte, die von den meisten anderen Werten abweichen. Beim maschinellen Lernen sind die folgenden Ausreißer:

  • Eingabedaten, deren Werte um etwa 3 Standardabweichungen vom Mittelwert abweichen.
  • Gewichtungen mit hohen absoluten Werten
  • Vorhergesagte Werte, die relativ weit von den tatsächlichen Werten entfernt sind.

Beispiel: widget-price ist ein Merkmal eines bestimmten Modells. Es wird angenommen, dass der Mittelwert widget-price 7 € mit einer Standardabweichung von 1 € ist. Beispiele mit einem widget-price von 12 € oder 2 € würden daher als Ausreißer betrachtet, da jeder dieser Preise fünf Standardabweichungen vom Mittelwert ist.

Ausreißer werden oft durch Tipp- oder andere Eingabefehler verursacht. In anderen Fällen sind Ausreißer keine Fehler. Schließlich sind Werte, die fünf Standardabweichungen vom Mittelwert entfernt sind, selten, aber kaum unmöglich.

Ausreißer verursachen häufig Probleme beim Modelltraining. Das Zuschneiden ist eine Möglichkeit, Ausreißer zu verwalten.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, indem jeder Entscheidungsbaum mit den Beispielen verglichen wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Beachten Sie beispielsweise im folgenden Diagramm, dass das System jeden Entscheidungsbaum in etwa zwei Dritteln der Beispiele trainiert und dann anhand des verbleibenden ein Drittel der Beispiele evaluiert.

Ein Entscheidungswald aus drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert und das verbleibende Drittel wird für die OOB-Bewertung verwendet.
          Ein zweiter Entscheidungsbaum wird mit anderen zwei Dritteln der Beispiele trainiert als der vorherige Entscheidungsbaum und verwendet dann ein anderes Drittel für die OOB-Bewertung als der vorherige Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Annäherung an den Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden zehn Modelle in einer zehnfachen Kreuzvalidierung). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da beim Baging einige Daten von jedem Baum während des Trainings zurückgehalten werden, kann die OOB-Auswertung diese Daten zur ungefähren Kreuzvalidierung verwenden.

Ausgabeebene

#fundamentals

Die „letzte“ Schicht eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabeschicht, zwei ausgeblendeten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Merkmalen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite versteckte Schicht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Ein model erstellen, das so genau mit den model übereinstimmt, dass das Modell bei neuen Daten keine korrekten Vorhersagen treffen kann

Die Regularisierung kann eine Überanpassung reduzieren. Wenn du mit einem großen und vielfältigen Trainings-Dataset trainierst, kannst du eine Überanpassung ebenfalls reduzieren.

Oversampling

Verwenden Sie die Beispiele einer Minderheitsklasse in einem von einer Klasse unausgeglichenen Dataset, um ein ausgewogenes Trainings-Dataset zu erstellen.

Betrachten Sie beispielsweise ein binäres Klassifizierungsproblem, bei dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 5.000:1 beträgt. Wenn das Dataset eine Million Beispiele enthält, enthält es nur etwa 200 Beispiele der Minderheitenklasse. Dies sind möglicherweise zu wenige Beispiele für ein effektives Training. Um diesen Mangel zu beheben, können Sie diese 200 Beispiele mehrmals übersampeln (wiederverwenden), sodass Sie möglicherweise genügend Beispiele für ein nützliches Training erhalten.

Achten Sie beim Übersampeln auf eine übermäßige Überanpassung.

einen Kontrast mit Untersampling bilden.

P

Gepackte Daten

Ein Ansatz zum effizienteren Speichern von Daten.

In gepackten Daten werden Daten entweder in einem komprimierten Format oder auf eine andere Weise gespeichert, die einen effizienteren Zugriff ermöglicht. Verpackte Daten minimieren den für den Zugriff erforderlichen Arbeitsspeicher und die für den Zugriff erforderlichen Rechenressourcen, was zu einem schnelleren Training und einer effizienteren Modellinferenz führt.

Gepackte Daten werden häufig mit anderen Techniken wie Datenerweiterung und Regularisierung verwendet, um die Leistung von Modellen weiter zu verbessern.

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus der Verzerrung (b) und allen Gewichtungen (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Abstimmungsdienst) dem Modell zur Verfügung stellen. Beispielsweise ist die Lernrate ein Hyperparameter.

Parameter-effiziente Abstimmung

#language
#generativeKI

Eine Reihe von Techniken zur effizienteren Feinabstimmung eines großen vortrainierten Sprachmodells (PLM) als vollständige Feinabstimmung. Bei der Parameter-effizienten Abstimmung werden in der Regel weit weniger Parameter als eine vollständige Feinabstimmung optimiert. Im Allgemeinen wird jedoch ein Large Language Model erzeugt, das genauso (oder fast so gut) wie ein Large Language Model, das mit vollständiger Feinabstimmung erstellt wurde, funktioniert.

Parametereffiziente Abstimmung vergleichen und gegenüberstellen mit:

Parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Parameterserver (PS)

#TensorFlow

Ein Job, der die Parameter eines Modells in einer verteilten Einstellung verfolgt.

Parameteraktualisierung

Die Anpassung der Parameter eines Modells während des Trainings, in der Regel innerhalb einer einzelnen Iteration des Gradientenabstiegs.

partielle Ableitung

Ableitung, bei der alle Variablen bis auf eine als Konstante angesehen werden. Beispielsweise ist die partielle Ableitung von f(x, y) nach x die Ableitung von f, die nur als Funktion von x betrachtet wird (d. h., y bleibt konstant). Die partielle Ableitung von f nach x konzentriert sich nur darauf, wie sich x ändert, und ignoriert alle anderen Variablen in der Gleichung.

Beteiligungsverzerrung

#fairness

Synonym für Nichtantwortverzerrung. Siehe Auswahlverzerrung.

Partitionierungsstrategie

Der Algorithmus, nach dem Variablen auf Parameterserver aufgeteilt werden.

Pax

Ein Programmier-Framework, das zum Trainieren umfangreicher neuronaler Netzwerkmodelle entwickelt ist, die so groß sind, dass sie mehrere TPU-Beschleuniger-Chips Slices oder Pods abdecken.

Pax basiert auf Flax, das auf JAX basiert.

Diagramm, das die Position von Pax im Software-Stack zeigt.
          Pax baut auf JAX auf. Pax selbst besteht aus drei Schichten. Die unterste Ebene enthält TensorStore und Flax.
          Die mittlere Ebene enthält Optax und Flaxformer. Die oberste Ebene enthält die Praxis-Modellierungsbibliothek. Fiddle wurde auf Pax aufgebaut.

Perceptron

Ein System (entweder Hardware oder Software), das einen oder mehrere Eingabewerte annimmt, eine Funktion für die gewichtete Summe der Eingaben ausführt und einen einzelnen Ausgabewert berechnet. Beim maschinellen Lernen ist die Funktion in der Regel nicht linear, z. B. ReLU, sigmoid oder tanh. Das folgende Perceptron benötigt beispielsweise die Sigmoidfunktion, um drei Eingabewerte zu verarbeiten:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In der folgenden Abbildung nimmt das Perceptron drei Eingaben vor, von denen jede vor dem Eintritt in das Perceptron durch eine Gewichtung modifiziert wird:

Perceptron, das 3 Eingaben annimmt, die jeweils mit separaten Gewichtungen multipliziert werden. Das Perceptron gibt einen einzelnen Wert aus.

Perceptronen sind die Neuronen in neuronalen Netzwerken.

Leistung

Überladener Begriff mit folgenden Bedeutungen:

  • Standardbedeutung in der Softwareentwicklung. Insbesondere: Wie schnell (oder effizient) wird diese Software ausgeführt?
  • Die Bedeutung des maschinellen Lernens Hier beantwortet die Leistung die folgende Frage: Wie korrekt ist dieses model? Wie gut sind die Vorhersagen des Modells?

Wichtigkeit von Permutationsvariablen

#df

Art von variabler Wichtigkeit, die die Zunahme des Vorhersagefehlers eines Modells bewertet, nachdem die Werte des Features geändert wurden. Die Wichtigkeit der Permutationsvariablen ist ein modellunabhängiger Messwert.

Verwirrung

Ein Maß dafür, wie gut ein model seine Aufgabe erfüllt. Angenommen, Ihre Aufgabe besteht darin, die ersten Buchstaben eines Wortes zu lesen, das ein Nutzer auf der Tastatur eines Smartphones eingibt, und eine Liste möglicher Vervollständigungswörter anzubieten. Die Perplexität P (P) ist in etwa die Anzahl der Vermutungen, die Sie angeben müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer zu tippen versucht.

Die Perplexität hängt mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

Pipeline

Die Infrastruktur eines Algorithmus für maschinelles Lernen. Eine Pipeline umfasst das Erfassen der Daten, das Einfügen der Daten in Dateien mit Trainingsdaten, das Trainieren eines oder mehrerer Modelle und das Exportieren der Modelle in die Produktion.

Pipelines

#language

Eine Form der Modellparallelität, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen aufgeteilt ist und jede Phase auf einem anderen Gerät ausgeführt wird. Während eine Phase einen Batch verarbeitet, kann die vorherige Phase mit dem nächsten Batch arbeiten.

Weitere Informationen finden Sie unter Gestaffelte Schulung.

Pjit

Eine JAX-Funktion, die Code zur Ausführung auf mehrere Beschleuniger-Chips aufteilt. Der Nutzer übergibt eine Funktion an pjit, die eine Funktion mit der entsprechenden Semantik zurückgibt, aber in eine XLA-Berechnung kompiliert wird, die auf mehreren Geräten (z. B. GPUs oder TPU-Kernen) ausgeführt wird.

Mit pjit können Nutzer Berechnungen mit dem Partitioner SPMD fragmentieren, ohne sie umzuschreiben.

Im März 2023 wurde pjit mit jit zusammengeführt. Weitere Informationen finden Sie unter Verteilte Arrays und automatische Parallelisierung.

PLM

#language
#generativeKI

Abkürzung für vortrainiertes Sprachmodell.

PMap

Eine JAX-Funktion, die Kopien einer Eingabefunktion auf mehreren zugrunde liegenden Hardwaregeräten (CPUs, GPUs oder TPUs) mit unterschiedlichen Eingabewerten ausführt. Pmap basiert auf SPMD.

policy

#rl

Beim Reinforcement Learning die probabilistische Zuordnung eines Agents von Bundesstaaten zu Aktionen.

Pooling

#image

Reduktion einer oder mehrerer Matrizen, die mit einer früheren Convolutional-Schicht erstellt wurden, zu einer kleineren Matrix Beim Pooling wird normalerweise entweder der Maximal- oder Durchschnittswert im Pool-Bereich ermittelt. Angenommen, wir haben die folgende 3x3-Matrix:

Die 3x3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Ein Pooling-Vorgang teilt diese Matrix wie ein Faltungsvorgang in Segmente auf und verschiebt diesen Faltungsvorgang dann in Schritten. Angenommen, die Pooling-Operation unterteilt die Faltungsmatrix in 2 × 2-Segmente mit einem 1 × 1-Schritt. Wie das folgende Diagramm zeigt, finden vier Pooling-Vorgänge statt. Stellen Sie sich vor, dass jeder Pooling-Vorgang den Maximalwert der Vier in diesem Slice auswählt:

Die Eingabematrix ist 3x3 mit den Werten [[5,3,1], [8,2,5], [9,4,3]].
          Die linke 2x2-Submatrix der Eingabematrix ist [[5,3], [8,2]], sodass die Pooling-Operation oben links den Wert 8 liefert (das Maximum von 5, 3, 8 und 2). Die obere rechte 2 x 2-Submatrix der Eingabematrix ist [[3,1], [2,5]], sodass die Pooling-Operation oben rechts den Wert 5 liefert. Die 2x2-Submatrix unten links der Eingabematrix ist [[8,2], [9,4]], sodass die Pooling-Operation unten links den Wert 9 liefert. Die 2 x 2-Submatrix unten rechts der Eingabematrix ist [[2,5], [4,3]], sodass die Pooling-Operation unten rechts den Wert 5 liefert. Zusammenfassend liefert der Pooling-Vorgang die 2x2-Matrix [[8,5], [9,5]].

Mit Pooling können Sie eine Übersetzungsinvarianz in der Eingabematrix erzwingen.

Das Pooling für Vision-Anwendungen wird förmlicher als räumliches Pooling bezeichnet. Bei Zeitachsenanwendungen wird Pooling in der Regel als zeitliches Pooling bezeichnet. Weniger offiziell wird das Pooling oft als Subsampling oder Downsampling bezeichnet.

Positionscodierung

#language

Verfahren zum Hinzufügen von Informationen zur Position eines Tokens in einer Sequenz zur Einbettung des Tokens. Transformer-Modelle verwenden die Positionscodierung, um die Beziehung zwischen verschiedenen Teilen der Sequenz besser zu verstehen.

Eine gängige Implementierung der Positionscodierung verwendet eine Sinusoidfunktion. Insbesondere werden die Frequenz und Amplitude der Sinusoidfunktion durch die Position des Tokens in der Sequenz bestimmt. Mit dieser Technik kann ein Transformer-Modell lernen, verschiedene Teile der Sequenz basierend auf ihrer Position zu berücksichtigen.

positive Klasse

#fundamentals

Die Klasse, für die Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator kann beispielsweise „Spam“ sein.

Kontrast mit negativer Klasse.

Nachbearbeitung

#fairness
#fundamentals

Ausgabe eines Modells anpassen, nachdem das Modell ausgeführt wurde. Die Nachverarbeitung kann verwendet werden, um Fairness-Einschränkungen durchzusetzen, ohne die Modelle selbst zu ändern.

Sie können beispielsweise die Nachverarbeitung auf einen binären Klassifikator anwenden, indem Sie einen Klassifizierungsgrenzwert so festlegen, dass die Chancengleichheit für ein bestimmtes Attribut aufrechterhalten wird. Dazu wird geprüft, ob die Rate für richtig positive Ergebnisse für alle Werte dieses Attributs gleich ist.

PR AUC (Bereich unter der PR-Kurve)

Fläche unter der interpolierten Precision-/Recall-Kurve, die durch Darstellung von (Recall, Precision) Punkten für verschiedene Werte des Klassifizierungsschwellenwerts erhalten wird. Je nach Berechnungsmethode kann PR AUC der durchschnittlichen Genauigkeit des Modells entsprechen.

Praxis

Eine leistungsstarke ML-Hauptbibliothek von Pax wird oft als „Layer Library“ bezeichnet.

Die Praxis enthält nicht nur die Definitionen für die Layer-Klasse, sondern auch die meisten ihrer unterstützenden Komponenten, darunter:

Praxis enthält die Definitionen für die Modellklasse.

Precision

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Welcher Prozentsatz der Vorhersagen war richtig, als das Modell die positive Klasse vorhergesagt hat?

Die Formel lautet:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

  • Richtig positiv bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • Falsch positiv bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

  • 150 echt positive Ergebnisse.
  • 50 waren falsch positive Ergebnisse.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Im Kontrast zu Genauigkeit und Trefferquote stehen.

Precision-/Recall-Kurve

Eine Kurve mit der Genauigkeit im Vergleich zur Trefferquote bei unterschiedlichen Klassifizierungsschwellenwerten.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines mehrklassigen Klassifizierungsmodells ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Vorhersageverzerrung

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Dataset entfernt ist.

Nicht zu verwechseln mit dem Begriff der Voreingenommenheit in ML-Modellen oder mit Voreingenommenheit in Bezug auf Ethik und Fairness.

prädiktives ML

Jedes standardmäßige („klassische“) System für maschinelles Lernen.

Für den Begriff prognostisches ML gibt es keine formale Definition. Vielmehr wird mit dem Begriff eine Kategorie von ML-Systemen unterschieden, die nicht auf generativer KI basieren.

Vorhersageparität

#fairness

Fairnessmesswert, der prüft, ob für einen bestimmten Klassifikator die Precision-Raten für die in Betracht gezogenen Untergruppen übereinstimmen.

Beispiel: Ein Modell, das die Akzeptanz von Hochschulen vorhersagt, würde die vorhergesagte Parität der Nationalität erfüllen, wenn die Genauigkeitsrate für Lilliputians und Brobdingnagians gleich ist.

Die prädiktive Parität wird manchmal auch als prognostische Ratenparität bezeichnet.

Eine ausführlichere Erläuterung der prädiktiven Parität finden Sie unter Erläuterung der Fairness-Definitionen (Abschnitt 3.2.1).

Vorhersageratenparität

#fairness

Eine andere Bezeichnung für prognostische Parität.

Vorverarbeitung

#fairness
Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung könnte eine einfache Methode wie das Entfernen von Wörtern aus einem englischen Textkorpus sein, die im englischen Wörterbuch nicht vorkommen, oder so komplex sein, dass Datenpunkte so neu ausgedrückt werden, dass so viele Attribute entfernt werden, die mit sensiblen Attributen wie möglich korrelieren. Die Vorverarbeitung kann dazu beitragen, Fairness-Einschränkungen zu erfüllen.

vortrainiertes Modell

#language
#image
#generativeKI

Modelle oder Modellkomponenten (z. B. ein Einbettungsvektor), die bereits trainiert wurden. Manchmal speisen Sie vortrainierte Einbettungsvektoren in ein neuronales Netzwerk ein. In anderen Fällen trainiert Ihr Modell die Einbettungsvektoren selbst, anstatt die vortrainierten Einbettungen zu verwenden.

Der Begriff vortrainiertes Sprachmodell bezieht sich auf ein Large Language Model, das ein Vortraining durchlaufen hat.

Vorabtraining

#language
#image
#generativeKI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind ungeschickte Giganten und müssen in der Regel durch zusätzliches Training optimiert werden. Beispielsweise können ML-Experten ein Large Language Model mit einem umfangreichen Text-Dataset vorab trainieren, z. B. allen englischsprachigen Seiten in Wikipedia. Nach dem Vorabtraining kann das resultierende Modell mit einer der folgenden Techniken weiter verfeinert werden:

vorherige Überzeugung

Was Sie von den Daten glauben, bevor Sie mit dem Training beginnen. Die L2-Regularisierung basiert beispielsweise auf der bisherigen Annahme, dass Gewichtungen klein sein und normalerweise um null herum verteilt sein sollten.

probabilistisches Regressionsmodell

Ein Regressionsmodell, das nicht nur die Gewichtungen für jedes Feature, sondern auch die Unsicherheit dieser Gewichtungen verwendet. Ein probabilistisches Regressionsmodell generiert eine Vorhersage und die Unsicherheit dieser Vorhersage. Ein probabilistisches Regressionsmodell kann beispielsweise eine Vorhersage von 325 mit einer Standardabweichung von 12 liefern. Weitere Informationen zu probabilistischen Regressionsmodellen finden Sie in diesem Colab auf Tensorflow.org.

Wahrscheinlichkeitsdichtefunktion

Eine Funktion, die die Häufigkeit von Stichproben mit genau einem bestimmten Wert ermittelt. Wenn die Werte eines Datasets kontinuierliche Gleitkommazahlen sind, treten selten exakte Übereinstimmungen auf. Das integrating einer Wahrscheinlichkeitsdichtefunktion vom Wert x bis zum Wert y liefert jedoch die erwartete Häufigkeit von Stichproben zwischen x und y.

Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben zu ermitteln, die in den Bereich von 211,4 bis 218,7 fallen, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

Prompt

#language
#generativeKI

Jeder Text, der als Eingabe in ein Large Language Model eingegeben wird, um das Modell für ein bestimmtes Verhalten zu konditionieren. Aufforderungen können so kurz wie eine Phrase oder beliebig lang sein (z. B. der gesamte Text eines Romans). Prompts lassen sich in mehrere Kategorien unterteilen, einschließlich der in der folgenden Tabelle gezeigten:

Prompt-Kategorie Beispiel Hinweise
Frage Wie schnell kann eine Taube fliegen?
Anleitung Schreib ein lustiges Gedicht über Arbitrage. Einen Prompt, der das Large Language Model zu einer Aktion auffordert.
Beispiel Markieren Sie den Markdown-Code in HTML. Beispiel:
Markdown: * Listeneintrag
HTML: <ul> <li>Listenelement</li> </ul>
Der erste Satz in diesem Beispiel-Prompt ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle Erläutere, warum das Gradientenverfahren beim Doktoranden in Physik im maschinellen Lernen eingesetzt wird. Der erste Teil des Satzes ist eine Anweisung, der Satz „zum Doktortitel in Physik“ ist der Rollenteil.
Teileingabe für das Modell Der Premierminister des Vereinigten Königreichs lebt in Eine Teileingabesaufforderung kann entweder abrupt enden (wie in diesem Beispiel) oder mit einem Unterstrich enden.

Ein generatives KI-Modell kann auf einen Prompt mit Text, Code, Bildern, Einbettungen, Videos usw. reagieren.

Prompt-basiertes Lernen

#language
#generativeKI

Fähigkeit bestimmter Modelle, ihr Verhalten als Reaktion auf beliebige Texteingaben anzupassen (Aufforderungen). In einem typischen auf Prompts basierenden Lernparadigma reagiert ein Large Language Model auf einen Prompt, indem es Text generiert. Angenommen, ein Nutzer gibt den folgenden Prompt ein:

Fasse das dritte Newtonsche Gesetz der Bewegung zusammen.

Ein Modell, das Prompt-basiertes Lernen ermöglicht, ist nicht speziell dafür trainiert, den vorherigen Prompt zu beantworten. Vielmehr „kennt“ das Modell viele Fakten über die Physik, viel über die allgemeinen Sprachregeln und eine Menge darüber, was allgemein nützliche Antworten ausmacht. Dieses Wissen reicht aus, um eine (hoffentlich) nützliche Antwort zu geben. Durch zusätzliches menschliches Feedback („Diese Antwort war zu kompliziert“ oder „Was ist eine Reaktion?“) können einige auf Prompts basierende Lernsysteme den Nutzen ihrer Antworten nach und nach verbessern.

Prompt-Entwurf

#language
#generativeKI

Synonym für prompt Engineering.

Prompt Engineering

#language
#generativeKI

Die Kunst des Erstellens von Prompts, die die gewünschten Antworten von einem Large Language Model auslösen. Menschen führen Prompt Engineering durch. Gut strukturierte Prompts sind wichtig, um nützliche Antworten aus einem Large Language Model zu erhalten. Das Prompt Engineering hängt von vielen Faktoren ab, darunter:

  • Das Dataset, mit dem das Large Language Model vorab trainiert und möglicherweise optimiert wird.
  • Die temperature und andere Decodierungsparameter, die das Modell zum Generieren von Antworten verwendet.

Weitere Informationen zum Schreiben hilfreicher Prompts finden Sie unter Einführung in den Prompt-Entwurf.

Prompt-Design ist ein Synonym für Prompt Engineering.

Prompt-Feinabstimmung

#language
#generativeKI

Ein Mechanismus für die parametereffiziente Feinabstimmung, der ein "Präfix" erlernt, das das System der eigentlichen Eingabeaufforderung voranstellt.

Eine Variante der Abstimmung von Aufforderungen, die auch als Präfixabstimmung bezeichnet wird, besteht darin, das Präfix jeder Ebene voranzustellen. Im Gegensatz dazu wird bei der meisten Abstimmung von Prompts nur der Eingabeebene ein Präfix hinzugefügt.

Proxy-Labels

#fundamentals

Daten zur Schätzung von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel der Mitarbeiter vorherzusagen. Ihr Dataset enthält viele Vorhersagefunktionen, aber kein Label namens Stress level. Unerwünscht gibst du „Unfälle am Arbeitsplatz“ als Proxy-Label für den Stresslevel aus. Schließlich geraten Mitarbeitende unter hohem Stress häufiger zu Unfällen als beruhigende Mitarbeitende. Oder? Vielleicht nehmen Arbeitsunfälle aus verschiedenen Gründen zu und ab.

Angenommen, Sie möchten Ist es regnet? ein boolesches Label für Ihr Dataset sein, aber das Dataset enthält keine Regendaten. Wenn Fotos verfügbar sind, könnten Sie als Ersatzlabel für Regnet? Bilder von Personen mit Regenschirmen verwenden. Ist das ein gutes Proxy-Label? Möglicherweise tragen Menschen in einigen Kulturen eher Sonnenschirme bei sich als Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit tatsächliche Labels gegenüber Proxy-Labels aus. Wenn jedoch kein tatsächliches Label vorhanden ist, wählen Sie das Proxy-Label sehr sorgfältig aus und wählen Sie den am wenigsten schlechten Proxy-Label-Kandidaten.

Proxy (vertrauliche Attribute)

#fairness
Ein Attribut, das als Ersatz für ein sensibles Attribut verwendet wird. Beispielsweise kann die Postleitzahl einer Person als Stellvertreter für ihr Einkommen, ihre ethnische Herkunft oder ihre ethnische Zugehörigkeit verwendet werden.

reine Funktion

Eine Funktion, deren Ausgaben nur auf ihren Eingaben basieren und die keine Nebeneffekte hat. Insbesondere verwendet oder ändert eine reine Funktion keinen globalen Status, wie z. B. den Inhalt einer Datei oder den Wert einer Variablen außerhalb der Funktion.

Reine Funktionen können zum Erstellen von threadsicherem Code verwendet werden. Dies ist vorteilhaft, wenn model auf mehrere model fragmentiert wird.

Die Transformationsmethoden von JAX-Funktionen erfordern, dass die Eingabefunktionen reine Funktionen sind.

F

Q-Funktion

#rl

Beim bestärkenden Lernen die Funktion, die die erwartete Rückgabe vorhersagt, wenn eine Aktion in einem Status ausgeführt wird und dann einer bestimmten Richtlinie folgt.

Die Q-Funktion wird auch als Wertfunktion für Statusaktionen bezeichnet.

Q-Learning

#rl

Ein Algorithmus beim bestärkenden Lernen, der es einem Agent ermöglicht, die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwendung der Bellman-Gleichung zu erlernen. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

Quantil

Jeder Bucket im Quantil-Bucketing.

Quantil-Bucketing

Verteilen der Werte eines Features auf Buckets, sodass jeder Bucket die gleiche oder fast die gleiche Anzahl von Beispielen enthält. In der folgenden Abbildung werden beispielsweise 44 Punkte in 4 Buckets unterteilt, von denen jeder 11 Punkte enthält. Damit jeder Bucket in der Abbildung die gleiche Anzahl von Punkten enthält, erstrecken sich einige Buckets über unterschiedliche Breiten von x-Werten.

44 Datenpunkte, aufgeteilt in 4 Kategorien mit je 11 Punkten.
          Obwohl jeder Bucket die gleiche Anzahl von Datenpunkten enthält, enthalten einige Buckets eine größere Auswahl an Featurewerten als andere Buckets.

Quantisierung

Überladener Begriff, der wie folgt verwendet werden kann:

  • Quanten-Bucketing für ein bestimmtes Feature implementieren
  • Umwandlung von Daten in Nullen und Einsen zum schnelleren Speichern, Trainieren und Ableiten von Daten Da boolesche Daten verrauschter und fehlerhafter sind als andere Formate, kann die Quantisierung die Modellrichtigkeit verbessern. Quantisierungstechniken umfassen Runden, Abschneiden und Binning.
  • Reduzieren der Anzahl der Bits, die zum Speichern der Parameter eines Modells verwendet werden. Angenommen, die Parameter eines Modells werden als 32-Bit-Gleitkommazahlen gespeichert. Quantisierung wandelt diese Parameter von 32 Bit in 4, 8 oder 16 Bit um. Quantisierung reduziert Folgendes:

    • Computing-, Arbeitsspeicher-, Laufwerks- und Netzwerknutzung
    • Zeit zum Ableiten einer Prädikation
    • Stromstärke

    Die Quantisierung verringert jedoch manchmal die Richtigkeit der Vorhersagen eines Modells.

kuh

#TensorFlow

Einen Vorgang von TensorFlow, der eine Warteschlangendatenstruktur implementiert. Wird normalerweise für die E/A verwendet.

R

RAG

#fundamentals

Abkürzung für Retrieval-augmented Generation.

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, in denen jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, z. B. Baging.

Random Forests sind eine Art von Entscheidungsstruktur.

Zufällige Richtlinie

#rl

Bei bestärkendem Lernen eine Richtlinie, die eine Aktion nach dem Zufallsprinzip auswählt.

Ranking

Eine Art des überwachten Lernens, dessen Ziel darin besteht, eine Liste von Elementen anzuordnen.

Rang (Ordinalität)

Die ordinale Position einer Klasse bei einem ML-Problem, das Klassen von der höchsten zur niedrigsten Position kategorisiert. Ein Ranking-System für das Verhalten könnte beispielsweise die Belohnungen eines Hundes vom höchsten (ein Steak) bis zum niedrigsten (verwelkter Grünkohl) einstufen.

Rang (Tensor)

#TensorFlow

Die Anzahl der Dimensionen in einem Tensor. Zum Beispiel hat ein Skalar den Rang 0, ein Vektor den Rang 1 und eine Matrix den Rang 2.

Nicht zu verwechseln mit Rang (Ordinalität).

Bewerter

#fundamentals

Ein Mensch, der Labels für Beispiele bereitstellt. „Annotator“ ist eine andere Bezeichnung für Bewerter.

Rückruf

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn Ground Truth die positive Klasse war, wie viel Prozent der Vorhersagen hat das Modell korrekt als positive Klasse identifiziert?

Die Formel lautet:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

  • Richtig positiv bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • Falsch negativ bedeutet, dass das Modell die negative Klasse fälschlicherweise vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, bei denen Ground Truth die positive Klasse ist. Von diesen 200 Vorhersagen:

  • 180 echt positive Ergebnisse.
  • 20 waren falsch negative Ergebnisse.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Empfehlungssystem

#recsystems

Ein System, das für jeden Nutzer eine relativ kleine Gruppe gewünschter Elemente aus einem großen Korpus auswählt. Ein Videoempfehlungssystem könnte beispielsweise zwei Videos aus einem Korpus von 100.000 Videos empfehlen und für einen Nutzer Casablanca und The Philadelphia Story und für einen anderen Wonder Woman und Black Panther auswählen. Ein Videoempfehlungssystem kann seine Empfehlungen auf Faktoren wie den folgenden basieren:

  • Filme, die von ähnlichen Nutzern bewertet oder angesehen wurden.
  • Genre, Regisseure, Schauspieler, demografische Zielgruppe...

Rektifizierte Lineareinheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, ist die Ausgabe gleich der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein ReLU-Diagramm:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0, der entlang der x-Achse von -unfinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz ihres einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk weiterhin, nicht lineare Beziehungen zwischen Features und dem Label zu erlernen.

Recurrent Neural Network

#seq

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile jedes Laufs den nächsten Durchlauf durchlaufen. Insbesondere stellen ausgeblendete Layer aus der vorherigen Ausführung einen Teil der Eingabe für dieselbe verborgene Ebene bei der nächsten Ausführung bereit. Wiederkehrende neuronale Netzwerke sind besonders nützlich für die Auswertung von Sequenzen, sodass die verborgenen Schichten aus vorherigen Durchläufen des neuronalen Netzwerks in früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein wiederkehrendes neuronales Netzwerk, das viermal ausgeführt wird. Beachten Sie, dass die Werte, die in den ausgeblendeten Layern aus dem ersten Durchlauf erlernt wurden, im zweiten Durchlauf Teil der Eingabe für dieselben verborgenen Layers werden. In ähnlicher Weise werden die beim zweiten Durchlauf in der verborgenen Schicht gelernten Werte beim dritten Durchlauf Teil der Eingabe in dieselbe versteckte Schicht. Auf diese Weise wird das wiederkehrende neuronale Netzwerk nach und nach die Bedeutung der gesamten Abfolge und nicht nur die Bedeutung einzelner Wörter trainiert und prognostiziert.

Ein RNN, der viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

Regressionsmodell

#fundamentals

Informell ein Modell, das eine numerische Vorhersage generiert. (Im Gegensatz dazu generiert ein Klassifizierungsmodell eine Klassenvorhersage.) Im Folgenden sehen Sie beispielsweise alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Modell, das die Lebenserwartung eines bestimmten Baums vorhersagt, z. B. 23,2 Jahre.
  • Ein Modell, das die Regenmenge vorhersagt, die in einer bestimmten Stadt in den nächsten sechs Stunden fallen wird, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression: Damit wird die Linie ermittelt, die Labelwerte am besten an Elemente anpasst.
  • Logistische Regression: generiert eine Wahrscheinlichkeit zwischen 0,0 und 1,0, die ein System dann normalerweise einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell mit numerischen Klassennamen. Beispielsweise ist ein Modell, das eine numerische Postleitzahl vorhersagt, ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Regularisierungstypen gehören:

Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Bedeutung der Regularisierung während des Trainings angibt. Ein Erhöhen der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells verringern. Umgekehrt führt das Reduzieren oder Weglassen der Regularisierungsrate zu einer Überanpassung.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, um den Return on Investment bei der Interaktion mit einer Umgebung zu maximieren. Die ultimative Belohnung für die meisten Spiele ist beispielsweise der Sieg. Bestärkende Lernsysteme können zum Experten in komplexen Spielen werden, indem sie Sequenzen vorheriger Spielzüge auswerten, die schließlich zu Siegen und Sequenzen führten, die schließlich zu Niederlagen führten.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeKI
#rl

Feedback von Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzer beispielsweise bitten, die Qualität der Antwort eines Modells mit einem 👍- oder 👎-Emoji zu bewerten. Das System kann dann seine zukünftigen Antworten auf der Grundlage dieses Feedbacks anpassen.

ReLU

#fundamentals

Kürzel für Rektifizierte lineare Einheit.

Replay-Zwischenspeicher

#rl

In DQN-ähnlichen Algorithmen der Arbeitsspeicher, der vom Agent zum Speichern von Statusübergängen zur Verwendung bei der Replay-Wiedergabe verwendet wird.

Replikat

Eine Kopie des Trainings-Datasets oder des Modells, normalerweise auf einem anderen Computer. Ein System könnte beispielsweise die folgende Strategie zur Implementierung von Datenparallelität verwenden:

  1. Platzieren Sie Replikate eines vorhandenen Modells auf mehreren Rechnern.
  2. Senden Sie unterschiedliche Teilmengen des Trainings-Datasets an jedes Replikat.
  3. Aggregieren Sie die Aktualisierungen des Parameters.

Berichtsverzerrung

#fairness

Die Tatsache, dass die Häufigkeit, mit der Personen über Handlungen, Ergebnisse oder Eigenschaften schreiben, nicht auf ihrer realen Häufigkeit oder dem Ausmaß, in dem eine Eigenschaft für eine Klasse von Individuen charakteristisch ist, widerspiegelt. Verzerrungen in der Berichterstellung können die Zusammensetzung von Daten beeinflussen, aus denen ML-Systeme lernen.

In Büchern ist beispielsweise das Wort lacht häufiger als atmen. Ein Modell für maschinelles Lernen, das die relative Häufigkeit des Lachens und Atmens aus einem Buchkorpus schätzt, würde wahrscheinlich feststellen, dass Lachen häufiger als Atmen ist.

Darstellung

Die Zuordnung von Daten zu nützlichen Funktionen.

Re-Ranking

#recsystems

Die letzte Phase eines Empfehlungssystems, in der bewertete Elemente möglicherweise gemäß einem anderen Algorithmus (in der Regel kein ML) neu bewertet werden. Beim Re-Ranking wird die Liste der Elemente ausgewertet, die in der Bewertungsphase generiert wurden. Dabei werden folgende Aktionen ausgeführt:

  • Artikel, die der Nutzer bereits gekauft hat, werden entfernt.
  • Neuere Artikel gewinnen

Retrieval-Augmented Generation (RAG)

#fundamentals

Verfahren zur Verbesserung der Qualität der Ausgabe von Large Language Models (LLM), indem sie auf Wissensquellen gestützt wird, die nach dem Trainieren des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem dem trainierten LLM Zugriff auf Informationen aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten gewährt wird.

Häufige Beweggründe für die Nutzung von „Retrieval Augmented Generation“ sind:

  • Die faktische Genauigkeit der generierten Antworten eines Modells erhöhen.
  • Gewährt dem Modell Zugriff auf Informationen, mit denen es nicht trainiert wurde.
  • Ändern des Wissens, das das Modell verwendet.
  • Das Modell zum Zitieren von Quellen aktivieren

Angenommen, eine Chemieanwendung verwendet die PaLM API, um Zusammenfassungen zu Nutzerabfragen zu generieren. Wenn das Back-End der Anwendung eine Abfrage empfängt, geschieht Folgendes:

  1. Sucht nach Daten, die für die Suchanfrage des Nutzers relevant sind („abruft“)
  2. Hängt die relevanten Chemiedaten an die Suchanfrage des Nutzers an.
  3. Weist das LLM an, anhand der angehängten Daten eine Zusammenfassung zu erstellen.

return

#rl

Beim Reinforcement Learning wird bei einer bestimmten Richtlinie und einem bestimmten Status die Summe der Summe aller Prämien zurückgegeben, die der Agent erwartet, wenn er der Richtlinie vom Status bis zum Ende der Folge folgt. Der Agent berücksichtigt die verzögerte Art der erwarteten Prämien, indem er Prämien entsprechend den Statusübergängen reduziert, die für den Erhalt der Prämie erforderlich sind.

Wenn der Rabattfaktor \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, wird der Wert so berechnet:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

eine Belohnung

#rl

Beim bestärkenden Lernen das numerische Ergebnis einer Aktion in einem Zustand, wie durch die Umgebung definiert.

Ridge-Regularisierung

Synonym für L2-Regularisierung. Der Begriff Rridge-Regularisierung wird häufiger in reinen Statistikkontexten verwendet, während die L2-Regularisierung im maschinellen Lernen häufiger verwendet wird.

RNN

#seq

Abkürzung für recurrent Neural Networks.

ROC-Kurve (Receiver Operating Curve, Receiver Operating Curve)

#fundamentals

Ein Diagramm der Rate echt positiver Ergebnisse im Vergleich zur Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve deutet darauf hin, dass ein binäres Klassifizierungsmodell in der Lage ist, positive von negativen Klassen zu trennen. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlenreihe mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse für die Rate richtig positiver Ergebnisse. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0.0,0.0) und geht senkrecht nach oben bis (0.0,1.0). Dann geht die Kurve von (0,0, 1,0) bis (1,0, 1,0).

Im Gegensatz dazu werden in der folgenden Abbildung die Rohdaten der logistischen Regression für ein schlechtes Modell grafisch dargestellt, das negative Klassen nicht von positiven Klassen trennen kann:

Eine Zahlenlinie mit positiven Beispielen und negativen Klassen, die vollständig miteinander vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eine gerade Linie von (0.0,0.0) bis (1.0,1.0) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle die positiven und negativen Klassen bis zu einem gewissen Grad, aber in der Regel nicht perfekt. Eine typische ROC-Kurve fällt also irgendwo zwischen zwei Extremen:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse für die Rate richtig positiver Ergebnisse. Die ROC-Kurve ist ein Beispiel für einen wackeligen Bogen, der die Kompasspunkte von West nach Nord durchquert.

Der Punkt auf einer ROC-Kurve, der (0.0,1.0) am nächsten liegt, gibt theoretisch den Schwellenwert für die ideale Klassifizierung an. Die Auswahl des idealen Klassifizierungsschwellenwerts wird jedoch von einigen anderen realen Problemen beeinflusst. Zum Beispiel verursachen falsch negative Ergebnisse weitaus mehr Schmerz als falsch positive Ergebnisse.

Ein numerischer Messwert namens AUC fasst die ROC-Kurve in einem einzigen Gleitkommawert zusammen.

Rollen-Prompting

#language
#generativeKI

Ein optionaler Teil einer Aufforderung, mit der eine Zielgruppe für die Antwort eines Generative-AI-Modells angegeben wird. Ohne Rollenaufforderung liefert ein Large Language Model eine Antwort, die für die Person, die die Fragen stellt, nützlich oder nicht hilfreich sein kann. Mit einer Rollenaufforderung kann ein Large Language Model antworten, das für eine bestimmte Zielgruppe geeigneter und hilfreicher ist. Beispielsweise sind die Rollen-Prompts in den folgenden Aufforderungen fett formatiert:

  • Fasse diesen Artikel für einen Doktortitel in Wirtschaft zusammen.
  • Beschreiben Sie, wie die Gezeiten bei einem Zehnjährigen funktionieren.
  • Erklären Sie die Finanzkrise von 2008. Sprechen Sie so wie Sie mit einem kleinen Kind oder einem Golden Retriever.

root

#df

Den Startknoten (die erste Bedingung) in einem Entscheidungsbaum. Konventionsgemäß wird in Diagrammen die Wurzel oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Stammbedingung.

Stammverzeichnis

#TensorFlow

Das Verzeichnis, das Sie zum Hosten von Unterverzeichnissen des TensorFlow-Prüfpunkts und der Ereignisdateien mehrerer Modelle angeben.

Wurzel der mittleren Fehlerquadratsumme (Root Mean Squared Error, RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

Rotationsinvarianz

#image

Bei einem Bildklassifizierungsproblem die Fähigkeit eines Algorithmus, Bilder selbst dann erfolgreich zu klassifizieren, wenn sich die Ausrichtung des Bildes ändert. Beispielsweise kann der Algorithmus einen Tennisschläger immer noch identifizieren, unabhängig davon, ob er nach oben, zur Seite oder nach unten zeigt. Beachten Sie, dass eine Rotationsinvarianz nicht immer wünschenswert ist. Beispielsweise sollte eine umgedrehte 9 nicht als 9 klassifiziert werden.

Siehe auch Translational Invarianz und Größeninvarianz.

R-Quadrat

Ein Regressionsmesswert, der angibt, wie stark die Abweichung eines Labels auf ein einzelnes Feature oder auf einen Feature-Set zurückzuführen ist. Das R-Quadrat ist ein Wert zwischen 0 und 1, den Sie so interpretieren können:

  • Ein R-Quadrat von 0 bedeutet, dass keine Variante eines Labels auf den Feature-Set zurückzuführen ist.
  • Ein R-Quadrat von 1 bedeutet, dass die gesamte Variante eines Labels auf den Feature-Set zurückzuführen ist.
  • Ein R-Quadrat zwischen 0 und 1 gibt das Ausmaß an, in dem die Abweichung des Labels von einem bestimmten Merkmal oder dem Merkmalssatz vorhergesagt werden kann. Beispiel: Ein R-Quadrat von 0,10 bedeutet, dass 10 % der Varianz im Label auf den Feature-Satz zurückzuführen sind, ein R-Quadrat von 0,20 bedeutet, dass 20 % auf den Merkmalsatz zurückzuführen sind usw.

R-Quadrat ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den von einem Modell vorhergesagten Werten und der Ground Truth.

S

Stichprobenverzerrung

#fairness

Siehe Auswahlverzerrung.

Stichprobennahme mit Ersatz

#df

Eine Methode zur Auswahl von Elementen aus einer Gruppe von möglichen Elementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Ausdruck „mit Ersatz“ bedeutet, dass das ausgewählte Element nach jeder Auswahl in den Pool der möglichen Elemente zurückgeführt wird. Die Umkehrmethode, Stichproben ohne Ersetzung, bedeutet, dass ein Kandidatenelement nur einmal ausgewählt werden kann.

Betrachten Sie zum Beispiel die folgende Obstmenge:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig nach dem Zufallsprinzip als erstes Element aus. Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System das zweite Element aus dem folgenden Satz aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist derselbe Satz wie zuvor. Das System könnte also möglicherweise noch einmal fig auswählen.

Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig nach dem Zufallsprinzip als erste Stichprobe auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System die zweite Stichprobe aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Das empfohlene Format zum Speichern und Wiederherstellen von TensorFlow-Modellen. SavedModel ist ein sprachneutrales, wiederherstellbares Serialisierungsformat, mit dem übergeordnete Systeme und Tools TensorFlow-Modelle erstellen, verarbeiten und transformieren können.

Ausführliche Informationen finden Sie im TensorFlow-Programmierhandbuch im Kapitel zum Speichern und Wiederherstellen.

Kostengünstig

#TensorFlow

Ein TensorFlow-Objekt zum Speichern von Modellprüfpunkten.

Skalar

Eine einzelne Zahl oder ein einzelner String, der als Tensor mit Rang 0 dargestellt werden kann. Beispielsweise wird durch die folgenden Codezeilen jeweils ein Skalar in TensorFlow erstellt:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

Skalierung

Jede mathematische Transformation oder Technik, die den Bereich eines Label- und/oder Merkmalswerts verschiebt. Einige Arten der Skalierung sind für Transformationen wie die Normalisierung sehr nützlich.

Zu den gängigen Formen der Skalierung, die beim maschinellen Lernen nützlich sind, gehören:

  • lineare Skalierung, bei der in der Regel eine Kombination aus Subtraktion und Division verwendet wird, um den ursprünglichen Wert durch eine Zahl zwischen -1 und +1 oder zwischen 0 und 1 zu ersetzen.
  • logarithmische Skalierung, bei der der ursprüngliche Wert durch seinen Logarithmus ersetzt wird.
  • Normalisierung des Z-Scores: ersetzt den ursprünglichen Wert durch einen Gleitkommawert, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt.

scikit-learn

Eine beliebte Open-Source-Plattform für maschinelles Lernen. Weitere Informationen finden Sie unter scikit-learn.org.

Bewertung

#recsystems

Der Teil eines Empfehlungssystems, der einen Wert oder eine Rangfolge für jedes Element bereitstellt, das in der Phase Kandidatengenerierung produziert wurde.

Auswahlverzerrung

#fairness

Fehler in Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlprozesses, der systematische Unterschiede zwischen den in den Daten beobachteten Stichproben und den nicht beobachteten Stichproben generiert. Es gibt die folgenden Formen der Auswahlverzerrung:

  • Abdeckungsverzerrung: Die im Dataset dargestellte Population entspricht nicht der Population, für die das Modell für maschinelles Lernen Vorhersagen trifft.
  • Stichprobenverzerrung: Die Daten der Zielgruppe werden nicht nach dem Zufallsprinzip erfasst.
  • Non-Response-Verzerrungen (auch als Partizipationsverzerrung bezeichnet): Nutzer aus bestimmten Gruppen entscheiden sich mit anderen Raten für die Teilnahme an Umfragen als Nutzer aus anderen Gruppen.

Angenommen, Sie erstellen ein Modell für maschinelles Lernen, das prognostiziert, wie Menschen einen Film mögen. Um Trainingsdaten zu erfassen, verteilen Sie eine Umfrage an alle in der ersten Reihe eines Kinos, in dem der Film gezeigt wird. Eigentlich mag das nach einer vernünftigen Methode zum Erfassen eines Datasets klingen. Diese Form der Datenerhebung kann jedoch zu den folgenden Formen der Auswahlverzerrung führen:

  • Abdeckungsverzerrung: Durch die Stichprobe aus einer Population, die sich für den Film entschieden hat, werden die Vorhersagen Ihres Modells möglicherweise nicht verallgemeinert, wenn dies noch nicht der Fall war.
  • Stichprobenverzerrung: Anstelle einer zufälligen Stichprobe aus der gewünschten Population (allen Personen im Film) haben Sie nur die Personen in der ersten Reihe ausgewählt. Es ist möglich, dass die Personen in der ersten Reihe mehr an dem Film interessiert sind als die Personen in den anderen Reihen.
  • Non-Response-Verzerrung: Im Allgemeinen neigen Personen mit starker Meinung dazu, optionale Umfragen häufiger zu beantworten als Personen mit schwacher Meinung. Da die Filmumfrage optional ist, bilden die Antworten mit höherer Wahrscheinlichkeit eine bimodale Verteilung als eine normale (glockenförmige) Verteilung.

Selbstaufmerksamkeit (auch Selbstaufmerksamkeitsschicht genannt)

#language

Eine neuronale Netzwerkschicht, die eine Sequenz von Einbettungen (z. B. Token-Einbettungen) in eine andere Einbettungssequenz umwandelt. Jede Einbettung in der Ausgabesequenz wird erstellt, indem Informationen aus den Elementen der Eingabesequenz über einen Aufmerksamkeitsmechanismus integriert werden.

Der Teil self der Selbstaufmerksamkeit bezieht sich auf die Abfolge, die sich um sich selbst kümmert, und nicht auf einen anderen Kontext. Selbstaufmerksamkeit ist einer der Hauptbausteine für Transformer. Hier werden Begriffe aus der Wörterbuchsuche wie „Abfrage“, „Schlüssel“ und „Wert“ verwendet.

Eine Selbstaufmerksamkeitsschicht beginnt mit einer Abfolge von Eingabedarstellungen, eine für jedes Wort. Die Eingabedarstellung für ein Wort kann eine einfache Einbettung sein. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Wortes für jedes Element in der gesamten Wortfolge. Die Relevanzwerte bestimmen, wie stark die endgültige Darstellung des Wortes die Darstellungen anderer Wörter enthält.

Betrachten Sie zum Beispiel den folgenden Satz:

Das Tier ist nicht über die Straße gegangen, weil es so müde war.

Die folgende Abbildung (aus Transformer: A Novel Neural Network Architecture for Language Understanding) zeigt das Aufmerksamkeitsmuster einer Selbstaufmerkungsschicht für das Pronomen it. Die Dunkelheit jeder Zeile gibt an, wie viel jedes Wort zur Darstellung beiträgt:

Der folgende Satz kommt zweimal vor: Das Tier hat die Straße nicht überquert, weil es zu müde war. Linien verbinden das Pronomen in einem Satz mit fünf Tokens (das, Tier, Straße, er und der Punkt) im anderen Satz.  Die Linie zwischen dem Pronomen und dem Wort „Tier“ ist am stärksten.

Die Ebene der Selbstaufmerksamkeit hebt Wörter hervor, die für „sie“ relevant sind. In diesem Fall hat die Aufmerksamkeitsschicht gelernt, Wörter hervorzuheben, auf die sich sie beziehen könnte, und weist animal das höchste Gewicht zu.

Bei einer Sequenz von n Tokens transformiert die Selbstaufmerksamkeit eine Sequenz von Einbettungen n Mal separat an jeder Position der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und Mehrkopf-Selbstaufmerksamkeit.

selbstüberwachtes Lernen

Eine Reihe von Techniken, mit denen ein Problem des unüberwachten maschinellen Lernens in ein Problem des überwachten maschinellen Lernens umgewandelt wird, indem Ersatz-Labels aus Beispielen ohne Label erstellt werden.

Einige auf Transformer basierende Modelle wie BERT verwenden selbstüberwachtes Lernen.

Selbstüberwachtes Training ist ein halbüberwachter Lernansatz.

Selbsttraining

Eine Variante des selbstüberwachten Lernens, die besonders nützlich ist, wenn alle der folgenden Bedingungen erfüllt sind:

Beim Selbsttraining werden die folgenden zwei Schritte iteriert, bis das Modell nicht mehr verbessert wird:

  1. Verwenden Sie überwachtes maschinelles Lernen, um ein Modell anhand der mit Labels versehenen Beispiele zu trainieren.
  2. Verwenden Sie das in Schritt 1 erstellte Modell, um Vorhersagen (Labels) für die Beispiele ohne Label zu generieren. Verschieben Sie die Beispiele mit hoher Konfidenz in die mit Labels versehenen Beispiele mit dem vorhergesagten Label.

In jeder Iteration von Schritt 2 werden weitere beschriftete Beispiele für Schritt 1 zum Trainieren hinzugefügt.

halbüberwachtes Lernen

Modell mit Daten trainieren, bei denen einige der Trainingsbeispiele Labels haben, andere aber nicht. Eine Technik für das semiüberwachte Lernen besteht darin, Labels für die Beispiele ohne Label abzuleiten und dann anhand der abgeleiteten Labels zu trainieren, um ein neues Modell zu erstellen. Halbüberwachtes Lernen kann nützlich sein, wenn die Beschaffung von Labels teuer ist, es aber viele Beispiele ohne Labels gibt.

Selbsttraining ist eine Technik für halbüberwachtes Lernen.

sensibles Attribut

#fairness
Ein menschliches Attribut, das aus rechtlichen, ethischen, sozialen oder persönlichen Gründen besonders berücksichtigt werden kann.

Histogramm: Sentimentanalyse

#language

Einsatz statistischer oder maschineller Lernalgorithmen, um die allgemeine (positive oder negative) Einstellung einer Gruppe gegenüber einer Dienstleistung, einem Produkt, einer Organisation oder einem Thema zu bestimmen. Mithilfe von Natural Language Understanding könnte ein Algorithmus beispielsweise eine Sentimentanalyse des Textfeedbacks aus einem Universitätskurs durchführen, um den Grad zu ermitteln, bis zu dem die Studenten den Kurs im Allgemeinen mochten oder nicht mochten.

Sequenzmodell

#seq

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Beispielsweise wird dadurch das nächste angesehene Video aus einer Sequenz zuvor angesehener Videos vorhergesagt.

Sequenz-zu-Sequenz-Task

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens umwandelt. Zwei beliebte Arten von Sequenz-zu-Sequenz-Aufgaben sind beispielsweise:

  • Übersetzer:
    • Beispiel-Eingabesequenz: „Ich liebe dich.“
    • Beispielausgabesequenz: „Je t'aime“
  • Question Answering:
    • Beispiel für eine Eingabesequenz: „Brauche ich mein Auto in New York City?“
    • Beispiel für die Ausgabesequenz: „Nein. Bitte lassen Sie Ihr Auto zu Hause.“

Portion

Der Vorgang, bei dem ein trainiertes Modell verfügbar gemacht wird, um Vorhersagen über Online-Inferenz oder Offline-Inferenz bereitzustellen.

Form (Tensor)

Die Anzahl der Elemente in jeder Dimension eines Tensors. Die Form wird als Liste von Ganzzahlen dargestellt. Der folgende zweidimensionale Tensor hat beispielsweise die Form [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow verwendet das Row-Major-Format (C-Stil), um die Reihenfolge der Dimensionen darzustellen. Deshalb lautet die Form in TensorFlow [3,4] und nicht [4,3]. Mit anderen Worten, bei einem zweidimensionalen TensorFlow-Tensor ist die Form [Anzahl der Zeilen, Anzahl der Spalten].

Shard

#TensorFlow
#GoogleCloud

Eine logische Unterteilung des Trainings-Datasets oder des Modells. In der Regel werden bei einigen Prozessen Shards erstellt. Dazu werden die Beispiele oder Parameter in (in der Regel) gleich große Blöcke unterteilt. Jeder Shard wird dann einer anderen Maschine zugewiesen.

Das Fragmentieren eines Modells wird als Modellparallelität bezeichnet; das Fragmentieren von Daten wird als Datenparallelität bezeichnet.

Schrumpfung

#df

Einen Hyperparameter im Gradienten-Boosting, der die Überanpassung steuert. Die Schrumpfung beim Gradienten-Boosting erfolgt analog zur Lernrate beim Gradientenverfahren. Die Schrumpfung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Verkleinerungswert reduziert die Überanpassung mehr als ein größerer Verkleinerungswert.

Sigmoidfunktion

#fundamentals

Mathematische Funktion, die einen Eingabewert in einen begrenzten Bereich zerlegt, der typischerweise von 0 bis 1 oder von -1 bis +1 besteht. Das heißt, Sie können eine beliebige Zahl (zwei, eine Million, negative Milliarden usw.) an ein Sigmoid übergeben, und die Ausgabe bleibt im eingeschränkten Bereich. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, geschwungenes Diagramm mit x-Werten, die die Domain von -unendlich bis +positiv abdecken, während y-Werte einen Bereich von fast 0 bis fast 1 umfassen. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung 0,0,5 beträgt.Die Steigung nimmt allmählich ab, wenn der absolute Wert von x ansteigt.

Die Sigmoidfunktion kann im maschinellen Lernen zu verschiedenen Zwecken eingesetzt werden:

Ähnlichkeitsmesswert

#clustering

In Clustering-Algorithmen wird der Messwert verwendet, um zu bestimmen, wie ähnlich (wie ähnlich) zwei Beispiele sind.

Ein Programm / mehrere Daten (SPMD)

Parallelitätstechnik, bei der dieselbe Berechnung parallel für verschiedene Eingabedaten auf verschiedenen Geräten ausgeführt wird. Das Ziel von SPMD ist es, schneller Ergebnisse zu erzielen. Dies ist der gängigste Stil der parallelen Programmierung.

Größeninvarianz

#image

Bei einem Bildklassifizierungsproblem die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Größe des Bildes ändert. Beispielsweise kann der Algorithmus eine Katze trotzdem identifizieren, ob sie 2 Mio. oder 200.000 Pixel verbraucht. Beachten Sie, dass selbst die besten Algorithmen zur Bildklassifizierung immer noch praktische Grenzen in Bezug auf Größeninvarianz haben. Beispielsweise kann ein Algorithmus (oder ein Mensch) ein Katzenbild mit nur 20 Pixeln wahrscheinlich nicht richtig klassifizieren.

Weitere Informationen finden Sie unter Übersetzungsinvarianz und Rotationsinvarianz.

Skizzieren

#clustering

Eine Kategorie von Algorithmen, die beim unüberwachten maschinellen Lernen eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Skizzierungsalgorithmen verwenden eine ortsunabhängige Hash-Funktion, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Buckets zu gruppieren.

Durch das Skizzieren verringert sich der für Ähnlichkeitsberechnungen in großen Datasets erforderliche Rechenaufwand. Anstatt die Ähnlichkeit für jedes einzelne Beispielpaar im Dataset zu berechnen, berechnen wir die Ähnlichkeit nur für jedes Punktpaar in jedem Bucket.

Gramm überspringen

#language

Ein N-Gramm, das Wörter aus dem ursprünglichen Kontext auslassen (oder "überspringen") kann, was bedeutet, dass die N-Wörter möglicherweise ursprünglich nicht nebeneinander standen. Genauer gesagt ist „k-skip-n-gram“ ein N-Gramm, für das bis zu k Wörter übersprungen wurden.

Zum Beispiel hat „der schnelle braune Fuchs“ die folgenden möglichen 2 Gramme:

  • „The Quick“
  • "Quick Braun"
  • „Braun Fuchs“

„1-skip-2-gram“ ist ein Paar aus Wörtern, zwischen denen höchstens ein Wort steht. Daher enthält „der schnelle braune Fuchs“ die folgenden ein-überspringenden 2 Gramme:

  • "the braun"
  • "Quick Fox"

Darüber hinaus sind alle 2-Gramme auch 1-überspringen-2-Gramme, da weniger als ein Wort übersprungen werden kann.

Überspringungsgramme sind nützlich, um den Kontext eines Wortes besser zu verstehen. In diesem Beispiel wurde „fox“ direkt mit „quick“ in der Gruppe von 1-skip-2-grams, aber nicht in der Gruppe von 2-Grammen in Verbindung gebracht.

Skip-Gramme helfen beim Trainieren von Modellen für Worteinbettungen.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen bestimmt. Die Wahrscheinlichkeiten ergeben zusammen genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax verschiedene Wahrscheinlichkeiten verteilt:

Bild ist... Probability
Hund 0,85
Katze ,13
Pferd ,02

Softmax wird auch Full Softmax genannt.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

Feinabstimmung mit weichen Aufforderungen

#language
#generativeKI

Verfahren zur Abstimmung eines Large Language Models für eine bestimmte Aufgabe ohne ressourcenintensive Feinabstimmung. Anstatt alle Gewichtungen im Modell neu zu trainieren, wird durch die Feinabstimmung für weiche Aufforderungen eine Eingabeaufforderung automatisch so angepasst, dass dasselbe Ziel erreicht wird.

Bei einer Prompt-Texteingabe werden bei der Abstimmung für weiche Aufforderungen in der Regel zusätzliche Tokeneinbettungen an den Prompt angehängt und die Eingabe mithilfe der Rückpropagierung optimiert.

Ein „harter“ Prompt enthält echte Tokens anstelle von Tokeneinbettungen.

dünnbesetztes Feature

#language
#fundamentals

Ein feature, dessen Werte überwiegend null oder leer sind. Ein Feature mit einem einzelnen 1-Wert und einer Million 0-Werten ist beispielsweise dünnbesetzt. Im Gegensatz dazu hat ein dichtes Feature Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich bei einer überraschenden Anzahl von Features um dünnbesetzte Features. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Von den 300 möglichen Baumarten in einem Wald könnte beispielsweise nur ein Ahornbaum genannt werden. Oder unter den Millionen von Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ nennen.

In einem Modell stellen Sie dünnbesetzte Features normalerweise mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Einbettungsebene über die One-Hot-Codierung legen.

Dünnbesetzte Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, mit dem kategorialen Feature species werden die 36 Baumarten in einem bestimmten Wald identifiziert. Nehmen wir weiter an, dass in jedem Beispiel nur eine einzelne Spezies identifiziert wird.

Sie können einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde einen einzelnen 1 (zur Darstellung der jeweiligen Baumart in diesem Beispiel) und 35 0s (zur Darstellung der 35 Baumarten in diesem Beispiel nicht) enthalten. Die One-Hot-Darstellung von maple könnte also in etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, die Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 enthalten.

Alternativ würde bei einer dünnbesetzten Darstellung einfach die Position der jeweiligen Art ermittelt werden. Wenn sich maple auf Position 24 befindet, lautet die dünnbesetzte Darstellung von maple einfach:

24

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung.

Dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch Sparse Feature und Sparsity.

dünne Besetzung

Die Anzahl der Elemente, die in einem Vektor oder einer Matrix auf null (oder null) gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Stellen Sie sich beispielsweise eine Matrix mit 100 Elementen vor, in der 98 Zellen eine Null enthalten. Die Sparsamkeit wird so berechnet:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Die Merkmalsdichte bezieht sich auf die Dichte eines Featurevektors, die Modelldichte sich auf die Dichte der Modellgewichtungen.

Spatial Pooling

#image

Siehe Pooling.

split

#df

Ein anderer Name für eine Bedingung in einem Entscheidungsbaum.

Splitter

#df

Während des Trainings eines Entscheidungsbaums die Routine (und der Algorithmus), die für die Ermittlung der besten Bedingung an jedem Knoten verantwortlich ist.

SPMD

Abkürzung für einzelnes Programm / mehrere Daten.

Scharnierverlust im Quadrat

Das Quadrat des Scharnierverlusts. Der Verlust des quadratischen Scharniers bestraft Ausreißer stärker als ein normaler Scharnierverlust.

Verlust im Quadrat

#fundamentals

Synonym für L2-Verlust.

Gestaffeltes Training

#language

Taktik zum Trainieren eines Modells in einer Abfolge diskreter Phasen. Das Ziel kann entweder darin bestehen, den Trainingsprozess zu beschleunigen oder eine bessere Modellqualität zu erzielen.

Hier sehen Sie eine Abbildung des Progressive-Stacking-Ansatzes:

  • Phase 1 enthält 3 versteckte Layer, Phase 2 6 versteckte Layer und Phase 3 12 versteckte Layer.
  • In Phase 2 beginnt das Training mit den erlernten Gewichten in den drei verborgenen Ebenen von Phase 1. Phase 3 beginnt mit dem Training mit den erlernten Gewichten in den sechs verborgenen Ebenen von Phase 2.

Drei Phasen, die mit Phase 1, Phase 2 und Phase 3 beschriftet sind.
          Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält 3 Ebenen, Phase 2 6 und Phase 3 enthält 12 Ebenen.
          Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
          Die sechs Ebenen aus Phase 2 werden ebenfalls die ersten sechs Ebenen von Phase 3.

Weitere Informationen finden Sie unter Pipelining.

state

#rl

Beim Reinforcement Learning die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, die der Agent verwendet, um eine Aktion auszuwählen.

Zustandsaktionswert

#rl

Synonym für Q-Funktion.

Statisch

#fundamentals

Etwas, das einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden gängige Anwendungen von statisch und offline beim maschinellen Lernen aufgeführt:

  • Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert und dann für eine Weile verwendet wird.
  • Beim statischen Training (oder Offline-Training) handelt es sich um das Training eines statischen Modells.
  • Statische Inferenz (oder Offline-Inferenz) ist ein Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Stellen Sie einen Kontrast mit Dynamisch her.

statische Inferenz

#fundamentals

Synonym für offline-inferenz.

Stationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel zeitlich. Beispiel: Ein Element, dessen Werte 2021 und 2023 ungefähr gleich aussehen, hat eine stationäre Struktur.

In der Praxis weisen nur sehr wenige Merkmale eine stationäre Form auf. Sogar Features, die mit Stabilität (z. B. dem Meeresspiegel) gleichbedeutend sind, ändern sich im Laufe der Zeit.

Im Kontrast zu Instationarität stehen.

Schritt

Eine Vor- und Rückwärtsterminierung eines Batch.

Weitere Informationen zur Vorwärts- und Rückwärtsterminierung finden Sie unter Backpropagation.

Schrittgröße

Synonym für Lernrate.

Sttohastic Gradient Decent (SGD)

#fundamentals

Einen Gradientenabstiegsalgorithmus, bei dem die Batchgröße eine ist. Mit anderen Worten: SGD wird anhand eines einzelnen Beispiels trainiert, das einheitlich und zufällig aus einem Trainings-Dataset ausgewählt wird.

Stride

#image

Bei einem Faltungsvorgang oder einem Pooling das Delta in jeder Dimension der nächsten Reihe von Eingabesegmenten. Die folgende Animation zeigt beispielsweise einen (1,1) Schritt während eines Faltungsvorgangs. Daher beginnt das nächste Eingabesegment an einer Position rechts neben dem vorherigen Eingabesegment. Wenn der Vorgang den rechten Rand erreicht, befindet sich das nächste Segment ganz nach links, aber eine Position weiter unten.

Eine 5x5-Eingabematrix und ein 3x3-Faltungsfilter. Da die Schrittweite gleich (1,1) ist, wird ein Convolutional-Filter neunmal angewendet. Das erste Faltungssegment wertet die 3x3-Submatrix oben links der Eingabematrix aus. Das zweite Segment wertet die obere mittlere 3x3-Submatrix aus. Das dritte Faltungssegment wertet die 3x3-Submatrix oben rechts aus.  Das vierte Segment wertet die 3x3-Submatrix Mitte links aus.
     Das fünfte Segment wertet die mittlere 3x3-Submatrix aus. Das sechste Segment wertet die mittlere 3x3-Submatrix rechts aus. Das siebte Segment wertet die 3x3-Submatrix unten links aus.  Das achte Segment wertet die 3x3-Submatrix unten in der Mitte aus. Das neunte Segment wertet die 3x3-Submatrix unten rechts aus.

Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Wenn die Eingabematrix dreidimensional ist, wäre auch der Schritt dreidimensional.

Strukturelle Risikominimierung (SRM)

Ein Algorithmus, mit dem zwei Ziele in Einklang gebracht werden können:

  • Die Notwendigkeit, ein möglichst Vorhersagemodell zu erstellen (z. B. der geringste Verlust).
  • Die Notwendigkeit, das Modell so einfach wie möglich zu halten (z. B. starke Regularisierung).

Eine Funktion, die die Verlust- und Regularisierung für das Trainings-Dataset minimiert, ist beispielsweise ein Algorithmus zur Risikominimierung struktureller Risiken.

Im Gegensatz zu empirischen Risikominimierung.

Subsampling

#image

Siehe Pooling.

Unterworttoken

#language

In Sprachmodellen ein Token, das ein Teilstring eines Wortes ist, bei dem es sich um das gesamte Wort handeln kann.

Zum Beispiel könnte ein Wort wie „itemize“ in die Teile „item“ (ein Stammwort) und „ize“ (ein Suffix) aufgeteilt werden, die jeweils durch ein eigenes Token dargestellt werden. Das Aufteilen ungewöhnlicher Wörter in solche Teile, sogenannte Unterwörter, ermöglicht es Sprachmodellen, die häufigeren Bestandteile des Wortes wie Präfixe und Suffixe zu verarbeiten.

Umgekehrt werden gängige Wörter wie „Gehen“ möglicherweise nicht aufgeteilt und können durch ein einzelnes Token dargestellt werden.

Zusammenfassung

#TensorFlow

In TensorFlow ein Wert oder eine Gruppe von Werten, der in einem bestimmten Schritt berechnet wird und normalerweise zum Tracking von Modellmesswerten während des Trainings verwendet wird.

überwachtes maschinelles Lernen

#fundamentals

Trainieren eines model aus model und den entsprechenden model Beim überwachten maschinellen Lernen wird ähnlich wie beim Erlernen eines Fachs eine Reihe von Fragen und die entsprechenden Antworten untersucht. Nachdem er die Zuordnung zwischen Fragen und Antworten gemeistert hat, kann er Antworten auf neue (noch nie gesehene) Fragen zum selben Thema geben.

Vergleichen Sie sie mit unüberwachtem maschinellem Lernen.

synthetisches Feature

#fundamentals

Ein Feature, das nicht unter den Eingabefeatures vorhanden ist, aber aus einem oder mehreren dieser Elemente zusammengesetzt ist. Folgende Methoden können zum Erstellen synthetischer Merkmale verwendet werden:

  • Bucketing eines fortlaufenden Features in Bereichsklassen.
  • Feature-Cross erstellen
  • Multiplizieren (oder Teilen) eines Featurewerts mit anderen Featurewerten oder mit sich selbst. Wenn beispielsweise a und b Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Wenn beispielsweise c ein Eingabefeature ist, dann sind folgende Beispiele für synthetische Features:
    • sin(c)
    • ln(c)

Features, die nur durch Normalisierung oder Skalierung erstellt werden, gelten nicht als synthetische Merkmale.

T

T5

#language

Ein Lerntransfermodell von Text-zu-Text, das mit der KI von Google im Jahr 2020 eingeführt wurde. T5 ist ein Encoder-Decoder-Modell, das auf der Transformer-Architektur basiert und mit einem extrem großen Dataset trainiert wurde. Sie wird bei einer Vielzahl von Natural Language Processing-Aufgaben effektiv ausgeführt, z. B. beim Generieren von Text, Übersetzen von Sprachen und Beantworten von Fragen in dialogorientierten Fragen.

T5 ist nach den fünf Ts in „Text-to-Text Transfer Transformer“ benannt.

Logo: T5X

#language

Ein Open-Source-Framework für maschinelles Lernen, mit dem Sie groß angelegte NLP-Modelle (Natural Language Processing) erstellen und trainieren können. T5 ist auf der T5X-Codebasis implementiert, die auf JAX und Flax basiert.

Tabellarisches Q-Learning

#rl

Beim Reinforcement Learning wird Q-Learning implementiert. Dazu wird eine Tabelle verwendet, um die Q-Funktionen für jede Kombination aus state und Aktion zu speichern.

Ziel

Synonym für label.

Zielnetzwerk

#rl

In Deep Q-Learning ein neuronales Netzwerk, das eine stabile Annäherung an das neuronale Hauptnetzwerk ist, in dem das neuronale Hauptnetzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den Q-Werten trainieren, die vom Zielnetzwerk vorhergesagt wurden. Daher verhindern Sie die Rückkopplung, die auftritt, wenn das Hauptnetzwerk auf von selbst vorhergesagten Q-Werten trainiert. Wenn Sie dieses Feedback vermeiden, erhöht sich die Trainingsstabilität.

Task (in computational context, see definition)

Ein Problem, das sich mit Techniken des maschinellen Lernens lösen lässt, wie zum Beispiel:

Temperatur

#language
#image
#generativeKI

Ein Hyperparameter, der den Grad der Zufälligkeit der Modellausgabe steuert. Höhere Temperaturen führen zu einer größeren Zufallsausgabe, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.

Die Auswahl der besten Temperatur hängt von der spezifischen Anwendung und den bevorzugten Attributen der Modellausgabe ab. Zum Beispiel würden Sie wahrscheinlich die Temperatur erhöhen, wenn Sie eine Anwendung erstellen, die eine kreative Ausgabe generiert. Umgekehrt würden Sie wahrscheinlich die Temperatur senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um die Genauigkeit und Konsistenz des Modells zu verbessern.

Die Temperatur wird oft mit Softmax verwendet.

Zeitliche Daten

Zu verschiedenen Zeitpunkten aufgezeichnete Daten. Beispielsweise wären die für jeden Tag des Jahres erfassten Wintermäntelverkäufe zeitliche Daten.

Tensor

#TensorFlow

Die primäre Datenstruktur in TensorFlow-Programmen. Tensoren sind n-dimensionale Datenstrukturen (wobei N sehr groß sein könnte), meist Skalare, Vektoren oder Matrizen. Die Elemente eines Tensors können Ganzzahl-, Gleitkomma- oder Stringwerte enthalten.

TensorBoard

#TensorFlow

Das Dashboard, das die Zusammenfassungen anzeigt, die während der Ausführung eines oder mehrerer TensorFlow-Programme gespeichert wurden.

TensorFlow

#TensorFlow

Eine groß angelegte, verteilte Plattform für maschinelles Lernen. Der Begriff bezieht sich auch auf die Basis-API-Ebene im TensorFlow-Stack, die eine allgemeine Berechnung von Dataflow-Grafiken unterstützt.

Obwohl TensorFlow in erster Linie für maschinelles Lernen verwendet wird, können Sie TensorFlow auch für Nicht-ML-Aufgaben verwenden, die numerische Berechnungen mithilfe von Dataflow-Diagrammen erfordern.

TensorFlow Playground

#TensorFlow

Programm, das visualisiert, wie verschiedene Hyperparameter das Modelltraining (hauptsächlich ein neuronales Netzwerk) beeinflussen. Rufen Sie http://playground.tensorflow.org auf, um mit TensorFlow Playground zu experimentieren.

TensorFlow bereitstellen

#TensorFlow

Plattform zum Bereitstellen trainierter Modelle in der Produktion

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der die Leistung von ML-Arbeitslasten optimiert. Diese ASICs werden als mehrere TPU-Chips auf einem TPU-Gerät bereitgestellt.

Tensor-Rang

#TensorFlow

Siehe Rang (Tensor).

Tensor-Form

#TensorFlow

Die Anzahl der Elemente, die ein Tensor in verschiedenen Dimensionen enthält. Ein [5, 10]-Tensor hat beispielsweise eine Form von 5 in einer Dimension und 10 in einer anderen.

Tensorgröße

#TensorFlow

Die Gesamtzahl der Skalare, die Tensor enthält. Der Tensor [5, 10] hat beispielsweise eine Größe von 50.

TensorStore

Eine Bibliothek zum effizienten Lesen und Schreiben großer mehrdimensionaler Arrays.

Kündigungsbedingung

#rl

Beim bestärkenden Lernen die Bedingungen, die bestimmen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine bestimmte Anzahl von Statusübergängen überschreitet. In Tic-Tac-Toe (auch als „Noughts and Crosses“ bezeichnet) endet eine Folge beispielsweise, wenn ein Spieler drei aufeinanderfolgende Leerzeichen markiert oder alle Leerzeichen markiert.

Test

#df

Ein anderer Name für eine Bedingung in einem Entscheidungsbaum.

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells gegenüber dem Test-Dataset darstellt. Beim Erstellen eines model versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Signal der Qualität ist als ein geringer Trainingsverlust oder ein geringer Validierungsverlust.

Eine große Lücke zwischen Test- und Trainings- oder Validierungsverlust deutet manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Test-Dataset

Eine Teilmenge des Datasets, das zum Testen eines trainierten Modells reserviert ist.

Traditionell unterteilen Sie Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen:

Jedes Beispiel in einem Dataset sollte nur zu einer der vorhergehenden Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Test-Dataset gehören.

Das Trainings- und das Validierungs-Dataset sind eng mit dem Training eines Modells verbunden. Da das Test-Dataset nur indirekt mit dem Training verknüpft ist, ist der Testverlust ein weniger verzerrter Messwert mit höherer Qualität als der Trainingsverlust oder der Validierungsverlust.

Textspanne

#language

Die Array-Indexspanne, die einem bestimmten Unterabschnitt einer Textzeichenfolge zugeordnet ist. Beispielsweise belegt das Wort good im Python-String s="Be good now" den Textbereich von 3 bis 6.

tf.Example

#TensorFlow

Ein standardmäßiger Protokollzwischenspeicher zum Beschreiben von Eingabedaten für das Training oder die Inferenz von ML-Modellen.

tf.keras

#TensorFlow

Eine in TensorFlow integrierte Implementierung von Keras.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung der Wert, mit dem ein Feature verglichen wird. Beispiel: 75 ist der Schwellenwert in der folgenden Bedingung:

grade >= 75

Zeitreihenanalyse

#clustering

Unterbereich des maschinellen Lernens und der Statistik, das zeitliche Daten analysiert. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mit der Zeitachsenanalyse können Sie beispielsweise den zukünftigen Verkauf von Wintermänteln nach Monat auf der Grundlage historischer Verkaufsdaten prognostizieren.

Timestep

#seq

Eine "nicht gerollte" Zelle in einem wiederkehrenden neuronalen Netzwerk. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte (beschriftet mit den Subskripten t-1, t und t+1):

Drei Zeitschritte in einem Recurrent neuronalen Netzwerk. Die Ausgabe des ersten Zeitschritts wird als Eingabe für den zweiten Zeitschritt verwendet. Die Ausgabe des zweiten Zeitschritts wird zur Eingabe für den dritten Zeitschritt.

Token

#language

In einem Sprachmodell die atomare Einheit, mit der das Modell trainiert wird und für die Vorhersagen getroffen werden. Ein Token ist in der Regel eines der folgenden:

  • ein Wort – zum Beispiel der Satz „Hunde wie Katzen“ besteht aus drei Wort-Tokens: „Hunde“, „Gefällt mir“ und „Katzen“.
  • Ein Zeichen, zum Beispiel der Ausdruck "Fahrradfisch" aus neun Zeichen-Tokens. Das Leerzeichen zählt als eines der Tokens.
  • Unterwörter, bei denen ein einzelnes Wort ein einzelnes Token oder mehrere Tokens sein kann. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Ein Sprachmodell, das Teilwörter als Tokens verwendet, könnte beispielsweise das Wort "Hunde" als zwei Token ansehen (das Stammwort "Hund" und das Pluralsuffix "s"). Im selben Sprachmodell könnte das einzelne Wort „taller“ als zwei Unterwörter betrachtet werden: das Stammwort „tall“ und das Suffix „er“.

In Domains außerhalb von Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge eines Bildes sein.

Tower

Eine Komponente eines neuronalen Deep-Learning-Netzwerks, das selbst ein neuronales Deep-Learning-Netzwerk ist. In einigen Fällen liest jeder Turm aus einer unabhängigen Datenquelle. Diese bleiben unabhängig, bis ihre Ausgabe in einer letzten Schicht kombiniert wird. In anderen Fällen, z. B. im Encoder- und Decoder-Stack/Turm vieler Transformer, haben die Türme Querverbindungen zueinander.

TPU

#TensorFlow
#GoogleCloud

Abkürzung für Tensor Processing Unit.

TPU-Chip

#TensorFlow
#GoogleCloud

Ein programmierbarer linearer Algebrabeschleuniger mit On-Chip-Speicher mit hoher Bandbreite, der für Arbeitslasten des maschinellen Lernens optimiert ist. Auf einem TPU-Gerät werden mehrere TPU-Chips bereitgestellt.

TPU-Gerät

#TensorFlow
#GoogleCloud

Eine Leiterplatte (PCB) mit mehreren TPU-Chips, Netzwerkschnittstellen mit hoher Bandbreite und Hardware für die Systemkühlung.

TPU-Master

#TensorFlow
#GoogleCloud

Zentraler Koordinationsprozess, der auf einem Hostcomputer ausgeführt wird und Daten, Ergebnisse, Programme, Leistungsinformationen und Informationen zum Systemzustand an die TPU-Worker sendet und empfängt. Der TPU-Master verwaltet auch das Einrichten und Herunterfahren von TPU-Geräten.

TPU-Knoten

#TensorFlow
#GoogleCloud

Eine TPU-Ressource in Google Cloud mit einem bestimmten TPU-Typ. Der TPU-Knoten stellt über ein Peer-VPC-Netzwerk eine Verbindung zu Ihrem VPC-Netzwerk her. TPU-Knoten sind in der Cloud TPU API definierte Ressource.

TPU-Pod

#TensorFlow
#GoogleCloud

Eine spezifische Konfiguration von TPU-Geräten in einem Google-Rechenzentrum. Alle Geräte in einem TPU-Pod sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden. Ein TPU Pod ist die größte Konfiguration von TPU-Geräten, die für eine bestimmte TPU-Version verfügbar sind.

TPU-Ressource

#TensorFlow
#GoogleCloud

Eine TPU-Entität in Google Cloud, die Sie erstellen, verwalten oder nutzen. TPU-Knoten und TPU-Typen sind beispielsweise TPU-Ressourcen.

TPU-Slice

#TensorFlow
#GoogleCloud

Ein TPU-Slice ist ein Bruchteil der TPU-Geräte in einem TPU-Pod. Alle Geräte in einem TPU-Slice sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden.

TPU-Typ

#TensorFlow
#GoogleCloud

Eine Konfiguration eines oder mehrerer TPU-Geräte mit einer bestimmten TPU-Hardwareversion. Sie wählen einen TPU-Typ aus, wenn Sie einen TPU-Knoten in Google Cloud erstellen. Ein v2-8-TPU-Typ ist beispielsweise ein einzelnes TPU v2-Gerät mit 8 Kernen. Ein v3-2048-TPU-Typ hat 256 vernetzte TPU v3-Geräte und insgesamt 2.048 Kerne. TPU-Typen sind in der Cloud TPU API definierte Ressourcen.

TPU-Worker

#TensorFlow
#GoogleCloud

Prozess, der auf einem Hostcomputer und ML-Programme auf TPU-Geräten ausgeführt wird.

Training

#fundamentals

Prozess zum Bestimmen der idealen Parameter (Gewichtung und Verzerrung) mithilfe eines Modells. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Beim Training wird jedes Beispiel ein paar bis Milliarden Mal verwendet.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während eines bestimmten Trainingsdurchlaufs darstellt. Angenommen, die Verlustfunktion lautet Mean Squared Error. Vielleicht beträgt der Trainingsverlust (der mittlere quadratische Fehler) für den 10.Durchlauf 2,2 und der Trainingsverlust für den 100.Durchlauf 1,9.

In einer Verlustkurve werden die Trainingsverluste im Vergleich zur Anzahl der Iterationen dargestellt. Eine Verlustkurve bietet die folgenden Hinweise zum Training:

  • Ein Abfall deutet darauf hin, dass sich das Modell verbessert.
  • Ein Anstieg nach oben deutet darauf hin, dass sich das Modell verschlechtert.
  • Eine flache Steigung deutet darauf hin, dass das Modell eine Konvergenz erreicht hat.

Die folgende, eher idealisierte Verlustkurve zeigt beispielsweise Folgendes:

  • Ein steiler Abfall während der ersten Iterationen, was eine schnelle Modellverbesserung impliziert.
  • Ein allmählich abflachender Anstieg (aber immer noch nach unten) bis zum Ende des Trainings, was eine kontinuierliche Verbesserung des Modells mit einem etwas langsameren Tempo als während der ersten Iterationen impliziert.
  • Ein flaches Gefälle gegen Ende des Trainings, was auf Konvergenz hindeutet.

Diagramm des Trainingsverlusts im Vergleich zu den Iterationen Diese Verlustkurve beginnt mit einem steilen Abfall. Die Steigung verringert sich allmählich, bis sie auf null ansteigt.

Auch wenn der Trainingsverlust wichtig ist, sollten Sie auch die Generalisierung lesen.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung dieses Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

Im Idealfall sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Flugbahn

#rl

Beim Reinforcement Learning eine Folge von Tupeln, die eine Folge von Zustandsübergängen des Agents darstellen, wobei jedes Tupel dem Status, der Aktion, Prämie und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.

Lerntransfer

Die Übertragung von Informationen von einer ML-Aufgabe an eine andere Beim Multitask-Lernen löst ein einzelnes Modell beispielsweise mehrere Aufgaben, wie ein tiefes Modell, das unterschiedliche Ausgabeknoten für verschiedene Aufgaben hat. Lerntransfers können die Übertragung von Wissen von der Lösung einer einfacheren Aufgabe auf eine komplexere Aufgabe oder die Übertragung von Wissen von einer Aufgabe mit mehr Daten zu einer Aufgabe mit weniger Daten beinhalten.

Die meisten Systeme des maschinellen Lernens lösen eine einzelne Aufgabe. Lerntransfers sind ein kleiner Schritt in Richtung künstlicher Intelligenz, bei der ein einzelnes Programm mehrere Aufgaben lösen kann.

Transformer

#language

Eine bei Google entwickelte Architektur für ein neuronales Netzwerk, die auf Selbstaufmerksamkeitsmechanismen stützt, um eine Sequenz von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen umzuwandeln, ohne auf Faltungen oder recurrent neuronale Netzwerke angewiesen zu sein. Ein Transformer kann als Stapel von Selbstaufmerkungsschichten betrachtet werden.

Ein Transformator kann Folgendes enthalten:

Ein Encoder wandelt eine Sequenz von Einbettungen in eine neue Sequenz derselben Länge um. Ein Encoder besteht aus N identischen Schichten, die jeweils zwei Unterebenen enthalten. Diese beiden Unterebenen werden an jeder Position der Sequenz der Eingabeeinbettungen angewendet und wandeln jedes Element der Sequenz in eine neue Einbettung um. Die erste Encoder-Unterebene aggregiert Informationen aus der gesamten Eingabesequenz. Die zweite Encoder-Unterschicht wandelt die aggregierten Informationen in eine Ausgabeeinbettung um.

Ein Decoder wandelt eine Sequenz von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen um, die möglicherweise eine andere Länge haben. Ein Decoder umfasst auch n identische Schichten mit drei Unterebenen, von denen zwei den Codierer-Unterebenen ähneln. Die dritte Decoder-Unterschicht verwendet die Ausgabe des Encoders und wendet den Selbstaufmerksamkeitsmechanismus an, um Informationen daraus zu erfassen.

Der Blogpost Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformers.

Translationalinvarianz

#image

Bei einem Bildklassifizierungsproblem die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Position von Objekten innerhalb des Bildes ändert. Der Algorithmus kann beispielsweise immer noch einen Hund identifizieren, unabhängig davon, ob er sich in der Mitte oder am linken Ende des Frames befindet.

Siehe auch Größeninvarianz und Rotationsinvarianz.

Trigramm

#seq
#language

Ein N-Gramm mit N=3.

Richtig negatives Ergebnis (TN)

#fundamentals

Ein Beispiel, bei dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E-Mail-Nachricht kein Spam und diese E-Mail-Nachricht wirklich kein Spam ist.

Richtig positives Ergebnis (TP)

#fundamentals

Ein Beispiel, bei dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass es sich bei einer bestimmten E-Mail-Nachricht tatsächlich um Spam handelt.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unbewusstsein (an ein sensibles Attribut)

#fairness

Eine Situation, in der sensible Attribute vorhanden sind, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute häufig mit anderen Attributen der eigenen Daten korrelieren, kann ein Modell, das trainiert wurde, ohne es einem sensiblen Attribut nicht bewusst zu sein, trotzdem ungleichmäßige Auswirkungen in Bezug auf dieses Attribut haben oder gegen andere Fairness-Einschränkungen verstoßen.

Unteranpassung

#fundamentals

Erstellen eines model mit schlechter Vorhersagefähigkeit, da das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Unterstichproben

Beispiele aus der Hauptklasse in einem von einer Klasse unausgeglichenen Dataset entfernen, um ein ausgewogeneres Trainings-Dataset zu erstellen

Nehmen wir als Beispiel ein Dataset, in dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 20:1 beträgt. Um dieses Klassenungleichgewicht zu überwinden, können Sie ein Trainings-Dataset erstellen, das aus allen Klassenbeispielen für Minderheiten und nur einem Zehntel der Mehrheitsklassenbeispiele besteht. Auf diese Weise würde ein Klassenverhältnis von 2:1 für das Trainings-Dataset erzeugt werden. Aufgrund der Unterstichprobe kann dieses ausgewogenere Trainings-Dataset ein besseres Modell erzeugen. Alternativ kann dieses ausgewogenere Trainings-Dataset nicht genügend Beispiele zum Trainieren eines effektiven Modells enthalten.

einen Kontrast mit Übersampling bilden.

einseitig

#language

Ein System, das nur den Text bewertet, der einem Zieltext vorher ist. Im Gegensatz dazu wertet ein bidirektionales System sowohl den Text aus, der vorangestellt als auch einem Zieltextabschnitt folgt. Weitere Informationen finden Sie unter Bidirektional.

Unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf den Tokens stützt, die vor und nicht nach den Zieltokens erscheinen. Sie stellt einen Kontrast mit dem bidirektionalen Sprachmodell her.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle zeigt beispielsweise drei Beispiele ohne Labels für ein Hausbewertungsmodell mit jeweils drei Merkmalen, aber ohne Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen zu Beispielen ohne Label getroffen.

Beim halbüberwachten und unüberwachten Lernen werden während des Trainings Beispiele ohne Labels verwendet.

Vergleichen Sie Beispiel ohne Label mit Beispiel mit Label.

unbeaufsichtigtes maschinelles Lernen

#clustering
#fundamentals

Trainieren eines model zum Auffinden von Mustern in einem Dataset, in der Regel in einem Dataset ohne Label.

Am häufigsten wird beim unüberwachten maschinellen Lernen das Clustering von Daten in Gruppen ähnlicher Beispiele verwendet. Beispielsweise kann ein unbeaufsichtigter Algorithmus für maschinelles Lernen Titel basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen dienen, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Beschriftungen knapp oder gar nicht vorhanden sind. In Bereichen wie Missbrauchsbekämpfung und Betrug können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Im Gegensatz zu überwachtem maschinellem Lernen.

Steigerung

Modellierungstechnik, die häufig im Marketing verwendet wird und die „kausale Wirkung“ (auch als „inkrementelle Auswirkung“ bezeichnet) einer „Behandlung“ auf eine „Person“ modelliert. Hier sind zwei Beispiele:

  • Ärzte können die Steigerungsmodellierung verwenden, um die Abnahme der Sterblichkeit (kausale Wirkung) eines medizinischen Eingriffs (Behandlung) abhängig vom Alter und der Krankengeschichte eines Patienten (Person) vorherzusagen.
  • Mithilfe der Steigerungsmodellierung können Werbetreibende die Steigerung der Wahrscheinlichkeit eines Kaufs (kausaler Effekt) aufgrund einer Anzeige (Behandlung) für eine Person (Person) prognostizieren.

Die Steigerungsmodellierung unterscheidet sich von der Klassifizierung oder der Regression dadurch, dass einige Labels (z. B. die Hälfte der Labels bei binären Verarbeitungen) bei der Steigerungsmodellierung immer fehlen. Ein Patient kann beispielsweise nur in einer dieser beiden Situationen (aber niemals in beiden) behandelt werden oder nicht. Daher können wir nur beobachten, ob der Patient in einer dieser beiden Situationen heilt oder nicht. Der Hauptvorteil eines Steigerungsmodells besteht darin, dass es Vorhersagen für die unbeobachtete Situation (das kontrafaktische Modell) generieren und damit den kausalen Effekt berechnen kann.

Gewichtung

Anwenden einer Gewichtung auf die downsampled-Klasse, die dem Faktor entspricht, um den Sie die Stichprobe reduziert haben

Nutzermatrix

#recsystems

In Empfehlungssystemen ein Einbettungsvektor, der durch Matrixfaktorisierung generiert wird und latente Signale zu Nutzerpräferenzen enthält. Jede Zeile der Nutzermatrix enthält Informationen über die relative Stärke verschiedener latenter Signale für einen einzelnen Nutzer. Sehen wir uns als Beispiel ein Filmempfehlungssystem an. In diesem System können die latenten Signale in der Nutzermatrix das Interesse der einzelnen Nutzer an bestimmten Genres darstellen oder schwerer zu interpretierende Signale sein, die komplexe Interaktionen über mehrere Faktoren hinweg beinhalten.

Die Nutzermatrix enthält eine Spalte für jedes latente Merkmal und eine Zeile für jeden Nutzer. Das heißt, die Nutzermatrix hat die gleiche Anzahl von Zeilen wie die Zielmatrix, die faktorisiert wird. Bei einem Filmempfehlungssystem für 1.000.000 Nutzer hat die Nutzermatrix beispielsweise 1.000.000 Zeilen.

V

validation

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungs-Dataset verglichen.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, schützt die Validierung vor Überanpassung.

Sie können das Modell im Vergleich zum Validierungs-Dataset als erste Testrunde und das Modell mit dem Test-Dataset als zweite Testrunde bewerten.

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Validierungssatz während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, die eine erste Bewertung anhand eines trainierten Modells durchführt. In der Regel werten Sie das trainierte Modell mehrmals anhand des Validierungs-Datasets aus, bevor Sie das Modell anhand des Test-Datasets bewerten.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen:

Im Idealfall sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Wertzuordnung

Der Prozess, bei dem ein fehlender Wert durch einen akzeptablen Ersatz ersetzt wird. Wenn ein Wert fehlt, können Sie entweder das gesamte Beispiel verwerfen oder das Beispiel mithilfe der Wertimputation ersetzen.

Nehmen wir als Beispiel ein Dataset mit dem Feature temperature, das stündlich aufgezeichnet werden soll. Die Temperaturmessung war jedoch eine bestimmte Stunde lang nicht verfügbar. Hier ist ein Abschnitt des Datasets:

Zeitstempel Temperatur
1680561000 10
1680564600 12
1680568200 Fehlend
1680571800 20
1680575400 21
1680579000 21

Ein System könnte je nach Imputationsalgorithmus entweder das fehlende Beispiel löschen oder die fehlende Temperatur als 12, 16, 18 oder 20 eintragen.

Problem des verschwindenden Farbverlaufs

#seq

Die Tendenz, dass die Verläufe von frühen verborgenen Schichten einiger neuronaler Deep-Learning-Netzwerke überraschend flach (niedrig) werden. Immer geringere Gradienten führen zu immer kleineren Änderungen der Gewichtung der Knoten in einem neuronalen Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die unter dem verschwindenden Gradientenproblem leiden, lassen sich nur schwer oder gar nicht trainieren. Long Short-Term Memory-Zellen beheben dieses Problem.

Vergleiche das Problem mit dem explodierenden Farbverlauf.

variable Wichtigkeiten

#df

Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Features für das Modell angeben.

Stellen Sie sich beispielsweise einen Entscheidungsbaum vor, in dem die Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Merkmale: Größe, Alter und Stil. Wenn eine Reihe von Variablenwichtigkeiten für die drei Elemente mit {size=5.8, age=2.5, style=4.7} berechnet wird, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte mit variabler Wichtigkeit, die ML-Experten über verschiedene Aspekte von Modellen informieren können.

Variations-Autoencoder (VAE)

#language

Eine Art von Autoencoder, der die Differenz zwischen Eingaben und Ausgaben nutzt, um modifizierte Versionen der Eingaben zu generieren. Variations-Autoencoder sind nützlich für generative KI.

VAEs basieren auf Variationsinferenz: einer Technik zur Schätzung der Parameter eines Wahrscheinlichkeitsmodells.

Vektor

Sehr überladener Begriff, dessen Bedeutung in verschiedenen mathematischen und wissenschaftlichen Bereichen variiert. Beim maschinellen Lernen hat ein Vektor zwei Eigenschaften:

  • Datentyp: Vektoren im maschinellen Lernen enthalten normalerweise Gleitkommazahlen.
  • Anzahl der Elemente: Dies ist die Länge oder Dimension des Vektors.

Betrachten Sie beispielsweise einen Featurevektor, der acht Gleitkommazahlen enthält. Dieser Featurevektor hat eine Länge oder Dimension von acht. Beachten Sie, dass Vektoren für maschinelles Lernen oft eine große Anzahl von Dimensionen haben.

Sie können viele verschiedene Arten von Informationen als Vektor darstellen. Beispiel:

  • Jede Position auf der Erdoberfläche kann als zweidimensionaler Vektor dargestellt werden, wobei eine Dimension der Breitengrad und die andere der Längengrad ist.
  • Die aktuellen Kurse der 500 Aktien können als 500-dimensionaler Vektor dargestellt werden.
  • Eine Wahrscheinlichkeitsverteilung über eine endliche Anzahl von Klassen kann als Vektor dargestellt werden. Beispielsweise könnte ein Klassifizierungssystem mit mehreren Klassen, das eine von drei Ausgabefarben (Rot, Grün oder Gelb) vorhersagt, den Vektor (0.3, 0.2, 0.5) als Mittelwert von P[red]=0.3, P[green]=0.2, P[yellow]=0.5 ausgeben.

Vektoren können verkettet werden, sodass eine Vielzahl verschiedener Medien als ein einzelner Vektor dargestellt werden können. Einige Modelle arbeiten direkt auf der Verkettung vieler One-Hot-Codierungen.

Spezialisierte Prozessoren wie TPUs sind dafür optimiert, mathematische Operationen an Vektoren auszuführen.

Ein Vektor ist ein Tensor mit Rang 1.

W

Verlust durch Wasserstein

Eine der Verlustfunktionen, die häufig in generativen kontradiktorischen Netzwerken verwendet wird, basierend auf der Entfernung des Earth Movers zwischen der Verteilung der generierten Daten und realen Daten.

Gewicht

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Beim Training werden die Idealgewichte eines Modells bestimmt. Bei der Inferenz werden die erlernten Gewichtungen für Vorhersagen verwendet.

Gewichtete abwechselnde kleinste Quadrate (WALS)

#recsystems

Ein Algorithmus zum Minimieren der Zielfunktion während der Matrixfaktorisierung in Empfehlungssystemen, der eine Herabstufung der fehlenden Beispiele ermöglicht. WALS minimiert den gewichteten quadratischen Fehler zwischen der ursprünglichen Matrix und der Rekonstruktion, indem zwischen der Korrektur der Zeilenfaktorisierung und der Spaltenfaktorisierung abwechselnd gewechselt wird. Jede dieser Optimierungen kann mit der konvexen Optimierung der kleinsten Quadrate gelöst werden. Weitere Informationen finden Sie im Recommendation Systems-Kurs.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichtungen. Angenommen, die relevanten Eingaben setzen sich so zusammen:

Eingabewert Eingabegewichtung
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

breites Modell

Ein lineares Modell, das in der Regel viele dünnbesetzte Eingabefeatures hat. Wir bezeichnen es als „breit“, da ein solches Modell eine spezielle Art von neuronalem Netzwerk mit einer großen Anzahl von Eingaben ist, die direkt mit dem Ausgabeknoten verbunden sind. Breite Modelle sind oft einfacher zu debuggen und zu prüfen als tiefe Modelle. Obwohl breite Modelle Nichtlinearitäten nicht durch verborgene Ebenen ausdrücken können, können breite Modelle Transformationen wie Feature Crossing und Bucketization verwenden, um Nichtlinearitäten auf unterschiedliche Weise zu modellieren.

Im Kontrast zum tiefen Modell stehen.

width

Die Anzahl der Neuronen in einer bestimmten Schicht eines neuronalen Netzwerks.

Weisheit der Masse

#df

Die Idee, dass die Mittelung der Meinungen oder Schätzungen einer großen Personengruppe („die Masse“) häufig zu überraschend guten Ergebnissen führt. Stellen Sie sich zum Beispiel ein Spiel vor, bei dem die Leute die Anzahl der Jelly Beans erraten, die in einem großen Glas verpackt sind. Obwohl die meisten Vermutungen ungenau sind, liegt der Durchschnitt aller Vermutungen empirisch überraschend nahe an der tatsächlichen Anzahl von Jelly Beans im Becher.

Ensembles ist ein Software-Analog zur Weisheit der Massen. Selbst wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, liefert die Durchschnittsermittlung vieler Modelle häufig erstaunlich gute Vorhersagen. Beispiel: Obwohl ein einzelner Entscheidungsbaum möglicherweise schlechte Vorhersagen trifft, trifft ein Entscheidungswald häufig sehr gute Vorhersagen.

Worteinbettung

#language

Darstellung jedes Worts in einer Wortmenge in einem Einbettungsvektor, d.h.jedes Wort als Vektor von Gleitkommawerten zwischen 0,0 und 1,0. Wörter mit ähnlicher Bedeutung haben eine ähnlichere Darstellung als Wörter mit unterschiedlichen Bedeutungen. Zum Beispiel würden Karotten, Seller und Gurken alle relativ ähnliche Darstellungen haben, die sich stark von der Darstellung von Flugzeug, Sonnenbrille und Zahnpasta unterscheiden würden.

X

XLA (beschleunigte lineare Algebra)

Ein Open-Source-Compiler für maschinelles Lernen für GPUs, CPUs und ML-Beschleuniger.

Der XLA-Compiler optimiert Modelle von gängigen ML-Frameworks wie PyTorch, TensorFlow und JAX für eine leistungsstarke Ausführung auf verschiedenen Hardwareplattformen wie GPUs, CPUs und ML-Beschleunigern.

Z

Zero-Shot-Lernen

Typ des Trainings für maschinelles Lernen, bei dem das Modell eine Vorhersage für eine Aufgabe ableitet, für die es noch nicht speziell trainiert wurde. Das Modell erhält also keine aufgabenspezifischen Trainingsbeispiele, wird aber aufgefordert, für diese Aufgabe Inferenz auszuführen.

Zero-Shot-Prompting

#language
#generativeKI

Eine Eingabeaufforderung, die kein Beispiel dafür enthält, wie das Large Language Model reagieren soll. Beispiel:

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Indien: Die eigentliche Abfrage.

Das Large Language Model könnte so antworten:

  • Rupie
  • INR
  • Indische Rupie
  • Die Rupie
  • Indische Rupie

Alle Antworten sind richtig, auch wenn Sie möglicherweise ein bestimmtes Format bevorzugen.

Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen:

Normalisierung des Z-Werts

#fundamentals

Skalierungstechnik, die einen Merkmalswert-Rohwert durch einen Gleitkommawert ersetzt, der die Anzahl der Standardabweichungen vom Mittelwert dieses Elements darstellt. Nehmen wir als Beispiel ein Feature mit einem Mittelwert von 800 und einer Standardabweichung von 100. Die folgende Tabelle zeigt, wie die Normalisierung des Z-Werts den Rohwert seinem Z-Wert zuordnen würde:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte für dieses Merkmal und nicht anhand der Rohwerte trainiert.