Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning

Ce glossaire définit les termes généraux du machine learning, ainsi que des termes spécifiques à TensorFlow.

A

ablation

Technique permettant d'évaluer l'importance d'une caractéristique ou d'un composant en les supprimant temporairement d'un modèle. Vous réentraînez ensuite le modèle sans cette caractéristique ou ce composant. Si le modèle réentraîné est beaucoup moins performant, la caractéristique ou le composant supprimé était probablement important.

Par exemple, supposons que vous entraîniez un modèle de classification sur 10 caractéristiques et que vous atteigniez une précision de 88% sur l'ensemble de test. Pour vérifier l'importance de la première caractéristique, vous pouvez réentraîner le modèle en n'utilisant que les neuf autres caractéristiques. Si le modèle réentraîné fonctionne nettement moins bien (par exemple, avec une précision de 55 %), la caractéristique supprimée était probablement importante. À l'inverse, si le modèle réentraîné fonctionne de la même manière, cette caractéristique n'était probablement pas très importante.

L'ablation peut également aider à déterminer l'importance de:

Composants plus volumineux, comme le sous-système complet d'un système de ML plus vaste
Des processus ou techniques, tels qu'une étape de prétraitement des données

Dans les deux cas, vous pouvez observer comment les performances du système changent (ou ne changent pas) après la suppression du composant.

Tests A/B

Une façon statistique de comparer deux (ou plus) techniques : le A et le B. En règle générale, le A est une technique existante, tandis que le B est une nouvelle technique. Les tests A/B déterminent non seulement quelle technique est la plus performante, mais aussi si la différence est statistiquement pertinente.

Les tests A/B comparent généralement une seule métrique sur deux techniques. Par exemple, quelle est la différence entre la précision du modèle pour deux techniques ? Cependant, les tests A/B peuvent également comparer n'importe quel nombre fini de métriques.

puce d'accélération

#GoogleCloud

Catégorie de composants matériels spécialisés conçus pour effectuer les calculs clés nécessaires aux algorithmes de deep learning.

Les puces d'accélération (ou accélérateurs, en abrégé) peuvent considérablement augmenter la vitesse et l'efficacité des tâches d'entraînement et d'inférence par rapport à un processeur à usage général. Elles sont idéales pour l'entraînement de réseaux de neurones et d'autres tâches similaires utilisant beaucoup de ressources de calcul.

Voici quelques exemples de puces d'accélération:

Les Tensor Processing Units (TPU) de Google avec du matériel dédié au deep learning
Bien que conçus à l'origine pour le traitement graphique, ces GPU sont conçus pour permettre un traitement parallèle, ce qui peut augmenter considérablement la vitesse de traitement.

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle ayant effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une justesse de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour les différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de justesse pour la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

"VP" correspond au nombre de vrais positifs (prédictions correctes).
VN correspond au nombre de vrais négatifs (prédictions correctes).
"FP" correspond au nombre de faux positifs (prédictions incorrectes).
"FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre la précision et le rappel

Cliquez sur l'icône pour afficher des notes supplémentaires.

Bien qu'il s'agisse d'une métrique utile dans certaines situations, la justesse est très trompeuse pour d'autres. Il est à noter que la justesse n'est généralement pas idéale pour évaluer les modèles de classification qui traitent des ensembles de données avec déséquilibre des classes.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle dans une certaine ville subtropicale. Étant donné que les jours sans neige (classe négative) dépassent largement le nombre de jours avec de la neige (classe positive), l'ensemble de données de neige pour cette ville est déséquilibré. Imaginez un modèle de classification binaire censé prédire l'absence de neige ou de neige chaque jour, mais simplement l'absence de neige tous les jours. Ce modèle est très précis, mais n'offre aucun potentiel de prédiction. Le tableau suivant récapitule les résultats obtenus pour un siècle de prédictions:

Catégorie	Nombre
VP	0
VN	36500
FP	25
FN	0

La justesse de ce modèle est donc:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Même si la justesse de 99,93% semble être un pourcentage impressionnant, le modèle n'a en réalité aucune capacité prédictive.

La précision et la rappel sont généralement plus utiles que la précision pour évaluer des modèles entraînés sur des ensembles de données avec déséquilibre des classes.

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent passe entre les états de l'environnement. L'agent choisit l'action à l'aide d'une règle.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre des relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

ReLU
Sigmoïde

Les tracés des fonctions d'activation ne sont jamais de simples lignes droites. Par exemple, le graphique de la fonction d'activation ReLU se compose de deux lignes droites:

Graphique cartésien de deux droites. La première ligne a une valeur y constante de 0, le long de l'axe des x de -infini,0 à 0,-0.
La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc elle va de 0,0 à +infini,+infini.

Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique incurvé bidimensionnel dans lequel les valeurs x couvrent le domaine
-infini à +positive, tandis que les valeurs y couvrent la plage comprise entre 0 et presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive.La pente la plus élevée est de 0,0,5, et les pentes diminuent progressivement à mesure que la valeur absolue de x augmente.

Cliquez sur l'icône pour voir un exemple.

Dans un réseau de neurones, les fonctions d'activation manipulent la somme pondérée de toutes les entrées d'un neurone. Pour calculer une somme pondérée, le neurone additionne les produits des valeurs et des pondérations pertinentes. Par exemple, supposons que l'entrée pertinente pour un neurone se compose des éléments suivants:

valeur d'entrée	pondération d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc la suivante :

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supposons que le concepteur de ce réseau de neurones choisit la fonction sigmoïde comme fonction d'activation. Dans ce cas, le neurone calcule le sigmoïde de -2,0, soit environ 0,12. Par conséquent, le neurone transmet 0,12 (au lieu de -2,0) à la couche suivante du réseau de neurones. La figure suivante illustre la partie pertinente du processus:

apprentissage actif

Méthode d'entraînement dans laquelle l'algorithme choisit certaines des données à partir desquelles il apprend. L'apprentissage actif est particulièrement utile lorsque les exemples étiquetés sont rares ou coûteux à obtenir. Au lieu de rechercher aveuglément une gamme diversifiée d'exemples étiquetés, un algorithme d'apprentissage actif recherche de manière sélective la gamme spécifique d'exemples dont il a besoin pour apprendre.

AdaGrad

Algorithme sophistiqué de descente de gradient qui redimensionne les gradients de chaque paramètre, en attribuant à chaque paramètre un taux d'apprentissage indépendant. Pour une explication complète, consultez cet article d'AdaGrad.

agent

#rl

Dans l'apprentissage par renforcement, l'entité qui utilise une règle pour maximiser le retour attendu obtenu lors de la transition entre les états de l'environnement.

Plus généralement, un agent est un logiciel qui planifie et exécute une série d'actions de manière autonome dans la réalisation d'un objectif, avec la capacité de s'adapter aux changements de son environnement. Par exemple, les agents basés sur un LLM peuvent l'utiliser pour générer un plan plutôt que d'appliquer une règle d'apprentissage par renforcement.

clustering agglomératif

#clustering

Voir clustering hiérarchique.

détection d'anomalies

Processus d'identification des anomalies. Par exemple, si la moyenne d'une caractéristique donnée est de 100 avec un écart type de 10, la détection d'anomalies doit signaler une valeur de 200 comme suspecte.

AR

Abréviation de réalité augmentée.

aire sous la courbe PR

Voir AUC (aire sous la courbe PR).

aire sous la courbe ROC

Consultez la section AUC (aire sous la courbe ROC).

intelligence générale artificielle

Mécanisme non humain qui démontre un large éventail de capacités de résolution de problèmes, de créativité et d'adaptabilité. Par exemple, un programme faisant appel à l'intelligence artificielle générale peut traduire du texte, composer des symphonies et exceller dans des jeux qui n'ont pas encore été inventés.

l'intelligence artificielle

#fundamentals

Programme ou model non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques présentent tous deux une intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle. Cependant, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot en particulier. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention typique peut consister en une somme pondérée sur un ensemble d'entrées, où la pondération de chaque entrée est calculée par une autre partie du réseau de neurones.

Reportez-vous également aux termes auto-attention et auto-attention multi-tête, qui sont les éléments de base des Transformers.

Attribut

#fairness

Synonyme de caractéristique.

Dans le domaine de l'équité dans le machine learning, les attributs font souvent référence à des caractéristiques individuelles.

échantillonnage d'attributs

#df

Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

AUC (aire sous la courbe ROC)

#fundamentals

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, meilleure est la capacité du modèle à séparer les classes.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréalistement parfait a un AUC de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et 9 exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats pour un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a un AUC de 0,5:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant distingue un peu les positifs des négatifs, et a donc un AUC compris entre 0,5 et 1,0:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur définie pour le seuil de classification. Elle prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire sous une courbe ROC. Par exemple, la courbe ROC d'un modèle qui sépare parfaitement les positifs et les négatifs se présente comme suit:

L'AUC correspond à la surface de la zone grise sur l'illustration précédente. Dans ce cas inhabituel, la zone correspond simplement à la longueur de la zone grise (1,0) multipliée par la largeur de la zone grise (1,0). Ainsi, le produit de 1,0 et 1,0 donne un AUC exactement égal à 1,0, ce qui est le score AUC le plus élevé possible.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas du tout séparer des classes est la suivante : L'aire de cette zone grise est de 0,5.

Une courbe ROC plus classique ressemble à peu près à ceci:

Il serait fastidieux de calculer manuellement l'aire sous cette courbe. C'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité qu'un classificateur soit plus sûr qu'un exemple positif choisi aléatoirement est réellement positif qu'un exemple négatif choisi aléatoirement.

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue du monde réel d'un utilisateur, fournissant ainsi une vue composite.

auto-encodeur

#language

#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les auto-encodeurs sont une combinaison d'un encodeur et d'un décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

L'encodeur mappe l'entrée à un format (généralement) de dimension inférieure avec pertes (intermédiaire).
Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimension inférieure au format d'entrée de dimension supérieure d'origine.

Les auto-encodeurs sont entraînés de bout en bout en demandant au décodeur de tenter de reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi fidèlement que possible. Étant donné que le format intermédiaire est plus petit (dimensions inférieures) que le format d'origine, l'auto-encodeur est contraint d'apprendre quelles informations de l'entrée sont essentielles, et la sortie ne sera pas parfaitement identique à l'entrée.

Exemple :

Si les données d'entrée sont un graphique, la copie non exacte serait semblable au graphique d'origine, mais légèrement modifiée. Peut-être que la copie non exacte supprime le bruit de l'image d'origine ou remplit certains pixels manquants.
Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte qui imite le texte d'origine (mais qui n'est pas identique).

Voir aussi la section Auto-encodeurs variables.

biais d'automatisation

#fairness

Lorsqu'un décisionnaire humain privilégie les recommandations d'un système automatisé de prise de décision par rapport aux informations effectuées sans automatisation, même si le système automatisé de prise de décision commettent des erreurs.

AutoML

Tout processus automatisé permettant de créer des modèles de machine learning. AutoML peut effectuer automatiquement les tâches suivantes:

Recherchez le modèle le plus approprié.
Régler les hyperparamètres
Préparer les données (y compris en effectuant une ingénierie des caractéristiques)
Déployez le modèle obtenu.

AutoML est utile pour les data scientists, car il peut leur permettre de développer des pipelines de machine learning en moins de temps et d'énergie, tout en améliorant la précision des prédictions. Il est également utile aux non-experts, car il leur permet d'accéder à des tâches de machine learning complexes.

modèle autorégressif

#language

#image

#IAgénérative

model qui déduit une prédiction à partir de ses propres prédictions précédentes. Par exemple, les modèles de langage à régression automatique prédisent le jeton suivant en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'image basés sur GAN ne sont généralement pas autorégressifs, car ils génèrent une image via une seule passe avant et non de manière itérative par étapes. Cependant, certains modèles de génération d'images sont auto-régressifs, car ils génèrent une image par étapes.

perte auxiliaire

Une fonction de perte, utilisée conjointement avec la principale fonction de perte d'un réseau de neurones et d'un modèle, qui permet d'accélérer l'entraînement au cours des premières itérations lorsque les pondérations sont initialisées de manière aléatoire.

Les fonctions de perte auxiliaires transmettent les gradients efficaces aux couches précédentes. Cela facilite la convergence lors de l'entraînement en luttant contre le problème de disparition du gradient.

précision moyenne

Métrique permettant de résumer les performances d'une séquence de résultats classée. La précision moyenne est calculée en prenant la moyenne des valeurs de précision pour chaque résultat pertinent (chaque résultat de la liste classée où le rappel augmente par rapport au résultat précédent).

Consultez également la section Aire sous la courbe PR.

condition d'alignement sur l'axe

#df

Dans un arbre de décision, condition qui n'implique qu'une seule caractéristique. Par exemple, si l'aire est une caractéristique, voici une condition alignée sur les axes:

area > 200

À comparer à la condition oblique.

B

rétropropagation

#fundamentals

Algorithme qui implémente la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux passes suivant:

Lors de la propagation avant, le système traite un lot d'exemples pour générer une ou plusieurs prédictions. Le système compare chaque prédiction à chaque valeur d'étiquette. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système agrège les pertes pour tous les exemples afin de calculer la perte totale pour le lot actuel.
Lors de la rétropropagation, le système réduit la perte en ajustant les pondérations de tous les neurones de toutes les couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones dans de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à des neurones spécifiques.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré auquel chaque rétrogradation augmente ou diminue chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération plus qu'un faible taux d'apprentissage.

En termes de calcul, la rétropropagation met en œuvre le règlement en chaîne du calcul. Autrement dit, la rétropropagation calcule la dérivée partielle de l'erreur pour chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme TensorFlow implémentent désormais la rétropropagation pour vous. Ouf !

bagging

#df

Méthode d'entraînement d'un ensemble où chaque modèle composant est entraîné sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonné avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés à l'aide de bagging.

Le terme bagging est l'abréviation de bootstrap aggrégat.

sac de mots

#language

Représentation des mots d'une expression ou d'un passage, quel que soit leur ordre. Par exemple, un sac de mots représente les trois expressions suivantes de manière identique:

le chien saute
saute le chien
le chien saute le

Chaque mot est mappé à un index dans un vecteur creux, où le vecteur possède un index pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques avec des valeurs non nulles au niveau des trois index correspondant aux mots the, dog et jumps. La valeur non nulle peut être l'une des suivantes:

Un 1 pour indiquer la présence d'un mot.
Nombre d'occurrences d'un mot dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, alors maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
Une autre valeur, telle que le logarithme du nombre d'occurrences d'un mot dans le sac.

Valeur de référence

model utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement un modèle plus complexe). Par exemple, un modèle de régression logistique peut constituer une bonne référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour qu'il soit utile.

lot

#fundamentals

Ensemble des exemples utilisé dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Pour plus d'informations sur la relation entre un lot et une époque, consultez la section epoch.

inférence par lot

#TensorFlow

#GoogleCloud

Processus qui consiste à déduire des prédictions sur plusieurs exemples sans étiquette divisé en sous-ensembles plus petits ("lots").

L'inférence par lot peut exploiter les fonctionnalités de parallélisation des puces accélérateurs. En d'autres termes, plusieurs accélérateurs peuvent simultanément déduire des prédictions sur différents lots d'exemples sans étiquette, ce qui augmente considérablement le nombre d'inférences par seconde.

normalisation des lots

Normalisation de l'entrée ou de la sortie des fonctions d'activation dans une couche cachée La normalisation des lots peut offrir les avantages suivants:

Renforcer la stabilité des réseaux de neurones en les protégeant contre les pondérations des anomalies.
Activez des taux d'apprentissage plus élevés, ce qui peut accélérer l'entraînement.
Réduisez le surapprentissage.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici des stratégies couramment utilisées pour la taille de lot:

Descente de gradient stochastique (SGD), où la taille de lot est de 1.
Lot complet, dont la taille de lot correspond au nombre d'exemples dans l'intégralité de l'ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot est alors d'un million d'exemples. Le traitement par lot complet est généralement une stratégie inefficace.
mini-lot dans lequel la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

Réseau de neurones bayésien

Réseau de neurones probabiliste qui tient compte de l'incertitude dans les pondérations et les résultats. Un modèle de régression de réseau de neurones standard prédit une valeur scalaire. Par exemple, un modèle standard prédit le prix d'une maison à 853 000. En revanche, un réseau de neurones bayésien prédit une distribution de valeurs. Par exemple, un modèle bayésien prédit le prix d'une maison de 853 000 avec un écart type de 67 200.

Un réseau de neurones bayésien s'appuie sur le théorème de Bayes pour calculer les incertitudes dans les pondérations et les prédictions. Un réseau de neurones bayésien peut être utile lorsqu'il est important de quantifier l'incertitude, par exemple dans les modèles liés aux produits pharmaceutiques. Les réseaux de neurones bayésiens peuvent également empêcher le surapprentissage.

Optimisation bayésienne

Technique de modèle de régression probabiliste, qui permet d'optimiser des fonctions objectifs coûteuses en calcul en optimisant un substitut qui quantifie l'incertitude à l'aide d'une technique d'apprentissage bayésien. Étant donné que l'optimisation bayésienne est elle-même très coûteuse, elle est généralement utilisée pour optimiser des tâches coûteuses à évaluer qui comportent un petit nombre de paramètres, comme la sélection de hyperparamètres.

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer Q-learning via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez l' article Wikipédia sur l'équation de Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation de texte. Un modèle BERT entraîné peut agir dans le cadre d'un modèle plus vaste pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Utilise l'architecture Transformer et repose donc sur l'auto-attention.
Utilise la partie encodeur de la structure "Transformer". Le rôle de l'encodeur est de produire de bonnes représentations de texte, plutôt que d'effectuer une tâche spécifique telle que la classification.
est bidirectionnel ;
Utilise le masquage pour l'entraînement non supervisé.

Voici quelques variantes de BERT:

ALBERT, acronyme de A Light BERT.
LaBSE :

Pour une présentation de BERT, consultez la page Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.

biais (éthique/impartialité)

#fairness

#fundamentals

1. Stéréotypage, préjugé ou favoritisme envers certaines choses, personnes ou groupes par rapport à d'autres. Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de préjugé comprennent:

biais d'automatisation
biais de confirmation
biais de l'expérimentateur
biais de représentativité
biais implicite
biais d'appartenance
biais d'homogénéité de l'exogroupe

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de préjugé comprennent:

biais de couverture
biais de non-réponse
biais de participation
biais de fréquence
biais d'échantillonnage
biais de sélection

À ne pas confondre avec le biais utilisé dans les modèles de machine learning ou avec le biais de prédiction.

biais (mathématiques) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning. Il est symbolisé par l'un des éléments suivants:

b
W₀

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement "ordonnée". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (ordonnée à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple, supposons qu'un parc d'attractions coûte 2 € pour entrer et 0,5 € supplémentaire pour chaque heure de séjour d'un client. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus bas est de 2 euros.

Il ne faut pas confondre le préjugé avec le biais en matière d'éthique et d'équité ou avec le biais de prédiction.

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui précède et suit une section de texte cible. En revanche, un système unidirectionnel n'évalue que le texte qui précède une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots soulignés dans la question suivante:

Qu'est-ce que _____ avec vous ?

Un modèle de langage unidirectionnel doit baser ses probabilités uniquement sur le contexte fourni par les mots "Quoi", "est" et "le". En revanche, un modèle de langage bidirectionnel peut également obtenir du contexte en utilisant les mots "avec" et "vous", ce qui peut aider le modèle à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Un modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte en fonction du texte précédent et suivant.

bigramme

#seq

#language

Un N-gramme dans lequel N=2.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

la classe positive ;
Classe négative

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

Modèle déterminant si les e-mails sont du spam (classe positive) ou du non-spam (classe négative).
Un modèle qui évalue les symptômes médicaux pour déterminer si une personne est atteinte d'une maladie particulière (la classe positive) ou n'en souffre pas (la classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et Seuil de classification.

condition binaire

#df

Dans un arbre de décision, une condition qui n'a que deux résultats possibles, généralement yes ou no. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

binning

Synonyme de binning.

BLEU (Bilingual Evaluation Understudy)

#language

Score compris entre 0,0 et 1,0 inclus, indiquant la qualité d'une traduction entre deux langues humaines (par exemple, entre l'anglais et le russe). Un score BLEU de 1,0 indique une traduction parfaite, tandis qu'un score BLEU de 0,0 indique une traduction mauvaise.

boosting

Technique de machine learning qui combine de manière itérative un ensemble de classificateurs simples et peu précis (appelés classificateurs "faibles") dans un classificateur avec une grande précision (un classificateur "fort") en surpondérant les exemples actuellement mal classés par le modèle.

cadre de délimitation

#image

Dans une image, les coordonnées (x, y) d'un rectangle autour d'une zone d'intérêt, comme le chien dans l'image ci-dessous.

Photo d'un chien assis sur un canapé. Un cadre de délimitation vert avec les coordonnées en haut à gauche de (275, 1271) et les coordonnées en bas à droite de (2954, 2761) encadre le corps du chien

diffusion

Développement de la forme d'un opérande dans une opération mathématique matricielle à des dimensions compatibles pour cette opération. Par exemple, l'algèbre linéaire nécessite que les deux opérandes d'une opération d'addition matricielle aient les mêmes dimensions. Par conséquent, vous ne pouvez pas ajouter une matrice de forme (m, n) à un vecteur de longueur n. Le broadcasting permet d'effectuer cette opération en développant virtuellement le vecteur de longueur n jusqu'à une matrice de forme (m, n) en répliquant les mêmes valeurs dans chaque colonne.

Par exemple, compte tenu des définitions suivantes, l'algèbre linéaire interdit A+B, car A et B ont des dimensions différentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Cependant, le broadcasting permet d'effectuer l'opération A+B en développant virtuellement B en:

 [[2, 2, 2],
  [2, 2, 2]]

Ainsi, A+B est maintenant une opération valide:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Pour en savoir plus, consultez la description suivante de la diffusion dans NumPy.

le binning

#fundamentals

Conversion d'une seule caractéristique en plusieurs caractéristiques binaires appelées buckets ou bins, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique continue à virgule flottante, vous pouvez diviser des plages de températures en buckets distincts, tels que:

Une température inférieure ou égale à 10 degrés Celsius correspond au bucket "froid".
Une plage de 11 à 24 degrés Celsius correspond à la tranche "tempérée".
une température supérieure ou égale à 25 degrés Celsius correspond à l'indice "chaude".

Le modèle traitera de manière identique chaque valeur d'un même bucket. Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Le modèle traite donc les deux valeurs de manière identique.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Si vous représentez la température en tant que caractéristique continue, le modèle traite la température comme une caractéristique unique. Si vous représentez la température sous la forme de trois buckets, le modèle traite chaque bucket comme une caractéristique distincte. Autrement dit, un modèle peut apprendre les relations distinctes de chaque bucket avec l'étiquette. Par exemple, un modèle de régression linéaire peut apprendre des pondérations distinctes pour chaque bucket.

L'augmentation du nombre de buckets complique votre modèle en augmentant le nombre de relations qu'il doit apprendre. Par exemple, les buckets froids, tempérés et tièdes sont essentiellement trois caractéristiques distinctes pour l'entraînement de votre modèle. Si vous décidez d'ajouter deux autres buckets (par exemple, "gel" et "à chaud"), votre modèle devra maintenant être entraîné sur cinq caractéristiques distinctes.

Comment savoir combien de buckets créer ou quelles plages devraient correspondre à chaque bucket ? Les réponses nécessitent généralement un certain nombre d'expérimentations.

C

niveau de calibration

Ajustement post-prédiction, généralement pour tenir compte du biais de prédiction. Les prédictions et les probabilités ajustées doivent correspondre à la distribution d'un ensemble observé d'étiquettes.

génération de candidats

#recsystems

Ensemble initial de recommandations choisi par un système de recommandation. Prenons l'exemple d'une librairie proposant 100 000 titres. La phase de génération de candidats crée une liste beaucoup plus petite de livres adaptés à un utilisateur particulier, disons 500. Mais même 500 livres, c'est bien trop à recommander à un utilisateur. Les phases ultérieures et plus coûteuses d'un système de recommandation (telles que l'attribution de scores et le reclassement) réduisent ces 500 recommandations à un ensemble de recommandations beaucoup plus petit et plus utile.

échantillonnage de candidats

Optimisation lors de l'entraînement, qui calcule une probabilité pour toutes les étiquettes positives, en utilisant, par exemple, softmax, mais uniquement pour un échantillon aléatoire d'étiquettes négatives. Par exemple, pour un exemple étiqueté beagle et dog, l'échantillonnage de candidats calcule les probabilités prédites et les termes de perte correspondants pour:

beagle
chien
un sous-ensemble aléatoire des classes négatives restantes (par exemple, cat, lollipop, fence).

L'idée est que les classes négatives peuvent apprendre à partir d'un renforcement négatif moins fréquent, tant que les classes positives obtiennent toujours un renforcement positif approprié, ce qui est effectivement observé empiriquement.

L'échantillonnage de candidats est plus efficace en termes de calcul que les algorithmes d'entraînement qui calculent les prédictions pour toutes les classes négatives, en particulier lorsque le nombre de classes négatives est très élevé.

données catégorielles

#fundamentals

Caractéristiques ayant un ensemble spécifique de valeurs possibles. Prenons l'exemple d'une caractéristique catégorielle nommée traffic-light-state, qui ne peut avoir que l'une des trois valeurs possibles suivantes:

red
yellow
green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre les différents impacts de red, green et yellow sur le comportement du conducteur.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Reportez-vous à la section Modèle de langage bidirectionnel pour comparer les différentes approches directionnelles de modélisation du langage.

centroid

#clustering

Centre d'un cluster, tel que déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur centroïde le plus utilisé.

À comparer aux algorithmes de clustering hiérarchique.

requêtes en chaîne de pensée

#language

#IAgénérative

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement, étape par étape. Prenons l'exemple de l'invite suivante, en prêtant une attention particulière à la deuxième phrase:

Combien de forces g un conducteur devra-t-il éprouver dans une voiture qui passe de 0 à 100 km/h en 7 secondes ? Dans la réponse, montrez tous les calculs pertinents.

Il est probable que la réponse du LLM:

Montrez une séquence de formules physiques en indiquant les valeurs 0, 60 et 7 aux endroits appropriés.
Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

Les requêtes de chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. En outre, les invites de chaîne de pensée permettent à l'utilisateur d'examiner les étapes du LLM pour déterminer si la réponse est pertinente ou non.

chat

#language

#IAgénérative

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans une discussion (ce que vous avez saisi et la façon dont le grand modèle de langage a répondu) devient le contexte des parties suivantes du chat.

Un chatbot est une application d'un grand modèle de langage.

point de contrôle

Données qui capturent l'état des paramètres d'un modèle à une itération d'entraînement particulière. Les points de contrôle permettent d'exporter les pondérations du modèle ou d'effectuer un entraînement sur plusieurs sessions. Les points de contrôle permettent également à l'entraînement de se poursuivre après les erreurs (par exemple, préemption de tâches).

Lorsque vous effectuez un réglage, le point de départ de l'entraînement du nouveau modèle est un point de contrôle spécifique du modèle pré-entraîné.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Dans un modèle de classification binaire qui détecte le spam, les deux classes peuvent être spam et non-spam.
Dans un modèle de classification à classes multiples qui identifie des races de chiens, les classes peuvent être caniche, beagle, carlin, etc.

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre plutôt qu'une classe.

modèle de classification

#fundamentals

Un model dont la prédiction est une model. Voici des exemples de tous les modèles de classification:

Un modèle qui prédit la langue d'une phrase d'entrée (le français ? Espagnol ? italien ?).
Un modèle qui prédit les espèces d'arbres Oak? Baobab?).
Modèle qui prédit la classe positive ou négative pour une pathologie particulière.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types courants de modèles de classification:

classification binaire
classification à classes multiples

seuil de classification

#fundamentals

Dans une classification binaire, nombre compris entre 0 et 1 qui convertit la sortie brute d'un modèle de régression logistique en prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie lors de l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Alors :

Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est de 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre de faux positifs et de faux négatifs.

Cliquez sur l'icône pour afficher des notes supplémentaires.

À mesure que les modèles ou les ensembles de données évoluent, les ingénieurs modifient parfois le seuil de classification. Lorsque le seuil de classification change, les prédictions de classe positive peuvent devenir soudainement des classes négatives, et inversement.

Prenons l'exemple d'un modèle de prédiction des maladies par classification binaire. Supposons que lorsque le système s'exécute au cours de la première année:

La valeur brute pour un patient particulier est de 0,95.
Le seuil de classification est de 0,94.

Par conséquent, le système diagnostique la classe positive. (Le patient halète : "Oh non ! Je suis malade !")

Un an plus tard, peut-être que les valeurs se présentent maintenant comme suit:

La valeur brute pour le même patient reste à 0,95.
Le seuil de classification passe à 0,97.

Par conséquent, le système reclassifie à présent ce patient dans la classe négative. ("Bonne journée ! Je ne suis pas malade.") Même patient. Autre diagnostic.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont divisées comme suit:

1 000 000 étiquettes négatives
10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. Il s'agit donc d'un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas avec un déséquilibre des classes, car le ratio entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

517 étiquettes à exclure
483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre entre les classes. Par exemple, l'ensemble de données de classification à classes multiples suivant présente également un déséquilibre des classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

1 000 000 étiquettes avec la classe "green"
200 étiquettes avec la classe "violet"
350 libellés avec la classe "orange"

Voir aussi entropie, classe majoritaire et classe minoritaire.

rognage

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes ou les deux:

Réduire les valeurs de caractéristiques qui sont supérieures à un seuil maximal jusqu'à ce seuil maximal.
Augmenter les valeurs des caractéristiques inférieures à un seuil minimal jusqu'à ce seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière se situent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

Rogner toutes les valeurs supérieures à 60 (seuil maximal) pour qu'elles soient exactement égales à 60.
Rogner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les anomalies peuvent endommager les modèles, entraînant parfois le dépassement des pondérations pendant l'entraînement. Certaines valeurs aberrantes peuvent également gâcher considérablement des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Le bornement de gradient force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Cloud TPU

#TensorFlow

#GoogleCloud

Accélérateur matériel spécialisé conçu pour accélérer les charges de travail de machine learning sur Google Cloud.

clustering

#clustering

Regroupement d'exemples, en particulier lors de l'apprentissage non supervisé Une fois tous les exemples regroupés, un humain peut éventuellement donner un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples en fonction de leur proximité avec un centroïde, comme dans le schéma suivant:

Un chercheur humain pourrait ensuite examiner les groupes et, par exemple, étiqueter le groupe 1 en tant qu'"arbres nains" et le groupe 2 en tant qu'"arbres de taille réelle".

Prenons un autre exemple. Prenons l'exemple d'un algorithme de clustering basé sur la distance d'un exemple par rapport à un point central, illustré comme suit:

Des dizaines de points de données sont organisés en cercles concentriques, presque comme des trous autour du centre d'une cible de fléchettes. L'anneau interne de points de données correspond au cluster 1, l'anneau central au cluster 2 et l'anneau externe au cluster 3.

coadaptation

Lorsque les neurones prédisent des schémas dans les données d'entraînement en s'appuyant presque exclusivement sur les sorties d'autres neurones spécifiques, au lieu de s'appuyer sur le comportement du réseau dans son ensemble. Lorsque les modèles à l'origine de la coadaptation ne sont pas présents dans les données de validation, la coadaptation entraîne un surapprentissage. La régularisation par abandon réduit la coadaptation, car l'abandon empêche les neurones de s'appuyer uniquement sur d'autres neurones spécifiques.

filtrage collaboratif

#recsystems

Effectuer des prédictions sur les centres d'intérêt d'un utilisateur en fonction de ceux de nombreux autres utilisateurs Le filtrage collaboratif est souvent utilisé dans les systèmes de recommandation.

dérive conceptuelle

Changement dans la relation entre les caractéristiques et l'étiquette. Au fil du temps, la dérive conceptuelle réduit la qualité d'un modèle.

Au cours de l'entraînement, le modèle apprend la relation entre les caractéristiques et leurs étiquettes dans l'ensemble d'entraînement. Si les étiquettes de l'ensemble d'entraînement sont de bons proxys pour le monde réel, le modèle devrait effectuer de bonnes prédictions dans le monde réel. Toutefois, en raison d'une dérive conceptuelle, les prédictions du modèle ont tendance à se dégrader avec le temps.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un certain modèle de voiture est "économe en carburant". Autrement dit, les caractéristiques peuvent être les suivantes:

poids de la voiture
compression des moteurs
type de transmission

tandis que l'étiquette est:

économes en carburant
pas économe en carburant

Cependant, le concept de "voiture économe en carburant" ne cesse d'évoluer. En 2024, un modèle de voiture portant la mention Consommation en carburant en 1994 serait très certainement non économe en carburant. Un modèle présentant une dérive conceptuelle a tendance à produire des prédictions de moins en moins utiles au fil du temps.

Comparez et opposez la non-stationarité.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Pour compenser la dérive conceptuelle, réentraînez les modèles plus rapidement que la fréquence de dérive conceptuelle. Par exemple, si la dérive conceptuelle réduit la précision du modèle d'une marge significative tous les deux mois, réentraînez votre modèle plus souvent que tous les deux mois.

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Un arbre de décision constitué de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée un fractionnement ou un test.

Contraste de la condition avec la condition leaf.

Voir également :

condition binaire
condition non binaire.
condition-alignée sur l'axe
oblique-condition

discussion

#language

Synonyme d'hallucination.

Confabulation est probablement un terme plus précis d'un point de vue technique que l'hallucination. Cependant, l'hallucination est devenue populaire en premier.

configuration

Processus d'attribution des valeurs de propriété initiales utilisées pour entraîner un modèle, y compris:

les couches de composition du modèle ;
l'emplacement des données ;
hyperparamètres tels que :

Dans les projets de machine learning, la configuration peut être effectuée via un fichier de configuration spécial ou à l'aide de bibliothèques de configuration telles que les suivantes:

biais de confirmation

#fairness

Tendance à rechercher, à interpréter, à favoriser et à rappeler des informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d'une manière qui influe sur un résultat étayant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

Le biais de l'expérimentateur est une forme de biais de confirmation dans lequel l'expérimentateur continue d'entraîner des modèles jusqu'à ce qu'une hypothèse préexistante soit confirmée.

Matrice de confusion

#fundamentals

Table NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

	Tumeur (prédiction)	Pas de tumeur (prédiction)
Tumeur (vérité terrain)	18 (VP)	1 (FN)
Non-tumeur (vérité terrain)	6 (FP)	452 (VN)

La matrice de confusion précédente montre les éléments suivants:

Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumeur", le modèle en a classé 18 correctement et 1 de manière incorrecte.
Sur les 458 prédictions pour lesquelles la vérité terrain n'était pas une tumeur, le modèle en a classé 452 correctement et 6 de manière incorrecte.

La matrice de confusion pour un problème de classification à classes multiples peut vous aider à identifier des schémas d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification multiclasse à trois classes qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de prédire à tort Versicolor que Setosa:

	Setosa (prédiction)	Versicolor (prédiction)	Virginie (prédiction)
Setosa (vérité terrain)	88	12	0
Versicolor (vérité terrain)	6	141	7
Virginie (vérité terrain)	2	27	109

Autre exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître des chiffres manuscrits a tendance à prédire à tort 9 au lieu de 4, ou à prédire à tort 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

analyse des circonscriptions

#language

Diviser une phrase en structures grammaticales plus petites ("composants"). Une partie ultérieure du système de ML, telle qu'un modèle de compréhension du langage naturel, peut analyser les composants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

L'analyseur de circonscription peut diviser cette phrase en deux composants:

Mon ami est un syntagme nominal.
adopted two cats est un syntagme verbal.

Ces composants peuvent être subdivisés en composants plus petits. Par exemple, l'expression verbale

a adopté deux chats

peut être subdivisé en:

adopted est un verbe.
deux chats est un autre syntagme nominal.

représentation vectorielle continue du langage contextualisé

#language

#IAgénérative

Intégration qui permet de "comprendre" des mots et des expressions d'une manière que les locuteurs natifs peuvent faire. Les représentations vectorielles continues d'un langage contextualisé peuvent comprendre une syntaxe, une sémantique et un contexte complexes.

Prenons l'exemple de représentations vectorielles continues du mot anglais cow. Les représentations vectorielles continues plus anciennes, telles que word2vec, peuvent représenter des mots anglais de sorte que la distance dans l'espace de représentation vectorielle entre vache et bull est semblable à la distance entre ewe (mouton) et ram (mâle) ou femelle à mâle. Les représentations vectorielles continues contextuelles peuvent aller encore plus loin en reconnaissant que les anglophones utilisent parfois le mot cow pour désigner la vache ou le taureau de manière informelle.

fenêtre de contexte

#language

#IAgénérative

Nombre de jetons qu'un modèle peut traiter dans une requête donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes à la requête.

fonctionnalité continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou la pondération.

À comparer à la caractéristique discrète.

échantillonnage de commodité

Utiliser un ensemble de données non collecté de manière scientifique afin d'exécuter des tests rapides. Par la suite, il est essentiel de passer à un ensemble de données scientifiquement collecté.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu, voire pas du tout, à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence à environ 700 itérations:

Graphique cartésien. L'axe des abscisses correspond à la perte. L'axe Y correspond au nombre d'itérations d'entraînement. La perte est très élevée lors des premières itérations, mais diminue brusquement. Après environ 100 itérations, la perte diminue toujours, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste stable.

Un modèle converge lorsqu'un entraînement supplémentaire ne l'améliore pas.

Dans le deep learning, les valeurs de perte restent parfois constantes, voire presque pendant de nombreuses itérations, avant de finir par descendre. Pendant une longue période de valeurs de perte constantes, vous pouvez temporairement avoir une fausse impression de convergence.

Voir aussi arrêt prématuré.

fonction convexe

Fonction dans laquelle la région au-dessus du graphique est un ensemble convexe. La fonction convexe prototypique a une forme semblable à la lettre U. Par exemple, les fonctions suivantes sont toutes des fonctions convexes:

Courbes en forme de U, chacune avec un seul point minimal.

En revanche, la fonction suivante n'est pas convexe. Notez que la région au-dessus du graphique n'est pas un ensemble convexe:

Courbe en W avec deux points minimaux locaux différents.

Une fonction strictement convexe possède exactement un minimum local, qui est également le minimum global. Les fonctions classiques en U sont des fonctions strictement convexes. Cependant, certaines fonctions convexes (par exemple, les lignes droites) ne sont pas en U.

Cliquez sur l'icône pour en savoir plus sur le calcul.

De nombreuses fonctions de perte courantes sont des fonctions convexes:

Perte L₂
Perte logistique
Régularisation L₁
Régularisation L₂

De nombreuses variations de descente de gradient sont garanties pour trouver un point proche du minimum d'une fonction strictement convexe. De même, de nombreuses variantes de la descente de gradient stochastique ont une forte probabilité de trouver un point proche du minimum d'une fonction strictement convexe, bien que cela ne soit pas garanti.

La somme de deux fonctions convexes (par exemple, perte L₂ + régularisation L₁) est une fonction convexe.

Les modèles profonds ne sont jamais des fonctions convexes. Il est à noter que les algorithmes conçus pour l'optimisation convexe ont de toute façon tendance à trouver des solutions raisonnablement bonnes sur les réseaux profonds, même s'il n'est pas garanti que ces solutions soient un minimum global.

optimisation convexe

Processus consistant à utiliser des techniques mathématiques telles que la descente de gradient pour trouver le minimum d'une fonction convexe. De nombreuses recherches dans le domaine du machine learning se sont concentrées sur la formulation de divers problèmes sous forme de problèmes d'optimisation convexes afin de les résoudre plus efficacement.

Pour des informations détaillées, voir le livre de Stephen Boyd et Lieven Vandenberghe, Convex Optimization (en anglais).

ensemble convexe

Sous-ensemble de l'espace euclidien tel qu'une ligne tracée entre deux points quelconques du sous-ensemble reste complètement dans le sous-ensemble. Par exemple, les deux formes suivantes sont des ensembles convexes:

Une illustration d'un rectangle. Autre illustration d'un ovale.

En revanche, les deux formes suivantes ne sont pas des ensembles convexes:

Une illustration d’un graphique circulaire avec un secteur manquant.
Autre illustration d'un polygone extrêmement irrégulier.

Convolution

#image

En mathématiques, d'un point de vue informel, il s'agit d'un mélange de deux fonctions. Dans le machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée pour entraîner les pondérations.

En machine learning, le terme "convolution" est souvent un moyen abrégée de désigner une opération convolutive ou une couche convolutive.

Sans convolution, un algorithme de machine learning devrait apprendre une pondération distincte pour chaque cellule d'un grand Tensor. Par exemple, un algorithme de machine learning entraîné sur des images de 2 000 x 2 000 pixels serait contraint de trouver 4 millions de pondérations distinctes. Grâce aux convolutions, un algorithme de machine learning ne doit trouver des pondérations que pour chaque cellule du filtre convolutif, ce qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué entre les cellules, de sorte que chacune d'entre elles est multipliée par le filtre.

filtre convolutif

#image

L'un des deux acteurs d'une opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice de même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, pour une matrice d'entrée de 28 x 28, le filtre peut être n'importe quelle matrice 2D de taille inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d'un filtre convolutif sont généralement définies sur un motif constant de 1 et de zéros. En machine learning, les filtres convolutifs sont généralement ensemencés avec des nombres aléatoires, puis le réseau entraîne les valeurs idéales.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un filtre convolutif transmet une matrice d'entrée. Prenons l'exemple du filtre convolutif 3 x 3 suivant:

Une matrice 3x3 avec les valeurs suivantes: [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de neuf opérations convolutives impliquant la matrice d'entrée 5x5. Notez que chaque opération convolutive fonctionne sur une tranche 3x3 différente de la matrice d'entrée. La matrice 3x3 obtenue (à droite) comprend les résultats des neuf opérations convolutives:

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est une couche convolutive. Un réseau de neurones convolutif typique consiste en une combinaison des couches suivantes:

couches convolutives
pooling de couches ;
couches denses

Les réseaux de neurones convolutifs ont rencontré un grand succès pour certains types de problèmes, tels que la reconnaissance d'image.

opération convolutive

#image

L'opération mathématique en deux étapes suivante:

Multiplication élément par élément du filtre convolutif et d'une tranche d'une matrice d'entrée. (La tranche de la matrice d'entrée a le même rang et la même taille que le filtre convolutif.)
Somme de toutes les valeurs de la matrice de produits obtenue.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,100,100]

Imaginons maintenant le filtre convolutif 2 x 2 suivant:

Matrice 2x2: [[1, 0], [0, 1]]

Chaque opération convolutive implique une seule tranche 2 x 2 de la matrice d'entrée. Par exemple, supposons que nous utilisons la tranche 2x2 en haut à gauche de la matrice d'entrée. L'opération de convolution sur cette tranche se présente comme suit:

Application du filtre convolutif [[1, 0], [0, 1]] à la section 2x2 en haut à gauche de la matrice d'entrée, soit [[128,97], [35,22]].
Le filtre convolutif laisse les cellules 128 et 22 intactes, mais met à zéro les valeurs 97 et 35. Par conséquent, l'opération de convolution donne la valeur 150 (128 + 22).

Une couche convolutive consiste en une série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

cost

Synonyme de perte.

co-formation

L'approche d'apprentissage semi-supervisé est particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Le ratio d'exemples sans étiquette et d'exemples étiquetés dans l'ensemble de données est élevé.
Il s'agit d'un problème de classification (binaire ou à classes multiples).
L'ensemble de données contient deux ensembles différents de caractéristiques prédictives, qui sont indépendantes l'une de l'autre et complémentaires.

Le co-entraînement amplifie essentiellement les signaux indépendants pour en faire un signal plus fort. Prenons l'exemple d'un modèle de classification qui classe les voitures d'occasion individuelles dans la catégorie Bon ou Mauvais. Un ensemble de caractéristiques prédictives peut se concentrer sur des caractéristiques agrégées telles que l'année, la marque et le modèle de la voiture. Un autre ensemble de caractéristiques prédictives peut se concentrer sur les données de conduite du propriétaire précédent et l'historique d'entretien de la voiture.

L'article phare sur le co-entraînement est Combiner des données étiquetées et non étiquetées avec le co-entraînement, par Blum et Mitchell.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre individu identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer l'équité contrefactuelle d'un classificateur est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour une discussion plus détaillée sur l'équité contrefactuelle, consultez l'article When Worlds Collide: Integrating Différents Counterfactual Assumptions in Fairness.

biais de couverture

#fairness

Voir biais de sélection.

pépinière d'accident

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, le titre Red Tape Holds Up Skyscraper est une accroche, car un modèle NLU peut l'interpréter littéralement ou figurativement.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Juste pour clarifier ce titre mystérieux :

Red ruban peut faire référence à l'un des éléments suivants :
- Un adhésif
- Bureaucratie excessive
Les termes Hold Up peuvent faire référence à l'un des éléments suivants :
- Soutien structurel
- Retards

critique

#rl

Synonyme de Deep Q-Network.

entropie croisée

Généralisation de la perte logistique aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi perplexité.

validation croisée

Mécanisme permettant d'estimer la capacité d'un model à se généraliser à de nouvelles données en le testant sur un ou plusieurs sous-ensembles de données qui ne se chevauchent pas et sont exclus de l'model.

fonction de distribution cumulée (CDF)

Fonction qui définit la fréquence des échantillons inférieure ou égale à une valeur cible. Prenons l'exemple d'une distribution normale des valeurs continues. Une CDF vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à un écart type au-dessus de la moyenne.

D

analyse de données

Comprendre les données en considérant des échantillons, des mesures et des visualisations. L'analyse de données peut être particulièrement utile à la réception d'un ensemble de données, avant de créer le premier model. Elle est également essentielle pour comprendre les tests et déboguer les problèmes du système.

augmentation des données

#image

Augmentation artificielle de la portée et du nombre d'exemples d'entraînement en transformant les exemples existants pour en créer d'autres. Par exemple, supposons que les images constituent l'une de vos caractéristiques, mais que votre ensemble de données ne contient pas suffisamment d'exemples d'images pour que le modèle puisse apprendre des associations utiles. Dans l'idéal, vous devez ajouter suffisamment d'images étiquetées à votre ensemble de données pour permettre l'entraînement correct de votre modèle. Si cela n'est pas possible, l'augmentation des données peut faire pivoter, étirer et refléter chaque image pour produire de nombreuses variantes de l'image d'origine, ce qui peut générer suffisamment de données étiquetées pour permettre un entraînement optimal.

DataFrame

#fundamentals

Type de données pandas populaire, permettant de représenter des ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame possède un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, à la différence que chaque colonne peut se voir attribuer son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

parallélisme des données

Méthode de scaling d'entraînement ou d'inférence, qui réplique l'intégralité d'un modèle sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme des données peut permettre l'entraînement et l'inférence sur de très grandes tailles de lot. Toutefois, le parallélisme des données nécessite que le modèle soit suffisamment petit pour s'adapter à tous les appareils.

Le parallélisme des données accélère généralement l'entraînement et l'inférence.

Voir aussi parallélisme des modèles.

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées dans l'un des formats suivants:

une feuille de calcul
Un fichier au format CSV (valeurs séparées par des virgules)

API Dataset (tf.data)

#TensorFlow

API TensorFlow de haut niveau permettant de lire des données et de les transformer dans un format requis par un algorithme de machine learning. Un objet tf.data.Dataset représente une séquence d'éléments, dans laquelle chaque élément contient un ou plusieurs Tensors. Un objet tf.data.Iterator permet d'accéder aux éléments d'un Dataset.

Pour en savoir plus sur l'API Dataset, consultez tf.data: Créer des pipelines d'entrée TensorFlow dans le Guide du programmeur TensorFlow.

frontière de décision

Séparateur entre les classes apprises par un modèle dans une classe binaire ou des problèmes de classification à classes multiples. Par exemple, dans l'image suivante qui représente un problème de classification binaire, la frontière de décision est la frontière entre la classe orange et la classe bleue:

Limite bien définie entre une classe et une autre.

Forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision Une forêt de décision effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les forêts aléatoires et les arbres à boosting de gradient sont des types courants de forêts de décision.

seuil de décision

Synonyme de seuil de classification.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées de manière hiérarchique. Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions organisées de façon hiérarchique, menant à cinq feuilles.

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, plus creuses ou externe.

Les décodeurs font souvent partie d'un modèle plus vaste, où ils sont fréquemment associés à un encodeur.

Dans les tâches séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Reportez-vous à la section Transformateur pour obtenir la définition d'un décodeur dans l'architecture Transformer.

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

de réseau de neurones profond

Synonyme de modèle profond.

Deep Q-Network (DQN)

#rl

Dans le Q-learning, un réseau de neurones profond qui prédit les fonctions Q.

Critic est l'équivalent de Deep Q-Network.

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagiens s'inscrivent à l'Université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est identique au pourcentage de Brobdingnagiens admis, qu'un groupe soit en moyenne plus qualifié que l'autre.

À comparer aux cotes égales et à l'égalité des chances, qui permettent aux résultats agrégés de dépendre d'attributs sensibles, mais ne permettent pas aux résultats de classification de certaines étiquettes de vérité terrain spécifiées de dépendre d'attributs sensibles. Pour une visualisation présentant les compromis à faire lors de l'optimisation de la parité démographique, consultez l'article Attaque la discrimination avec un machine learning plus intelligent.

suppression du bruit

#language

Une approche courante de l'apprentissage auto-supervisé, dans laquelle:

Du bruit est ajouté artificiellement à l'ensemble de données.
Le model tente de supprimer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou de libellé et les données comportant du bruit en tant qu'entrée.

Certains modèles de langage masqués utilisent la suppression du bruit comme suit:

Du bruit est ajouté artificiellement à une phrase sans étiquette en masquant certains jetons.
Le modèle essaie de prédire les jetons d'origine.

caractéristique dense

#fundamentals

Caractéristique dans laquelle la plupart ou la totalité des valeurs sont différentes de zéro. Il s'agit généralement d'un Tensor de valeurs à virgule flottante. Par exemple, le Tensor à 10 éléments suivant est dense, car neuf de ses valeurs sont différentes de zéro:

À comparer à la caractéristique creuse.

couche dense

Synonyme de couche entièrement connectée.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

le nombre de couches cachées ;
le nombre de couches de sortie, qui est généralement de 1
le nombre de couches d'intégration ;

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'influence pas la profondeur.

Réseau de neurones convolutif séparable en profondeur (sepCNN)

#image

Architecture de réseau de neurones convolutif basée sur Inception, mais dans laquelle les modules Inception sont remplacés par des convolutions séparables en profondeur. Également appelé Xception.

Une convolution séparable en profondeur (également appelée convolution séparable) transforme une convolution 3D standard en deux opérations de convolution distinctes plus efficaces en termes de calcul: une convolution de profondeur, avec une profondeur de 1 (n x n x 1), puis une convolution ponctuelle, avec une longueur et une largeur de 1 x 1 (1 n ).

Pour en savoir plus, consultez l'article Xception: Deep Learning with Depthwise Separable Convolutions (Xception : deep learning avec des convolutions séparables par profondeur).

étiquette dérivée

Synonyme d'étiquette de proxy.

appareil

#TensorFlow

#GoogleCloud

Terme surchargé avec les deux définitions suivantes possibles:

Catégorie de matériel pouvant exécuter une session TensorFlow, y compris les processeurs, les GPU et les TPU.
Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui manipule réellement les Tensors et les représentations vectorielles continues. L'appareil s'exécute sur des puces d'accélération. En revanche, l'hôte s'exécute généralement sur un processeur.

confidentialité différentielle

Dans le machine learning, approche d'anonymisation visant à protéger toutes les données sensibles (par exemple, les informations personnelles d'une personne) incluses dans l'ensemble d'entraînement d'un modèle contre l'exposition. Cette approche garantit que le model n'apprend pas beaucoup sur un individu spécifique ni ne s'en souviendra. Pour ce faire, un échantillonnage et l'ajout de bruit pendant l'entraînement du modèle permettent de masquer les points de données individuels, ce qui réduit le risque d'exposer des données d'entraînement sensibles.

La confidentialité différentielle est également utilisée en dehors du machine learning. Par exemple, les data scientists utilisent parfois la confidentialité différentielle pour protéger la confidentialité individuelle lorsqu'ils calculent des statistiques d'utilisation de produits pour différentes données démographiques.

réduction des dimensions

Diminution du nombre de dimensions utilisées pour représenter une caractéristique particulière dans un vecteur de caractéristiques, généralement par conversion en un vecteur de représentation vectorielle continue.

dimensions

Terme complexe ayant l'une des définitions suivantes:

Nombre de niveaux de coordonnées dans un Tensor. Exemple :
- Un scalaire a zéro dimension ; par exemple, ["Hello"].
- Un vecteur a une dimension ; par exemple, [3, 5, 7, 11].
- Une matrice comporte deux dimensions ; par exemple, [[2, 4, 18], [5, 7, 14]].
Vous pouvez spécifier de manière unique une cellule particulière dans un vecteur à une dimension avec une coordonnée ; vous avez besoin de deux coordonnées pour spécifier de manière unique une cellule particulière dans une matrice à deux dimensions.
Nombre d'entrées dans un vecteur de caractéristiques.
Nombre d'éléments dans une couche de représentation vectorielle continue.

requête directe

#language

#IAgénérative

Synonyme de requête zero-shot.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble limité de valeurs possibles. Par exemple, une caractéristique dont les valeurs peuvent être uniquement animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

modèle discriminatif

model qui prédit les model à partir d'un ensemble d'une ou plusieurs model. Plus formellement, les modèles discriminatifs définissent la probabilité conditionnelle d'un résultat en fonction des caractéristiques et des pondérations. Autrement dit:

p(output | features, weights)

Par exemple, un modèle qui prédit si un e-mail est un spam à partir de caractéristiques et de pondérations est un modèle discriminatif.

La grande majorité des modèles d'apprentissage supervisé, y compris les modèles de classification et de régression, sont des modèles discriminatifs.

À comparer au modèle génératif.

discriminateur

Système qui détermine si les exemples sont réels ou faux.

Il s'agit également du sous-système au sein d'un réseau antagoniste génératif qui détermine si les exemples créés par le générateur sont réels ou faux.

impact disparate

#fairness

Prendre des décisions concernant les personnes qui ont un impact disproportionné sur différents sous-groupes de population. Il s'agit généralement de situations dans lesquelles un processus de prise de décision algorithmique nuit ou profite davantage à certains sous-groupes que d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier miniature est plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les lilliputiens big-Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputians de Little-Endian, cet algorithme peut entraîner un impact disparate.

À comparer au traitement disparate, qui se concentre sur les disparités qui se produisent lorsque les caractéristiques de sous-groupe sont des entrées explicites d'un processus de prise de décision basé sur des algorithmes.

traitement disparate

#fairness

Prendre en compte les attributs sensibles des sujets dans un processus de prise de décision basé sur un algorithme, de sorte que différents sous-groupes de personnes soient traités différemment

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un lilliputien en tant qu'entrée de type Big-Endian ou Little-Endian, il applique un traitement disparate selon cette dimension.

À comparer à l'impact disparate, qui se concentre sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient ou non des entrées du modèle.

distillation

#IAgénérative

Processus consistant à réduire la taille d'un model (appelé model) pour en faire un modèle plus petit (model) qui émule les prédictions du modèle d'origine le plus fidèlement possible. La distillation est utile, car le plus petit modèle présente deux avantages clés par rapport au modèle plus grand (l'enseignant):

Durée d'inférence plus rapide
Réduction de la consommation de mémoire et d'énergie

Toutefois, les prédictions de l'élève ne sont généralement pas aussi bonnes que celles de l'enseignant.

La distillation entraîne le modèle élève à minimiser une fonction de perte en fonction de la différence entre les sorties des prédictions des modèles élève et enseignant.

Indiquer les points communs et les différences entre la distillation et les termes suivants:

optimisation
apprentissage basé sur des requêtes

distribution

Fréquence et plage des différentes valeurs pour une caractéristique ou un étiquette donnée. Une distribution capture la probabilité d'une valeur particulière.

L'image suivante montre des histogrammes de deux distributions différentes:

À gauche, une loi de puissance répartit la richesse par rapport au nombre de personnes détenant cette richesse.
À droite, une distribution normale de la taille par rapport au nombre de personnes possédant cette taille.

Comprendre la distribution de chaque caractéristique et étiquette peut vous aider à déterminer comment normaliser les valeurs et détecter les anomalies.

L'expression out of distribution (hors distribution) fait référence à une valeur qui n'apparaît pas dans l'ensemble de données ou qui est très rare. Par exemple, une image de la planète Saturne serait considérée comme non distribuée pour un ensemble de données composé d'images de chats.

clustering divisif

#clustering

Voir clustering hiérarchique.

sous-échantillonnage

#image

Terme complexe pouvant signifier l'un des éléments suivants:

Réduire la quantité d'informations dans une caractéristique afin d'entraîner un modèle plus efficacement. Par exemple, avant d'entraîner un modèle de reconnaissance d'image, vous devez sous-échantillonner les images haute résolution dans un format de résolution inférieure.
Entraînement sur un pourcentage disproportionné d'exemples de classe surreprésentés afin d'améliorer l'entraînement du modèle sur les classes sous-représentées. Par exemple, dans un ensemble de données avec déséquilibre des classes, les modèles ont tendance à en apprendre beaucoup sur la classe majoritaire, et pas assez sur la classe minoritaire. Le sous-échantillonnage permet d'équilibrer la quantité d'entraînement sur les classes majoritaires et minoritaires.

DQN

#rl

Abréviation de Deep Q-Network.

régularisation par abandon

Forme de régularisation utile pour entraîner les réseaux de neurones. La régularisation par abandon supprime une sélection aléatoire d'un nombre fixe d'unités dans une couche réseau pour un pas de gradient unique. Plus il y a d'unités abandonnées, plus la régularisation est forte. Cette méthode est analogue à l'entraînement du réseau pour émuler un ensemble exponentiellement grand de réseaux plus petits. Pour en savoir plus, consultez l'article Dropout: A Simple Way to Prevent Neural Networks from Overtrained (Abandon : un moyen simple de prévenir le surapprentissage des réseaux de neurones).

dynamic

#fundamentals

Quelque chose fait fréquemment ou continuellement. Les termes dynamique et en ligne sont des synonymes en machine learning. Voici des utilisations courantes des propriétés dynamiques et en ligne en machine learning:

Un modèle dynamique (ou modèle en ligne) est un modèle réentraîné fréquemment ou en continu.
L'entraînement dynamique (ou l'entraînement en ligne) est le processus d'entraînement courant ou continu.
L'inférence dynamique (ou inférence en ligne) est le processus de génération de prédictions à la demande.

modèle dynamique

#fundamentals

model qui est fréquemment (peut-être continu) réentraîné. Un modèle dynamique s'adapte en permanence à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

exécution eager

#TensorFlow

Environnement de programmation TensorFlow dans lequel les operations s'exécutent immédiatement. En revanche, les opérations appelées dans l'exécution de graphe ne sont exécutées que lorsqu'elles sont explicitement évaluées. L'exécution eager est une interface impérative, tout comme le code de la plupart des langages de programmation. Les programmes d'exécution eager sont généralement beaucoup plus faciles à déboguer que les programmes d'exécution de graphe.

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à mettre fin à l'entraînement avant que la perte d'entraînement ne se termine. Lors de l'arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte d'un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de la généralisation se dégradent.

Cliquez sur l'icône pour afficher des notes supplémentaires.

L'arrêt prématuré peut sembler paradoxal. Après tout, demander à un modèle d'arrêter l'entraînement alors que la perte diminue toujours peut sembler dire à un chef d'arrêter la cuisson avant que le dessert ne soit complètement terminé. Toutefois, entraîner un modèle trop longtemps peut entraîner un surapprentissage. En d'autres termes, si vous entraînez un modèle trop longtemps, il risque de s'adapter aux données d'entraînement de sorte qu'il ne réalise pas de prédictions correctes pour de nouveaux exemples.

distance du déménageur (EMD)

Mesure de la similarité relative de deux distributions. Plus la distance est faible, plus les distributions sont similaires.

modifier la distance

#language

Mesure du degré de similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle est simple à calculer et constitue un moyen efficace de comparer deux chaînes connues pour être similaires ou de trouver des chaînes semblables à une chaîne donnée.

Il existe plusieurs définitions de la distance de modification, chacune utilisant différentes opérations de chaîne. Par exemple, la distance Levenshtein tient compte du plus petit nombre d'opérations de suppression, d'insertion et de remplacement.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les trois modifications suivantes représentent le moins de changements possible pour transformer un mot en un autre:

cœur → tart (remplacez "h" par "d")
deart → fléchette (supprimer "e")
fléchette → fléchettes (insert "s")

Notation Einsum

Une notation efficace pour décrire comment deux Tensors doivent être combinés. Pour combiner les Tensors, les éléments d'un Tensor sont multipliés par ceux de l'autre, puis additionnés des produits. La notation Einsum utilise des symboles pour identifier les axes de chaque Tensor. Ces mêmes symboles sont réorganisés pour spécifier la forme du nouveau Tensor obtenu.

NumPy fournit une implémentation Einsum commune.

couche de représentation vectorielle continue

#language

#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorielle de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche de représentation vectorielle continue permet à un réseau de neurones de s'entraîner bien plus efficacement que l'entraînement sur une caractéristique catégorielle de grande dimension.

Par exemple, Google Earth accueille actuellement environ 73 000 espèces d'arbres. Supposons que l'espèce d'arbre soit une caractéristique de votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot de 73 000 éléments. Par exemple, baobab serait peut-être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 éléments finaux contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps,car il doit être multiplié par 72 999 zéros. Si vous choisissez la couche de représentation vectorielle continue qui se compose de 12 dimensions, Par conséquent, le calque de représentation vectorielle continue apprendra progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable à une couche de représentation vectorielle continue.

espace de représentation vectorielle continue

#language

L'espace vectoriel à d dimensions auquel les caractéristiques d'un espace vectoriel de plus grande dimension sont mappés. Idéalement, l'espace de représentation vectorielle continue contient une structure qui produit des résultats mathématiques significatifs. Par exemple, dans un espace de représentation vectorielle continue idéal, l'addition et la soustraction de représentations vectorielles continues peuvent résoudre des tâches d'analogie de mots.

Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.

vecteur de représentation vectorielle continue

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante provenant de n'importe quelle couche cachée qui décrit les entrées de cette couche cachée. Souvent, un vecteur de représentation vectorielle continue correspond au tableau de nombres à virgule flottante entraîné dans une couche de représentation vectorielle continue. Par exemple, supposons qu'un calque de représentation vectorielle continue doit apprendre un vecteur de représentation vectorielle continue pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur de représentation vectorielle continue d'un baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n'est pas un groupe de nombres aléatoires. Une couche de représentation vectorielle continue détermine ces valeurs par l'entraînement, de la même manière qu'un réseau de neurones apprend d'autres pondérations pendant l'entraînement. Chaque élément du tableau est une note associée à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile à déterminer pour les êtres humains.

Ce qui est mathématiquement remarquable dans un vecteur de représentation vectorielle continue, c'est que des éléments similaires ont des ensembles similaires de nombres à virgule flottante. Par exemple, des espèces d'arbres similaires ont un ensemble de nombres à virgule flottante plus proche que des espèces d'arbres différentes. Les séquoias et les séquoias sont des espèces d'arbres apparentées, ils auront donc un ensemble de nombres à virgule flottante plus similaire que les séquoias et les cocotiers. Les nombres du vecteur de représentation vectorielle continue changent chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.

fonction de distribution empirique cumulée (eCDF, EDF)

Fonction de distribution cumulative basée sur des mesures empiriques provenant d'un ensemble de données réel. La valeur de la fonction à tout point de l'axe des abscisses correspond à la fraction des observations de l'ensemble de données inférieures ou égales à la valeur spécifiée.

minimisation du risque empirique (ERM)

Choisir la fonction qui minimise la perte pour l'ensemble d'entraînement. À comparer à la minimisation du risque structurel.

encodeur

#language

En général, tout système de ML qui convertit une représentation brute, creuse ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs constituent souvent un composant d'un modèle plus vaste, où ils sont fréquemment associés à un décodeur. Certains modèles Transformer associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Le décodeur utilise ensuite cet état interne pour prédire la séquence suivante.

Reportez-vous à la section Transformateur pour obtenir la définition d'un encodeur dans l'architecture Transformer.

groupe

Ensemble de modèles entraînés indépendamment, dont les prédictions sont moyennées ou agrégées. Dans de nombreux cas, un ensemble produit de meilleures prédictions qu'un seul modèle. Par exemple, une forêt aléatoire est un ensemble construit à partir de plusieurs arbres de décision. Notez que les forêts de décision ne sont pas toutes des ensembles.

entropie

#df

Dans le domaine de la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. Sinon, l'entropie est également définie comme la quantité d'informations contenues dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont égaux à probabilités.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) se compose de la formule suivante:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

H est l'entropie ;
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = (1 - p)
log est généralement log₂. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

100 exemples contiennent la valeur "1"
300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bits par exemple

Un ensemble parfaitement équilibré (par exemple, 200 0 et 200 1) aurait une entropie de 1 bit par exemple. Lorsqu'un ensemble présente un déséquilibre, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler la gagnage d'informations pour aider le séparateur à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparer l'entropie avec:

impurité du gini
Fonction de perte de l'entropie croisée

L'entropie est souvent appelée entropie de Shannon.

de production

#rl

Dans l'apprentissage par renforcement, il s'agit du monde qui contient l'agent et lui permet d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu comme les échecs, ou un monde physique comme un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées d'apprentissage d'un environnement par l'agent.

epoch

#fundamentals

Un passage d'entraînement complet sur l'intégralité de l'ensemble d'entraînement de sorte que chaque exemple a été traité une fois.

Une époque représente N/taille de lot des itérations d'entraînement, où N correspond au nombre total d'exemples.

Par exemple, supposons les éléments suivants:

L'ensemble de données comprend 1 000 exemples.
La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

règle epsilon greedy

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui suit soit une règle aléatoire avec une probabilité epsilon, soit une règle gloutonne dans le cas contraire. Par exemple, si la valeur epsilon est égale à 0,9, la règle suit une règle aléatoire 90% du temps et une règle gloutonne 10% du temps.

Au cours d'épisodes successifs, l'algorithme réduit la valeur d'epsilon pour passer d'une règle aléatoire à une règle gloutonne. En modifiant la règle, l'agent commence par explorer l'environnement de manière aléatoire, puis exploite avec abondance les résultats de l'exploration aléatoire.

égalité des chances

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit aussi bien le résultat souhaitable pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaité d'un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux cotes égales, ce qui nécessite que les taux de vrais positifs et de taux de faux positifs soient à la fois identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputians proposent un programme solide de cours de mathématiques et la grande majorité des étudiants sont qualifiés pour le programme universitaire. Les écoles secondaires de Brobdingnagians ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite pour l'étiquette préférée "admis" en fonction de la nationalité (liliputien ou brobdingnagien) si les étudiants qualifiés sont également susceptibles d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 liliputiens et 100 Brobdingnagiens aient postulé à l'université de Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats lilliputiens (90% sont qualifiés)

	Qualifié	Non défini
Admis	45	3
Refusé	45	7
Total	90	10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50% Pourcentage d'étudiants non qualifiés rejetés: 7/10 = 70% Pourcentage total d'étudiants lilliputiens admis: (45 + 3)/100 = 48%

Tableau 2. Candidats boursiers (10% sont qualifiés):

	Qualifié	Non défini
Admis	5	9
Refusé	5	81
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'étudiants non qualifiés rejetés: 81/90 = 90% Pourcentage total d'étudiants de Brobdingnag acceptés: (5+9)/100 = 14%

Les exemples précédents satisfont à l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont 50% de chances d'être acceptés.

Bien que l'égalité des chances soit satisfaite, les deux métriques d'équité suivantes ne le sont pas:

Parité démographique: les lilliputiens et les Brobdingnagiens sont admis dans l'université à des taux différents. 48% des étudiants lilliputiens sont acceptés, contre seulement 14% de ceux de Brobdingnag.
Probabilité égale: si les élèves lilliputiens et brobdingnagés qualifiés ont tous les deux les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont tous les deux la même chance d'être rejetés n'est pas satisfaite. Les lilliputiens non qualifiés présentent un taux de refus de 70 %, tandis que les brobdingnagiens non qualifiés obtiennent un taux de refus de 90 %.

Pour une discussion plus détaillée sur l'égalité des chances, consultez l'article Égalité des chances dans l'apprentissage supervisé. Consultez également la section Attaquer la discrimination avec un machine learning plus intelligent pour une visualisation présentant les compromis à faire lors de l'optimisation de l'égalité des chances.

cotes égales

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit les résultats de manière égale pour toutes les valeurs d'un attribut sensible, par rapport à la classe positive et à la classe négative, et pas seulement à l'une ou l'autre classe. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

L'égalité des chances est liée à l'égalité des chances, qui se concentre uniquement sur les taux d'erreur d'une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brodingnagiens dans un programme de mathématiques rigoureux. Les établissements d'enseignement secondaire des Lilliputiens proposent un solide programme de cours de mathématiques et la grande majorité des étudiants sont qualifiés pour le programme universitaire. Les établissements d'enseignement secondaire de Brobdingnagians ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite à condition qu'un candidat soit soit Lilliputien ou Brobdingnag, qu'il soit qualifié, il a autant de chances d'être admis dans le programme, et s'il n'est pas qualifié, il aura autant de chances d'être rejeté.

Supposons que 100 liliputiens et 100 Brobdingnagiens aient postulé à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 3 : Candidats lilliputiens (90% sont qualifiés)

	Qualifié	Non défini
Admis	45	2
Refusé	45	8
Total	90	10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50% Pourcentage d'élèves non qualifiés rejetés: 8/10 = 80% Pourcentage total d'étudiants lilliputiens admis: (45 + 2)/100 = 47%

Tableau 4. Candidats boursiers (10% sont qualifiés):

	Qualifié	Non défini
Admis	5	18
Refusé	5	72
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'élèves non qualifiés rejetés: 72/90 = 80% Pourcentage total d'étudiants de Brobdingnag acceptés: (5+18)/100 = 23%

La égalité des chances est satisfaite, car les étudiants lilliputiens et brobdingnagés qualifiés ont 50% de chances d'être admis, tandis que les autres élèves ont 80% de chances d'être rejetés.

L'égalité des chances est formellement définie dans Égalité des opportunités dans l'apprentissage supervisé, comme suit : "Le prédicteur Ŷ satisfait les probabilités égales par rapport à l'attribut protégé A et le résultat Y si Ŷ et A sont indépendants, conditionnels à Y."

Estimator

#TensorFlow

API TensorFlow obsolète. Utilisez tf.keras au lieu d'Estimators.

hors connexion

Processus consistant à mesurer la qualité des prédictions d'un modèle de machine learning. Lors du développement d'un modèle, vous appliquez généralement des métriques d'évaluation non seulement à l'ensemble d'entraînement, mais également à un ensemble de validation et à un ensemble de test. Vous pouvez aussi utiliser des métriques d'évaluation pour comparer différents modèles.

pour décrire cela.

#fundamentals

Valeurs d'une ligne de caractéristiques et éventuellement d'un étiquette. Les exemples d'apprentissage supervisé appartiennent à deux catégories générales:

Un exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Les exemples étiquetés sont utilisés pendant l'entraînement.
Un exemple sans étiquette comprend une ou plusieurs caractéristiques, mais pas d'étiquette. Les exemples sans étiquette sont utilisés pendant l'inférence.

Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Voici trois exemples étiquetés:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	Bonne
19	34	1020	Excellente
18	92	1012	Médiocre

Voici trois exemples sans étiquette:

Température	Humidité	Pression
12	62	1014
21	47	1017
19	41	1021

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple est généralement constitué d'un sous-ensemble des colonnes de l'ensemble de données. De plus, les caractéristiques d'un exemple peuvent également inclure des caractéristiques synthétiques, telles que des croisements de caractéristiques.

rediffusion de l'expérience

#rl

Dans l'apprentissage par renforcement, technique DQN permettant de réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir de ce tampon pour créer des données d'entraînement.

biais de l'expérimentateur

#fairness

Voir biais de confirmation.

problème de gradient exponentiel

#seq

Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment raides (élevés). Les gradients escarpés entraînent souvent des mises à jour très importantes des pondérations de chaque nœud d'un réseau de neurones profond.

Il devient difficile, voire impossible, d'entraîner des modèles qui souffrent de l'explosion des gradients. Le bornement de la norme du gradient peut atténuer ce problème.

À comparer au problème de la disparition du gradient.

F

F₁

Une métrique de classification binaire de "cumulation" qui repose à la fois sur la précision et le rappel. Voici la formule:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Prenons l'exemple suivant:

précision = 0,6
rappel = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), F₁ est proche de leur moyenne. Lorsque la précision et le rappel sont très différents, F₁ est plus proche de la valeur inférieure. Exemple :

précision = 0,9
rappel = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

contrainte d'équité

#fairness

Appliquer une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions d'équité sont satisfaites. Voici quelques exemples de contraintes d'équité:

Post-traiter la sortie de votre modèle
Modification de la fonction de perte afin d'intégrer une pénalité pour non-respect d'une métrique d'équité.
Ajouter directement une contrainte mathématique à un problème d'optimisation.

métrique d'équité

#fairness

Définition mathématique de l'« impartialité » qui est mesurable. Voici quelques métriques d’équité couramment utilisées:

cotes égales
parité prédictive
impartialité contrefactuelle
parité démographique

De nombreuses métriques d'équité s'excluent mutuellement. Consultez la section Incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail donné n'est pas un spam (classe négative), alors que cet e-mail est en réalité du spam.

taux de faux négatifs

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

faux positif (FP) (false positive (FP))

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (la classe positive), alors que cet e-mail n'est pas du spam.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Un exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	92
19	34	1020	84
18	92	1012	87

À comparer au libellé.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par le croisement de caractéristiques catégorielles ou réparties en buckets.

Prenons l'exemple d'un modèle de "prévision de l'humeur" qui représente la température dans l'un des quatre buckets suivants:

freezing
chilly
temperate
warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

still
light
windy

Sans croisements de caractéristiques, le modèle linéaire est entraîné indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle s'entraîne avec, par exemple, freezing indépendamment de l'entraînement effectué sur windy, par exemple.

Vous pouvez également créer un croisement de caractéristiques de température et de vitesse du vent. Cette caractéristique synthétique aurait les 12 valeurs possibles suivantes:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune un grand nombre de buckets différents, le croisement de caractéristiques qui en résulte proposera un grand nombre de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et que l'autre en compte 2 000, le croisement de caractéristiques obtenu contient 2 000 000 buckets.

Officiellement, une croix est un produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec les modèles linéaires et rarement avec les réseaux de neurones.

l'ingénierie des caractéristiques.

#fundamentals

#TensorFlow

Un processus qui comprend les étapes suivantes:

Déterminer les caractéristiques qui pourraient être utiles pour entraîner un modèle
Conversion des données brutes de l'ensemble de données en versions efficaces de ces caractéristiques.

Par exemple, vous pouvez déterminer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite tester le binning pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurisation.

Cliquez sur l'icône pour obtenir des notes supplémentaires sur TensorFlow.

Dans TensorFlow, l'ingénierie des caractéristiques implique souvent de convertir les entrées de fichier journal brutes en tampons de protocole tf.Example. Voir aussi tf.Transform.

extraction de caractéristiques

Terme complexe ayant l'une des définitions suivantes:

Récupérer des représentations de caractéristiques intermédiaires calculées par un modèle non supervisé ou pré-entraîné (par exemple, des valeurs de couche cachée dans un réseau de neurones) pour les utiliser en entrée dans un autre modèle
Synonyme d'ingénierie des caractéristiques.

importances des caractéristiques

#df

Synonyme d'importance des variables.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques utilisées pour entraîner votre modèle de machine learning. Par exemple, le code postal, la taille du bien et l'état du bien peuvent comporter un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

spécification des caractéristiques

#TensorFlow

Cette page décrit les informations requises pour extraire les données de features du tampon de protocole tf.Example. Étant donné que le tampon de protocole tf.Example n'est qu'un conteneur de données, vous devez spécifier les éléments suivants:

Données à extraire (c'est-à-dire les clés des caractéristiques)
Type de données (par exemple, float ou int)
La longueur (fixe ou variable)

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de caractéristiques comprenant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques discrètes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.
La couche d'entrée contient deux nœuds, l'un contenant la valeur 0,92 et l'autre contenant la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques de l'exemple suivant pourrait donc ressembler à ceci:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter les caractéristiques dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée par l'encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et d'un seul 1,0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Autre exemple : supposons que votre modèle se compose de trois caractéristiques :

Caractéristique catégorielle binaire avec cinq valeurs possibles représentées par un encodage one-hot. Exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées par l'encodage one-hot. Exemple: [0.0, 0.0, 1.0]
Caractéristique à virgule flottante, par exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait le suivant:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featurisation

Processus consistant à extraire des caractéristiques à partir d'une source d'entrée, telle qu'un document ou une vidéo, et à les mapper dans un vecteur de caractéristiques.

Certains experts en ML utilisent la featurization comme synonyme d'ingénierie des caractéristiques ou d'extraction de caractéristiques.

apprentissage fédéré

approche de machine learning distribué qui entraîne des modèles de machine learning à l'aide d'exemples décentralisés et hébergés sur des appareils tels que des smartphones. Dans l'apprentissage fédéré, un sous-ensemble d'appareils télécharge le modèle actuel à partir d'un serveur central de coordination. Les appareils utilisent les exemples stockés sur les appareils pour améliorer le modèle. Les appareils importent ensuite les améliorations du modèle (mais pas les exemples d'entraînement) sur le serveur de coordination, où elles sont agrégées avec d'autres mises à jour pour générer un modèle global amélioré. Après l'agrégation, les mises à jour du modèle calculées par les appareils ne sont plus nécessaires et peuvent être supprimées.

Étant donné que les exemples d'entraînement ne sont jamais importés, l'apprentissage fédéré respecte les principes de confidentialité de la collecte ciblée et de la minimisation des données.

Pour en savoir plus sur l'apprentissage fédéré, consultez ce tutoriel.

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre modèle. Par exemple, un modèle qui recommande des films influence les films que les spectateurs voient, ce qui influence ensuite les modèles de recommandation de films suivants.

Réseau de neurones feedforward (FFN)

Réseau de neurones sans connexions cycliques ou récursives. Par exemple, les réseaux de neurones profonds traditionnels sont des réseaux de neurones feedforward. À comparer aux réseaux de neurones récurrents, qui sont cycliques.

apprentissage few-shot

Approche du machine learning, souvent utilisée pour la classification des objets, conçue pour entraîner des classificateurs efficaces à partir d'un petit nombre d'exemples d'entraînement seulement.

Voir aussi apprentissage one-shot et apprentissage zero-shot.

requête few-shot

#language

#IAgénérative

Une requête contenant plusieurs exemples (un "quelques-uns") montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux exemples montrant à un grand modèle de langage comment répondre à une requête.

Composantes d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	Question à laquelle le LLM doit répondre.
`France: EUR`	Prenons un exemple.
`Royaume-Uni: GBP`	Autre exemple.
`Inde` :	La requête réelle.

Les requêtes few-shot produisent généralement des résultats plus souhaitables que les requêtes zero-shot et les requêtes one-shot. Toutefois, les requêtes few-shot nécessitent une requête plus longue.

La requête few-shot est une forme d'apprentissage few-shot, appliquée à l'apprentissage basé sur des requêtes.

Violon

#language

Bibliothèque de configuration Python qui définit les valeurs des fonctions et des classes sans code ou infrastructure invasif. Dans le cas de Pax et d'autres codebases de ML, ces fonctions et classes représentent des modèles et des hyperparamètres d'entraînement.

Fiddle suppose que les codebases de machine learning sont généralement divisés en:

Le code de bibliothèque, qui définit les couches et les optimiseurs.
Code "glue" de l'ensemble de données, qui appelle les bibliothèques et relie le tout ensemble.

Fiddle capture la structure d'appel du code Glue sous une forme non évaluée et modifiable.

affinage

#language

#image

#IAgénérative

Une seconde passe d'entraînement spécifique à une tâche, effectuée sur un modèle pré-entraîné pour affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète pour certains grands modèles de langage se présente comme suit:

Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, comme toutes les pages Wikipédia en langue anglaise.
Affinage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, par exemple répondre à des requêtes médicales. L'affinage implique généralement des centaines ou des milliers d'exemples axés sur une tâche spécifique.

Autre exemple, la séquence d'entraînement complète pour un grand modèle d'images se présente comme suit:

Pré-entraînement:entraînez un grand modèle d'images sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia Commons.
Affinage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, telle que la génération d'images d'orques.

L'affinage peut nécessiter n'importe quelle combinaison des stratégies suivantes:

Modifier tous les paramètres existants du modèle pré-entraîné. On parle parfois d'ajustement complet.
Modifier uniquement certains paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en ne modifiant que les autres paramètres existants (généralement, les couches les plus proches de la couche d'entrée) Consultez la section Réglage efficace des paramètres.
Ajouter d'autres couches, généralement au-dessus des couches existantes les plus proches de la couche de sortie

L'affinage est une forme d'apprentissage par transfert. Ainsi, l'affinage peut utiliser une fonction de perte ou un type de modèle différents de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'images pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Indiquer les points communs et les différences entre l'affinage avec les termes suivants:

distillation
apprentissage basé sur des requêtes

Lin

#language

Bibliothèque Open Source hautes performances pour le deep learning basée sur JAX. Flax propose des fonctions pour l'entraînement des réseaux de neurones, ainsi que des méthodes pour évaluer leurs performances.

Lin

#language

Bibliothèque Transformer Open Source basée sur Flax, conçue principalement pour le traitement du langage naturel et la recherche multimodale.

porte de suppression

#seq

Partie d'une cellule de mémoire à court terme à long terme qui régule le flux d'informations dans la cellule. Les portes "Forget" conservent le contexte en décidant quelles informations supprimer de l'état de la cellule.

softmax complet

Synonyme de softmax.

À comparer à l'échantillonnage de candidats.

couche entièrement connectée

Une couche cachée dans laquelle chaque nœud est connecté à chaque nœud de la couche cachée suivante.

Une couche entièrement connectée est également appelée couche dense.

transformation de fonction

Fonction qui reçoit une fonction en entrée et renvoie une fonction transformée en sortie. JAX utilise les transformations de fonction.

G

GAN

Abréviation de réseau antagoniste génératif.

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes sur des données nouvelles qui n'ont pas encore été vues. Un modèle pouvant généraliser est l'opposé d'un modèle en surapprentissage.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Vous entraînez un modèle avec les exemples de l'ensemble d'entraînement. Par conséquent, le modèle apprend les particularités des données de l'ensemble d'entraînement. La généralisation consiste essentiellement à demander si votre modèle peut réaliser des prédictions correctes pour des exemples qui ne figurent pas dans l'ensemble d'entraînement.

Pour favoriser la généralisation, la régularisation permet d'entraîner un modèle moins précisément en fonction des particularités des données de l'ensemble d'entraînement.

courbe de généralisation

#fundamentals

Graphique représentant à la fois la perte d'entraînement et la perte de validation en tant que fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient en fin de compte beaucoup plus élevée que la perte d'entraînement.

Un graphique cartésien dans lequel l'axe des y est étiqueté "perte" et l'axe des x est étiqueté "itérations". Deux tracés apparaissent. L'un montre la perte d'entraînement et l'autre la perte de validation.
Les deux tracés débutent de la même manière, mais la perte d'entraînement finit par chuter bien plus bas que la perte de validation.

modèle linéaire généralisé

Généralisation des modèles de régression des moindres carrés, qui sont basés sur le bruit gaussien, à d'autres types de modèles basés sur d'autres types de bruit, tels que le bruit de Poisson ou le bruit catégoriel. Voici quelques exemples de modèles linéaires généralisés:

régression logistique
régression à classes multiples
régression des moindres carrés

Les paramètres d'un modèle linéaire généralisé peuvent être déterminés via l'optimisation convexe.

Les modèles linéaires généralisés présentent les propriétés suivantes:

La prédiction moyenne du modèle de régression des moindres carrés optimal est égale à l'étiquette moyenne des données d'entraînement.
La probabilité moyenne prédite par le modèle de régression logistique optimal est égale à l'étiquette moyenne des données d'entraînement.

La puissance d'un modèle linéaire généralisé est limitée par ses caractéristiques. Contrairement à un modèle profond, un modèle linéaire généralisé ne peut pas "apprendre de nouvelles caractéristiques".

réseau antagoniste génératif (GAN)

Système permettant de créer des données, dans lequel un générateur crée des données et un discriminateur détermine si ces données créées sont valides ou non.

IA générative

#language

#image

#IAgénérative

Un domaine qui se transforme en émergence sans définition formelle. Cela dit, la plupart des experts s'accordent sur le fait que les modèles d'IA générative peuvent créer ("générer") du contenu:

complexe
cohérentes
originale

Par exemple, un modèle d'IA générative peut créer des dissertations ou des images sophistiquées.

Certaines technologies plus anciennes, y compris les LSTM et les RNN, peuvent également générer un contenu original et cohérent. Certains experts considèrent ces technologies antérieures comme de l'IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ces technologies antérieures.

À comparer au ML prédictif.

modèle génératif

En pratique, un modèle qui effectue l'une des opérations suivantes:

Crée (génère) des exemples à partir de l'ensemble de données d'entraînement. Par exemple, un modèle génératif peut créer des poèmes après avoir été entraîné sur un ensemble de données de poèmes. La partie générateur d'un réseau antagoniste génératif entre dans cette catégorie.
Détermine la probabilité qu'un nouvel exemple provienne de l'ensemble d'entraînement ou ait été créé à partir du même mécanisme qui a créé l'ensemble d'entraînement. Par exemple, après l'entraînement sur un ensemble de données composé de phrases en anglais, un modèle génératif pourrait déterminer la probabilité que la nouvelle entrée soit une phrase anglaise valide.

Un modèle génératif peut théoriquement discerner la distribution d'exemples ou de caractéristiques particulières dans un ensemble de données. Par exemple :

p(examples)

Les modèles d'apprentissage non supervisés sont génératifs.

À comparer aux modèles discriminatifs.

générateur

Sous-système au sein d'un réseau antagoniste génératif qui crée de nouveaux exemples.

À comparer au modèle discriminatif.

impurité du gini

#df

Métrique semblable à entropie. Les séparateurs utilisent des valeurs dérivées de l'impurité ou de l'entropie de gini pour composer des conditions pour les arbres de décision de classification. Le gain d'informations est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté du gini. Toutefois, cette métrique sans nom est tout aussi importante que l'acquisition d'informations.

L'impureté de Gini est également appelée indice gini, ou tout simplement gini.

Cliquez sur l’icône pour obtenir des détails mathématiques sur l’impurité du gini.

L'impureté de Gini est la probabilité de mal classer un nouvel élément de données provenant de la même distribution. L'impureté de gini d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) est calculée à l'aide de la formule suivante:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

où :

I correspond à l'impureté du gini.
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant:

100 étiquettes (0,25 de l'ensemble de données) contiennent la valeur "1"
300 étiquettes (0,75 de l'ensemble de données) contiennent la valeur "0"

Par conséquent, l'impureté du gini est:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Par conséquent, une étiquette aléatoire du même ensemble de données aurait 37,5% de chances d'être mal classée, et 62,5% de chances d'être correctement classée.

Une étiquette parfaitement équilibrée (par exemple, 200 "0" et 200 "1") présenterait une impurité de gini de 0,5. Une étiquette très déséquilibrée présenterait une impurité de gini proche de 0,0.

ensemble de données clé

Ensemble de données sélectionnées manuellement qui capture la vérité terrain. Les équipes peuvent évaluer la qualité d'un modèle à l'aide d'un ou de plusieurs ensembles de données clés.

Certains ensembles de données clés capturent différents sous-domaines de la vérité terrain. Par exemple, un ensemble de données complet pour la classification d'images peut capturer les conditions d'éclairage et la résolution d'image.

GPT (Generative Pre-trained Transformer)

#language

Famille de grands modèles de langage basés sur Transformer et développés par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:

génération d'images (par exemple, ImageGPT)
génération d'images à partir de texte (par exemple, DALL-E).

gradient

Vecteur des dérivées partielles calculées pour l'ensemble des variables indépendantes. En machine learning, le gradient est le vecteur des dérivées partielles de la fonction du modèle. Le gradient indique la direction de l'ascension la plus forte.

accumulation de gradient

Technique de rétropropagation qui ne met à jour les paramètres qu'une fois par epoch, et non une fois par itération. Après le traitement de chaque mini-lot, l'accumulation de gradients met simplement à jour le total cumulé des gradients. Ensuite, après le traitement du dernier mini-lot de l'époque, le système met à jour les paramètres en fonction du total de toutes les modifications de gradient.

L'accumulation de gradients est utile lorsque la taille de lot est très importante par rapport à la quantité de mémoire disponible pour l'entraînement. Lorsque la mémoire pose problème, la tendance naturelle consiste à réduire la taille de lot. Toutefois, la réduction de la taille de lot lors d'une rétropropagation normale augmente le nombre de mises à jour des paramètres. L'accumulation de gradients permet au modèle d'éviter les problèmes de mémoire, tout en maintenant l'efficacité de l'entraînement.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

L'entraînement repose sur le boosting de gradient.
Le modèle faible est un arbre de décision.

boosting de gradient

#df

Algorithme d'entraînement dans lequel les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou un petit modèle en arbre de décision. Le modèle fort devient la somme de tous les modèles faibles entraînés précédemment.

Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné à prédire le gradient de perte d'un modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prévu, comme pour la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

$F_{0}$ est le modèle robuste de départ.
$F_{i+1}$ est le prochain modèle fort.
$F_{i}$ est le modèle performant actuel.
$\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, analogue au taux d'apprentissage dans la descente de gradient.
$f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variations modernes de l'augmentation de gradient incluent également la dérivée secondaire (hessienne) de la perte dans leurs calculs.

Les arbres de décision sont couramment utilisés comme modèles peu sécurisés pour le boosting de gradient. Consultez les arbres de décision à boosting de gradient.

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour atténuer le problème de gradient exponentiel en limitant (écrasant) artificiellement la valeur maximale des gradients lorsque vous utilisez la descente de gradient pour entraîner un modèle.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient ajuste de manière itérative les pondérations et les biais, afin de trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est beaucoup plus ancienne que le machine learning.

graphique

#TensorFlow

Dans TensorFlow, une spécification de calcul. Les nœuds du graphe représentent les opérations. Les bords sont orientés et représentent la transmission du résultat d'une opération (un Tensor) en tant qu'opérande vers une autre opération. Utilisez TensorBoard pour visualiser un graphe.

exécution de graphe

#TensorFlow

Environnement de programmation TensorFlow dans lequel le programme commence par construire un graphe, puis exécute tout ou partie de ce graphe. L'exécution de graphe est le mode d'exécution par défaut dans TensorFlow 1.x.

À comparer à l'exécution eager.

règlement gourmand

#rl

Dans l'apprentissage par renforcement, une règle qui choisit toujours l'action ayant le retour attendu le plus élevé.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé réellement.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra son diplôme dans les six ans. La vérité terrain pour ce modèle est de savoir si cet étudiant a effectivement obtenu son diplôme dans les six ans.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Nous évaluons la qualité du modèle par rapport à la vérité terrain. Cependant, elle n'est pas toujours complète, bien et véridique. Prenons les exemples suivants d'imperfections potentielles dans la vérité terrain:

Dans l'exemple d'obtention du diplôme, sommes-nous certain que les résultats de chaque élève sont toujours corrects ? La tenue des dossiers de l'université est-elle irréprochable ?
Supposons que l'étiquette soit une valeur à virgule flottante mesurée par des instruments (par exemple, des baromètres). Comment être sûr que chaque instrument est calibré de manière identique ou que chaque mesure a été prise dans les mêmes circonstances ?
Si l'étiquette est une question d'opinion humaine, comment être sûr que chaque évaluateur humain évalue les événements de la même manière ? Pour améliorer la cohérence, des évaluateurs manuels experts interviennent parfois.

biais de représentativité

#fairness

Supposons que ce qui est vrai pour un individu s'applique également à tous les membres de ce groupe. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de convenance est utilisé pour la collecte des données. Dans un échantillon non représentatif, des attributions qui ne reflètent pas la réalité peuvent être effectuées.

Voir aussi biais d'homogénéité de l'exogroupe et biais d'appartenance.

H

hallucination

#language

Production de résultats qui semblent plausibles, mais qui sont en fait incorrects par un modèle d'IA générative qui prétend être une assertion sur le monde réel. Par exemple, un modèle d'IA générative qui affirme que Barack Obama est mort en 1865 est en hallucination.

hachage

Dans le machine learning, un mécanisme de binning des données catégorielles, en particulier lorsque le nombre de catégories est élevé, mais que le nombre de catégories qui apparaissent réellement dans l'ensemble de données est relativement faible.

Par exemple, la Terre abrite environ 73 000 espèces d'arbres. Vous pouvez représenter chacune des 73 000 espèces d'arbres dans 73 000 buckets catégoriels distincts. Si seulement 200 de ces espèces d'arbres figurent réellement dans un ensemble de données, vous pouvez utiliser le hachage pour diviser les espèces d'arbres en 500 buckets.

Un même bucket peut contenir plusieurs espèces d'arbres. Par exemple, le hachage pourrait placer le baobab et l'érable rouge dans le même bucket, deux espèces génétiquement dissemblables. Quoi qu'il en soit, le hachage reste un bon moyen de mapper de grands ensembles catégoriels au nombre de buckets sélectionné. Le hachage transforme une caractéristique catégorielle ayant un grand nombre de valeurs possibles en un nombre bien plus réduit en regroupant les valeurs de manière déterministe.

heuristique

Une solution simple et rapidement mise en œuvre à un problème. Par exemple, "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous avons adopté un réseau de neurones profond, la précision a atteint 98%."

couche cachée

#fundamentals

Couche d'un réseau de neurones entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée se compose d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones:

Un réseau de neurones profond contient plusieurs couches cachées. Par exemple, l'illustration précédente montre un réseau de neurones profond, car le modèle contient deux couches cachées.

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est particulièrement adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis divise le cluster de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

marge maximale

Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVMs utilisent la marge maximale (ou une fonction associée, comme le carré de la marge maximale). Pour la classification binaire, la fonction de marge maximale est définie comme suit:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

où y est l'étiquette réelle (-1 ou +1), et y' est la sortie brute du modèle de classificateur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') se présente comme suit:

Graphique cartésien composé de deux segments de droite reliés. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le deuxième segment de ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

biais historique

#fairness

Type de biais qui existe déjà dans le monde et a été intégré dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels, les inégalités démographiques et les préjugés à l'encontre de certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt tombera en défaut de paiement ou non. Ce modèle a été entraîné sur l'historique des données par défaut de prêt datant des années 1980 auprès de banques locales de deux communautés différentes. Si les anciens candidats de la communauté A étaient six fois plus susceptibles de ne pas s'acquitter de leurs prêts que ceux de la communauté B, le modèle pourrait apprendre un biais historique, ce qui le rendrait moins susceptible d'approuver les prêts dans la communauté A, même si les conditions historiques ayant entraîné des taux de défaut plus élevés pour cette communauté n'étaient plus pertinentes.

données exclues

Exemples intentionnellement non utilisés ("exclus") pendant l'entraînement. L'ensemble de données de validation et l'ensemble de données de test sont des exemples de données exclues. Les données exclues permettent d'évaluer la capacité de votre modèle à se généraliser à des données autres que celles sur lesquelles il a été entraîné. La perte sur l'ensemble de données exclues fournit une meilleure estimation de la perte sur un ensemble de données inconnu que sur l'ensemble d'entraînement.

hôte

#TensorFlow

#GoogleCloud

Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui contrôle les deux éléments suivants:

Flux global du code
L'extraction et la transformation du pipeline d'entrée.

L'hôte s'exécute généralement sur un processeur, et non sur une puce d'accélération. L'appareil manipule les Tensors sur les puces d'accélération.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage d'hyperparamètresajustez lors des exécutions successives d'entraînement d'un modèle. Par exemple, le taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

En revanche, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

hyperplan

Limite qui sépare un espace en deux sous-espaces. Par exemple, une ligne est un hyperplan en deux dimensions, et un plan est un hyperplan en trois dimensions. Plus généralement en machine learning, un hyperplan est la frontière qui sépare un espace de grande dimension. Les machines à vecteurs de support à noyau utilisent des hyperplans pour séparer les classes positives des classes négatives, souvent dans un espace de très grande dimension.

I

variables iid.

Abréviation de distribué de manière indépendante et identique.

reconnaissance d'image

#image

Processus qui classe un ou plusieurs objets, modèles ou concepts dans une image. La reconnaissance d'image est également appelée classification d'images.

Pour en savoir plus, consultez la page Travaux pratiques sur le ML: Classification d'images.

ensemble de données déséquilibré

Synonyme d'ensemble de données avec déséquilibre des classes.

biais implicite

#fairness

Effectuer automatiquement une association ou une hypothèse en fonction de ses modèles d'esprit et de ses mémoires. Le biais implicite peut avoir une incidence sur les éléments suivants:

Comment les données sont collectées et classées.
Découvrez comment les systèmes de machine learning sont conçus et développés.

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser comme caractéristique la présence d'une robe blanche sur une photo. Cependant, les robes blanches ne sont d'usage qu'à certaines époques et dans certaines cultures.

Voir aussi biais de confirmation.

imputation

Forme abrégée d'imputation de la valeur.

Incompatibilité des métriques d'équité

#fairness

L'idée que certaines notions d'équité sont incompatibles les unes avec les autres et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique permettant de quantifier l'équité qui peut être appliquée à tous les problèmes de ML.

Bien que cela puisse paraître décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité n'ont pas été vains. Il suggère plutôt que l'équité doit être définie en fonction du contexte pour un problème de ML donné, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Pour en savoir plus sur ce sujet, consultez la section Sur la (im)possibilité de l'impartialité.

apprentissage en contexte

#language

#IAgénérative

Synonyme de requête few-shot.

variables indépendantes et identiquement distribuées (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas et où chaque valeur tirée ne dépend pas des valeurs précédemment dessinées. Une variable iid est le gaz idéal du machine learning. Il s'agit d'une construction mathématique utile qui ne se rencontre quasiment jamais à l'identique dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peut être des variables iid sur une courte période, c'est-à-dire qu'elle ne change pas pendant cette courte période et que la visite d'une personne est généralement indépendante de celle d'une autre. Toutefois, si vous étendez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

équité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de la même manière. Par exemple, la Brobdingnagian Academy peut veiller à l'impartialité individuelle en s'assurant que deux étudiants ayant des notes identiques et des résultats de test standardisés ont la même probabilité d'être admis.

Notez que l'impartialité individuelle dépend entièrement de la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous risquez donc d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (telles que la rigueur du programme d'un élève).

Pour une discussion plus détaillée sur l'impartialité individuelle, consultez l'article L'équité par la conscience.

inférence

#fundamentals

Dans le machine learning, processus qui consiste à effectuer des prédictions en appliquant un modèle entraîné à des exemples sans étiquette.

En statistique, l'inférence a une signification légèrement différente. Pour en savoir plus, consultez l' article Wikipédia sur l'inférence statistique.

chemin d'inférence

#df

Dans un arbre de décision, lors d'une inférence, la route empruntée par un exemple particulier de la racine vers d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses indiquent le chemin d'inférence d'un exemple avec les valeurs de caractéristiques suivantes:

x = 7
y = 12
z = -3

Dans l'illustration suivante, le chemin d'inférence passe par trois conditions avant d'atteindre la feuille (Zeta).

Les trois flèches épaisses représentent le chemin d'inférence.

acquisition d'informations

#df

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (en nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples présents dans ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

entropie du nœud parent = 0,6
entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc:

Gain d'informations = entropie du nœud parent - somme d'entropie pondérée des nœuds enfants
gain d'informations = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres caractéristiques. Si les testeurs ou les évaluateurs sont composés d'amis, de membres de la famille ou de collègues du développeur de machine learning, le biais d'appartenance peut invalider les tests du produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais d'attribution de groupe. Voir aussi biais d'homogénéité de l'exogroupe.

générateur d'entrée

Mécanisme par lequel des données sont chargées dans un réseau de neurones.

Un générateur d'entrées peut être considéré comme un composant responsable du traitement des données brutes dans des Tensors itérés afin de générer des lots pour l'entraînement, l'évaluation et l'inférence.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones contenant le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant comprend deux caractéristiques:

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.

condition dans l'ensemble

#df

Dans un arbre de décision, condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition intégrée:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la caractéristique de style maison est tudor, colonial ou cape, cette condition renvoie la valeur "Oui". Si la valeur de la caractéristique de type maison est autre (par exemple, ranch), cette condition renvoie la valeur "Non".

Les conditions dans l'ensemble génèrent généralement des arbres de décision plus efficaces que les conditions qui testent les caractéristiques à encodage one-hot.

instance

Synonyme d'exemple.

réglage des instructions

#IAgénérative

Forme d'ajustement qui améliore la capacité d'un modèle d'IA générative à suivre les instructions. Le réglage des instructions implique l'entraînement d'un modèle sur une série d'invites d'instructions, couvrant généralement un large éventail de tâches. Le modèle d'instruction qui en résulte a ensuite tendance à générer des réponses utiles aux requêtes zero-shot pour diverses tâches.

Comparer et différencier les produits suivants:

réglage efficace des paramètres
réglage des requêtes

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter à un humain le raisonnement d'un modèle de ML de manière compréhensible.

La plupart des modèles de régression linéaire, par exemple, sont hautement interprétables. Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique. Les forêts de décision sont également hautement interprétables. Toutefois, certains modèles ont besoin d'une visualisation sophistiquée pour devenir interprétables.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

accord inter-évaluateurs

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils accomplissent une tâche. Si les évaluateurs ne sont pas d'accord, vous devrez peut-être améliorer les instructions. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

intersection over union (IoU) :

#image

Intersection de deux ensembles divisée par leur union. Dans les tâches de détection d'images de machine learning, l'IoU permet de mesurer la précision du cadre de délimitation prévu par le modèle par rapport au cadre de délimitation vérité terrain. Dans ce cas, l'IoU pour les deux cadres correspond au ratio entre la zone qui se chevauche et la zone totale. Sa valeur varie de 0 (aucun chevauchement du cadre de délimitation prévu et du cadre de délimitation de la vérité terrain) à 1 (le cadre de délimitation prévu et le cadre de délimitation de la vérité terrain ont exactement les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

Le cadre de délimitation prédit (les coordonnées qui délimitent l'emplacement où le modèle prédit la table de nuit dans le tableau) est encadré en violet.
Le cadre de délimitation de la vérité terrain (les coordonnées qui délimitent l'emplacement réel de la table de nuit dans le tableau) est encadré en vert.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est 7. L'IoU est donc $\frac{1}{7}$.

Même image que ci-dessus, mais avec chaque cadre de délimitation divisé en quatre quadrants. Il y a sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent. Cette section (en vert) qui se superpose à l'intersection représente l'intersection et présente une aire de 1.

IoU

Abréviation de l'intersection sur l'union.

matrice des éléments

#recsystems

Dans les systèmes de recommandation, une matrice de vecteurs de représentation vectorielle continue générée par la factorisation matricielle contenant des signaux latents pour chaque élément. Chaque ligne de la matrice éléments contient la valeur d'une seule caractéristique latente pour tous les éléments. Prenons l'exemple d'un système de recommandation de films. Chaque colonne de la matrice éléments représente un seul film. Les signaux latents peuvent représenter des genres ou être des signaux plus difficiles à interpréter qui impliquent des interactions complexes entre le genre, les stars, l'ancienneté du film ou d'autres facteurs.

La matrice éléments a le même nombre de colonnes que la matrice cible qui est factorisée. Par exemple, dans le cas d'un système de recommandation de films qui évalue 10 000 titres de films, la matrice éléments comportera 10 000 colonnes.

items

#recsystems

Dans un système de recommandation, les entités recommandées par un système. Par exemple, les vidéos sont les éléments recommandés par un vidéostore, tandis que les livres sont les éléments recommandés par une librairie.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (pondérations et biais du modèle) lors de l'entraînement. La taille de lot détermine le nombre d'exemples traités par le modèle au cours d'une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivants:

Une propagation avant pour évaluer la perte d'un seul lot.
Une rétropropagation (rétropropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage

J

JAX

Bibliothèque de calcul ARRAY, combinant XLA (Accelerated Linear Algebra) et la différenciation automatique pour le calcul numérique hautes performances. JAX fournit une API simple et puissante pour écrire du code numérique accéléré avec des transformations composables. JAX propose entre autres les fonctionnalités suivantes:

grad (différenciation automatique)
jit (compilation juste à temps)
vmap (vecteur vertical ou traitement par lot automatique)
pmap (parallélisation)

JAX est un langage permettant d'exprimer et de composer des transformations de code numérique, analogue (mais beaucoup plus vaste) à la bibliothèque NumPy de Python. (En fait, la bibliothèque .numpy sous JAX est une version fonctionnellement équivalente, mais entièrement réécrite de la bibliothèque Python NumPy.)

JAX est particulièrement adapté pour accélérer de nombreuses tâches de machine learning en transformant les modèles et les données dans un format adapté au parallélisme sur les puces accélérateurs TPU et GPU.

Flax, Optax, Pax et de nombreuses autres bibliothèques sont construits sur l'infrastructure JAX.

K

Keras

API de machine learning Python populaire. Keras s'exécute sur plusieurs frameworks de deep learning, y compris TensorFlow, où il est disponible sous le nom tf.keras.

Machines à vecteurs de support à noyau (KSVMs)

Algorithme de classification qui cherche à maximiser la marge entre les classes positives et les classes négatives en mappant les vecteurs de données d'entrée à un espace de plus grande dimension. Prenons l'exemple d'un problème de classification dans lequel l'ensemble de données d'entrée comporte cent caractéristiques. Pour maximiser la marge entre les classes positives et négatives, un KSVM pourrait mapper en interne ces caractéristiques dans un espace à un million de dimensions. Les KSVM utilisent une fonction de perte appelée marge maximale.

points clés

#image

Coordonnées de certains éléments géographiques d'une image Par exemple, pour un modèle de reconnaissance d'image qui distingue les espèces de fleurs, les points clés peuvent être le centre de chaque pétale, la tige, l'étalon, etc.

validation croisée de k-fold

Algorithme permettant de prédire la capacité d'un modèle à généraliser le modèle à de nouvelles données. La valeur k dans "k-fold" fait référence au nombre de groupes égaux entre lesquels vous divisez les exemples d'un ensemble de données. En d'autres termes, vous entraînez et testez votre modèle k fois. Pour chaque cycle d'entraînement et de test, un groupe différent constitue l'ensemble de test. Tous les groupes restants deviennent l'ensemble d'entraînement. Après k séries d'entraînement et de test, vous calculez la moyenne et l'écart-type des métriques de test choisies.

Par exemple, supposons que votre ensemble de données se compose de 120 exemples. Supposons maintenant que vous décidiez de définir k sur 4. Par conséquent, après avoir mélangé les exemples, vous divisez l'ensemble de données en quatre groupes égaux de 30 exemples et effectuez quatre séries d'entraînement/de test:

Par exemple, l'erreur quadratique moyenne (MSE, Mean Squared Error) peut être la métrique la plus pertinente pour un modèle de régression linéaire. Par conséquent, vous devriez trouver la moyenne et l'écart type de la MSE dans les quatre cycles.

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue essentiellement les opérations suivantes:

Détermination de manière itérative des meilleurs k points centraux (appelés centroïdes).
Affecte chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes de manière à minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.

Prenons l'exemple du graphique suivant représentant la hauteur et la largeur du chien:

Graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes détermine trois centroïdes. Chaque exemple est attribué à son centroïde le plus proche, ce qui donne trois groupes:

Même tracé cartésien que dans l'illustration précédente, sauf
avec trois centroïdes ajoutés.
Les points de données précédents sont regroupés en trois groupes distincts, chaque groupe représentant les points de données les plus proches d'un centroïde particulier.

Imaginez qu'un fabricant souhaite déterminer les tailles idéales de pulls petits, moyens et grands pour chiens. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce groupe. Ainsi, le fabricant devrait probablement baser la taille des pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent les k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Notez que les k-moyennes peuvent regrouper des exemples pour de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. Voici la différence pratique entre les deux:

Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que les définitions de distance sont également différentes:

L'algorithme k-moyennes repose sur la distance euclidienne entre le centroïde et un exemple. (Dans deux dimensions, la distance euclidienne signifie utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance en k-moyennes entre (2,2) et (5,-2) est:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-médiane repose sur la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Régularisation L₀

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle ayant 11 pondérations non nulles serait davantage pénalisé qu'un modèle similaire dont 10 paires de pondérations non nulles.

La régularisation L₀ est parfois appelée régularisation L0.

Cliquez sur l'icône pour afficher des notes supplémentaires.

La régularisation L₀ est généralement irréalisable pour les grands modèles, car elle transforme l'entraînement en un problème d'optimisation convexe.

perte L₁

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₁ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue de la valeur delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux anomalies que la perte L₂.

L'erreur absolue moyenne correspond à la perte L₁ moyenne par exemple.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₁

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de leur valeur absolue. La régularisation L₁ aide à ramener les pondérations des caractéristiques non pertinentes ou à peine pertinentes à exactement 0. Une caractéristique avec une pondération de 0 est effectivement supprimée du modèle.

À comparer à la régularisation L₂.

perte L₂

#fundamentals

Une fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₂ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré d'un delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence des anomalies. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions que la perte L₁. Par exemple, la perte L₁ pour le lot précédent sera de 8 au lieu de 16. Notez qu'une seule anomalie représente 9 sur 16.

Les modèles de régression utilisent généralement la perte L₂ comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L₂ moyenne par exemple. La perte quadratique est un autre nom de la perte L₂.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₂

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L₂ aide à rapprocher de 0 les pondérations des anomalies (celles dont les valeurs sont positives ou négatives élevées), mais pas tout à fait à 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L₂ améliore toujours la généralisation dans les modèles linéaires.

À comparer à la régularisation L₁.

étiquette

#fundamentals

Dans le machine learning supervisé, la partie "réponse" ou "résultat" d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Par exemple, dans un ensemble de données de détection de spam, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données sur les précipitations, l'étiquette peut correspondre à la quantité de pluie tombée au cours d'une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés issus d'un modèle d'évaluation des maisons, chacun avec trois caractéristiques et une étiquette:

Nombre de chambres	Nombre de salles de bain	Âge du foyer	Prix maison (libellé)
3	2	15	345 000 $
2	1	72	179 000 $
4	2	34	392 000 $

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions sur des exemples sans étiquette.

Comparer l'exemple étiqueté et les exemples sans étiquette.

fuite d'étiquettes

Un défaut de conception du modèle dans lequel une caractéristique est un proxy de l'étiquette. Prenons l'exemple d'un modèle de classification binaire qui prédit si un client potentiel achètera ou non un produit particulier. Supposons que l'une des caractéristiques du modèle est une valeur booléenne nommée SpokeToCustomerAgent. Supposons en outre qu'un agent client ne soit attribué qu'après que le client potentiel a réellement acheté le produit. Au cours de l'entraînement, le modèle apprend rapidement l'association entre SpokeToCustomerAgent et l'étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme complexe. Nous nous concentrons ici sur la définition du terme dans la régularisation.

LaMDA (Language Model for Dialogue Applications)

#language

Un grand modèle de langage basé sur Transformer et développé par Google, entraîné sur un vaste ensemble de données de dialogues, capable de générer des réponses conversationnelles réalistes.

LaMDA, notre technologie de conversation révolutionnaire, fournit un aperçu de ce projet.

landmarks

#image

Synonyme de points clés.

modèle de langage

#language

model qui estime la probabilité qu'un model ou une séquence de jetons se produisent dans une séquence plus longue de jetons.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Bien que cela soit paradoxal, de nombreux modèles qui évaluent du texte ne sont pas des modèles de langage. Par exemple, les modèles de classification de texte et d'analyse des sentiments ne sont pas des modèles de langage.

grand modèle de langage

#language

Terme informel sans définition stricte, qui désigne généralement un modèle de langage comportant un grand nombre de paramètres. Certains grands modèles de langage contiennent plus de 100 milliards de paramètres.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Vous vous demandez peut-être quand un modèle de langage devient suffisamment grand pour être qualifié de grand modèle de langage. Actuellement, il n'existe pas de ligne de définition convenue pour le nombre de paramètres.

La plupart des grands modèles de langage actuels (par exemple, GPT) sont basés sur l'architecture Transformer.

espace latent

#language

Synonyme d'espace d'intégration.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types courants de couches:

La couche d'entrée, qui fournit les valeurs de toutes les caractéristiques.
Une ou plusieurs couches cachées, qui identifient des relations non linéaires entre les caractéristiques et l'étiquette.
La couche de sortie, qui fournit la prédiction.

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie. La couche d'entrée se compose de deux caractéristiques. La première couche cachée se compose de trois neurones, et la seconde de deux. La couche de sortie se compose d'un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui acceptent des Tensors et des options de configuration en entrée et génèrent d'autres Tensors en sortie.

API Layers (tf.layers)

#TensorFlow

API TensorFlow permettant de construire un réseau de neurones profond à partir de plusieurs couches. L'API Layers permet de créer différents types de couches, par exemple:

tf.layers.Dense pour une couche entièrement connectée.
tf.layers.Conv2D pour une couche convolutive.

L'API Layers respecte les conventions de l'API Keras concernant les couches. Autrement dit, à l'exception d'un préfixe différent, toutes les fonctions de l'API Layers ont les mêmes noms et signatures que leurs homologues dans l'API Keras Layers.

feuille

#df

Tout point de terminaison d'un arbre de décision Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud de terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision à deux conditions menant à trois feuilles.

Learning Interpretability Tool (LIT)

Un outil visuel et interactif de compréhension des modèles et de visualisation des données.

Vous pouvez utiliser l'outil LIT Open Source pour interpréter des modèles ou pour visualiser du texte, des images et des données tabulaires.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient la force d'ajustement des pondérations et des biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez un taux d'apprentissage trop faible, l'entraînement prendra trop de temps. Si vous définissez un taux d'apprentissage trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

Cliquez sur l'icône pour obtenir une explication mathématique.

À chaque itération, l'algorithme de descente de gradient multiplie le taux d'apprentissage par le gradient. Le produit ainsi obtenu est appelé pas de gradient.

régression des moindres carrés

Un modèle de régression linéaire entraîné en minimisant la perte L₂.

linear

#fundamentals

Relation entre deux ou plusieurs variables qui peut être représentée uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une droite.

À comparer à l'non linéaire.

modèle linéaire

#fundamentals

Un model qui attribue une model par model pour effectuer des model. (Les modèles linéaires intègrent également un biais.) En revanche, dans les modèles profonds, la relation entre les caractéristiques et les prédictions est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Cependant, les modèles profonds peuvent apprendre des relations complexes entre caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

Cliquez sur l'icône pour afficher le calcul.

Un modèle linéaire suit la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

où :

"y" correspond à la prédiction brute. (Dans certains types de modèles linéaires, cette prédiction brute sera davantage modifiée. (voir la page sur la régression logistique, par exemple).
"b" représente le biais.
w est une pondération, donc w₁ est la pondération de la première caractéristique, w₂ est la pondération de la deuxième caractéristique, et ainsi de suite.
x est une caractéristique. x₁ est donc la valeur de la première caractéristique, x₂ est la valeur de la deuxième, et ainsi de suite.

Par exemple, supposons qu'un modèle linéaire pour trois caractéristiques apprenne les biais et pondérations suivants :

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Par conséquent, pour trois caractéristiques (x₁, x₂ et x₃), le modèle linéaire utilise l'équation suivante pour générer chaque prédiction :

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supposons qu'un exemple particulier contienne les valeurs suivantes:

x₁ = 4
x₂ = -10
x₃ = 5

L'insertion de ces valeurs dans la formule permet d'obtenir une prédiction pour cet exemple :

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Les modèles linéaires incluent non seulement des modèles qui n'utilisent qu'une équation linéaire pour effectuer des prédictions, mais aussi un ensemble plus large de modèles qui utilisent une équation linéaire comme composante de la formule permettant d'effectuer des prédictions. Par exemple, la régression logistique post-traite la prédiction brute (y') pour produire une valeur de prédiction finale comprise entre 0 et 1 exclusivement.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

Il s'agit d'un modèle linéaire.
La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Vous devez aussi comparer la régression à la classification.

LIT

Abréviation de Learning Interpretability Tool (LIT), qui était auparavant appelé "Language Interpretability Tool".

LLM

#language

Abréviation de grand modèle de langage.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

L'étiquette est catégorielle. Le terme "régression logistique" fait généralement référence à la régression logistique binaire, c'est-à-dire à un modèle qui calcule des probabilités pour des étiquettes avec deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule les probabilités pour les étiquettes ayant plus de deux valeurs possibles.
La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte de journaux peuvent être placées en parallèle pour les étiquettes ayant plus de deux valeurs possibles.)
Le modèle est doté d'une architecture linéaire et non d'un réseau de neurones profond. Toutefois, le reste de cette définition s'applique également aux modèles profonds qui prédisent des probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail d'entrée soit du spam ou non. Pendant l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle évalue:

Une probabilité que l'e-mail soit du spam est de 72 %.
Une probabilité de 28% que l'e-mail ne soit pas un spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire des caractéristiques d'entrée.
Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui la convertit en une valeur comprise entre 0 et 1 (exclus).

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

fonctions logit

Vecteur de prédictions brutes (non normalisées) généré par un modèle de classification, et généralement transmis à une fonction de normalisation. Si le modèle résout un problème de classification à classes multiples, les fonctions logit deviennent généralement une entrée de la fonction softmax. La fonction softmax génère ensuite un vecteur de probabilités (normalisées) avec une valeur pour chaque classe possible.

Perte logistique

#fundamentals

La fonction de perte utilisée dans la régression logistique binaire.

Cliquez sur l'icône pour afficher le calcul.

La formule suivante calcule la perte logistique:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

$(x,y)\in D$ est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires $(x,y)$ .
$y$ est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de $y$ doit être 0 ou 1.
$y'$ est la valeur prédite (comprise entre 0 et 1, exclu), compte tenu de l'ensemble des caractéristiques dans $x$.

logarithme de cote

#fundamentals

Logarithme des cotes d'un événement donné.

Cliquez sur l'icône pour afficher le calcul.

Si l'événement est une probabilité binaire, la cote fait référence au ratio entre la probabilité de réussite (p) et la probabilité d'échec (1-p). Par exemple, supposons qu'un événement donné ait une probabilité de réussite de 90 % et une probabilité d'échec de 10 %. Dans ce cas, la cote est calculée comme suit:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Le logarithme de cote est tout simplement le logarithme des cotes. Par convention, le "logarithme" fait référence au logarithme naturel, mais peut en réalité être n'importe quelle base supérieure à 1. En s'en tenant à la convention, le logarithme de cote de notre exemple est donc:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La fonction log-cote est l'inverse de la fonction sigmoïde.

Mémoire à long terme (LSTM)

#seq

Type de cellule d'un réseau de neurones récurrent, utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, la traduction automatique et les légendes d'images. Les LSTM permettent de résoudre le problème de disparition du gradient qui survient lors de l'entraînement des RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur les nouvelles entrées et le contexte des cellules précédentes du RNN.

LoRA

#language

#IAgénérative

Abréviation de adaptabilité de rang faible.

perte

#fundamentals

Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

La fonction de perte calcule la perte.

agrégateur de perte

Type d'algorithme de machine learning qui améliore les performances d'un modèle en combinant les prédictions de plusieurs modèles et en les utilisant pour effectuer une seule prédiction. Par conséquent, un agrégateur de perte peut réduire la variance des prédictions et en améliorer la précision.

courbe de fonction de perte

#fundamentals

Graphique représentant la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant montre une courbe de fonction de perte typique:

Un graphe cartésien de la perte par rapport aux itérations d'entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d'une baisse progressive, puis d'une pente plate pendant les itérations finales.

Les courbes de perte peuvent vous aider à déterminer quand votre modèle est convergence ou surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

perte d'entraînement
perte de validation
perte d'évaluation

Voir aussi Courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, une fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui réalisent de bonnes prédictions par rapport à ceux qui réalisent de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte différents. Choisissez la fonction de perte adaptée au type de modèle que vous créez. Exemple :

La perte L₂ (ou erreur quadratique moyenne) est la fonction de perte de la régression linéaire.

La perte logistique est la fonction de perte de la régression logistique.

graphe de fonction de perte

Un graphe de pondération(s) par rapport à la perte. La descente de gradient vise à trouver les pondérations pour lesquelles le graphe de fonction de perte a un minimum local.

Adaptabilité aux basses notes (LoRA)

#language

#IAgénérative

Algorithme permettant d'effectuer un réglage efficace des paramètres et d'ajuster uniquement un sous-ensemble des paramètres d'un grand modèle de langage. La LoRA offre les avantages suivants:

Cette méthode permet un ajustement plus rapide que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle.

Réduit le coût de calcul lié à l'inférence dans le modèle affiné.

Un modèle réglé avec la LoRA maintient ou améliore la qualité de ses prédictions.

La LoRA permet d'utiliser plusieurs versions spécialisées d'un modèle.

LSTM

#seq

Abréviation de mémoire à court terme.

Lu

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut effectuer des prédictions utiles à partir de nouvelles données (jamais vues auparavant) issues de la même distribution que celle utilisée pour entraîner le modèle.

Le ML désigne aussi le domaine d'étude concernant ces programmes ou systèmes.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel des décisions (ou actions) sont prises pour naviguer dans une séquence d'états en partant du principe que la propriété de Markov Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par des informations implicites dans l'état actuel et l'action de l'agent.

modèle de langage masqué

#language

Un modèle de langage qui prédit la probabilité que des jetons candidats remplissent les espaces vides dans une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités pour le ou les mots candidats de remplacer le soulignement dans la phrase suivante:

Le ____ qu'il avait dans votre chapeau est revenu.

La littérature utilise généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le "MASQUE" du chapeau est revenu.

La plupart des modèles de langage masqué modernes sont bidirectionnels.

matplotlib

Bibliothèque de traçage 2D Open Source Python. matplotlib vous aide à visualiser différents aspects du machine learning.

factorisation matricielle

#recsystems

En mathématiques, mécanisme permettant de trouver les matrices dont le produit scalaire se rapproche d'une matrice cible.

Dans les systèmes de recommandation, la matrice cible contient souvent les notes des utilisateurs sur les éléments. Par exemple, la matrice cible d'un système de recommandation de films peut ressembler à ce qui suit, où les entiers positifs correspondent aux notes des utilisateurs et 0 signifie que l'utilisateur n'a pas évalué le film:

Casablanca Philadelphia Story Black Panther Wonder Woman La Cité de la peur

Utilisateur 1 5,0 3,0 0,0 2,0 0,0

Utilisateur 2 4.0 0,0 0,0 1,0 5,0

Utilisateur 3 3,0 1,0 4.0 5,0 0,0

Le système de recommandation de films vise à prédire les notes des visiteurs pour les films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?

Une approche pour les systèmes de recommandation consiste à utiliser la factorisation matricielle pour générer les deux matrices suivantes:

Une matrice utilisateurs, définie sous la forme nombre d'utilisateurs X nombre de dimensions de la représentation vectorielle continue.

Une matrice éléments, définie sous la forme nombre de dimensions de la représentation vectorielle X nombre d'éléments.

Par exemple, l'utilisation de la factorisation matricielle sur nos trois utilisateurs et cinq éléments peut générer la matrice utilisateur et la matrice éléments suivantes:

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

Le produit scalaire de la matrice utilisateurs et de la matrice éléments génère une matrice de recommandations qui contient non seulement les notes d'origine des utilisateurs, mais également des prédictions pour les films que chaque utilisateur n'a pas vus. Prenons par exemple la note de l'utilisateur 1 pour Casablanca, qui était de 5, 0. Le produit scalaire correspondant à cette cellule dans la matrice de recommandations devrait normalement être d'environ 5,0, et il se présente comme suit:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? Le produit scalaire correspondant à la première ligne et à la troisième colonne permet d'obtenir une note prédite de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorisation matricielle produit généralement une matrice utilisateur et une matrice éléments qui, ensemble, sont nettement plus compactes que la matrice cible.

Erreur absolue moyenne (EAM)

Perte moyenne pour chaque exemple en cas d'utilisation de la perte L₁. Calculez l'erreur absolue moyenne comme suit:

Calculez la perte L₁ pour un lot.

Divisez la perte L₁ par le nombre d'exemples dans le lot.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.

$y$ est la valeur réelle de l'étiquette.

$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Prenons l'exemple du calcul de la perte L₁ sur le lot suivant de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Perte (différence entre les valeurs réelles et prévues)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = perte L₁

Ainsi, la perte L₁ est de 8 et le nombre d'exemples est de 5. Par conséquent, l'erreur absolue moyenne est donc:

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

Comparer l'erreur absolue moyenne avec l'erreur quadratique moyenne et la racine carrée de l'erreur quadratique moyenne.

Erreur quadratique moyenne (MSE)

Perte moyenne pour chaque exemple en cas d'utilisation de la perte L₂. Calculez l'erreur quadratique moyenne comme suit:

Calculez la perte L₂ pour un lot.

Divisez la perte L₂ par le nombre d'exemples dans le lot.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ où :

$n$ est le nombre d'exemples.

$y$ est la valeur réelle de l'étiquette.

$\hat{y}$ est la prédiction du modèle pour $y$.

Prenons l'exemple de la perte sur le lot suivant de cinq exemples:

Valeur réelle Prédiction du modèle Perte Perte quadratique

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = perte L₂

Par conséquent, l'erreur quadratique moyenne est:

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparer l'erreur quadratique moyenne avec l'erreur absolue moyenne et la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Cliquez sur l'icône pour en savoir plus sur les anomalies.

Les anomalies influencent fortement l'erreur quadratique moyenne. Par exemple, une perte de 1 est une perte quadratique de 1, mais une perte de 3 est une perte quadratique de 9. Dans le tableau précédent, l'exemple avec une perte de 3 représente environ 56% de l'erreur quadratique moyenne, tandis que chacun des exemples avec une perte de 1 ne représente que 6% de l'erreur quadratique moyenne.

Les anomalies n'influencent pas autant l'erreur absolue moyenne que l'erreur quadratique moyenne. Par exemple, une perte de 3 ne représente qu'environ 38% de l'erreur absolue moyenne.

Le bornement est un moyen d'empêcher les anomalies extrêmes d'endommager les capacités prédictives de votre modèle.

Grille

#TensorFlow

#GoogleCloud

En programmation parallèle de ML, terme associé à l'attribution des données et du modèle aux puces TPU, et à la définition de la manière dont ces valeurs seront segmentées ou répliquées.

Le terme "réseau maillé" est un terme complexe qui peut signifier l'un des éléments suivants:

Disposition physique de puces TPU.

Construction logique abstraite permettant de mapper les données et le modèle aux puces TPU.

Dans les deux cas, un maillage est spécifié en tant que shape.

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut également chercher à entraîner un modèle pour apprendre rapidement une nouvelle tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'obtenir les résultats suivants:

Améliorez ou apprenez à utiliser des caractéristiques conçues manuellement (telles qu'un initialiseur ou un optimiseur).

optimiser l'efficacité en termes de données et de calcul ;

Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

metric

#TensorFlow

Il s'agit d'une statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

Une API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

mini-lot

#fundamentals

Petit sous-ensemble d'un lot, sélectionné de manière aléatoire, et traité en une itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) se compose de 1 000 exemples. Supposons ensuite que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur un échantillon aléatoire de 20 des 1 000 exemples,puis ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte pour un mini-lot que pour tous les exemples du lot complet.

descente de gradient stochastique par mini-lots

Un algorithme de descente de gradient qui utilise des mini-lots. En d'autres termes, la descente de gradient stochastique par mini-lot estime le gradient en se basant sur un petit sous-ensemble des données d'entraînement. La descente de gradient stochastique standard utilise un mini-lot de taille 1.

perte minimax

Fonction de perte pour les réseaux antagonistes génératifs, basée sur l'entropie croisée entre la distribution des données générées et les données réelles.

La perte minimale est utilisée dans le premier article pour décrire les réseaux antagonistes génératifs.

classe minoritaire

#fundamentals

Étiquette la moins courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Un ensemble d'entraînement contenant un million d'exemples semble impressionnant. Toutefois, si la classe minoritaire est mal représentée, même un très grand ensemble d'entraînement peut s'avérer insuffisant. Concentrez-vous moins sur le nombre total d'exemples dans l'ensemble de données et davantage sur le nombre d'exemples dans la classe minoritaire.

Si votre ensemble de données ne contient pas suffisamment d'exemples de classes minoritaires, envisagez d'utiliser le sous-échantillonnage (définition dans le deuxième point) pour compléter la classe minoritaire.

ML

Abréviation de machine learning (apprentissage automatique).

MNIST

#image

Ensemble de données du domaine public compilé par LeCun, Cortes et Burges contenant 60 000 images. Chaque image montre comment un humain a écrit manuellement un chiffre particulier de 0 à 9. Chaque image est stockée sous la forme d'un tableau d'entiers de 28 x 28, chaque entier étant une valeur en niveaux de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester de nouvelles approches de machine learning. Pour en savoir plus, consultez la base de données MNIST de chiffres écrits à la main.

modality

#language

Catégorie de données de haut niveau. Par exemple, les nombres, le texte, les images, la vidéo et l'audio sont cinq modalités différentes.

model

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie un résultat. En d'autres termes, un modèle est l'ensemble des paramètres et la structure nécessaires à un système pour effectuer des prédictions. En machine learning supervisé, un modèle utilise un exemple en entrée et déduit une prédiction en sortie. En machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

Un modèle de régression linéaire est constitué d'un ensemble de pondérations et d'un biais.

Un modèle de réseau de neurones se compose des éléments suivants :

Un ensemble de couches cachées, chacune contenant un ou plusieurs neurones.

Pondérations et biais associés à chaque neurone

Un modèle d'arbre de décision se compose des éléments suivants :

Forme de l'arbre, c'est-à-dire le modèle selon lequel les conditions et les feuilles sont connectées.

Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou copier un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction capable de mapper un exemple d'entrée sur le cluster le plus approprié.

Cliquez sur l'icône pour comparer les fonctions algébriques et de programmation aux modèles de ML.

Une fonction algébrique telle que la suivante est un modèle:

f(x, y) = 3x -5xy + y² + 17

La fonction précédente mappe les valeurs d'entrée (x et y) à la sortie.

De même, une fonction de programmation telle que la suivante est également un modèle:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

Un appelant transmet des arguments à la fonction Python précédente, et cette fonction génère un résultat (via l'instruction return).

Bien qu'un réseau de neurones profond ait une structure mathématique très différente de celle d'une fonction algébrique ou de programmation, un réseau de neurones profond reçoit toujours des entrées (un exemple) et des résultats (une prédiction).

Un programmeur humain code manuellement une fonction de programmation. En revanche, un modèle de machine learning apprend progressivement les paramètres optimaux au cours de l'entraînement automatisé.

capacité du modèle

Complexité des problèmes qu'un modèle est capable d'apprendre. Plus les problèmes qu'un modèle peut apprendre sont complexes, plus sa capacité est élevée. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour obtenir une définition formelle de la capacité d'un classificateur, consultez la section Dimension VC.

modèle en cascade

#IAgénérative

Système qui choisit le model idéal pour une requête d'inférence spécifique.

Imaginez un groupe de modèles, allant de très grand (beaucoup de paramètres) à beaucoup plus petit (beaucoup moins de paramètres). Les modèles très volumineux consomment plus de ressources de calcul au moment de l'inférence que les modèles plus petits. Cependant, les très grands modèles peuvent généralement déduire des requêtes plus complexes que les modèles plus petits. Le modèle en cascade détermine la complexité de la requête d'inférence, puis sélectionne le modèle approprié pour effectuer l'inférence. La principale motivation de la mise en cascade des modèles est de réduire les coûts d'inférence en sélectionnant généralement des modèles plus petits et en ne choisissant un modèle plus grand que pour des requêtes plus complexes.

Imaginez qu'un petit modèle s'exécute sur un téléphone et qu'une version plus grande de ce modèle s'exécute sur un serveur distant. Une bonne mise en cascade des modèles réduit les coûts et la latence en permettant au plus petit modèle de traiter des requêtes simples et en n'appelant le modèle distant que pour traiter des requêtes complexes.

Voir aussi routeur de modèle.

parallélisme des modèles

#language

Un moyen de faire évoluer l'entraînement ou l'inférence qui place les différentes parties d'un model sur différents model. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour tenir sur un seul appareil.

Pour implémenter le parallélisme des modèles, un système procède généralement comme suit:

Segmente (divise) le modèle en parties plus petites.

Il répartit l'entraînement de ces petites pièces sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.

Combine les résultats pour créer un seul modèle.

Le parallélisme des modèles ralentit l'entraînement.

Voir aussi parallélisme des données.

modèle de routeur

#IAgénérative

Algorithme qui détermine le model idéal pour l'model en model. Un routeur de modèles est généralement un modèle de machine learning qui apprend progressivement à choisir le meilleur modèle pour une entrée donnée. Cependant, un routeur de modèle peut parfois être un algorithme plus simple, sans machine learning.

entraînement de modèle

Processus consistant à déterminer le meilleur model.

Momentum

Algorithme sophistiqué de descente de gradient dans lequel une étape d'apprentissage dépend non seulement de la dérivée de l'étape actuelle, mais aussi des dérivées des étapes qui l'ont immédiatement précédée. Momentum implique le calcul d'une moyenne mobile pondérée de manière exponentielle des gradients au fil du temps, à l'instar du momentum en physique. Momentum empêche parfois que l'apprentissage soit bloqué dans les minimums locaux.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

Iris setosa

Iris vierge

Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type Iris à partir de nouveaux exemples effectue une classification à classes multiples.

En revanche, les problèmes de classification qui font la distinction entre exactement deux classes sont des modèles de classification binaires. Par exemple, un modèle de messagerie qui prédit soit le spam, soit le non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus de deux clusters.

régression logistique multiclasse

Utiliser la régression logistique dans les problèmes de classification à classes multiples.

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Les Transformers ont introduit l'auto-attention multi-tête.

modèle multimodal

#language

Un modèle dont les entrées et/ou les sorties incluent plusieurs modalités. Prenons l'exemple d'un modèle qui prend à la fois une image et une légende textuelle (deux modalités) comme caractéristiques, et qui génère un score indiquant le degré d'adéquation de la légende textuelle à l'image. Les entrées de ce modèle sont donc multimodales et la sortie unimodale.

classification multinomiale

Synonyme de classification à classes multiples.

régression multinomiale

Synonyme de régression logistique multiclasse.

multitâche

Technique de machine learning dans laquelle un seul model est entraîné pour effectuer plusieurs model.

Les modèles multitâches sont créés en s'entraînant sur des données adaptées à chacune des différentes tâches. Le modèle peut ainsi apprendre à partager des informations entre les tâches, ce qui l'aide à apprendre plus efficacement.

Un modèle entraîné pour plusieurs tâches a souvent amélioré les capacités de généralisation et peut être plus robuste pour gérer différents types de données.

N

piège NaN

Lorsqu'un nombre du modèle devient un NaN pendant l'entraînement et que, à la fin de l'entraînement, un grand nombre ou tous les autres nombres du modèle deviennent alors des NaN.

NaN est l'abréviation de Not a Nombre.

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou dit. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou dit.

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et négative. La classe positive est l'élément ou l'événement pour lequel le modèle est testé, tandis que la classe négative représente l'autre possibilité. Exemple :

La classe négative d'un test médical pourrait être "pas une tumeur".

La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

échantillonnage négatif

Synonyme d'échantillonnage de candidats.

Neural Architecture Search (NAS)

Technique de conception automatique de l'architecture d'un réseau de neurones. Les algorithmes NAS peuvent réduire le temps et les ressources nécessaires à l'entraînement d'un réseau de neurones.

Le NAS utilise généralement:

Un espace de recherche, c'est-à-dire un ensemble d'architectures possibles

Une fonction de fitness, qui est une mesure des performances d'une architecture particulière pour une tâche donnée.

Les algorithmes NAS commencent souvent par un petit ensemble d'architectures possibles et élargissent progressivement l'espace de recherche à mesure que l'algorithme en apprend davantage sur les architectures efficaces. La fonction de remise en forme est généralement basée sur les performances de l'architecture sur un ensemble d'entraînement, et l'algorithme est généralement entraîné à l'aide d'une technique d'apprentissage par renforcement.

Les algorithmes NAS ont prouvé leur efficacité dans la recherche d'architectures hautes performances pour diverses tâches, y compris la classification d'images, la classification de texte et la traduction automatique.

neurones feedforward

#fundamentals

Un model contenant au moins une model. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones de la première couche cachée se connecte séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones implémentés sur les ordinateurs sont parfois appelés réseaux de neurones artificiels afin de les différencier des réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

Calcule la somme pondérée des valeurs d'entrée multipliée par les pondérations correspondantes.

Transmet la somme pondérée en tant qu'entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques de la couche d'entrée. Un neurone de n'importe quelle couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Un neurone d'un réseau de neurones imite le comportement des neurones du cerveau et d'autres parties du système nerveux.

N-gramme

#seq

#language

Séquence ordonnée de N mots. Par exemple, vraiment follement correspond à un gramme de 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Noms pour ce type de N-gramme Exemples

2 bigramme ou 2-gramme à emporter, à emporter, déjeuner, dîner

3 trigramme ou 3-gramme a mangé trop, trois souris aveugles, la cloche sonne

4 4-gramme marcher dans le parc, poussière dans le vent, le garçon a mangé des lentilles

De nombreux modèles de compréhension du langage naturel reposent sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur tape three blind. Un modèle NLU basé sur des trigrammes prédira probablement que l'utilisateur saisira ensuite mice.

Comparer les N-grammes au sac de mots, qui sont des ensembles de mots non ordonnés.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

nœud (graphe TensorFlow)

#TensorFlow

Opération dans un graphe TensorFlow.

bruit

De manière générale, tout ce qui masque le signal dans un ensemble de données. Le bruit peut être introduit dans les données de différentes manières. Exemple :

Les évaluateurs manuels font des erreurs lors de l'étiquetage.

Des personnes et des instruments enregistrent des erreurs ou omettent des valeurs de caractéristiques.

condition non binaire

#df

Une condition qui contient plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

non linéaire

#fundamentals

Relation entre deux ou plusieurs variables qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représentée par une ligne, mais une relation non linéaire ne peut pas être représentée par une droite. Prenons l'exemple de deux modèles qui relient chacun une seule caractéristique à une seule étiquette. Le modèle de gauche est linéaire et celui de droite est non linéaire.

biais de non-réponse

#fairness

Voir biais de sélection.

non stationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des exemples suivants de non-stationarité:

Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.

La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais importante pendant une courte période.

En raison du changement climatique, les températures moyennes annuelles changent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, le processus de conversion de la plage de valeurs réelle d'une variable en une plage de valeurs standard, par exemple:

-1 à +1

Entre 0 et 1

la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique s'étende de 800 à 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, telle que -1 à +1.

La normalisation est une tâche courante dans l'ingénierie des caractéristiques. Les modèles s'entraînent généralement plus rapidement (et produisent de meilleures prédictions) lorsque toutes les caractéristiques numériques du vecteur de caractéristiques ont à peu près la même plage.

détection de nouveauté

Processus consistant à déterminer si un nouvel exemple (nouvel) provient de la même distribution que l'ensemble d'entraînement. En d'autres termes, une fois l'entraînement effectué sur l'ensemble d'entraînement, la détection de nouveauté détermine si un nouvel exemple (lors de l'inférence ou d'un entraînement supplémentaire) constitue une anomalie.

À comparer à la détection des anomalies.

données numériques

#fundamentals

Caractéristiques représentées par des entiers ou des nombres réels. Par exemple, un modèle d'évaluation de maison représenterait probablement la superficie d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. La représentation d'une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. En d'autres termes, le nombre de mètres carrés d'une maison est probablement lié mathématiquement à sa valeur.

Les données entières ne doivent pas toutes être représentées sous forme de données numériques. Par exemple, dans certaines parties du monde, les codes postaux sont des entiers. Toutefois, ils ne doivent pas être représentés sous forme de données numériques dans les modèles. La raison à cela est que le code postal 20000 n'est pas deux fois plus puissant (ou la moitié) qu'un code postal de 10000. En outre, bien que différents codes postaux soient corrélés à des valeurs de biens immobiliers différentes, nous ne pouvons pas supposer que la valeur des biens immobiliers au code postal 20000 est deux fois plus élevée que la valeur des biens immobiliers au code postal 10000. Les codes postaux doivent plutôt être représentés sous forme de données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

NumPy

Bibliothèque mathématique Open Source qui fournit des opérations de tableau efficaces en Python. pandas est basé sur NumPy.

O

objectif

Métrique que votre algorithme essaie d'optimiser.

fonction objective

Formule mathématique ou métrique qu'un modèle cherche à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement la perte quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la justesse, l'objectif est de maximiser la justesse.

Voir aussi perte.

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, voici une condition oblique:

height > width

À comparer à la condition d'alignement sur l'axe.

offline

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus consistant à générer un lot de prédictions, puis à mettre en cache (enregistrer) ces prédictions. Les applications peuvent ensuite accéder à la prédiction inférée à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météorologiques locales. Les applications météo récupèrent les prévisions à partir du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous forme de vecteur dans lequel:

Un élément a la valeur 1.

Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants ayant un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle nommée Scandinavia ait cinq valeurs possibles:

"Danemark"

"Suède"

"Norvège"

"Finlande"

"Islande"

L'encodage one-hot pourrait représenter chacune des cinq valeurs comme suit:

country Vecteur

"Danemark" 1 0 0 0 0

"Suède" 0 1 0 0 0

"Norvège" 0 0 1 0 0

"Finlande" 0 0 0 1 0

"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

La représentation d'une caractéristique sous forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter les pays scandinaves numériquement n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

"Danemark" est 0

"Suède" a la valeur 1

"Norvège" a la valeur 2

"Finlande" a 3

"Islande" a 4

Avec l'encodage numérique, le modèle interprète les nombres bruts mathématiquement et essaie d'entraîner le modèle avec ces nombres. Cependant, l'Islande n'est pas deux fois plus importante (voire deux fois plus) que la Norvège. Le modèle tirerait donc des conclusions étranges.

apprentissage one-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour apprendre des classificateurs efficaces à partir d'un seul exemple d'entraînement.

Voir aussi apprentissage few-shot et apprentissage zero-shot.

requête one-shot

#language

#IAgénérative

Une requête contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple, la requête suivante contient un exemple qui montre à un grand modèle de langage comment il doit répondre à une requête.

Composantes d'une requête Remarques

Quelle est la devise officielle du pays spécifié ? Question à laquelle le LLM doit répondre.

France: EUR Prenons un exemple.

Inde : La requête réelle.

Indiquer les points communs et les différences entre les requêtes one-shot et les termes suivants:

requête zero-shot

requête few-shot

un contre tous

#fundamentals

Prenons un problème de classification avec N classes, une solution composée de N classificateurs binaires distincts (un classificateur binaire pour chaque résultat possible). Par exemple, pour un modèle qui classe les exemples en tant qu'animaux, légumes ou minéraux, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

animal et non animal

Légume/non végétal

minéraux et non minéraux

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple, supposons qu'une application transmet des entrées à un modèle et envoie une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

opération (op)

#TensorFlow

Dans TensorFlow, toute procédure qui crée, manipule ou détruit un Tensor. Par exemple, une multiplication matricielle est une opération qui prend deux Tensors en entrée et génère un Tensor en sortie.

Optax

Bibliothèque d'optimisation et de traitement du gradient pour JAX. Optax facilite la recherche en fournissant des composants de base pouvant être recombinés de manière personnalisée afin d'optimiser les modèles paramétriques tels que les réseaux de neurones profonds. Autres objectifs:

Fournir des implémentations lisibles, bien testées et efficaces des composants principaux.

Amélioration de la productivité en permettant de combiner des ingrédients de bas niveau dans des optimiseurs personnalisés (ou d'autres composants de traitement du gradient).

Accélérer l'adoption de nouvelles idées en facilitant la contribution de chacun.

optimiseur

Implémentation spécifique de l'algorithme de descente de gradient Voici quelques optimiseurs courants:

AdaGrad, qui signifie "descente de gradient adaptative".

Adam, qui signifie ADAptive with Momentum.

biais d'homogénéité de l'exogroupe

#fairness

Tendance à considérer les membres de l'exogroupe comme plus semblables que les membres du groupe lors de la comparaison des attitudes, des valeurs, des traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant à des personnes de fournir des attributs sur les hors-groupes, ces attributs peuvent être moins nuancés et plus stéréotypés que ceux que les participants répertorient pour les personnes de leur groupe.

Par exemple, les Lilliputiens pourraient décrire les maisons d'autres Lilliputiens avec beaucoup de détails, en citant de légères différences en termes de styles architecturaux, de fenêtres, de portes et de tailles. Cependant, les mêmes Lilliputiens pourraient simplement déclarer que les Brobdingnagiens vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

détection des anomalies

Processus d'identification des anomalies dans un ensemble d'entraînement.

À comparer à la détection de nouveauté.

des anomalies

Valeurs éloignées de la plupart des autres valeurs. En machine learning, toutes les valeurs suivantes sont des anomalies:

Données d'entrée dont les valeurs sont éloignées de plus de trois écarts types environ de la moyenne.

Pondérations ayant des valeurs absolues élevées

Valeurs prédites relativement éloignées des valeurs réelles.

Par exemple, supposons que widget-price soit une caractéristique d'un certain modèle. Supposons que la moyenne de widget-price soit de 7 euros avec un écart type de 1 euro. Les exemples contenant un widget-price de 12 euros ou 2 euros seront donc considérés comme des anomalies, car chacun de ces prix se situe à cinq écarts types par rapport à la moyenne.

Les anomalies sont souvent causées par des fautes de frappe ou d'autres erreurs de saisie. Dans d'autres cas, les valeurs aberrantes ne sont pas des erreurs. Après tout, il est rare, mais difficilement impossible, de définir des valeurs éloignées de la moyenne à cinq écarts types.

Les anomalies entraînent souvent des problèmes lors de l'entraînement du modèle. Le bornement est un moyen de gérer les anomalies.

évaluation de l'emballage extérieur

#df

Un mécanisme permettant d'évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis l'évalue par rapport au tiers restant.

Cette évaluation est une approximation prudente et efficace en termes de calcul du mécanisme de validation croisée. En validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée par 10). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que le bagging retient certaines données de chaque arbre pendant l'entraînement, l'évaluation de l'OOB peut utiliser ces données pour se rapprocher de la validation croisée.

couche de sortie

#fundamentals

Couche "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

surapprentissage

#fundamentals

Créer un model qui correspond aux model si précisément qu'il ne parvient pas à effectuer des prédictions correctes avec de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le surapprentissage, c'est comme suivre scrupuleusement les conseils de votre enseignant préféré. Vous réussirez probablement dans le cours de cet enseignant, mais vous risquez de surapprendre les idées de cet enseignant et de ne pas réussir dans d'autres cours. Suivre les conseils d'un mélange d'enseignants vous permettra de mieux vous adapter à de nouvelles situations.

suréchantillonnage

Réutilisation des exemples d'une classe minoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'un problème de classification binaire dans lequel le rapport entre la classe de majorité et la classe minoritaire est de 5 000:1. Si l'ensemble de données contient un million d'exemples, il ne contient alors qu'environ 200 exemples de la classe minoritaire, ce qui n'est peut-être pas suffisant pour permettre un entraînement efficace. Pour remédier à ce problème, vous pouvez suréchantillonner (réutiliser) ces 200 exemples plusieurs fois, ce qui peut permettre d'obtenir suffisamment d'exemples pour un entraînement utile.

En cas de suréchantillonnage, vous devez faire attention au surapprentissage.

À comparer au sous-échantillonnage.

P

données compactes

Une approche permettant de stocker des données plus efficacement.

Les données compressées stockent les données dans un format compressé ou d'une autre manière permettant d'y accéder plus efficacement. Les données compactes réduisent la quantité de mémoire et de calculs nécessaires pour y accéder, ce qui accélère l'entraînement et améliore l'efficacité de l'inférence de modèle.

Les données compressées sont souvent utilisées avec d'autres techniques, telles que l'augmentation des données et la régularisation, ce qui améliore encore les performances des modèles.

pandas

#fundamentals

API d'analyse de données par colonne, basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données Pandas en tant qu'entrées. Pour en savoir plus, consultez la documentation de Pandas.

paramètre

#fundamentals

Les pondérations et les biais qu'un modèle apprend pendant l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres sont constitués du biais (b) et de toutes les pondérations (w₁, w₂, et ainsi de suite) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs que vous (ou un service de réglage d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

réglage efficace des paramètres

#language

#IAgénérative

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné plus efficacement que l'affinage complet. Le réglage efficace des paramètres affine généralement beaucoup moins de paramètres qu'un réglage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque aussi) qu'un grand modèle de langage construit à partir d'un ajustement complet.

Indiquer les points communs et les différences entre les réglages efficaces avec les paramètres suivants:

réglage des instructions

réglage des requêtes

Le réglage efficace des paramètres est également connu sous le nom d'ajustement efficace des paramètres.

Serveur de paramètres

#TensorFlow

Tâche qui effectue le suivi des paramètres d'un modèle dans un environnement distribué.

mise à jour des paramètres

Opération d'ajustement des paramètres d'un modèle pendant l'entraînement, généralement au cours d'une seule itération de descente de gradient.

dérivée partielle

Dérivée dans laquelle toutes les variables sauf une sont considérées comme une constante. Par exemple, la dérivée partielle de f(x, y) par rapport à x est la dérivée de f considérée uniquement comme une fonction de x (c'est-à-dire en gardant y constante). La dérivée partielle de f par rapport à x se concentre uniquement sur l'évolution de x et ignore toutes les autres variables de l'équation.

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

stratégie de partitionnement

Algorithme qui répartit les variables entre les serveurs de paramètres.

PAX

Framework de programmation conçu pour entraîner des modèles de réseaux de neurones à grande échelle, si grands qu'ils couvrent plusieurs tranches d'accélérateur TPU ou pods de TPU.

Pax est basé sur Flax, qui repose sur JAX.

Perceptron

Système (matériel ou logiciel) qui accepte une ou plusieurs valeurs d'entrée, exécute une fonction sur la somme pondérée des entrées et calcule une seule valeur de sortie. En machine learning, la fonction est généralement non linéaire, telle que ReLU, sigmoïde ou tanh. Par exemple, le perceptron suivant s'appuie sur la fonction sigmoïde pour traiter trois valeurs d'entrée:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dans l'illustration suivante, le perceptron prend trois entrées, chacune étant elle-même modifiée par une pondération avant d'entrer dans le perceptron:

Les perceptrons sont les neurones des réseaux de neurones.

performance

Terme complexe ayant les significations suivantes:

Signification standard en ingénierie logicielle. à savoir: à quelle vitesse (ou à quelle efficacité) ce logiciel s'exécute-t-il ?

La signification dans le machine learning Ici, les performances répondent à la question suivante: quel est l'exactitude de ce model ? En d'autres termes, les prédictions du modèle sont-elles bonnes ?

importances des variables de permutation

#df

Type d'importance de la variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après la permutation des valeurs de la caractéristique. L'importance de la variable de permutation est une métrique indépendante du modèle.

perplexité

Mesure de l'efficacité d'un model à accomplir une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots de saisie possibles. Pour cette tâche, la perplexité (P) correspond au nombre approximatif d'hypothèses que vous devez proposer pour que votre liste contienne le mot réel que l'utilisateur tente de saisir.

La perplexité est liée à l'entropie croisée comme suit:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastructure sur laquelle repose un algorithme de machine learning. Un pipeline comprend la collecte des données, leur intégration dans des fichiers de données d'entraînement, l'entraînement d'un ou plusieurs modèles et leur exportation en production.

pipeline

#language

Forme de parallélisme des modèles dans laquelle le traitement d'un modèle est divisé en plusieurs étapes consécutives, chacune étant exécutée sur un appareil différent. Pendant qu'une étape traite un lot, l'étape précédente peut s'appliquer au lot suivant.

Voir aussi Entraînement par étapes.

pjit

Une fonction JAX qui divise le code à exécuter sur plusieurs puces accélérateurs. L'utilisateur transmet une fonction à pjit, qui renvoie une fonction ayant la sémantique équivalente, mais qui est compilée dans un calcul XLA s'exécutant sur plusieurs appareils (tels que des GPU ou des cœurs TPU).

pjit permet aux utilisateurs de segmenter les calculs sans les réécrire à l'aide du partitionneur SPMD.

Depuis mars 2023, pjit a été fusionné avec jit. Pour en savoir plus, consultez la section Tableaux distribués et parallélisation automatique.

PLM

#language

#IAgénérative

Abréviation de modèle de langage pré-entraîné.

pmap

Une fonction JAX qui exécute des copies d'une fonction d'entrée sur plusieurs appareils matériels sous-jacents (processeurs, GPU ou TPU), avec différentes valeurs d'entrée. pmap s'appuie sur SPMD.

policy

#rl

Dans l'apprentissage par renforcement, il s'agit du mappage probabiliste d'un agent, des états aux actions.

Pooling

#image

Réduction d'une matrice (ou de matrices) créée par une couche convolutive antérieure à une matrice plus petite. Le pooling implique généralement de prendre la valeur maximale ou la valeur moyenne dans l'ensemble de la zone regroupée. Par exemple, supposons que nous ayons la matrice 3x3 suivante:

Une opération de pooling, tout comme une opération convolutive, divise cette matrice en tranches, puis fait glisser cette opération convolutive à pas. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches de 2 x 2 avec un pas de 1 x 1. Comme l'illustre le schéma suivant, quatre opérations de pooling ont lieu. Imaginez que chaque opération de pooling sélectionne la valeur maximale des quatre valeurs de cette tranche:

Le pooling permet d'appliquer l'invariance par traduction dans la matrice d'entrée.

Pour les applications de vision, le pooling est officiellement appelé pooling spatial. Dans les applications de séries temporelles, le pooling est généralement appelé pooling temporel. Plus formellement, le pooling est souvent appelé sous-échantillonnage ou sous-échantillonnage.

encodage positionnel

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence à la représentation vectorielle continue du jeton. Les modèles Transformer utilisent l'encodage positionnel pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence. Cette technique permet à un modèle Transformer d'apprendre à traiter différentes parties de la séquence en fonction de leur position.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer peut être "tumeur". La classe positive d'un classificateur d'e-mails pourrait être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le terme classe positive peut prêter à confusion, car le résultat "positif" de nombreux tests est souvent un résultat indésirable. Par exemple, la classe positive de nombreux tests médicaux correspond à des tumeurs ou à des maladies. En général, vous voulez qu'un médecin vous dise : « Félicitations ! Vos résultats de test ont été négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à identifier.

Certes, vous testez simultanément les classes positive et négative.

post-traitement

#fairness

#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, on peut appliquer le post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

PR AUC (aire sous la courbe PR)

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant les points (rappel, précision) pour différentes valeurs du seuil de classification. Selon le mode de calcul de son calcul, la PR AUC peut être équivalente à la précision moyenne du modèle.

Praxie

Bibliothèque principale de ML hautes performances de Pax. La praxis est souvent appelée « bibliothèque de calques ».

Elle contient non seulement les définitions de la classe Layer, mais aussi la plupart de ses composants associés, y compris:

données saisies

bibliothèques de configuration (HParam et Fiddle)

les optimiseurs

La praxis fournit les définitions de la classe Model.

precision

Cette métrique des modèles de classification répond à la question suivante:

Lorsque le modèle a prédit la classe positive, quel pourcentage des prédictions étaient correctes ?

Voici la formule:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

vrai positif signifie que le modèle a prédit correctement la classe positive.

"faux positif" signifie que le modèle a prédit par erreur la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

150 sont des vrais positifs.

50 étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la précision et au rappel.

la courbe de précision/rappel

Courbe de précision et de rappel pour différents seuils de classification.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

La prédiction d'un modèle de classification binaire correspond soit à la classe positive, soit à la classe négative.

La prédiction d'un modèle de classification à classes multiples correspond à une classe.

La prédiction d'un modèle de régression linéaire est un nombre.

biais de prédiction

Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des étiquettes de l'ensemble de données.

À ne pas confondre avec le biais des modèles de machine learning ou avec le biais en matière d'éthique et d'équité.

ML prédictif

Tout système de machine learning standard ("classique")

Le terme ML prédictif n'a pas de définition formelle. Il distingue plutôt une catégorie de systèmes de ML qui n'est pas basé sur l'IA générative.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classificateur donné, les taux de précision sont équivalents pour les sous-groupes à l'étude.

Par exemple, un modèle qui prédit l'acceptation d'une université peut satisfaire la parité prédictive de la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiens.

La parité prédictive est parfois appelée parité tarifaire prédictive.

Reportez-vous à la section Définitions équitables (section 3.2.1) pour une discussion plus détaillée sur la parité prédictive.

parité tarifaire prédictive

#fairness

Autre nom utilisé pour désigner la parité prédictive.

prétraitement

#fairness

Traiter les données avant de les utiliser pour entraîner un modèle Le prétraitement peut être aussi simple que de supprimer d'un corpus de textes anglais des mots qui ne figurent pas dans le dictionnaire anglais, ou il peut être aussi complexe que de réexprimer des points de données de manière à éliminer autant d'attributs corrélés à des attributs sensibles que possible. Le prétraitement permet de respecter les contraintes d'équité.

modèle pré-entraîné

#language

#image

#IAgénérative

Modèles ou composants de modèles (tels qu'un vecteur de représentation vectorielle continue) qui ont déjà été entraînés. Parfois, vous alimentez un réseau de neurones avec des vecteurs de représentation vectorielle continue pré-entraînés. Il peut également arriver que votre modèle entraîne les vecteurs de représentation vectorielle continue eux-mêmes plutôt que d'utiliser les représentations vectorielles continues pré-entraînées.

Le terme modèle de langage pré-entraîné fait référence à un grand modèle de langage qui a fait l'objet d'un pré-entraînement.

pré-entraînement

#language

#image

#IAgénérative

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont maladroites et doivent généralement être affinés au moyen d'un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après le pré-entraînement, le modèle résultant peut être affiné davantage grâce à l'une des techniques suivantes:

distillation

optimisation

réglage des instructions

réglage efficace des paramètres

réglage des invites

croyance antérieure

Ce que vous croyez aux données avant de commencer l'entraînement sur celles-ci Par exemple, la régularisation L₂ repose sur une conviction préalable selon laquelle les pondérations doivent être faibles et normalement distribuées autour de zéro.

modèle de régression probabiliste

Un modèle de régression qui utilise non seulement les pondérations de chaque caractéristique, mais aussi l'incertitude de ces pondérations. Un modèle de régression probabiliste génère une prédiction et son incertitude. Par exemple, un modèle de régression probabiliste peut produire une prédiction de 325 avec un écart type de 12. Pour en savoir plus sur les modèles de régression probabiliste, consultez le document Colab sur tensorflow.org.

fonction de densité de probabilité

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des nombres continus à virgule flottante, des correspondances exactes se produisent rarement. Toutefois, l'integrating d'une fonction de densité de probabilité de la valeur x à la valeur y génère la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et un écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

requête

#language

#IAgénérative

Tout texte saisi en tant qu'entrée d'un grand modèle de langage pour conditionner le modèle à un comportement donné. Les requêtes peuvent être aussi courtes qu'une expression ou arbitrairement longues (par exemple, l'intégralité du texte d'un roman). Les requêtes appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:

Catégorie de requête Exemple Remarques

Question À quelle vitesse un pigeon vole-t-il ?

Instruction Écris un poème amusant sur les sites à contenu exclusivement publicitaire. Une requête qui demande au grand modèle de langage de faire quelque chose.

Exemple Traduire le code Markdown en HTML. Par exemple : Markdown: * élément de liste HTML: <ul> <li>élément de liste</li> </ul> La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.

Rôle Expliquer l'intérêt de la descente de gradient pour l'entraînement du machine learning jusqu'à un doctorat en physique. La première partie de la phrase est une instruction ; l'expression "pour un doctorat en physique" correspond à la partie rôle.

Entrée partielle du modèle Le Premier ministre britannique vit à Une requête d'entrée partielle peut se terminer brusquement (comme le fait cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos, etc.

apprentissage basé sur des requêtes

#language

#IAgénérative

Capacité de certains modèles, qui leur permet d'adapter leur comportement en réponse à une entrée de texte arbitraire (invites). Dans un paradigme d'apprentissage basé sur une requête typique, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur entre la requête suivante:

Résume la troisième loi du mouvement de Newton.

Un modèle capable d'effectuer un apprentissage basé sur des requêtes n'est pas spécifiquement entraîné pour répondre à la requête précédente. Au contraire, le modèle "connaît" beaucoup de faits sur la physique, sur les règles générales du langage et sur ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse utile (nous l'espérons). Des commentaires humains supplémentaires ("Cette réponse était trop compliquée." ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage basés sur des requêtes d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language

#IAgénérative

Synonyme d'ingénierie des requêtes.

ingénierie des requêtes

#language

#IAgénérative

L'art de créer des requêtes qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. L'ingénierie des requêtes est effectuée par des humains. Écrire des requêtes bien structurées est essentiel pour garantir des réponses utiles à partir d'un grand modèle de langage. L'ingénierie des requêtes dépend de nombreux facteurs, y compris les suivants:

Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.

température et autres paramètres de décodage que le modèle utilise pour générer des réponses.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez Présentation de la conception de requête.

Conception de requête est un synonyme d'ingénierie des requêtes.

réglage des requêtes

#language

#IAgénérative

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute au début de la requête réelle.

Une variante du réglage des requêtes, parfois appelée réglage de préfixe, consiste à ajouter le préfixe à chaque couche. En revanche, la plupart des réglages des requêtes n'ajoutent qu'un préfixe à la couche d'entrée.

Cliquez sur l'icône pour en savoir plus sur les préfixes.

Pour le réglage de requête, le "préfixe" (également appelé "requête logicielle") est une poignée de vecteurs appris et spécifiques à une tâche ajoutés au début des représentations vectorielles continues du jeton de texte à partir de la requête réelle. Le système apprend la requête flexible en gelant tous les autres paramètres du modèle et en ajustant une tâche spécifique.

étiquettes de proxy

#fundamentals

Données utilisées pour estimer les étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient de nombreuses caractéristiques prédictives, mais ne contient pas d'étiquette nommée niveau de contrainte. Imperturbable, vous choisissez "Accidents sur le lieu de travail" comme étiquette de proxy pour le niveau de stress. Après tout, les employés soumis à un stress élevé font plus d'accidents que les employés calmes. Ou est-ce bien le cas ? Peut-être que les accidents du travail augmentent et baissent pour plusieurs raisons.

Autre exemple : supposons que vous souhaitiez que is it raining? soit une étiquette booléenne pour votre ensemble de données, mais que celui-ci ne contienne pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des images de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? Est-ce une bonne étiquette de proxy ? C'est possible, mais les personnes de certaines cultures sont plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes de proxy sont souvent imparfaites. Si possible, privilégiez les étiquettes réelles plutôt que les étiquettes de proxy. Cela dit, lorsqu'une étiquette réelle est absente, choisissez très soigneusement l'étiquette de proxy, en choisissant la plus mauvaise étiquette de proxy possible.

proxy (attributs sensibles)

#fairness

Attribut utilisé en remplacement d'un attribut sensible. Par exemple, le code postal d'un individu peut être utilisé comme indicateur de ses revenus, de son origine ethnique.

fonction pure

Une fonction dont les sorties ne sont basées que sur ses entrées et qui n'a pas d'effets secondaires. Plus précisément, une fonction pure n'utilise ni ne modifie aucun état global, tel que le contenu d'un fichier ou la valeur d'une variable en dehors de la fonction.

Les fonctions pures peuvent être utilisées pour créer du code thread-safe, ce qui est utile lors de la segmentation du code du model entre plusieurs model.

Les méthodes de transformation des fonctions JAX nécessitent que les fonctions d'entrée soient des fonctions pures.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, la fonction qui prédit le retour attendu après avoir effectué une action dans un état, puis en suivant une règle donnée.

La fonction Q est également appelée fonction de valeur d'action état.

Q-learning

#rl

Dans l'apprentissage par renforcement, un algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Le processus de décision de Markov modélise un environnement.

quantile

Chaque ensemble dans le binning en quantiles.

binning en quantiles

Distribuer les valeurs d'une caractéristique dans des buckets afin que chaque bucket contienne le même nombre (ou presque) d'exemples. Par exemple, la figure suivante divise 44 points en 4 buckets, chacun contenant 11 points. Pour que chaque bucket de la figure contienne le même nombre de points, certains buckets s'étendent sur une largeur différente de valeurs x.

quantification

Terme complexe pouvant être utilisé de l'une des manières suivantes:

Mettre en œuvre le binning en quantiles pour une fonctionnalité particulière

Transformer des données en zéros et en uns pour accélérer le stockage, l'entraînement et l'inférence. Étant donné que les données booléennes sont plus résistantes au bruit et aux erreurs que les autres formats, la quantification peut améliorer l'exactitude du modèle. Les techniques de quantification incluent l'arrondi, la troncation et le binning.

Réduire le nombre de bits utilisés pour stocker les paramètres d'un modèle. Supposons que les paramètres d'un modèle soient stockés sous forme de nombres à virgule flottante 32 bits. La quantification convertit ces paramètres de 32 bits en 4, 8 ou 16 bits. La quantification réduit les éléments suivants:

Utilisation du calcul, de la mémoire, du disque et du réseau

Il est temps d'inférer une prédiction

Consommation d'énergie

Cependant, la quantification réduit parfois l'exactitude des prédictions d'un modèle.

q

#TensorFlow

Opération TensorFlow qui implémente une structure de données de file d'attente. Généralement utilisé dans les E/S.

R

RAG

#fundamentals

Abréviation de génération augmentée de récupération.

forêt d'arbres décisionnels

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

stratégie aléatoire

#rl

Dans l'apprentissage par renforcement, une règle qui choisit une action au hasard.

classement

Type d'apprentissage supervisé dont l'objectif est d'ordonner une liste d'éléments.

rang (ordinalité)

Position ordinale d'une classe dans un problème de machine learning, qui classe les classes par ordre décroissant. Par exemple, un système de classement des comportements peut classer les récompenses d'un chien de la plus élevée (un steak) à la plus basse (chou frisé flétri).

rang (Tensor)

#TensorFlow

Nombre de dimensions d'un Tensor. Par exemple, une grandeur scalaire a un rang de 0, un vecteur un rang de 1 et une matrice un rang de 2.

À ne pas confondre avec le rang (ordinalité).

évaluateur

#fundamentals

Une personne qui fournit des étiquettes pour les exemples. "Annotateur" est un autre nom attribué à l'évaluateur.

recall (rappel)

Cette métrique des modèles de classification répond à la question suivante:

Lorsque la vérité terrain était la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme étant la classe positive ?

Voici la formule:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

vrai positif signifie que le modèle a prédit correctement la classe positive.

"faux négatif" signifie que le modèle a prédit à tort la classe négative.

Supposons que votre modèle a effectué 200 prédictions sur des exemples pour lesquels la vérité terrain est la classe positive. Sur ces 200 prédictions:

180 sont des vrais positifs.

20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Cliquez sur l'icône pour afficher les remarques concernant les ensembles de données avec déséquilibre des classes.

Le rappel est particulièrement utile pour déterminer les performances prédictives des modèles de classification dans lesquels la classe positive est rare. Prenons l'exemple d'un ensemble de données avec déséquilibre des classes dans lequel la classe positive d'une maladie donnée ne concerne que 10 patients sur un million. Supposons que votre modèle effectue cinq millions de prédictions qui donnent les résultats suivants:

30 vrais positifs

20 faux négatifs

4 999 000 vrais négatifs

950 faux positifs

Le rappel de ce modèle est donc le suivant:

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
En revanche, la précision de ce modèle est :
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Ce niveau de précision élevé semble impressionnant, mais n'a pratiquement aucun sens. Le rappel est une métrique beaucoup plus utile pour les ensembles de données avec déséquilibre des classes que la justesse.

système de recommandation

#recsystems

Système qui sélectionne pour chaque utilisateur un ensemble relativement petit d'éléments souhaitables dans un corpus volumineux. Par exemple, un système de recommandation de vidéos peut recommander deux vidéos d'un corpus de 100 000 vidéos, en sélectionnant Casablanca et The Philadelphia Story pour un utilisateur, et Wonder Woman et Black Panther pour un autre. Un système de recommandation de vidéos peut baser ses recommandations sur des facteurs tels que:

Films notés ou regardés par des utilisateurs similaires

Genre, réalisateurs, acteurs, catégorie démographique ciblée...

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

Si l'entrée est négative ou égale à zéro, la sortie est 0.

Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

Si l'entrée est -3, la sortie est 0.

Si l'entrée est +3, la sortie est 3,0.

Voici un graphique de la fonction ReLU:

ReLU est une fonction d'activation très courante. Malgré son comportement simple, la fonction ReLU permet tout de même à un réseau de neurones d'apprendre les relations non linéaires entre les caractéristiques et l'étiquette.

réseau de neurones récurrent

#seq

Réseau de neurones exécuté intentionnellement plusieurs fois, où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée à la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, de sorte que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties précédentes de la séquence.

Par exemple, la figure suivante montre un réseau de neurones récurrent exécuté quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée lors de la deuxième exécution font partie de l'entrée de la même couche cachée lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne et prédit progressivement le sens de la séquence entière plutôt que uniquement le sens de mots individuels.

modèle de régression

#fundamentals

De manière informelle, un modèle qui génère une prédiction numérique. (En revanche, un modèle de classification génère une prédiction de classe.) Voici quelques exemples de modèles de régression:

Un modèle qui prédit la valeur d'une maison spécifique, par exemple 423 000 euros.

Un modèle qui prédit l'espérance de vie d'un arbre spécifique (23,2 ans, par exemple).

Un modèle qui prédit la quantité de précipitations qui vont tomber dans une ville donnée au cours des six prochaines heures (par exemple, 45 mm).

Les deux types de modèles de régression les plus courants sont les suivants:

La régression linéaire, qui trouve la ligne qui convient le mieux les valeurs d'étiquette aux caractéristiques.

La régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe généralement à une prédiction de classe.

Tous les modèles qui produisent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est qu'un modèle de classification qui possède des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Les types de régularisation les plus courants sont les suivants:

Régularisation L₁

Régularisation L₂

régularisation par abandon

Arrêt prématuré (il ne s'agit pas d'une méthode de régularisation formelle, mais il peut limiter efficacement le surapprentissage)

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

Cliquez sur l'icône pour afficher des notes supplémentaires.

La régularisation est paradoxale. En général, l'augmentation de la régularisation augmente la perte d'entraînement, ce qui peut être déroutant, car l'objectif n'est-il pas de minimiser la perte d'entraînement ?

En fait, non. Le but n'est pas de minimiser la perte d'entraînement. L'objectif est d'obtenir d'excellentes prédictions à partir d'exemples concrets. Il est à noter que, même si l'augmentation de la régularisation augmente la perte d'entraînement, elle permet généralement aux modèles d'obtenir de meilleures prédictions sur des exemples réels.

taux de régularisation

#fundamentals

Nombre spécifiant l'importance relative de la régularisation pendant l'entraînement. Augmenter le taux de régularisation réduit le surapprentissage, mais peut réduire les performances prédictives du modèle. À l'inverse, la réduction ou l'omission du taux de régularisation augmente le surapprentissage.

Cliquez sur l'icône pour afficher le calcul.

Le taux de régularisation est généralement représenté par la lettre grecque lambda. L'équation de perte simplifiée suivante montre l'influence de lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

où la régularisation correspond à un mécanisme de régularisation, y compris :

Régularisation L₁

Régularisation L₂

apprentissage par renforcement

#rl

Famille d'algorithmes qui apprennent une règle optimale, dont l'objectif est de maximiser le retour sur investissement lors des interactions avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences d'actions de matchs précédents qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des défaites.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF, Reinforcement Learning from Human Feedback)

#IAgénérative

#rl

Utiliser les commentaires d'évaluateurs manuels pour améliorer la qualité des réponses d'un modèle. Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle avec un emoji 👍 ou 👎. Le système peut alors ajuster ses futures réponses en fonction de ce feedback.

ReLU

#fundamentals

Abréviation de l'unité de rectification linéaire.

tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la relecture d'expérience.

Cloud SQL

Copie de l'ensemble d'entraînement ou du modèle, généralement sur une autre machine. Par exemple, un système peut utiliser la stratégie suivante pour implémenter le parallélisme des données:

Placer les instances répliquées d'un modèle existant sur plusieurs machines

Envoyez différents sous-ensembles de l'ensemble d'entraînement à chaque instance répliquée.

Agrégez les mises à jour des paramètres.

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les gens écrivent sur des actions, des résultats ou des propriétés ne reflète pas leurs fréquences du monde réel ni le degré de caractéristique d'une propriété d'une classe d'individus. Ce biais peut influencer la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative du rire et de la respiration à partir d'un corpus de livres déterminerait probablement que le rire est plus courant que la respiration.

vectorielle

Processus de mise en correspondance des données avec des caractéristiques utiles.

reclassement

#recsystems

Étape finale d'un système de recommandation, au cours de laquelle les éléments notés peuvent être réévalués selon un autre algorithme (généralement non-ML). Le reclassement évalue la liste des éléments générés par la phase d'attribution de scores, en prenant des mesures telles que:

Éliminer les articles que l'utilisateur a déjà achetés.

Booster le score des éléments les plus récents.

génération augmentée de récupération (RAG)

#fundamentals

Technique permettant d'améliorer la qualité des résultats d'un grand modèle de langage (LLM) en les ancréant avec des sources de connaissances récupérées après l'entraînement du modèle. La RAG améliore la précision des réponses LLM en fournissant au LLM entraîné un accès aux informations extraites de bases de connaissances ou de documents de confiance.

Les motivations courantes de l'utilisation de la génération augmentée de récupération incluent:

Augmenter la justesse factuelle des réponses générées par le modèle

Donner au modèle accès aux connaissances sur lesquelles il n'a pas été entraîné.

Modifier les connaissances utilisées par le modèle

Permettre au modèle de citer ses sources.

Par exemple, supposons qu'une application de chimie utilise l'API PaLM pour générer des résumés liés aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

Recherche ("récupère") les données en rapport avec la requête de l'utilisateur.

Ajoute ("augmente") les données chimiques pertinentes à la requête de l'utilisateur.

Demande au LLM de créer un résumé basé sur les données ajoutées.

return

#rl

Dans l'apprentissage par renforcement, selon une certaine règle et un certain état, le retour est la somme de toutes les récompenses que l'agent s'attend à recevoir en suivant la règle depuis l'état jusqu'à la fin de l'épisode. L'agent tient compte du caractère retardé des récompenses attendues en les remettant en fonction des transitions d'état requises pour obtenir la récompense.

Par conséquent, si le facteur de remise est $\gamma$et que $r_0, \ldots, r_{N}$indique les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

une récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique d'une action dans un état, tel que défini par l'environnement.

régularisation de crête

Synonyme de régularisation L₂. Le terme régularisation de crête est plus fréquemment utilisé dans les contextes de statistiques pures, tandis que la régularisation L₂régularisation est utilisée plus souvent en machine learning.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs et du taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

La courbe ROC du modèle précédent se présente comme suit:

En revanche, l'illustration suivante représente les valeurs brutes de la régression logistique pour un modèle de mauvaise qualité qui ne peut pas du tout séparer les classes négatives des classes positives:

La courbe ROC de ce modèle se présente comme suit:

Parallèlement, dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Ainsi, une courbe ROC classique se situe quelque part entre les deux extrêmes:

Le point sur une courbe ROC le plus proche de (0.0,1.0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont bien plus pénibles que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

requête de rôle

#language

#IAgénérative

Partie facultative d'une requête qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans invite de rôle, un grand modèle de langage fournit une réponse qui peut ou non être utile à la personne qui pose les questions. Avec une invite de rôle, un grand modèle de langage peut répondre d'une manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie d'invite de rôle des invites suivantes est en gras:

Résume cet article pour un doctorat en économie.

Décrivez le fonctionnement des marées pour un enfant de dix ans.

Expliquer la crise financière de 2008. Parlez comme vous le feriez à un jeune enfant ou à un golden retriever.

racine

#df

Le nœud de départ (la première condition) d'un arbre de décision Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

répertoire racine

#TensorFlow

Répertoire que vous spécifiez pour héberger les sous-répertoires du point de contrôle TensorFlow et les fichiers d'événements de plusieurs modèles.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

invariance rotationnelle

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque leur orientation change. Par exemple, l'algorithme peut toujours identifier une raquette de tennis, qu'elle pointe vers le haut, vers le côté ou vers le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable. Par exemple, un 9 à l'envers ne doit pas être classé comme un 9.

Voir aussi invariance par traduction et invariance par taille.

Coefficient de détermination

Métrique de régression indiquant la variation d'un libellé due à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination (R-carré) est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:

Un R au carré de 0 signifie qu'aucune variation d'une étiquette n'est due à l'ensemble de caractéristiques.

Un R au carré de 1 signifie que toute la variation d'une étiquette est due à l'ensemble de caractéristiques.

Un R au carré compris entre 0 et 1 indique dans quelle mesure la variation de l'étiquette peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R au carré de 0,10 signifie que 10 % de la variance de l'étiquette est dû à l'ensemble de caractéristiques, un R au carré de 0,20 signifie que 20 % est dû à l'ensemble de caractéristiques, et ainsi de suite.

Le coefficient de détermination (r-carré) correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

biais d’échantillonnage

#fairness

Voir biais de sélection.

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments à partir d'un ensemble d'éléments candidats, dans laquelle le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans le pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple de la collection de fruits suivante:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisisse de manière aléatoire fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système choisit le deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, il s'agit du même ensemble qu'auparavant. Le système peut donc potentiellement sélectionner à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, un échantillon ne peut pas être sélectionné à nouveau une fois celui-ci sélectionné. Par exemple, si le système choisit de manière aléatoire fig comme premier échantillon, fig ne peut pas être sélectionné à nouveau. Par conséquent, le système choisit le deuxième échantillon de l'ensemble suivant (réduit) :

fruit = {kiwi, apple, pear, cherry, lime, mango}

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le mot remplacement dans échantillonnage avec remplacement peut perturber de nombreuses personnes. En français, replacement signifie "substitution". Cependant, l'échantillonnage avec remplacement utilise en fait la définition française du remplacement, ce qui signifie "remettre quelque chose en retour".

Le mot anglais replacement est traduit par le mot français remplacement.

SavedModel

#TensorFlow

Format recommandé pour enregistrer et récupérer des modèles TensorFlow. SavedModel est un format de sérialisation récupérable, indépendant du langage, qui permet aux systèmes et aux outils de niveau supérieur de produire, d'utiliser et de transformer des modèles TensorFlow.

Pour plus d'informations, reportez-vous au chapitre Enregistrement et restauration du guide du programmeur TensorFlow.

Économique

#TensorFlow

Objet TensorFlow responsable de l'enregistrement des points de contrôle du modèle.

scalaire

Nombre unique ou chaîne unique pouvant être représentée sous la forme d'un tensor de rang 0. Par exemple, les lignes de code suivantes créent chacune une valeur scalaire dans TensorFlow:

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

scaling

Toute transformation ou technique mathématique qui déplace la plage d'une valeur d'étiquette et/ou de caractéristique. Certaines formes de scaling sont très utiles pour les transformations telles que la normalisation.

Voici quelques formes courantes de scaling utile en machine learning:

mise à l'échelle linéaire, qui utilise généralement une combinaison de soustraction et de division pour remplacer la valeur d'origine par un nombre compris entre -1 et +1, ou entre 0 et 1.

et une mise à l'échelle logarithmique, qui remplace la valeur d'origine par son logarithme.

La normalisation du score Z, qui remplace la valeur d'origine par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique.

scikit-learn

Plate-forme de machine learning Open Source populaire. Consultez le site scikit-learn.org.

par lot

#recsystems

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

biais de sélection

#fairness

Erreurs dans les conclusions tirées de données échantillonnées en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et ceux non observés. Il existe les formes de biais de sélection suivantes:

biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à la population sur laquelle le modèle de machine learning effectue des prédictions.

biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.

biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes refusent de participer à des enquêtes à des taux différents de ceux des utilisateurs d'autres groupes.

Par exemple, supposons que vous créiez un modèle de machine learning qui prédit le niveau de satisfaction des spectateurs à regarder d'un film. Pour collecter des données d'entraînement, vous distribuez une enquête à tous les participants au premier rang d'un cinéma projetant le film. Cela peut sembler être un moyen raisonnable de rassembler un ensemble de données. Cependant, cette forme de collecte de données peut introduire les formes de biais de sélection suivantes:

Biais de couverture: avec un échantillonnage provenant d'une population qui a choisi de regarder le film, les prédictions de votre modèle risquent de ne pas être généralisées à celles qui n'ont pas encore exprimé ce niveau d'intérêt pour le film.

Biais d'échantillonnage: au lieu d'échantillonner aléatoirement la population visée (toutes les personnes présentes dans le film), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes assises au premier rang soient plus intéressées par le film que celles des autres rangées.

Biais de non-réponse: en général, les personnes ayant des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que celles qui ont des opinions modérées. Étant donné que l'enquête sur les films est facultative, les réponses sont plus susceptibles de former une distribution bimodale plutôt qu'une distribution normale (en forme de cloche).

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, des représentations vectorielles continues de type jeton) en une autre séquence de représentations vectorielles continues Chaque représentation vectorielle continue dans la séquence de sortie est construite en intégrant les informations des éléments de la séquence d'entrée par le biais d'un mécanisme d'attention.

La partie self de l'auto-attention fait référence à la séquence qui s'occupe elle-même plutôt qu'à un autre contexte. L'auto-attention est l'un des principaux composants des modèles Transformer. Elle utilise une terminologie de recherche dans un dictionnaire, telle que "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être une simple représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau note la pertinence du mot par rapport à chaque élément de la séquence de mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue parce qu'il était trop fatigué.

L'illustration suivante (tirée de l'ouvrage Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, l'obscurité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:

La couche d'auto-attention met en évidence les mots pertinents. Dans ce cas, la couche d'attention a appris à mettre en surbrillance les mots auxquels elle pourrait faire référence, en attribuant le poids le plus élevé à l'animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également aux concepts d'attention et d'auto-attention multi-tête.

apprentissage auto-supervisé

Famille de techniques permettant de convertir un problème de machine learning non supervisé en problème de machine learning supervisé en créant des étiquettes de substitution à partir d'exemples sans étiquette.

Certains modèles basés sur Transformer, tels que BERT, utilisent l'apprentissage auto-supervisé.

L'entraînement auto-supervisé est une approche d'apprentissage semi-supervisé.

auto-formation

Variante de l'apprentissage auto-supervisé qui est particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Le ratio d'exemples sans étiquette et d'exemples étiquetés dans l'ensemble de données est élevé.

Il s'agit d'un problème de classification.

L'auto-entraînement consiste à itérer les deux étapes suivantes jusqu'à ce que le modèle cesse de s'améliorer:

Utilisez le machine learning supervisé pour entraîner un modèle sur les exemples étiquetés.

Utilisez le modèle créé à l'étape 1 pour générer des prédictions (étiquettes) sur les exemples sans étiquette, en déplaçant les exemples non étiquetés comme étant fiables dans les exemples étiquetés avec l'étiquette prédite.

Notez que chaque itération de l'étape 2 ajoute d'autres exemples étiquetés pour l'entraînement de l'étape 1.

apprentissage partiellement supervisé

Entraînement d'un modèle avec des données où certains des exemples d'entraînement sont étiquetés, mais pas d'autres. Une technique d'apprentissage semi-supervisé consiste à déduire les étiquettes des exemples non étiquetés, puis à entraîner le modèle sur les étiquettes déduites pour créer un modèle. L'apprentissage partiellement supervisé peut être utile si les étiquettes sont coûteuses à obtenir, mais que les exemples non étiquetés sont nombreux.

L'auto-entraînement est l'une des techniques d'apprentissage semi-supervisé.

attribut sensible

#fairness

Attribut humain pouvant faire l'objet d'une attention particulière pour des raisons juridiques, éthiques, sociales ou personnelles.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe, positive ou négative, vis-à-vis d'un service, d'un produit, d'une organisation ou d'un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer dans quelle mesure les étudiants ont globalement aimé ou déplu le cours.

modèle de séquence

#seq

Modèle dont les entrées ont une dépendance séquentielle. Par exemple, prédire la prochaine vidéo regardée à partir d'une séquence de vidéos déjà regardées.

tâche "seq2seq"

#language

Tâche qui convertit une séquence d'entrée de jetons en une séquence de sortie de jetons. Par exemple, deux types courants de tâches "seq2seq" sont les suivants:

Traducteurs :

Exemple de séquence d'entrée: "Je t'aime".

Exemple de séquence de sortie: "Je t'aime".

Systèmes de questions-réponses :

Exemple de séquence d'entrée: "Ai-je besoin de ma voiture à New York ?"

Exemple de séquence de sortie: "Non. Veuillez laisser votre voiture à la maison."

du modèle.

Processus consistant à mettre un modèle entraîné à disposition pour fournir des prédictions via l'inférence en ligne ou l'inférence hors ligne.

forme (Tensor)

Nombre d'éléments dans chaque dimension d'un Tensor. La forme est représentée par une liste d'entiers. Par exemple, le Tensor bidimensionnel suivant a une forme de [3,4]:

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

TensorFlow utilise le format "ligne principale" (style C) pour représenter l'ordre des dimensions. C'est pourquoi la forme dans TensorFlow est [3,4] plutôt que [4,3]. En d'autres termes, dans un Tensor TensorFlow bidimensionnel, la forme est [nombre de lignes, nombre de colonnes].

segment

#TensorFlow

#GoogleCloud

Une division logique de l'ensemble d'entraînement ou du modèle. En règle générale, certains processus créent des segments en divisant les exemples ou les paramètres en fragments de taille égale (généralement). Chaque segment est ensuite attribué à une machine différente.

La segmentation d'un modèle est appelée parallélisme des modèles. La segmentation des données est appelée parallélisme des données.

rétrécissement

#df

Hyperparamètre dans le boosting de gradient qui contrôle le surapprentissage. Le rétrécissement lors du boosting de gradient est analogue au taux d'apprentissage lors d'une descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement faible réduit davantage le surapprentissage qu'une valeur de rétrécissement supérieure.

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage limitée, généralement comprise entre 0 et 1 ou entre -1 et +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard négatif, etc.) à une fonction sigmoïde et la sortie se trouvera toujours dans la plage contrainte. Voici un graphique illustrant la fonction d'activation sigmoïde:

La fonction sigmoïde est utilisée à plusieurs reprises en machine learning:

Conversion de la sortie brute d'un modèle de régression logistique ou de régression multinomiale en probabilité.

Agit en tant que fonction d'activation dans certains réseaux de neurones.

Cliquez sur l'icône pour afficher le calcul.

La fonction sigmoïde sur un nombre d'entrée x a la formule suivante:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En machine learning, x est généralement une somme pondérée.

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

programme unique / données multiples (SPMD)

Technique de parallélisme dans laquelle le même calcul est exécuté sur différentes données d'entrée en parallèle sur différents appareils. L'objectif du protocole SPMD est d'obtenir des résultats plus rapidement. Il s'agit du style de programmation parallèle le plus courant.

invariance par redimensionnement

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque la taille de l'image change. Par exemple, l'algorithme peut toujours identifier un chat, qu'il consomme 2 millions de pixels ou 200 000 pixels. Notez que même les meilleurs algorithmes de classification d'images présentent encore des limites pratiques en matière d'invariance par taille. Par exemple, il est peu probable qu'un algorithme (ou un humain) classifie correctement une image de chat de 20 pixels seulement.

Voir aussi invariance par traduction et invariance rotationnelle.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de croquis utilisent une fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis les regroupent dans des buckets.

Cette fonctionnalité réduit le nombre de calculs requis pour les calculs de similarité sur les grands ensembles de données. Plutôt que de calculer la similarité pour chaque paire d'exemples de l'ensemble de données, nous la calculons uniquement pour chaque paire de points de chaque bucket.

sauter-gramme

#language

Un n-gramme qui peut omettre (ou "ignorer") des mots dans le contexte d'origine, ce qui signifie que les N mots n'ont peut-être pas été adjacents à l'origine. Plus précisément, un "k-skip-n-gramme" est un n-gramme pour lequel jusqu'à k mots ont pu être ignorés.

Par exemple, "le renard brun au ventre" peut contenir les 2 grammes suivants:

"rapide"

"brun rapide"

"renard marron"

"1-skip-2-gram" est une paire de mots séparés par un mot au maximum. Par conséquent, l'équivalent de 2 grammes de 1 gramme à ignorer pour l'expression "vêtue du renard brun" :

"le marron"

"petit renard"

De plus, tous les 2 grammes sont également des 1-skip-2-grammes, car moins d'un mot peut être ignoré.

Les Skip-grams sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "renard" était directement associé à "rapide" dans l'ensemble de 1-skip-2-grammes, mais pas dans celui de 2 grammes.

Les sauts-grammes permettent d'entraîner les modèles d'intégration de mots.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. Les probabilités s'additionnent pour obtenir exactement 1,0. Par exemple, le tableau suivant montre comment la fonction softmax répartit différentes probabilités:

L'image est... Probabilité

chien 0,85

cat 0,13

cheval 0,02

Softmax est également appelé softmax complet.

À comparer à l'échantillonnage de candidats.

Cliquez sur l'icône pour afficher le calcul.

L'équation softmax est la suivante:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
où :

$\sigma_i$ est le vecteur de sortie. Chaque élément du vecteur de sortie spécifie la probabilité de cet élément. La somme de tous les éléments dans le vecteur de sortie est de 1,0. Le vecteur de sortie contient le même nombre d'éléments que le vecteur d'entrée, $z$.

$z$ est le vecteur d'entrée. Chaque élément du vecteur d'entrée contient une valeur à virgule flottante.

$K$ est le nombre d'éléments dans le vecteur d'entrée (et le vecteur de sortie).

Par exemple, supposons que le vecteur d'entrée soit:

[1.2, 2.5, 1.8]

Par conséquent, softmax calcule le dénominateur comme suit:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilité softmax de chaque élément est donc:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Ainsi, le vecteur de sortie est donc:

$$\sigma = [0.154, 0.565, 0.281]$$

La somme des trois éléments de $\sigma$ est de 1,0. Ouf !

réglage flexible des requêtes

#language

#IAgénérative

Technique de réglage d'un grand modèle de langage pour une tâche particulière, sans optimisation gourmande en ressources. Au lieu de réentraîner toutes les pondérations du modèle, le réglage des invites flexibles ajuste automatiquement une requête pour atteindre le même objectif.

À partir d'une requête textuelle, le réglage souple des requêtes ajoute généralement des représentations vectorielles continues de jetons supplémentaires à la requête et utilise la rétropropagation pour optimiser l'entrée.

Une requête "difficile" contient des jetons réels au lieu de représentations vectorielles continues de jetons.

caractéristique creuse

#language

#fundamentals

Caractéristique dont les valeurs sont principalement nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuse. En revanche, une caractéristique dense a des valeurs qui ne sont généralement pas nulles ni vides.

Dans le machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut identifier uniquement un érable. Parmi les millions de vidéos possibles dans une vidéothèque, un seul exemple peut identifier uniquement "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec l'encodage one-hot. Si l'encodage one-hot est important, vous pouvez ajouter une couche de représentation vectorielle continue à l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language

#fundamentals

Ne stocke que la ou les positions des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt particulière. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait un seul élément 1 (pour représenter l'espèce d'arbre particulière de cet exemple) et 35 0 (pour représenter les 35 espèces d'arbres pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Sinon, la représentation creuse permet d'identifier simplement la position de l'espèce concernée. Si maple est en position 24, la représentation creuse de maple serait simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

Remarque :Vous ne devez pas transmettre une représentation creuse à un modèle en tant qu'entrée de caractéristiques directe. À la place, vous devez convertir la représentation creuse en représentation one-hot avant de procéder à l'entraînement.

Cliquez sur l'icône pour voir un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doive représenter les mots dans une phrase en anglais, mais pas leur ordre. L'anglais comprend environ 170 000 mots. Il s'agit donc d'une caractéristique catégorielle comprenant environ 170 000 éléments. La plupart des phrases en anglais utilisent une fraction extrêmement minuscule de ces 170 000 mots. Par conséquent, l'ensemble de mots d'un seul exemple sera presque certainement des données creuses.

Considérez la phrase suivante:

My dog is a great dog

Vous pouvez utiliser une variante de vecteur one-hot pour représenter les mots de cette phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un entier autre qu'un. Bien que les mots "mon", "est", "un" et "grand" n'apparaissent qu'une seule fois dans la phrase, le mot "chien" apparaît deux fois. L'utilisation de cette variante de vecteurs one-hot pour représenter les mots de cette phrase produit le vecteur à 170 000 éléments suivant:

Une représentation creuse de la même phrase serait simplement:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Cliquez sur l'icône si vous n'êtes pas sûr.

Le terme "représentation creuse" est source de confusion pour beaucoup de gens, car la représentation creuse n'est elle-même pas un vecteur creux. Il s'agit plutôt d'une représentation dense d'un vecteur creux. La représentation d'index synonyme est un peu plus claire que "représentation creuse".

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement des zéros. Voir aussi caractéristique creuse et parcimonie.

parcimonie

Nombre d'éléments définis sur zéro (ou nul) dans un vecteur ou une matrice, divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. Le calcul de la parcimonie est le suivant:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La parcimonie des caractéristiques désigne la parcimonie d'un vecteur de caractéristiques, tandis que la parcimonie du modèle désigne la parcimonie des pondérations du modèle.

pooling spatial

#image

Voir pooling.

split

#df

Dans un arbre de décision, autre nom de condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) chargée de trouver la meilleure condition à chaque nœud.

SPMD

Abréviation de un seul programme ou de plusieurs données.

marge maximale quadratique

Carré de la marge maximale. La marge maximale quadratique pénalise les anomalies plus sévèrement que la marge maximale standard.

perte quadratique

#fundamentals

Synonyme de perte L₂.

entraînement par étapes

#language

Stratégie d'entraînement d'un modèle en une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'améliorer la qualité du modèle.

Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif:

L'étape 1 contient 3 couches cachées, l'étape 2 contient 6 couches cachées et l'étape 3 contient 12 couches cachées.

L'étape 2 commence l'entraînement avec les pondérations apprises dans les trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises dans les six couches cachées de l'étape 2.

Voir aussi pipeline.

state

#rl

Dans l'apprentissage par renforcement, les valeurs de paramètre qui décrivent la configuration actuelle de l'environnement, que l'agent utilise pour choisir une action.

fonction de valeur d'action d'état

#rl

Synonyme de fonction Q.

static

#fundamentals

Une action unique plutôt que continue. Les termes statique et hors connexion sont des synonymes. Voici des utilisations courantes des propriétés statiques et hors connexion en machine learning:

Un modèle statique (ou modèle hors connexion) est un modèle entraîné une fois, puis utilisé pendant un certain temps.

L'entraînement statique (ou entraînement hors connexion) est le processus d'entraînement d'un modèle statique.

L'inférence statique (ou inférence hors ligne) est un processus par lequel un modèle génère un lot de prédictions à la fois.

À comparer à dynamique.

inférence statique

#fundamentals

Synonyme d'inférence hors connexion.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs se ressemblent en 2021 et en 2023 présente une stationnarité.

Dans le monde réel, très peu d'éléments sont stationnaires. Même des éléments géographiques synonymes de stabilité (comme le niveau de la mer) changent au fil du temps.

À comparer à la non stationnarité.

étape

Propagation avant et arrière d'un lot.

Pour en savoir plus sur les propagations avant et arrière, consultez la section Rétropropagation.

taille de pas

Synonyme de taux d'apprentissage.

descente de gradient stochastique (SGD) (stochastic gradient descent (SGD))

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à 1. En d'autres termes, la SGD est entraînée sur un seul exemple choisi de manière uniforme et aléatoire dans un ensemble d'entraînement.

stride

#image

Dans une opération convolutive ou un pooling, delta dans chaque dimension de la série suivante de tranches d'entrée. Par exemple, l'animation suivante montre un pas de (1,1) lors d'une opération convolutive. Par conséquent, la tranche d'entrée suivante commence une position à droite de la tranche d'entrée précédente. Lorsque l'opération atteint le bord droit, la tranche suivante se trouve complètement à gauche, mais une position vers le bas.

L'exemple précédent illustre un pas bidimensionnel. Si la matrice d'entrée est tridimensionnelle, le pas est également tridimensionnel.

Minimisation du risque structurel (SRM)

Algorithme qui concilie deux objectifs:

Besoin de créer le modèle le plus prédictif (par exemple, perte la plus faible).

Nécessité de simplifier au maximum le modèle (par exemple, forte régularisation)

Par exemple, une fonction qui minimise la perte et la régularisation sur l'ensemble d'entraînement est un algorithme de minimisation du risque structurel.

À comparer à la minimisation du risque empirique.

sous-échantillonnage

#image

Voir pooling.

jeton de sous-mot

#language

Dans les modèles de langage, jeton qui est une sous-chaîne d'un mot, qui peut être le mot entier.

Par exemple, un mot tel que "itemize" peut être divisé en les parties "item" (mot racine) et "ize" (suffixe), chacune étant représentée par son propre jeton. La division de mots inhabituels en de tels éléments, appelés sous-mots, permet aux modèles de langage de fonctionner sur les éléments constitutifs les plus courants du mot, tels que les préfixes et les suffixes.

À l'inverse, les mots courants tels que "participant" peuvent ne pas être dissociés et être représentés par un seul jeton.

résumé

#TensorFlow

Dans TensorFlow, valeur ou ensemble de valeurs calculées à un pas donné, généralement utilisé pour suivre les métriques du modèle pendant l'entraînement.

machine learning supervisé

#fundamentals

Entraînement d'un model à partir de model et de leurs model correspondantes Le machine learning supervisé est comparable à l'apprentissage d'un sujet par l'étude d'une série de questions et des réponses correspondantes. Après avoir maîtrisé la correspondance entre les questions et les réponses, un élève peut fournir des réponses à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Caractéristique absente des caractéristiques d'entrée, mais assemblée à partir d'une ou de plusieurs d'entre elles. Voici quelques méthodes pour créer des caractéristiques synthétiques:

Binning d'une caractéristique continue dans des bins de plage

Créer un croisement de caractéristiques

Multiplication (ou division) d'une caractéristique par d'autres valeurs de caractéristique ou par elle-même Par exemple, si a et b sont des caractéristiques d'entrée, voici des exemples de caractéristiques synthétiques :

ab

A²

Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, voici des exemples de caractéristiques synthétiques :

sin(c)

ln(c)

Les caractéristiques créées en utilisant uniquement la normalisation ou le scaling ne sont pas considérées comme des caractéristiques synthétiques.

T

T5

#language

Modèle d'apprentissage par transfert texte-vers-texte introduit par l'IA de Google en 2020. T5 est un modèle d'encodeur-décodeur, basé sur l'architecture Transformer et entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction et la réponse à des questions de manière conversationnelle.

Le niveau T5 tire son nom des cinq T de "Text-to-Text Transfer Transformer" (Transformateur de transfert de texte en texte).

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (qui repose sur JAX et Flax).

Q-learning tabulaire

#rl

Dans l'apprentissage par renforcement, l'implémentation du Q-learning en utilisant une table pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

cible

Synonyme de libellé.

réseau cible

#rl

Dans le Q-learning profond, un réseau de neurones qui est une approximation stable du réseau de neurones principal, où le réseau de neurones principal met en œuvre une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs q prédites par le réseau cible. Par conséquent, vous évitez la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur des valeurs q prédites par lui-même. En évitant ces commentaires, la stabilité de l'entraînement augmente.

opération

Un problème qui peut être résolu à l'aide de techniques de machine learning, par exemple:

classification

régression

clustering

détection d'anomalies

température

#language

#image

#IAgénérative

Hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Plus la température est élevée, plus le résultat est aléatoire, tandis qu'une température plus faible génère un résultat moins aléatoire.

Le choix de la meilleure température dépend de l'application spécifique et des propriétés privilégiées pour la sortie du modèle. Par exemple, il est probable que vous augmentiez la température lorsque vous créiez une application qui génère un résultat créatif. À l'inverse, vous feriez probablement baisser la température lors de la création d'un modèle qui classe des images ou du texte afin d'améliorer la précision et la cohérence du modèle.

La température est souvent utilisée avec softmax.

données temporelles

Données enregistrées à différents moments dans le temps. Par exemple, les ventes de manteaux d'hiver enregistrées pour chaque jour de l'année sont des données temporelles.

Tensor

#TensorFlow

Structure de données principale des programmes TensorFlow. Les Tensors sont des structures de données à N dimensions (où N peut être très grand) : le plus souvent, des scalaires, des vecteurs ou des matrices. Les éléments d'un Tensor peuvent contenir des valeurs entières, à virgule flottante ou de chaîne.

TensorBoard

#TensorFlow

Tableau de bord qui affiche les résumés enregistrés lors de l'exécution d'un ou de plusieurs programmes TensorFlow.

TensorFlow

#TensorFlow

Plate-forme de machine learning distribuée à grande échelle. Ce terme fait également référence à la couche API de base de la pile TensorFlow, qui accepte les calculs généraux sur les graphes Dataflow.

Bien que TensorFlow soit principalement utilisé pour le machine learning, vous pouvez également l'utiliser pour des tâches autres que le ML qui nécessitent des calculs numériques à l'aide de graphes Dataflow.

TensorFlow Playground

#TensorFlow

Programme qui visualise l'influence des différents hyperparamètres sur l'entraînement d'un modèle (principalement un réseau de neurones). Pour découvrir TensorFlow Playground, rendez-vous sur http://playground.tensorflow.org.

TensorFlow Serving

#TensorFlow

Plate-forme permettant de déployer des modèles entraînés en production.

Tensor Processing Unit (TPU)

#TensorFlow

#GoogleCloud

Un circuit intégré propre à une application (ASIC) qui optimise les performances des charges de travail de machine learning. Ces ASIC sont déployés sous la forme de plusieurs puces TPU sur un appareil TPU.

rang de Tensor

#TensorFlow

Voir rang (Tensor).

forme de Tensor

#TensorFlow

Nombre d'éléments qu'un Tensor contient dans différentes dimensions. Par exemple, un Tensor [5, 10] a une forme de 5 dans une dimension et de 10 dans une autre.

Taille de Tensor

#TensorFlow

Nombre total de scalaires d'un Tensor. Par exemple, la taille d'un Tensor [5, 10] est de 50.

TensorStore

Une bibliothèque pour lire et écrire efficacement de grands tableaux multidimensionnels

condition de résiliation

#rl

Dans l'apprentissage par renforcement, les conditions qui déterminent la fin d'un épisode, par exemple lorsque l'agent atteint un certain état ou dépasse un certain nombre de transitions d'état. Par exemple, dans le cas d'un morpion de morpion (également appelé "noughts and crosses"), un épisode se termine lorsqu'un joueur marque trois espaces consécutifs ou lorsque tous les espaces sont marqués.

test

#df

Dans un arbre de décision, autre nom de condition.

perte d'évaluation

#fundamentals

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un model, vous essayez généralement de minimiser la perte d'évaluation. En effet, une faible perte de test est un signal de qualité plus important qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte d'évaluation et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

Ensemble de test

Sous-ensemble de l'ensemble de données réservé au test d'un modèle entraîné.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Un ensemble d'entraînement

Un ensemble de validation

un ensemble de test

Chaque exemple d'un ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de test.

L'ensemble d'entraînement et l'ensemble de validation sont tous deux étroitement liés à l'entraînement d'un modèle. Étant donné que l'ensemble de test n'est associé qu'indirectement à l'entraînement, la perte de test est une métrique de qualité moins biaisée et de meilleure qualité que la perte d'entraînement ou la perte de validation.

espace de texte

#language

Intervalle d'index du tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe l'intervalle de texte 3 à 6.

tf.Example

#TensorFlow

Tampon de protocole standard permettant de décrire les données d'entrée pour l'inférence ou l'entraînement d'un modèle de machine learning.

tf.keras

#TensorFlow

Implémentation de Keras intégré à TensorFlow

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, la valeur à laquelle une caractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

Cette forme du terme seuil est différente du seuil de classification.

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les ventes futures de manteaux d'hiver par mois en fonction des données de ventes historiques.

pas de temps

#seq

Une cellule "déroulée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes de temps (identifiées avec les indices t-1, t et t+1):

jeton

#language

Dans un modèle de langage, unité atomique sur laquelle le modèle s'entraîne et sur lequel il effectue des prédictions. Il s'agit généralement de l'un des éléments suivants:

un mot. Par exemple, l'expression "chiens comme des chats" se compose de trois jetons de mots: "chiens", "j'aime" et "chats".

Un caractère. Par exemple, l'expression "poisson vélo" se compose de neuf jetons de caractères. (Notez que l'espace vide compte comme un jeton.)

sous-mots, dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot est constitué d'une racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (la racine "chien" et le suffixe pluriel "s"). Ce même modèle de langage peut considérer le mot unique "plus grand" comme deux sous-mots (le mot racine "tall" et le suffixe "er").

Dans les domaines en dehors des modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans la vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

Tower

Composant d'un réseau de neurones profond, qui est lui-même un réseau de neurones profond. Dans certains cas, chaque tour lit les données à partir d'une source de données indépendante, et ces tours restent indépendantes jusqu'à ce que leur sortie soit combinée dans une couche finale. Dans d'autres cas (par exemple, dans la pile ou la tour encodeur et décodeur de nombreux Transformers), les tours ont des connexions croisées entre elles.

TPU

#TensorFlow

#GoogleCloud

Abréviation de Tensor Processing Unit.

Puce TPU

#TensorFlow

#GoogleCloud

Accélérateur d'algèbre linéaire programmable avec mémoire intégrée à bande passante élevée, optimisé pour les charges de travail de machine learning. Plusieurs puces TPU sont déployées sur un appareil TPU.

appareil TPU

#TensorFlow

#GoogleCloud

Une carte de circuit imprimé (PCB) avec plusieurs puces TPU, des interfaces réseau à bande passante élevée et du matériel de refroidissement du système.

maître TPU

#TensorFlow

#GoogleCloud

Processus de coordination central exécuté sur une machine hôte qui envoie et reçoit des données, des résultats, des programmes, des performances et des informations sur l'état du système aux nœuds de calcul TPU. Le maître TPU gère également la configuration et l'arrêt des appareils TPU.

Nœud TPU

#TensorFlow

#GoogleCloud

Une ressource TPU sur Google Cloud avec un type de TPU spécifique. Le nœud TPU se connecte à votre réseau VPC à partir d'un réseau VPC appairé. Les nœuds TPU sont une ressource définie dans l'API Cloud TPU.

pod TPU

#TensorFlow

#GoogleCloud

Une configuration spécifique d'appareils TPU dans un centre de données Google Tous les appareils d'un pod TPU sont connectés les uns aux autres via un réseau haut débit dédié. Un pod TPU est la plus grande configuration d'appareils TPU disponible pour une version de TPU spécifique.

Ressource TPU

#TensorFlow

#GoogleCloud

Entité TPU sur Google Cloud que vous créez, gérez ou consommez. Par exemple, les nœuds TPU et les types de TPU sont des ressources TPU.

Tranche TPU

#TensorFlow

#GoogleCloud

Une tranche TPU est une partie fractionnaire d'appareils TPU dans un pod TPU. Tous les appareils d'une tranche TPU sont connectés les uns aux autres via un réseau haut débit dédié.

Type de TPU

#TensorFlow

#GoogleCloud

Une configuration d'un ou de plusieurs appareils TPU avec une version de matériel TPU spécifique Vous sélectionnez un type de TPU lorsque vous créez un nœud TPU sur Google Cloud. Par exemple, un type de TPU v2-8 est un appareil TPU v2 unique doté de huit cœurs. Un type de TPU v3-2048 comprend 256 appareils TPU v3 en réseau et un total de 2 048 cœurs. Les types de TPU sont une ressource définie dans l'API Cloud TPU.

Travailleur TPU

#TensorFlow

#GoogleCloud

Processus qui s'exécute sur une machine hôte et exécute des programmes de machine learning sur des appareils TPU.

du modèle

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) comprenant un modèle. Pendant l'entraînement, un système lit les exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

métrique représentant la perte d'un modèle lors d'une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (erreur carrée moyenne) pour la 10e itération est peut-être de 2,2 et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre d'itérations. La courbe de fonction de perte fournit les indications suivantes concernant l'entraînement:

Une pente descendante implique une amélioration du modèle.

Une pente ascendante implique que le modèle s'aggrave.

Une pente plate signifie que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, relativement idéalisée, montre:

Une forte pente descendante lors des itérations initiales, ce qui implique une amélioration rapide du modèle.

Une pente qui s'aplatit progressivement (mais toujours à la baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme légèrement plus lent qu'au cours des itérations initiales.

Pente plate vers la fin de l'entraînement, qui indique une convergence.

Bien que la perte d'entraînement soit importante, consultez également la page consacrée à la généralisation.

décalage entraînement/inférence

#fundamentals

Différence entre les performances d'un modèle pendant l'entraînement et les performances de ce même modèle pendant l'inférence.

Ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

un ensemble d'entraînement

Un ensemble de validation

Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

trajectoire

#rl

Dans l'apprentissage par renforcement, une séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.

apprentissage par transfert

Transfert d'informations d'une tâche de machine learning à une autre Par exemple, dans un apprentissage multitâche, un seul modèle résout plusieurs tâches. Il peut par exemple s'agir d'un modèle profond comportant différents nœuds de sortie pour différentes tâches. L'apprentissage par transfert peut impliquer le transfert de connaissances de la solution d'une tâche plus simple à une tâche plus complexe, ou le transfert de connaissances d'une tâche comportant plus de données vers une tâche où il y en a moins.

La plupart des systèmes de machine learning résolvent une seule tâche. L'apprentissage par transfert est un petit pas en avant vers l'intelligence artificielle, dans laquelle un seul programme peut effectuer plusieurs tâches.

Transformer

#language

Architecture de réseau de neurones développée par Google qui s'appuie sur des mécanismes d'auto-attention pour transformer une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie sans utiliser de convolutions ni de réseaux de neurones récurrents. Un modèle Transformer peut être considéré comme une pile de couches d'auto-attention.

Un objet Transformer peut inclure l'un des éléments suivants:

Un encodeur

un décodeur

à la fois un encodeur et un décodeur

Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence de même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence de représentation vectorielle continue d'entrée, transformant chaque élément de la séquence en une nouvelle représentation vectorielle continue. La première sous-couche d'encodeur agrège les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les informations agrégées en une représentation vectorielle continue de sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie, éventuellement avec une longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont semblables aux sous-couches de l'encodeur. La troisième sous-couche du décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour collecter des informations.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer : une architecture de réseau de neurones nouvelle pour la compréhension du langage) constitue une bonne introduction aux modèles Transformer.

invariance par traduction

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut toujours identifier un chien, qu'il se trouve au centre ou à l'extrémité gauche du cadre.

Voir aussi invariance par taille et invariance rotationnelle.

trigramme

#seq

#language

Un N-gramme dans lequel N=3.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail donné n'est pas un spam, et qu'il n'est pas du spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail spécifique est un spam, et que cet e-mail est bien celui-ci.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe des ordonnées d'une courbe ROC.

U

méconnaissance (à un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais ne sont pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs de données, un modèle entraîné sans prendre conscience d'un attribut sensible peut tout de même avoir un impact disparate sur cet attribut ou enfreindre d'autres contraintes d'équité.

sous-apprentissage

#fundamentals

Produire un model avec une faible capacité de prédiction, car le modèle n'a pas complètement capturé la complexité des données d'entraînement. De nombreux problèmes peuvent entraîner un sous-apprentissage, y compris:

Entraînement sur le mauvais ensemble de fonctionnalités.

Entraînement avec un nombre insuffisant d'époques ou à un taux d'apprentissage trop faible.

Entraînement avec un taux de régularisation trop élevé.

Fournir trop peu de couches cachées dans un réseau de neurones profond

sous-échantillonnage

Suppression des exemples de la classe majoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'un ensemble de données dans lequel le ratio entre la classe majoritaire et la classe minoritaire est de 20:1. Pour remédier à ce déséquilibre de classe, vous pouvez créer un ensemble d'entraînement composé de tous les exemples de classes minoritaires, mais seulement d'un dixième des exemples de classe majoritaire, ce qui créerait un ratio de classe d'ensemble d'entraînement de 2:1. Grâce au sous-échantillonnage, cet ensemble d'entraînement plus équilibré peut produire un meilleur modèle. Cet ensemble d'entraînement plus équilibré peut également contenir des exemples insuffisants pour entraîner un modèle efficace.

À comparer au suréchantillonnage.

unidirectionnel

#language

Système qui évalue uniquement le texte qui précéde une section de texte cible. En revanche, un système bidirectionnel évalue à la fois le texte qui précède et suit une section de texte cible. Pour en savoir plus, consultez la section Bidirectionnel.

modèle de langage unidirectionnel

#language

Un modèle de langage qui base ses probabilités uniquement sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de étiquette. Par exemple, le tableau suivant présente trois exemples non étiquetés issus d'un modèle d'évaluation des maisons, chacun avec trois caractéristiques, mais pas de valeur pour une maison:

Nombre de chambres Nombre de salles de bain Âge du foyer

3 2 15

2 1 72

4 2 34

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions sur des exemples sans étiquette.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple étiqueté.

machine learning non supervisé

#clustering

#fundamentals

Entraînement d'un model pour détecter des tendances dans un ensemble de données, généralement sans étiquette

L'utilisation la plus courante du machine learning non supervisé consiste à mettre des données en cluster dans des groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des chansons en fonction de diverses propriétés de celles-ci. Les clusters obtenus peuvent servir d'entrée à d'autres algorithmes de machine learning (par exemple, à un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les utilisations abusives et la fraude, les clusters peuvent aider les êtres humains à mieux comprendre les données.

À comparer au machine learning supervisé.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Un autre exemple de machine learning non supervisé est l'analyse en composantes principales (PCA). Par exemple, l'application de la PCA sur un ensemble de données contenant des millions de paniers d'achat peut révéler que ceux contenant des citrons contiennent également souvent des antiacides.

modélisation de l'amélioration

Technique de modélisation, couramment utilisée en marketing, qui modélise l'"effet causal" (également appelé "impact incrémentiel") d'un "traitement" sur un "individu". Voici deux exemples :

Les médecins peuvent utiliser la modélisation de l'amélioration pour prédire la baisse de la mortalité (effet causal) d'une procédure médicale (traitement) en fonction de l'âge et des antécédents médicaux d'un patient (individuel).

Les marketeurs peuvent utiliser la modélisation de l'amélioration pour prédire l'augmentation de la probabilité d'un achat (effet causal) due à la diffusion d'une publicité (traitement) sur une personne (individuelle).

La modélisation de l'amélioration diffère de la classification ou de la régression dans le sens où certaines étiquettes (par exemple, la moitié des étiquettes dans les traitements binaires) sont toujours manquantes dans la modélisation de l'amélioration. Par exemple, un patient peut recevoir ou non un traitement. Par conséquent, nous ne pouvons observer que s'il va guérir ou non dans une seule de ces deux situations (mais jamais les deux). Le principal avantage d'un modèle d'amélioration est qu'il peut générer des prédictions pour la situation non observée (la situation contrefactuelle) et s'en servir pour calculer l'effet causal.

surpondération

Appliquer à la classe sous-échantillonnée une pondération égale au facteur de sous-échantillonnage.

matrice utilisateurs

#recsystems

Dans les systèmes de recommandation, vecteur de représentation vectorielle continue généré par la factorisation matricielle qui contient des signaux latents sur les préférences utilisateur. Chaque ligne de la matrice utilisateur contient des informations sur la force relative de différents signaux latents pour un même utilisateur. Prenons l'exemple d'un système de recommandation de films. Dans ce système, les signaux latents de la matrice utilisateurs peuvent représenter l'intérêt de chaque utilisateur pour des genres spécifiques, ou bien être des signaux plus difficiles à interpréter impliquant des interactions complexes entre plusieurs facteurs.

La matrice utilisateurs comporte une colonne pour chaque caractéristique latente et une ligne pour chaque utilisateur. Autrement dit, la matrice utilisateur a le même nombre de lignes que la matrice cible qui est factorisée. Par exemple, dans le cas d'un système de recommandation de films pour 1 000 000 d'utilisateurs, la matrice utilisateurs comportera 1 000 000 lignes.

V

en automatisant la validation des règles ;

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pourriez considérer l'évaluation du modèle par rapport à l'ensemble de validation comme la première série de tests et l'évaluation du modèle par rapport à l'ensemble de test comme la deuxième série de tests.

perte de validation

#fundamentals

Une métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération particulière de l'entraînement.

Voir aussi Courbe de généralisation.

Ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue l'évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant de l'évaluer par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Un ensemble d'entraînement

un ensemble de validation

Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

imputation de valeur

Processus consistant à remplacer une valeur manquante par un substitut acceptable. Lorsqu'une valeur est manquante, vous pouvez soit supprimer l'exemple entier, soit utiliser l'imputation de valeur pour récupérer l'exemple.

Prenons l'exemple d'un ensemble de données contenant une caractéristique temperature qui est censée être enregistrée toutes les heures. Toutefois, la température relevée a été indisponible pendant une heure donnée. Voici une section de l'ensemble de données:

Code temporel Température

1680561000 10

1680564600 12

1680568200 missing

1680571800 20

1680575400 21

1680579000 21

Un système peut soit supprimer l'exemple manquant, soit imputer la température manquante à 12, 16, 18 ou 20, en fonction de l'algorithme d'imputation.

problème de disparition du gradient

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Lorsque les gradients sont de plus en plus bas, les variations des pondérations sur les nœuds d'un réseau de neurones profond sont de plus en plus faibles, ce qui n'entraîne que peu ou pas d'apprentissage. Il devient difficile, voire impossible, d'entraîner des modèles qui souffrent du problème de la disparition du gradient. Les cellules de mémoire à court terme permettent de résoudre ce problème.

À comparer au problème de gradient explosif.

importances des variables

#df

Ensemble de scores indiquant l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques est calculé comme suit : {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Différentes métriques d'importance des variables existent, qui peuvent informer les experts en ML sur différents aspects des modèles.

Auto-encodeur variationnel (VAE)

#language

Type d'auto-encodeur qui exploite la différence entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAE sont basées sur l'inférence variationnelle, une technique permettant d'estimer les paramètres d'un modèle de probabilité.

vecteur

Terme très complexe dont le sens varie selon les domaines mathématiques et scientifiques. En machine learning, un vecteur possède deux propriétés:

Type de données: en machine learning, les vecteurs contiennent généralement des nombres à virgule flottante.

Nombre d'éléments: il s'agit de la longueur du vecteur ou de sa dimension.

Prenons l'exemple d'un vecteur de caractéristiques contenant huit nombres à virgule flottante. Ce vecteur de caractéristiques a une longueur ou une dimension de huit. Notez que les vecteurs de machine learning comportent souvent un très grand nombre de dimensions.

Vous pouvez représenter de nombreux types d'informations différents sous forme de vecteur. Exemple :

Toute position sur la surface de la Terre peut être représentée sous la forme d'un vecteur bidimensionnel, où une dimension est la latitude et l'autre la longitude.

Les cours actuels de chacune des 500 actions peuvent être représentés sous la forme d'un vecteur à 500 dimensions.

Une distribution de probabilité sur un nombre fini de classes peut être représentée sous forme de vecteur. Par exemple, un système de classification à classes multiples qui prédit l'une des trois couleurs de sortie (rouge, vert ou jaune) peut générer la valeur du vecteur (0.3, 0.2, 0.5) pour indiquer P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Les vecteurs peuvent être concaténés. Par conséquent, divers médias différents peuvent être représentés sous la forme d'un seul vecteur. Certains modèles opèrent directement sur la concaténation de nombreux encodages one-hot.

Des processeurs spécialisés tels que les TPU sont optimisés pour effectuer des opérations mathématiques sur des vecteurs.

Un vecteur est un tensor de rang 1.

L

Perte de Wasserstein

L'une des fonctions de perte couramment utilisées dans les réseaux antagonistes génératifs, basée sur la distance du déménageur entre la distribution des données générées et les données réelles.

pondération

#fundamentals

Valeur multipliée par un modèle par une autre. L'entraînement consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

Cliquez sur l'icône pour voir un exemple de pondérations dans un modèle linéaire.

Imaginez un modèle linéaire comportant deux caractéristiques. Supposons que l'entraînement détermine les pondérations (et les biais suivants):

Le biais b a une valeur de 2,2

La pondération, w₁ associée à une caractéristique, est de 1,5.

La pondération (w₂) associée à l'autre caractéristique est de 0, 4.

Imaginez maintenant un exemple avec les valeurs de caractéristiques suivantes:

La valeur d'une caractéristique, x₁, est 6.

La valeur de l'autre caractéristique, x₂, est 10.

Ce modèle linéaire utilise la formule suivante pour générer une prédiction, y':

$$y' = b + w_1x_1 + w_2x_2$$

Par conséquent, la prédiction est la suivante:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si une pondération est égale à 0, la caractéristique correspondante ne contribue pas au modèle. Par exemple, si w₁ est égal à 0, la valeur de x₁ n'est pas pertinente.

moindres carrés alternés pondérés (WALS)

#recsystems

Algorithme visant à minimiser la fonction objectif lors de la factorisation matricielle dans les systèmes de recommandation, ce qui permet de sous-pondérer les exemples manquants. La méthode WALS minimise l'erreur quadratique pondérée entre la matrice d'origine et la reconstruction en corrigeant alternativement la factorisation des lignes et la factorisation des colonnes. Chacune de ces optimisations peut être résolue par l'optimisation convexe des moindres carrés. Pour en savoir plus, consultez le cours sur les systèmes de recommandation.

Somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliées par leurs pondérations correspondantes. Par exemple, supposons que les entrées pertinentes se composent des éléments suivants:

valeur d'entrée pondération d'entrée

2 -1,3

-1 0,6

3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

modèle wide learning

Modèle linéaire comportant généralement de nombreuses caractéristiques d'entrée creuses. Nous l'appelons "large", car il s'agit d'un type spécial de réseau de neurones comportant un grand nombre d'entrées connectées directement au nœud de sortie. Les modèles larges sont souvent plus faciles à déboguer et à inspecter que les modèles profonds. Bien que les modèles larges ne puissent pas exprimer de non-linéarités via des couches cachées, ils peuvent utiliser des transformations telles que le croisement de caractéristiques et la divisation en bins pour modéliser les non-linéarités de différentes manières.

À comparer au modèle profond.

largeur

Nombre de neurones dans une couche particulière d'un réseau de neurones.

la sagesse de la foule

#df

L'idée que la moyenne des opinions ou des estimations d'un grand groupe de personnes ("la foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les utilisateurs doivent deviner le nombre de bonbons emballés dans un grand pot. Bien que la plupart des suppositions individuelles soient inexactes, il a été démontré que la moyenne de toutes ces suppositions est étonnamment proche du nombre réel de bonbons dans le pot.

Les ensembles sont l'équivalent logiciel de la sagesse du public. Même si des modèles individuels font des prédictions extrêmement imprécises, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, même si un arbre de décision individuel peut fournir de mauvaises prédictions, une forêt de décision permet souvent d'obtenir de très bonnes prédictions.

représentation vectorielle continue de mots

#language

Représentation de chaque mot dans un ensemble de mots dans un vecteur de représentation vectorielle continue, c'est-à-dire représenter chaque mot comme un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que des mots ayant des significations différentes. Par exemple, carottes, celery et concombres auraient tous des représentations relativement similaires, qui seraient très différentes de celles des avions, lunettes de soleil et dentifrice.

X

XLA (Accelerated Linear Algebra)

Compilateur de machine learning Open Source pour les GPU, les processeurs et les accélérateurs de ML.

Le compilateur XLA exploite des modèles de frameworks de ML populaires tels que PyTorch, TensorFlow et JAX et les optimise pour une exécution hautes performances sur différentes plates-formes matérielles, y compris les GPU, les processeurs et les accélérateurs de ML.

Z

apprentissage zero-shot

Type d'entraînement de machine learning où le modèle déduit une prédiction pour une tâche sur laquelle il n'a pas déjà été spécifiquement entraîné. En d'autres termes, le modèle ne reçoit aucun exemple d'entraînement spécifique à une tâche, mais il est invité à effectuer des inférences pour cette tâche.

requête zero-shot

#language

#IAgénérative

Une requête qui ne fournit pas d'exemple de la façon dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composantes d'une requête Remarques

Quelle est la devise officielle du pays spécifié ? Question à laquelle le LLM doit répondre.

Inde : La requête réelle.

Le grand modèle de langage peut répondre avec l'un des éléments suivants:

Roupie

INR

₹

Roupie indienne

Roupie

Roupie indienne

Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.

Indiquer les points communs et les différences entre les requêtes zero-shot et les termes suivants:

requête one-shot

requête few-shot

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur brute de caractéristique brute par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et l'écart type de 100. Le tableau suivant montre comment la normalisation du score Z mappe la valeur brute à son score Z:

Valeur brute Score Z

800 0

950 +1,5

575 -2,25

Le modèle de ML s'entraîne ensuite sur les z-scores de cette caractéristique plutôt que sur les valeurs brutes.

	Casablanca	Philadelphia Story	Black Panther	Wonder Woman	La Cité de la peur
Utilisateur 1	5,0	3,0	0,0	2,0	0,0
Utilisateur 2	4.0	0,0	0,0	1,0	5,0
Utilisateur 3	3,0	1,0	4.0	5,0	0,0

N	Noms pour ce type de N-gramme	Exemples
2	bigramme ou 2-gramme	à emporter, à emporter, déjeuner, dîner
3	trigramme ou 3-gramme	a mangé trop, trois souris aveugles, la cloche sonne
4	4-gramme	marcher dans le parc, poussière dans le vent, le garçon a mangé des lentilles

country	Vecteur
"Danemark"	1	0	0	0	0
"Suède"	0	1	0	0	0
"Norvège"	0	0	1	0	0
"Finlande"	0	0	0	1	0
"Islande"	0	0	0	0	1

Catégorie de requête	Exemple	Remarques
Question	`À quelle vitesse un pigeon vole-t-il ?`
Instruction	`Écris un poème amusant sur les sites à contenu exclusivement publicitaire.`	Une requête qui demande au grand modèle de langage de faire quelque chose.
Exemple	`Traduire le code Markdown en HTML. Par exemple : Markdown: * élément de liste HTML: <ul> <li>élément de liste</li> </ul>`	La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.
Rôle	`Expliquer l'intérêt de la descente de gradient pour l'entraînement du machine learning jusqu'à un doctorat en physique.`	La première partie de la phrase est une instruction ; l'expression "pour un doctorat en physique" correspond à la partie rôle.
Entrée partielle du modèle	`Le Premier ministre britannique vit à`	Une requête d'entrée partielle peut se terminer brusquement (comme le fait cet exemple) ou se terminer par un trait de soulignement.

Code temporel	Température
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21