Se usó la API de Cloud Translation para traducir esta página.

Glosario sobre aprendizaje automático

En este glosario se definen los términos generales de aprendizaje automático, además de los términos específicos de TensorFlow.

A

ablación

Es una técnica para evaluar la importancia de un atributo o componente mediante su eliminación temporal de un modelo. Luego, vuelves a entrenar el modelo sin ese atributo o componente, y si el modelo que se volvió a entrenar tiene un rendimiento mucho peor, es probable que el atributo o componente que se quitó era importante.

Por ejemplo, supongamos que entrenas un modelo de clasificación en 10 atributos y obtienes una precisión del 88% en el conjunto de prueba. Para verificar la importancia del primer atributo, puedes volver a entrenar el modelo con solo los otros nueve atributos. Si el modelo que se volvió a entrenar tiene un rendimiento mucho peor (por ejemplo, una precisión del 55%), es probable que el atributo que se quitó fuera importante. Por el contrario, si el modelo que se volvió a entrenar tiene el mismo rendimiento, es probable que ese atributo no fuera tan importante.

La ablación también puede ayudar a determinar la importancia de los siguientes elementos:

Componentes más grandes, como un subsistema completo de un sistema de AA más grande
Procesos o técnicas, como un paso de procesamiento previo de datos

En ambos casos, observarías cómo cambia (o no cambia) el rendimiento del sistema después de quitar el componente.

Pruebas A/B

Forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica existente, y la B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene un mejor rendimiento, sino también si la diferencia es estadísticamente significativa.

Por lo general, las pruebas A/B comparan una métrica única en dos técnicas. Por ejemplo, ¿cómo se compara la exactitud del modelo con dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad limitada de métricas.

chip acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar cálculos clave necesarios para los algoritmos de aprendizaje profundo.

Los chips aceleradores (o simplemente los aceleradores) pueden aumentar significativamente la velocidad y la eficiencia de las tareas de inferencia y entrenamiento en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y tareas similares de procesamiento intensivo.

Estos son algunos ejemplos de chips aceleradores:

Unidades de procesamiento tensorial (TPU) de Google con hardware dedicado para el aprendizaje profundo.
Las GPU de NVIDIA, que, si bien inicialmente se diseñaron para el procesamiento gráfico, están diseñadas para habilitar el procesamiento paralelo, lo que puede aumentar significativamente la velocidad de procesamiento.

accuracy

#fundamentals

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo con 40 predicciones correctas y 10 incorrectas tendría la siguiente precisión:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y incorrectas. La fórmula de exactitud de la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

VP es la cantidad de verdaderos positivos (predicciones correctas).
TN es la cantidad de verdaderos negativos (predicciones correctas).
FP es la cantidad de falsos positivos (predicciones incorrectas).
FN es la cantidad de falsos negativos (predicciones incorrectas).

Compara y contrasta la exactitud con la precisión y la recuperación.

Haz clic en el ícono para obtener notas adicionales.

Aunque es una métrica valiosa para algunas situaciones, la exactitud es muy engañosa para otras. En particular, la exactitud suele ser una métrica deficiente para evaluar modelos de clasificación que procesan conjuntos de datos con desequilibrio de clases.

Por ejemplo, supongamos que la nieve cae solo 25 días por siglo en una determinada ciudad subtropical. Dado que los días sin nieve (la clase negativa) superan ampliamente la cantidad de días con nieve (la clase positiva), el conjunto de datos de nieve para esta ciudad está desequilibrado. Imagina un modelo de clasificación binaria que se supone que prediga nieve o ausencia de nieve todos los días, pero que simplemente prediga "sin nieve" todos los días. Este modelo es altamente preciso, pero no tiene poder predictivo. En la siguiente tabla, se resumen los resultados de un siglo de predicciones:

Categoría	Número
VP	0
VN	36500
FP	25
FN	0

Por lo tanto, la precisión de este modelo es la siguiente:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Aunque una exactitud del 99.93% parece un porcentaje muy impresionante, el modelo en realidad no tiene poder predictivo.

La precisión y la recuperación suelen ser métricas más útiles que la exactitud para evaluar modelos entrenados en conjuntos de datos con desequilibrio de clase.

acción

#rl

En el aprendizaje por refuerzo, el mecanismo mediante el cual el agente realiza la transición entre estados del entorno. El agente elige la acción mediante una política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre los atributos y la etiqueta.

Estas son algunas de las funciones de activación más populares:

ReLU
Sigmoidea

Los diagramas de funciones de activación nunca tienen líneas rectas simples. Por ejemplo, el gráfico de la función de activación ReLU consta de dos líneas rectas:

Representación cartesiana de dos líneas. La primera línea tiene un valor y constante de 0, que se extiende a lo largo del eje x de -infinity,0 a 0,-0.
La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que
va de 0,0 a +infinito,+infinito.

Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo bidimensional con valores x que abarcan el dominio -infinito a + positivo, mientras que los valores y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0,0.5 y las pendientes disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Haz clic en el ícono para ver un ejemplo.

En una red neuronal, las funciones de activación manipulan la suma ponderada de todas las entradas a una neurona. Para calcular una suma ponderada, la neurona suma los productos de los valores y pesos relevantes. Por ejemplo, supongamos que la entrada relevante para una neurona consta de lo siguiente:

valor de entrada	peso de entrada
2	−1.3
-1	0.6
3	0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supongamos que el diseñador de esta red neuronal elige la función sigmoidea como la función de activación. En ese caso, la neurona calcula el sigmoide de -2.0, que es aproximadamente 0.12. Por lo tanto, la neurona pasa 0.12 (en lugar de -2.0) a la siguiente capa de la red neuronal. En la siguiente figura, se ilustra la parte relevante del proceso:

aprendizaje activo

Es un enfoque de entrenamiento en el que el algoritmo elige algunos de los datos de los que aprende. El aprendizaje activo es especialmente valioso cuando los ejemplos etiquetados son pocos o costosos de obtener. En lugar de buscar a ciegas un rango diverso de ejemplos etiquetados, un algoritmo de aprendizaje activo busca de forma selectiva el rango particular de ejemplos que necesita para aprender.

AdaGrad

Es un algoritmo de descenso de gradientes sofisticado que vuelve a escalar los gradientes de cada parámetro y le otorga a cada uno una tasa de aprendizaje independiente. Para obtener una explicación completa, consulta este informe de AdaGrad.

agente

#rl

En el aprendizaje por refuerzo, la entidad que usa una política para maximizar el retorno esperado obtenido de la transición entre estados del entorno.

En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una serie de acciones para perseguir un objetivo, con la capacidad de adaptarse a los cambios de su entorno. Por ejemplo, los agentes basados en LLM podrían usarlo para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

detección de anomalías

Es el proceso de identificación de valores atípicos. Por ejemplo, si la media para un atributo determinado es 100 con una desviación estándar de 10, la detección de anomalías debe marcar un valor de 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

área bajo la curva PR

Consulta el AUC (área bajo la curva PR).

área bajo la curva ROC

Consulta AUC (área bajo la curva ROC).

inteligencia artificial general

Es un mecanismo no humano que demuestra una amplia variedad de resolución de problemas, creatividad y adaptabilidad. Por ejemplo, un programa que demuestre Inteligencia Artificial general podría traducir texto, componer sinfonías y destacarse en juegos que aún no se inventaron.

se cree erróneamente

#fundamentals

Un programa o model no humano que puede resolver tareas sofisticadas. Por ejemplo, tanto un programa o modelo que traduce texto como uno que identifica enfermedades a partir de imágenes radiológicas es una muestra de inteligencia artificial.

De manera formal, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a usar los términos inteligencia artificial y aprendizaje automático de forma indistinta.

Attention,

#language

Es un mecanismo que se usa en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que el peso de cada entrada se calcula mediante otra parte de la red neuronal.

Consulta también la autoatención y la autoatención multicabezal, que son los componentes básicos de Transformers.

atributo

#fairness

Sinónimo de atributo.

En la equidad del aprendizaje automático, los atributos son características de los individuos.

muestreo de atributos

#df

Una táctica para entrenar un bosque de decisiones en el que cada árbol de decisión considera solo un subconjunto aleatorio de posibles atributos cuando aprende la condición. En general, se muestra un subconjunto diferente de funciones para cada nodo. Por el contrario, cuando se entrena un árbol de decisión sin el muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

Un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté el AUC a 1.0, mejor será la capacidad del modelo para separar clases entre sí.

Por ejemplo, en la siguiente ilustración, se muestra un modelo clasificador que separa a la perfección las clases positivas (óvalos verdes) de las negativas (rectángulos violetas). Este modelo poco realista tiene un AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, en la siguiente ilustración, se muestran los resultados de un modelo clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa,
positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos están en algún punto entre los dos extremos. Por ejemplo, el siguiente modelo separa en cierta medida los positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es negativa, negativa, negativa, negativa,
positiva, negativa, positiva, positiva, negativa, positiva, positiva,
positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

Haz clic en el ícono para conocer la relación entre las curvas AUC y ROC.

El AUC representa el área bajo una curva ROC. Por ejemplo, la curva ROC para un modelo que separa perfectamente los positivos de los negativos se ve de la siguiente manera:

El AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es solo la longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto de 1.0 y 1.0 produce un AUC de exactamente 1.0, que es la puntuación AUC más alta posible.

Por el contrario, la curva ROC para un clasificador que no puede separar clases en absoluto es la siguiente. El área de esta región gris es 0.5.

Una curva ROC más típica se ve aproximadamente de la siguiente manera:

Sería minucioso calcular el área bajo esta curva de forma manual, por lo que un programa suele calcular la mayoría de los valores de AUC.

Haz clic en el ícono para obtener una definición más formal de AUC.

El AUC es la probabilidad de que un clasificador tenga más certeza de que un ejemplo positivo elegido al azar sea realmente positivo en comparación con que un ejemplo negativo elegido al azar sea positivo.

realidad aumentada

#image

Tecnología que superpone una imagen generada por computadora en la vista del mundo real que tiene un usuario para proporcionar una vista compuesta.

codificador automático

#language

#image

Un sistema que aprende a extraer la información más importante de la entrada. Los codificadores automáticos son una combinación de un codificador y un decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:

El codificador asigna la entrada a un formato (por lo general) de baja dimensión (intermedio) con pérdida.
El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de mayor dimensión.

Los codificadores automáticos se entrenan de extremo a extremo cuando el decodificador intenta reconstruir la entrada original a partir del formato intermedio del codificador con la mayor precisión posible. Debido a que el formato intermedio es más pequeño (dimensiones bajas) que el formato original, el codificador automático se ve obligado a aprender qué información de la entrada es esencial, y la salida no será perfectamente idéntica a la entrada.

Por ejemplo:

Si los datos de entrada son un gráfico, la copia no exacta sería similar al gráfico original, pero un poco modificado. Es posible que la copia no exacta quite el ruido del gráfico original o rellene algunos píxeles faltantes.
Si los datos de entrada son texto, un codificador automático generará un texto nuevo que imite (pero no es idéntico) al original.

Consulta también los codificadores automáticos variacionales.

sesgo de automatización

#fairness

Cuando una persona encargada de tomar decisiones favorece las recomendaciones de un sistema de toma de decisiones automatizado por sobre la información obtenida sin automatización, incluso cuando el sistema de toma de decisiones automatizado comete un error.

AutoML

Cualquier proceso automatizado para crear aprendizaje automático modelos. AutoML puede realizar automáticamente tareas como las siguientes:

Busca el modelo más adecuado.
Ajustar hiperparámetros
Preparar datos (incluida la ingeniería de atributos)
Implementar el modelo resultante

AutoML es útil para los científicos de datos porque puede ahorrarles tiempo y esfuerzo en el desarrollo de canalizaciones de aprendizaje automático y mejorar la exactitud de las predicciones. También es útil para los inexpertos, ya que hace que las tareas complejas de aprendizaje automático les resulten más accesibles.

modelo de regresión automático

#language

#image

#IA generativa

model que infiere una predicción en función de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje autorregresivos predicen el siguiente token en función de los tokens predichos con anterioridad. Todos los modelos grandes de lenguaje basados en Transformer son autorregresivos.

Por el contrario, los modelos de imagen basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo paso y no de manera iterativa en pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

pérdida auxiliar

Es una función de pérdida, que se usa junto con la función principal de pérdida de un modelo de red neuronal, que ayuda a acelerar el entrenamiento durante las primeras iteraciones, cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes eficaces a las capas anteriores. Esto facilita la convergencia durante el entrenamiento mediante la lucha contra el problema de gradiente evanescente.

precisión promedio

Es una métrica para resumir el rendimiento de una secuencia clasificada de resultados. Para calcular la precisión promedio, se toma el promedio de los valores de precisión de cada resultado relevante (cada resultado en la lista clasificada en la que la recuperación aumenta en relación con el resultado anterior).

Consulta también el área bajo la curva PR.

condición de alineación al eje

#df

En un árbol de decisión, una condición que involucra un solo atributo. Por ejemplo, si el área es un atributo, entonces la siguiente es una condición alineada con los ejes:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

Es el algoritmo que implementa el descenso de gradientes en redes neuronales.

Entrenar una red neuronal implica muchas iteraciones del siguiente ciclo de dos pases:

Durante el movimiento de avance, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de la etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida de ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
Durante el retroceso (propagación inversa), el sistema reduce la pérdida a través del ajuste de los pesos de todas las neuronas en todas las capas ocultas.

Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos que se aplican a neuronas particulares.

La tasa de aprendizaje es un multiplicador que controla el grado en el que cada retroceso aumenta o disminuye cada peso. Una tasa de aprendizaje alta aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos del cálculo, la propagación inversa implementa la regla de la cadena a partir del cálculo. Es decir, la propagación inversa calcula la derivada parcial del error con respecto a cada parámetro.

Hace años, los profesionales del AA tuvieron que escribir código para implementar la propagación inversa. Las APIs de AA modernas, como TensorFlow, ahora implementan la propagación inversa por ti. ¡Vaya!

embolsado

#df

Es un método para entrenar un ensamble, en el que cada modelo constituyente se entrena en un subconjunto aleatorio de ejemplos de entrenamiento muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con paquetes.

El término bagging es la forma abreviada en inglés de sootstrap aggreinging.

bolsa de palabras

#language

Es una representación de las palabras de una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de manera idéntica:

el perro salta
salta el perro
perro salta el

Cada palabra se asigna a un índice en un vector disperso, en el que el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y salta. El valor distinto de cero puede ser cualquiera de los siguientes:

Un 1 para indicar la presencia de una palabra.
Un recuento de la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo, si la frase fuera el perro granate es un perro con pelaje granate, entonces tanto negro como perro se representarían con un 2, mientras que las otras palabras se representarían con un 1.
Algún otro valor, como el logaritmo del recuento de la cantidad de veces que una palabra aparece en la bolsa

modelo de referencia

model que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como un buen modelo de referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar el rendimiento mínimo esperado que debe lograr un modelo nuevo para que sea útil.

lote

#fundamentals

Es el conjunto de ejemplos que se usó en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta epoch para obtener una explicación de cómo se relaciona un lote con un ciclo de entrenamiento.

inferencia por lotes

#TensorFlow

#GoogleCloud

El proceso de inferir predicciones en varios ejemplos sin etiqueta divididos en subconjuntos más pequeños ("lotes").

La inferencia por lotes puede aprovechar las funciones de paralelización de los chips aceleradores. Es decir, varios aceleradores pueden inferir predicciones de forma simultánea en lotes diferentes de ejemplos sin etiquetar, lo que aumenta drásticamente la cantidad de inferencias por segundo.

normalización por lotes

Normaliza la entrada o salida de las funciones de activación en una capa oculta. La normalización por lotes puede proporcionar los siguientes beneficios:

Haz que las redes neuronales sean más estables protegiéndolas contra pesos atípicos.
Habilita tasas de aprendizaje más altas, lo que puede acelerar el entrenamiento.
Reduce el sobreajuste.

tamaño del lote

#fundamentals

La cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

Las siguientes son estrategias populares de tamaño de lote:

Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
Lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón de ejemplos. Por lo general, el lote completo es una estrategia ineficaz.
minilote en el que el tamaño del lote suele ser de entre 10 y 1,000. Por lo general, la estrategia más eficiente es el minilote.

red neuronal bayesiana

Una red neuronal probabilística que representa la incertidumbre en pesos y resultados. Un modelo de regresión de red neuronal estándar suele predecir un valor escalar. Por ejemplo, un modelo estándar predice el precio de una casa en 853,000. En cambio, una red neuronal bayesiana predice una distribución de valores. Por ejemplo, un modelo bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Las redes neuronales Bayesianas se basan en el Teorema de Bayes para calcular la incertidumbre entre pesos y predicciones. Una red neuronal bayesiana puede ser útil cuando es importante cuantificar la incertidumbre, como en modelos relacionados con la industria farmacéutica. Las redes neuronales bayesianas también pueden ayudar a prevenir el sobreajuste.

Optimización bayesiana

Es una técnica de modelo de regresión probabilística que optimiza las funciones objetivo costosas en términos de procesamiento con la optimización de un subrogado que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Dado que la optimización bayesiana es muy costosa, por lo general, se usa para optimizar tareas costosas de evaluar que tienen una pequeña cantidad de parámetros, como seleccionar hiperparámetros.

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad satisfecha con la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear Q-learning a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Además del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones a la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

BERT (representaciones de codificador bidireccional de transformadores)

#language

Una arquitectura de modelo para la representación de texto. Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto y otras tareas de AA.

BERT tiene las siguientes características:

Usa la arquitectura de Transformer y, por lo tanto, se basa en la autoatención.
Usa la parte del codificador del transformador. El trabajo del codificador es producir buenas representaciones de texto, en lugar de realizar una tarea específica, como la clasificación.
Es bidireccional.
Usa el enmascaramiento para el entrenamiento no supervisado.

Entre las variantes de BERT, se incluyen las siguientes:

ALBERT, que es el acrónimo de A Lue BERT.
LaBSE.

Consulta Código abierto de BERT: Entrenamiento previo de vanguardia para procesamiento de lenguaje natural para obtener una descripción general de BERT.

sesgo (ética/equidad)

#fairness

#fundamentals

1. Estereotipo, prejuicio o preferencia de objetos, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y la interpretación de datos, el diseño de un sistema y la manera en que los usuarios interactúan con un sistema. Estas son algunas formas de este sesgo:

sesgo de automatización
sesgo de confirmación
sesgo del investigador
sesgo de correspondencia
sesgo implícito
sesgo endogrupal
sesgo de homogeneidad de los demás

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Estas son algunas formas de este sesgo:

sesgo de cobertura
sesgo de no respuesta
sesgo de participación
sesgo de reporte
sesgo del muestreo
sesgo de selección

No se debe confundir con el término de sesgo en modelos de aprendizaje automático o con el sesgo de predicción.

sesgo (matemático) o término de sesgo

#fundamentals

Una intersección o desplazamiento desde un origen. El sesgo es un parámetro en los modelos de aprendizaje automático que se simboliza con cualquiera de los siguientes elementos:

b
w₀

Por ejemplo, el sesgo es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, sesgo solo significa "intercepción y". Por ejemplo, la compensación de la línea en la siguiente ilustración es 2.

La representación de una línea con una pendiente de 0.5 y un sesgo (intersección y) de 2.

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo, supongamos que la entrada a un parque de diversiones cuesta 2 euros y 0.5 euros adicionales por cada hora en que se queda un cliente. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no se debe confundir con el sesgo de ética y equidad ni con el sesgo de predicción.

bidireccional

#language

Un término usado para describir un sistema que evalúa el texto que antecede y sigue una sección objetivo del texto. Por el contrario, el sistema unidireccional solo evalúa el texto que antecede a una sección objetivo del texto.

Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de las palabras que representan el subrayado en la siguiente pregunta:

¿Qué es _____ con usted?

Un modelo unidireccional de lenguaje tendría que basar sus probabilidades solo en el contexto proporcionado por las palabras “qué”, “es” y “el”. Por el contrario, un modelo de lenguaje bidireccional también podría obtener contexto de "con" y "tú", lo que podría ayudar al modelo a generar mejores predicciones.

modelo bidireccional de lenguaje

#language

Un modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación determinada de un extracto de texto según el texto anterior y siguiente.

bigrama

#seq

#language

n-grama en el cual n=2.

clasificación binaria

#fundamentals

Tipo de tarea de clasificación que predice una de dos clases mutuamente excluyentes:

la clase positiva
la clase negativa

Por ejemplo, cada uno de los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no spam (la clase negativa).
Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o no (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también la regresión logística y el umbral de clasificación.

condición binaria

#df

En un árbol de decisión, una condición que solo tiene dos resultados posibles, por lo general, sí o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

discretización

Sinónimo de agrupamiento.

BLEU (Bilingual Evaluation Understudy)

#language

Una puntuación entre 0.0 y 1.0 inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Una puntuación BLEU de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una traducción muy mala.

potencia

Es una técnica de aprendizaje automático que combina de forma iterativa un conjunto de clasificadores simples y no muy exactos (conocidos como clasificadores “débiles”) en un clasificador con alta precisión (un clasificador “fuerte”) mediante un aumento de la ponderación de los ejemplos que el modelo actualmente clasifica de forma errónea.

cuadro de límite

#image

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro de la imagen de abajo.

Fotografía de un perro sentado en un sofá Un cuadro delimitador verde con coordenadas superior izquierda de (275, 1271) y coordenadas inferior derecha de (2954, 2761) circunscribe el cuerpo del perro.

emisión

En una operación matemática de matrices, expansión de la forma de un operando a dimensiones compatibles para esa operación. Por ejemplo, el álgebra lineal requiere que los dos operandos de una operación de suma matricial tengan las mismas dimensiones. Por lo tanto, no puedes agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación mediante la expansión virtual del vector de longitud n en una matriz de forma (m, n) replicando los mismos valores en cada columna.

Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B expandiendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Por lo tanto, A+B ahora es una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Para obtener más detalles, consulta la siguiente descripción de emisión en NumPy.

agrupamiento

#fundamentals

Convertir un solo atributo en varios atributos binarios llamados buckets o bins, por lo general, basados en un rango de valores Por lo general, la función cortada es un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como una sola función continua de punto flotante, puedes dividir los rangos de temperatura en buckets discretos, como los siguientes:

<= 10 grados Celsius sería la balde "frío".
De 11 a 24 grados Celsius sería el intervalo "templado".
>= 25 grados Celsius sería la cubeta "templada".

El modelo tratará todos los valores en el mismo bucket de la misma manera. Por ejemplo, los valores 13 y 22 están en el bucket templado, por lo que el modelo trata los dos valores de manera idéntica.

Haz clic en el ícono para obtener notas adicionales.

Si representas la temperatura como un atributo continuo, el modelo la tratará como un solo atributo. Si representas la temperatura como tres buckets, el modelo trata a cada bucket como un atributo independiente. Es decir, un modelo puede aprender relaciones independientes de cada bucket con respecto a la etiqueta. Por ejemplo, un modelo de regresión lineal puede aprender pesos por separado para cada bucket.

Aumentar la cantidad de buckets hace que el modelo sea más complicado, ya que aumenta la cantidad de relaciones que el modelo debe aprender. Por ejemplo, los buckets frío, templado y templado son, en esencia, tres atributos independientes con los que se entrenará el modelo. Si decides agregar dos buckets más, por ejemplo, congelado y caliente, ahora tu modelo tendrá que entrenarse con cinco atributos diferentes.

¿Cómo sabes cuántos buckets crear o cuáles deberían ser los rangos de cada bucket? Las respuestas suelen requerir mucha experimentación.

C

capa de calibración

Ajuste posterior a la predicción, generalmente para dar cuenta del sesgo de predicción. Las predicciones ajustadas y las probabilidades deben coincidir con la distribución de un conjunto de etiquetas observado.

generación de candidatos

#recsystems

Es el conjunto inicial de recomendaciones que elige un sistema de recomendaciones. Por ejemplo, imagina una librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho más pequeña de libros adecuados para un usuario en particular, digamos 500. Sin embargo, incluso 500 libros son demasiados para recomendar a un usuario. Las fases posteriores y más costosas de un sistema de recomendación (como la puntuación y la reclasificación) reducen esas 500 a un conjunto de recomendaciones mucho más pequeño y útil.

muestreo de candidatos

Una optimización durante el entrenamiento que calcula una probabilidad para todas las etiquetas positivas, por ejemplo, con softmax, pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, en un ejemplo etiquetado como beagle y dog, el muestreo de candidatos calcula las probabilidades previstas y los términos de pérdida correspondientes para:

beagle
perro
Un subconjunto aleatorio de las clases negativas restantes (por ejemplo, cat, lollipop, fence).

La idea es que las clases negativas puedan aprender de un refuerzo negativo menos frecuente, siempre y cuando las clases positivas siempre obtengan el refuerzo positivo adecuado, y esto se observa de forma empírica.

El muestreo de candidatos es más eficiente en términos de procesamiento que los algoritmos de entrenamiento que calculan predicciones para todas las clases negativas, en especial cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Son atributos que tienen un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

red
yellow
green

Cuando se representa traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del controlador.

A veces, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta el modelo de lenguaje bidireccional para contrastar los diferentes enfoques direccionales en el modelado de lenguaje.

centroid

#clustering

El centro de un clúster según lo determinado por un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

agrupamiento en clústeres basado en centroides

#clustering

Categoría de algoritmos de agrupamiento en clústeres que organiza los datos en clústeres no jerárquicos. k-means es el algoritmo de agrupamiento en clústeres basado en centroides más usado.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

cadena de pensamientos

#language

#IA generativa

Una técnica de ingeniería de instrucciones que fomenta un modelo de lenguaje grande (LLM) para explicar su razonamiento, paso a paso. Por ejemplo, considera la siguiente instrucción y presta especial atención a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60 millas por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

La respuesta del LLM probablemente:

Muestra una secuencia de fórmulas físicas, ingresando los valores 0, 60 y 7 en los lugares apropiados.
Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría llevar a una respuesta más correcta. Además, las instrucciones en cadena de pensamiento permiten al usuario examinar los pasos del LLM para determinar si la respuesta tiene sentido o no.

chatear

#language

#IA generativa

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, es un modelo de lenguaje grande. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo grande de lenguaje) se convierte en el contexto para las partes posteriores del chat.

Un chatbot es una aplicación de un modelo grande de lenguaje.

checkpoint

Datos que capturan el estado de los parámetros de un modelo en una iteración de entrenamiento particular. Los puntos de control permiten exportar pesos del modelo o realizar entrenamiento en varias sesiones. Los puntos de control también permiten que el entrenamiento continúe después de los errores (por ejemplo, la interrupción de trabajos).

Cuando se realiza el ajuste detallado, el punto de partida para entrenar el modelo nuevo será un punto de control específico del modelo previamente entrenado.

clase

#fundamentals

Categoría a la que puede pertenecer una etiqueta. Por ejemplo:

En un modelo de clasificación binaria que detecta spam, las dos clases pueden ser spam y no spam.
En un modelo de clasificación de clases múltiples que identifica razas de perros, las clases pueden ser poodle, beagle, pug, etcétera.

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

modelo de clasificación

#fundamentals

Un model cuya predicción es una model. Por ejemplo, estos son todos los modelos de clasificación:

Un modelo que predice el idioma de una oración de entrada (¿francés?, ¿Español? italiano?).
Un modelo que predice las especies arbóreas (¿Maple? Oak? ¿baobab?).
Modelo que predice la clase positiva o negativa para una afección médica específica.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Los siguientes son dos tipos comunes de modelos de clasificación:

clasificación binaria
clasificación de clases múltiples

umbral de clasificación

#fundamentals

En una clasificación binaria, un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige una persona, no un valor elegido por el entrenamiento de modelos.

Un modelo de regresión logística da como resultado un valor sin procesar entre 0 y 1. Luego, haz lo siguiente:

Si este valor sin procesar es mayor que el umbral de clasificación, se predice la clase positiva.
Si este valor sin procesar es inferior al umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye en gran medida en la cantidad de falsos positivos y falsos negativos.

Haz clic en el ícono para obtener notas adicionales.

A medida que los modelos o los conjuntos de datos evolucionan, los ingenieros también cambian el umbral de clasificación. Cuando cambia el umbral de clasificación, las predicciones de clases positivas pueden convertirse repentinamente en clases negativas y viceversa.

Por ejemplo, considera un modelo de predicción de enfermedades de clasificación binaria. Supongamos que, cuando el sistema se ejecuta en el primer año, sucede lo siguiente:

El valor sin procesar para un paciente en particular es 0.95.
El umbral de clasificación es 0.94.

Por lo tanto, el sistema diagnostica la clase positiva. (El paciente jadea, "¡Oh, no! ¡Estoy enfermo!")

Un año después, es posible que los valores se vean de la siguiente manera:

El valor sin procesar del mismo paciente permanece en 0.95.
El umbral de clasificación cambia a 0.97.

Por lo tanto, el sistema ahora vuelve a clasificar a ese paciente como la clase negativa. ("¡Feliz día! No estoy enfermo"). Mismo paciente. Diagnóstico diferente.

conjunto de datos con desequilibrio de clases

#fundamentals

Conjunto de datos para un problema de clasificación en el que la cantidad total de etiquetas de cada clase difiere de forma significativa. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas están divididas de la siguiente manera:

1,000,000 de etiquetas negativas
10 etiquetas positivas

La proporción de las etiquetas negativas a las positivas es de 100,000 a 1, por lo que este es un conjunto de datos con desequilibrio de clases.

En cambio, el siguiente conjunto de datos no está desequilibrado porque la proporción de etiquetas negativas a etiquetas positivas es relativamente cercana a 1:

517 etiquetas negativas
483 etiquetas positivas

Los conjuntos de datos de clases múltiples también pueden tener clases desequilibradas. Por ejemplo, el siguiente conjunto de datos de clasificación de clases múltiples también está desequilibrado porque una etiqueta tiene muchos más ejemplos que las otras dos:

1,000,000 de etiquetas con la clase “green”
200 etiquetas con la clase "morado"
350 etiquetas con la clase "orange"

Consulta también entropía, clase de mayoría y clase minoritaria.

recorte

#fundamentals

Es una técnica para controlar los valores atípicos mediante una de las siguientes opciones o ambas:

Se reducen los valores de feature que superen el umbral máximo hasta alcanzarlo.
Aumentar los valores de atributos que sean inferiores a un umbral mínimo hasta alcanzarlo

Por ejemplo, supongamos que <0.5% de los valores para un atributo en particular están fuera del rango de 40 a 60. En ese caso, podrías hacer lo siguiente:

Recorta todos los valores superiores a 60 (umbral máximo) para que sean exactamente 60.
Recorta todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.

Los valores atípicos pueden dañar los modelos, lo que a veces provoca que los pesos se desborden durante el entrenamiento. Algunos valores atípicos también pueden arruinar métricas de forma drástica, como la exactitud. El recorte es una técnica común para limitar el daño.

El recorte de gradiente fuerza los valores de gradiente dentro de un rango designado durante el entrenamiento.

Cloud TPU

#TensorFlow

#GoogleCloud

Un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje automático en Google Cloud.

agrupamiento en clústeres

#clustering

Ejemplos relacionados con el agrupamiento, en especial durante el aprendizaje no supervisado. Una vez que todos los ejemplos están agrupados, una persona puede, de manera opcional, proporcionar significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos en función de su proximidad a un centroide, como en el siguiente diagrama:

Un gráfico bidimensional en el que el eje x está etiquetado como ancho de árbol y el eje y se etiqueta como altura de árbol. El gráfico contiene dos centroides y varias docenas de datos. Los datos se clasifican en función de su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como clúster 1, mientras que los más cercanos al otro centroide se clasifican como clúster 2.

Un investigador humano podría revisar los grupos y, por ejemplo, etiquetar el grupo 1 como “árboles enanos” y el grupo 2 como “árboles de tamaño completo”.

Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia de ejemplo desde un punto central, como se ilustra a continuación:

Decenas de datos se ordenan en círculos concéntricos, casi como agujeros alrededor del centro de un tablero de dardos. El anillo más interno de datos se clasifica como el clúster 1, el anillo del medio se clasifica como el clúster 2 y el anillo más externo como el clúster 3.

coadaptación

Es el momento en el que las neuronas predicen patrones en los datos de entrenamiento basándose casi exclusivamente en salidas de otras neuronas específicas en lugar de basarse en el comportamiento de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos de validación, esta última causa un sobreajuste. La regularización de retirados reduce la coadaptación, ya que garantiza que las neuronas no puedan basarse solo en otras neuronas específicas.

filtrado colaborativo

#recsystems

Realizar predicciones sobre los intereses de un usuario en función de los intereses de muchos otros El filtrado colaborativo se usa a menudo en los sistemas de recomendación.

desviación de conceptos

Un cambio en la relación entre los atributos y la etiqueta Con el tiempo, la desviación de conceptos reduce la calidad de un modelo.

Durante el entrenamiento, el modelo aprende la relación entre los atributos y sus etiquetas en el conjunto de entrenamiento. Si las etiquetas del conjunto de entrenamiento son buenos proxies para el mundo real, el modelo debe realizar buenas predicciones del mundo real. Sin embargo, debido a la desviación de conceptos, las predicciones del modelo tienden a degradarse con el tiempo.

Por ejemplo, considera un modelo de clasificación binaria que prediga si un modelo determinado de automóvil es o no “consume combustible”. Es decir, los atributos podrían ser los siguientes:

peso del auto
compresión de motor
tipo de transmisión

mientras que la etiqueta es:

ahorro de combustible
no ahorra combustible

Sin embargo, el concepto de "automóvil con ahorro de combustible" sigue cambiando. Un modelo de automóvil con la etiqueta de consumo de combustible en 1994 casi seguramente lo haría con eficiencia de combustible en 2024. Un modelo con desviación de conceptos tiende a hacer predicciones cada vez menos útiles con el tiempo.

Compara y contrasta con no estacionariedad.

Haz clic en el ícono para obtener notas adicionales.

Para compensar la desviación de conceptos, vuelve a entrenar los modelos más rápido que la tasa de desviación de conceptos. Por ejemplo, si la desviación de conceptos reduce la precisión del modelo por un margen significativo cada dos meses, vuelve a entrenar tu modelo con mayor frecuencia que cada dos meses.

de transición

#df

En un árbol de decisión, cualquier nodo que evalúe una expresión. Por ejemplo, la siguiente parte de un árbol de decisión contiene dos condiciones:

Un árbol de decisión que consta de dos condiciones: (y > 0) y también (y > 0).

Una condición también se denomina división o prueba.

Contrasta la condición con la hoja.

Consulta lo siguiente:

condición binaria
condición no binaria.
condición-alineada-del-eje
condición-oblicua

confabulación

#language

Sinónimo de alucinación.

Confabulación es probablemente un término más preciso desde el punto de vista técnico que alucinación. Sin embargo, la alucinación se volvió popular primero.

configuration

El proceso de asignación de los valores de propiedad iniciales usados para entrenar un modelo, incluidos los siguientes:

las capas compuestas del modelo
la ubicación de los datos
hiperparámetros como los siguientes:

En los proyectos de aprendizaje automático, la configuración se puede realizar a través de un archivo de configuración especial o con bibliotecas de configuración como las siguientes:

sesgo de confirmación

#fairness

Tendencia a buscar, interpretar, favorecer y recordar la información de una manera que confirme las creencias o hipótesis preexistentes propias. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar datos de forma involuntaria de maneras que influyan en un resultado que respalde sus creencias existentes. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo de investigación es una forma de sesgo de confirmación en el que un investigador continúa entrenando modelos hasta confirmar una hipótesis preexistente.

matriz de confusión

#fundamentals

Tabla de NxN que resume la cantidad de predicciones incorrectas y correctas que realizó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

	Tumor (predicho)	No es tumor (predicho)
Tumor (verdad fundamental)	18 (VP)	1 (FN)
No es tumor (verdad fundamental)	6 (FP)	452 (VN)

La matriz de confusión anterior muestra lo siguiente:

De las 19 predicciones en las que la verdad fundamental era Tumor, el modelo clasificó correctamente 18 y 1, de forma incorrecta.
De las 458 predicciones en las que la verdad fundamental no era tumor, el modelo clasificó correctamente 452 y clasificó incorrectamente 6.

La matriz de confusión de un problema de clasificación de clases múltiples puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación de clases múltiples de 3 clases que categoriza tres tipos diferentes de iris (Virginica, Versicolor y Setosa). Cuando la verdad fundamental era virginica, la matriz de confusión muestra que el modelo era mucho más propenso a predecir por error Versicolor que Setosa:

	Setosa (predicho)	Versicolor (predicho)	Vírgenes (predichos)
Setosa (verdad fundamental)	88	12	0
Versicolor (verdad fundamental)	6	141	7
virginica (verdad fundamental)	2	27	109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o a erróneamente 1 en lugar de 7.

Las matrices de confusión contienen suficiente información para calcular una variedad de métricas de rendimiento, incluidas la precisión y la recuperación.

análisis de distrito electoral

#language

Dividir una oración en estructuras gramaticales más pequeñas ("componentes"). Una parte posterior del sistema de AA, como un modelo de comprensión del lenguaje natural, puede analizar los componentes con mayor facilidad que la oración original. Por ejemplo, considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de distrito puede dividir esta oración en los siguientes dos componentes:

Mi amigo es una frase nominal.
adopted two cats es una frase verbal.

Estos componentes se pueden subdividir aún más en componentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

podría subdividirse aún más en:

adopted es un verbo.
two cats es otra frase nominal.

incorporación de lenguaje contextualizada

#language

#IA generativa

Una incorporación que se acerca a "comprender" palabras y frases de formas que los hablantes humanos nativos pueden hacerlo. Las incorporaciones de lenguaje contextualizadas pueden comprender la sintaxis, la semántica y el contexto complejos.

Por ejemplo, considera las incorporaciones de la palabra inglesa cow. Las incorporaciones más antiguas, como word2vec, pueden representar palabras en inglés, de modo que la distancia en el espacio de incorporación de cow a bull es similar a la distancia de ewe (oveja hembra) a ram (oveja macho) o de hembra a macho. Las incorporaciones de lenguaje contextualizadas pueden ir un paso más allá, ya que los hablantes de inglés a veces usan casualmente la palabra cow para referirse a vaca o toro.

ventana de contexto

#language

#IA generativa

La cantidad de tokens que puede procesar un modelo en una instrucción determinada. Cuanto más grande sea la ventana de contexto, más información puede usar el modelo para proporcionar respuestas coherentes a la instrucción.

atributo continuo

#fundamentals

Atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

muestreo de conveniencia

Usar un conjunto de datos no recopilado científicamente para ejecutar experimentos rápidos. Más adelante, es esencial cambiar a un conjunto de datos recopilados científicamente.

convergencia

#fundamentals

Un estado que se alcanza cuando los valores de loss cambian muy poco o nada con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere la convergencia en alrededor de 700 iteraciones:

Representación cartesiana. el eje X es la pérdida. El eje Y es la cantidad de iteraciones de entrenamiento. La pérdida es muy alta durante las primeras iteraciones, pero disminuye drásticamente. Después de unas 100 iteraciones, la pérdida sigue siendo descendente, pero mucho más gradual. Después de unas 700 iteraciones, la pérdida se mantiene plana.

Un modelo convergen cuando un entrenamiento adicional no lo mejorará.

En el aprendizaje profundo, los valores de pérdida a veces se mantienen constantes o casi tanto durante muchas iteraciones antes de finalmente descender. Durante un período largo de valores de pérdida constante, es posible que obtengas temporalmente una falsa sensación de convergencia.

Consulta también interrupción anticipada.

función convexa

Función en la que la región por encima del gráfico de la función es un conjunto convexo. La función convexa prototípica tiene una forma similar a la letra U. Por ejemplo, las siguientes son todas funciones convexas:

Curvas en forma de U, cada una con un solo punto mínimo.

Por el contrario, la siguiente función no es convexa. Observa que la región por encima del gráfico no es un conjunto convexo:

Una curva con forma de W con dos puntos mínimos locales diferentes.

Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto mínimo global. Las funciones clásicas con forma de U son funciones estrictamente convexas. Sin embargo, algunas funciones convexas (por ejemplo, las líneas rectas) no tienen forma de U.

Haz clic en el ícono para obtener un análisis más detallado de los cálculos.

Muchas de las funciones de pérdida comunes, incluidas las siguientes, son funciones convexas:

Pérdida L₂
Pérdida logística
Regularización L₁
Regularización L₂

Se garantiza que muchas variaciones del descenso de gradientes encontrarán un punto cercano al mínimo de una función estrictamente convexa. De manera similar, muchas variaciones del descenso de gradientes estocástico tienen una alta probabilidad (aunque no una garantía) de encontrar un punto cercano al mínimo de una función estrictamente convexa.

La suma de dos funciones convexas (por ejemplo, pérdida L₂ + regularización L₁) es una función convexa.

Los modelos profundos nunca son funciones convexas. Es interesante que los algoritmos diseñados para la optimización convexa tienden a encontrar soluciones razonablemente buenas en redes profundas, aunque no se garantiza que esas soluciones sean un mínimo global.

optimización convexa

Es el proceso de usar técnicas matemáticas, como el descenso de gradientes, para encontrar el mínimo de una función convexa. Una gran parte de la investigación en aprendizaje automático se ha centrado en formular diversos problemas como problemas de optimización convexa y en resolverlos de manera más eficiente.

Para obtener más información, consulta Convex Optimization de Boyd y Vandenberghe.

conjunto convexo

Subconjunto del espacio euclidiano de modo que una línea dibujada entre dos puntos cualesquiera en el subconjunto permanece completamente dentro del subconjunto. Por ejemplo, las dos formas siguientes son conjuntos convexos:

Una ilustración de un rectángulo. Otra ilustración de un óvalo.

Por el contrario, las dos formas siguientes no son conjuntos convexos:

Una ilustración de un gráfico circular con una porción faltante.
Otra ilustración de un polígono altamente irregular.

convolución

#image

En matemáticas, informalmente hablando, una mezcla de dos funciones. En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar ponderaciones.

En el aprendizaje automático, el término "convolución" suele ser una forma abreviada para referirse a la operación convolucional o a la capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje automático en imágenes de 2,000 x 2,000 se vería obligado a encontrar 4 millones de pesos diferentes. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo tiene que encontrar pesos para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, solo se replica a través de las celdas de modo que cada una se multiplica por el filtro.

filtro convolucional

#image

Uno de los dos actores en una operación convolucional (El otro es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada de 28 x 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 x 28.

En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen establecerse en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales generalmente se inicializan con números aleatorios y, luego, la red entrena los valores ideales.

capa convolucional

#image

Es una capa de una red neuronal profunda en la que un filtro convolucional pasa a lo largo de una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional de 3 × 3:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones que involucran la matriz de entrada de 5 x 5. Ten en cuenta que cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz de 3 x 3 resultante (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Una animación que muestra dos matrices. La primera es la de 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,470]
La segunda es la de 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
La segunda matriz se calcula aplicando el filtro convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] en diferentes subconjuntos de 3x3 de la matriz 5x5.

red neuronal convolucional

#image

Es una red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consiste en una combinación de las siguientes capas:

capas convolucionales
reducción de capas
capas densas

Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

#image

La siguiente operación matemática de dos pasos:

Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (La porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional).
Suma de todos los valores en la matriz de producto resultante.

Por ejemplo, considera la siguiente matriz de entrada de 5 × 5:

Matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,719]2,17,719

Ahora imagina el siguiente filtro convolucional de 2 × 2:

La matriz 2x2: [[1, 0], [0, 1]]

Cada operación convolucional implica una sola porción de 2 x 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la porción de 2 x 2 en la parte superior izquierda de la matriz de entrada. La operación de convolución en esta porción se verá de la siguiente manera:

Aplicando el filtro convolucional [[1, 0], [0, 1]] a la sección
2 x 2 superior izquierda de la matriz de entrada, que es [[128,97], [35,22]].
El filtro convolucional deja los valores 128 y 22 intactos, pero pone en cero los valores 97 y 35. En consecuencia, la operación convolución produce el valor 150 (128 + 22).

Una capa convolucional consiste en una serie de operaciones convolucionales, cada una actúa sobre una porción diferente de la matriz de entrada.

costo

Sinónimo de pérdida.

capacitación conjunta

Un enfoque de aprendizaje semisupervisado es particularmente útil cuando se cumplen todas las condiciones siguientes:

La proporción entre los ejemplos sin etiqueta y los ejemplos etiquetados en el conjunto de datos es alta.
Este es un problema de clasificación (binario o de clases múltiples).
El conjunto de datos contiene dos conjuntos diferentes de atributos predictivos que son independientes entre sí y complementarios.

En esencia, el entrenamiento conjunto amplifica indicadores independientes en un indicador más fuerte. Por ejemplo, considera un modelo de clasificación que clasifique los automóviles usados individuales como Bueno o Malos. Un conjunto de atributos predictivos podría enfocarse en características agregadas, como el año, la marca y el modelo del automóvil; otro conjunto de atributos predictivos podría enfocarse en el registro de conducción del propietario anterior y el historial de mantenimiento del auto.

El informe seminal sobre el entrenamiento conjunto es Understanding Labeled and Unlabeled Data with Co-Training de Blum y Mitchell.

equidad contrafáctica

#fairness

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para una persona que para otra persona que es idéntica a la primera, excepto en relación con uno o más atributos sensibles. La evaluación de la equidad contrafáctica de un clasificador es un método para mostrar posibles fuentes de sesgo en un modelo.

Consulta "When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness" para obtener un análisis más detallado sobre la equidad contrafáctica.

sesgo de cobertura

#fairness

Consulta sesgo de selección.

floración

#language

Oración o frase con un significado ambiguo. Un Crash Blossom presenta un problema importante para la comprensión del lenguaje natural. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es un accidente automovilístico porque un modelo de CLN podría interpretar el titular en sentido literal o figurado.

Haz clic en el ícono para obtener notas adicionales.

Solo para aclarar este misterioso título:

Criptografía roja podría referirse a cualquiera de los siguientes elementos:
- Un adhesivo
- Burocracia excesiva
Atenciones podría referirse a cualquiera de las siguientes opciones:
- Soporte estructural
- Demoras

crítico

#rl

Sinónimo de Deep Q-Network.

entropía cruzada

Una generalización de la pérdida logística a los problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

validación cruzada

Un mecanismo para estimar qué tan bien un model generalizaría los datos nuevos a través de la prueba del modelo con uno o más subconjuntos de datos no superpuestos que no se superponen al model

función de distribución acumulativa (CDF)

Una función que define la frecuencia de las muestras menor o igual que un valor objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que aproximadamente el 50% de las muestras debe ser menor o igual que la media y que aproximadamente el 84% de las muestras debe ser menor o igual que una desviación estándar por encima de la media.

D

análisis de datos

Comprender los datos mediante la consideración de muestras, mediciones y visualizaciones. El análisis de datos puede ser muy útil cuando se recibe un conjunto de datos por primera vez, antes de que se compile el primer model. También es crucial para comprender los experimentos y los problemas de depuración del sistema.

magnificación de datos

#image

Mejorar artificialmente el rango y la cantidad de ejemplos de entrenamiento mediante la transformación de ejemplos existentes para crear ejemplos adicionales. Por ejemplo, supongamos que las imágenes son uno de tus atributos, pero el conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas a tu conjunto de datos para permitir que el modelo se entrene de forma correcta. Si eso no es posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir muchas variantes de la imagen original, posiblemente proporcionando suficientes datos etiquetados para permitir un excelente entrenamiento.

DataFrame

#fundamentals

Un tipo de datos popular de Pandas para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla u hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna en un DataFrame se estructura como un arreglo 2D, excepto que a cada columna se puede asignar su propio tipo de datos.

Consulta también la página de referencia de Pandas.DataFrame oficial.

paralelismo de datos

Es una forma de escalar el entrenamiento o la inferencia que replica un modelo completo en varios dispositivos y, luego, pasa un subconjunto de los datos de entrada a cada uno. El paralelismo de datos puede habilitar el entrenamiento y la inferencia en tamaños de lotes muy grandes. Sin embargo, el paralelismo de datos requiere que el modelo sea lo suficientemente pequeño como para adaptarse a todos los dispositivos.

El paralelismo de datos suele acelerar el entrenamiento y la inferencia.

Consulta también el paralelismo de modelos.

conjunto de datos o conjunto de datos

#fundamentals

Es una colección de datos sin procesar, comúnmente (pero no exclusivamente) organizada en uno de los siguientes formatos:

una hoja de cálculo
un archivo en formato CSV (valores separados por coma)

API de Dataset (tf.data)

#TensorFlow

API de TensorFlow de alto nivel para leer datos y transformarlos a un formato que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos, en la que cada uno contiene uno o más tensores. Un objeto tf.data.Iterator proporciona acceso a los elementos de un Dataset.

Para obtener detalles sobre la API de Dataset, consulta tf.data: Compila canalizaciones de entrada de TensorFlow en la Guía para programadores de TensorFlow.

límite de decisión

Es el separador entre clases aprendidas por un modelo en una clase binaria o problemas de clasificación de clases múltiples. Por ejemplo, en la siguiente imagen que representa un problema de clasificación binaria, el límite de decisión es la frontera entre la clase naranja y la azul:

Es un límite bien definido entre una clase y otra.

bosque de decisión

#df

Un modelo creado a partir de varios árboles de decisión. Un bosque de decisiones realiza una predicción mediante la agregación de las predicciones de sus árboles de decisión. Los tipos populares de bosques de decisión incluyen los bosques aleatorios y los árboles con boosting del gradiente.

umbral de decisión

Sinónimo de umbral de clasificación.

árbol de decisión

#df

Un modelo de aprendizaje supervisado compuesto por un conjunto de conditions y conditions organizados de forma jerárquica. Por ejemplo, a continuación, se muestra un árbol de decisiones:

Un árbol de decisión que consta de cuatro condiciones organizadas jerárquicamente, que conducen a cinco hojas.

decodificador

#language

En general, cualquier sistema de AA que convierta de una representación procesada, densa o interna a una representación más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande, en el que suelen sincronizarse con un codificador.

En las tareas de secuencia a secuencia, el decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformador para ver la definición de un decodificador dentro de la arquitectura de transformadores.

modelo profundo

#fundamentals

Es una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

diseño de red neuronal profunda

Sinónimo de modelo profundo.

Deep Q-Network (DQN)

#rl

En Q-learning, una red neuronal profunda que predice Q-functions.

Critic es un sinónimo de Deep Q-Network.

paridad demográfica

#fairness

Una métrica de equidad que se cumple si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.

Por ejemplo, si tanto los residentes de Lilicón como los de Brobdingnagias se postulan a la Universidad de Glubbdubdrib, la paridad demográfica se alcanza si el porcentaje de residentes de Lilicut es el mismo que el porcentaje de residentes de Brobdingnagias admitidos, sin importar si un grupo es, en promedio, más calificado que el otro.

Compara esto con las probabilidades equitativas y la igualdad de oportunidades, que permiten que los resultados de clasificación agregados dependan de atributos sensibles, pero no permiten que los resultados de clasificación de ciertas etiquetas de verdad fundamental específicas dependan de atributos sensibles. Consulta el artículo “Atacar la discriminación con un aprendizaje automático más inteligente” para obtener una visualización que explora las ventajas y desventajas de la optimización para lograr la paridad demográfica.

reducir el ruido

#language

Un enfoque común para el aprendizaje autosupervisado en el que se describe lo siguiente:

Ruido se agrega de forma artificial al conjunto de datos.
El model intenta quitar el ruido.

La anulación de ruido permite aprender a partir de ejemplos sin etiqueta. El conjunto de datos original sirve como destino o etiqueta, y los datos ruidosos como entrada.

En algunos modelos de lenguaje enmascarado, se usa la reducción de ruido de la siguiente manera:

El ruido se agrega de forma artificial a una oración sin etiqueta mediante el enmascaramiento de algunos de los tokens.
El modelo intenta predecir los tokens originales.

atributo denso

#fundamentals

atributo en el que la mayoría de los valores o todos los valores no son cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores no son cero:

Compara esto con el atributo disperso.

capa densa

Sinónimo de capa completamente conectada.

depth

#fundamentals

Es la suma de lo siguiente en una red neuronal:

la cantidad de capas ocultas
la cantidad de capas de salida, que suele ser 1
la cantidad de las capas de incorporación

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no influye en la profundidad.

red neuronal convolucional separable en profundidad (sepCNN)

#image

Arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por convoluciones separables en profundidad. También conocido como Xception.

Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una convolución 3D estándar en dos operaciones de convolución independientes que son más eficientes en términos de procesamiento: primero, una convolución de profundidad, con una profundidad de 1 (n ✕ n ✕ 1) y, luego, una convolución 1 con 1 ✕n de longitud y 1 ✕ n en puntos.

Para obtener más información, consulta Xception: aprendizaje profundo con convoluciones separables en profundidad.

etiqueta derivada

Sinónimo de etiqueta de proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un término sobrecargado con las siguientes dos definiciones posibles:

Categoría de hardware que puede ejecutar una sesión de TensorFlow y que incluye CPU, GPU y TPU.
Cuando se entrena un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que realmente manipula los tensores y las incorporaciones. El dispositivo se ejecuta en chips aceleradores. Por el contrario, el host, por lo general, se ejecuta en una CPU.

privacidad diferencial

En el aprendizaje automático, es un enfoque de anonimización para proteger todos los datos sensibles (por ejemplo, la información personal de una persona) incluidos en el conjunto de entrenamiento de un modelo. Este enfoque garantiza que el model no aprenda ni recuerde mucho sobre una persona específica. Esto se logra mediante el muestreo y la adición de ruido durante el entrenamiento del modelo para ocultar datos individuales, lo que mitiga el riesgo de exponer datos de entrenamiento sensibles.

La privacidad diferencial también se usa fuera del aprendizaje automático. Por ejemplo, los científicos de datos a veces usan la privacidad diferencial para proteger la privacidad individual cuando calculan estadísticas de uso del producto para diferentes segmentos demográficos.

reducción de dimensiones

Disminución de la cantidad de dimensiones que se usan para representar un atributo específico en un vector de atributos, por lo general, mediante la conversión en un vector de incorporación.

dimensions

Término sobrecargado con alguna de las siguientes definiciones:

La cantidad de coordenadas en un tensor. Por ejemplo:
- Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].
- Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
- Una matriz tiene dos dimensiones, por ejemplo, [[2, 4, 18], [5, 7, 14]].
Puedes especificar de manera inequívoca una celda en particular en un vector unidimensional con una coordenada; necesitas dos coordenadas para especificar de manera única una celda en particular en una matriz bidimensional.
La cantidad de entradas en un vector de atributos
La cantidad de elementos en una capa de incorporación.

instrucción directa

#language

#IA generativa

Sinónimo de instrucción sin ejemplos.

atributo discreto

#fundamentals

Atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

modelo discriminativo

model que predice model a partir de un conjunto de uno o más model. De manera más formal, los modelos discriminativos definen la probabilidad condicional de un resultado según los atributos y las ponderaciones, es decir:

p(output | features, weights)

Por ejemplo, un modelo que predice si un correo electrónico es spam desde atributos y pesos es un modelo discriminativo.

La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y regresión, son modelos discriminativos.

Compara esto con el modelo generativo.

discriminante

Sistema que determina si los ejemplos son reales o falsos.

De forma alternativa, el subsistema dentro de una red generativa adversaria que determina si los ejemplos creados por el generador son reales o falsos.

impacto dispar

#fairness

Tomar decisiones sobre las personas que afectan desproporcionadamente a diferentes subgrupos de la población. Por lo general, se refiere a situaciones en las que un proceso de toma de decisiones algorítmica daña o beneficia a algunos subgrupos más que a otros.

Por ejemplo, supongamos que es más probable que un algoritmo que determina la elegibilidad de un lilitiano para un préstamo de vivienda miniatura lo clasifique como "no apto" si su dirección de correo postal contiene un código postal determinado. Si este código es más probable que los usuarios de Liliputa de Big-Endian tengan una dirección de correo postal con este código postal, este algoritmo puede generar un impacto dispar.

Compara esto con el tratamiento disparo, que se enfoca en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas a un proceso de toma de decisiones algorítmica.

tratamiento dispar

#fairness

Factorizar los atributos sensibles de los sujetos en un proceso de toma de decisiones algorítmico, de modo que los diferentes subgrupos de personas reciban un trato diferente

Por ejemplo, considera un algoritmo que determine la elegibilidad de las personas de Liliputa para un préstamo de vivienda en miniatura en función de los datos que proporcionan en su solicitud de préstamo. Si el algoritmo utiliza como entrada la afiliación de un lilipúti como big-endian o Little-Endian, está implementando un tratamiento dispar en esa dimensión.

Compara esto con el impacto dispar, que se enfoca en las desigualdades en los impactos sociales de las decisiones algorítmicas en los subgrupos, sin importar si estos son entradas para el modelo.

síntesis

#IA generativa

Es el proceso de reducir el tamaño de un model (conocido como model) a un modelo más pequeño (conocido como model), que emula las predicciones del modelo original de la manera más fiel posible. La síntesis es útil porque el modelo más pequeño tiene dos beneficios clave sobre el modelo más grande (el profesor):

Tiempo de inferencia más rápido
Reducción del uso de energía y memoria

Sin embargo, las predicciones de los estudiantes no suelen ser tan buenas como las del profesor.

La síntesis entrena el modelo del estudiante para minimizar una función de pérdida en función de la diferencia entre los resultados de las predicciones de los modelos de estudiante y profesor.

Compara y contrasta la destilación con los siguientes términos:

ajuste
aprendizaje basado en instrucciones

distribución

La frecuencia y el rango de los diferentes valores para un atributo o una etiqueta determinados. Una distribución captura qué tan probable es que sea un valor particular.

En la siguiente imagen, se muestran histogramas de dos distribuciones diferentes:

A la izquierda, una ley de poder distribuye la riqueza frente al número de personas que la poseen.
A la derecha, se muestra una distribución normal de la altura en comparación con la cantidad de personas que poseen esa altura.

Comprender la distribución de cada atributo y etiqueta puede ayudarte a determinar cómo normalizar los valores y detectar valores atípicos.

La frase fuera de distribución se refiere a un valor que no aparece en el conjunto de datos o que es muy poco frecuente. Por ejemplo, una imagen del planeta Saturno se consideraría fuera de distribución para un conjunto de datos compuesto por imágenes de gatos.

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

submuestreo

#image

Término sobrecargado que puede significar cualquiera de las siguientes opciones:

Reducir la cantidad de información en un atributo para entrenar un modelo de manera más eficiente. Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, se reduce el muestreo de imágenes de alta resolución a un formato de menor resolución.
Entrenar con un porcentaje desproporcionadamente bajo de ejemplos de clases sobrerrepresentadas para mejorar el entrenamiento de modelos en clases poco representadas. Por ejemplo, en un conjunto de datos con desequilibrio de clases, los modelos tienden a aprender mucho sobre la clase mayor, pero no lo suficiente sobre la clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.

DQN

#rl

Abreviatura de Deep Q-Network.

regularización de retirados

Una forma de regularización útil para entrenar redes neuronales. La regularización de retirados quita una selección aleatoria de un número fijo de unidades en una capa de red para un solo paso de gradiente. Cuantas más unidades se extraigan, mejor será la regularización. Esto es análogo a entrenar la red para emular un ensamble exponencialmente grande de redes más pequeñas. Para obtener más información, consulta Dropout: A Simple Way to Prevent Neural Networks from Overwide.

dinámico

#fundamentals

Algo que se hace de manera frecuente o continua. Los términos dinámico y en línea son sinónimos en el aprendizaje automático. Los siguientes son usos comunes de las funciones dinámicas y en línea en el aprendizaje automático:

Un modelo dinámico (o modelo en línea) es aquel que se vuelve a entrenar de manera frecuente o continua.
El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuo.
La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Es un model que se vuelve a entrenar con frecuencia (quizás incluso de forma continua). Un modelo dinámico es un “estudiante continuo” que se adapta constantemente a la evolución de los datos. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

ejecución inmediata

#TensorFlow

Entorno de programación TensorFlow en el que las operations se ejecutan de inmediato. Por el contrario, las operaciones llamadas ejecución por grafos no se ejecutan hasta que se evalúen explícitamente. La ejecución inmediata es una interfaz imperativa, similar al código de la mayoría de los lenguajes de programación. Los programas de ejecución inmediata son, en general, mucho más fáciles de depurar que los programas de ejecución por grafos.

interrupción anticipada

#fundamentals

Es un método de regularización que implica finalizar el entrenamiento antes de que la pérdida del entrenamiento termine de disminuir. En la interrupción anticipada, dejas de entrenar el modelo de forma intencional cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando empeora el rendimiento de la generalización.

Haz clic en el ícono para obtener notas adicionales.

La interrupción anticipada puede parecer contradictoria. Después de todo, decirle a un modelo que detenga el entrenamiento mientras la pérdida sigue disminuyendo puede parecer como decirle a un chef que deje de cocinar antes de que el postre se haya horneado por completo. Sin embargo, entrenar un modelo durante demasiado tiempo puede generar un sobreajuste. Es decir, si entrenas un modelo por mucho tiempo, este puede ajustarse tan estrechamente a los datos de entrenamiento que no podrá realizar predicciones correctas con ejemplos nuevos.

distancia del móvil (EMD)

Una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del traslado de la tierra, más similares serán las distribuciones.

editar distancia

#language

Es una medida de lo semejantes que son dos cadenas de texto entre sí. En el aprendizaje automático, la distancia de edición es útil porque es fácil de procesar y es una forma eficaz de comparar dos strings que se sabe que son similares o de encontrar strings similares a una determinada.

Hay varias definiciones de distancia de edición, cada una de las cuales usa diferentes operaciones de cadena. Por ejemplo, la distancia de Levenshtein considera la menor cantidad de operaciones de eliminación, inserción y sustitución.

Por ejemplo, la distancia de Levenshtein entre las palabras "corazón" y "darts" es de 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en otra:

corazón → deart (sustituye “h” por “d”)
deart → dart (borrar "e")
dart → dardos (insert “s”)

Notación einsum

Una notación eficiente para describir cómo se deben combinar dos tensores. Los tensores se combinan multiplicando los elementos de un tensor por los elementos del otro y, luego, sumando los productos. La notación Einsum usa símbolos para identificar los ejes de cada tensor, y esos mismos símbolos se reordenan para especificar la forma del nuevo tensor resultante.

NumPy proporciona una implementación de Einsum común.

capa de incorporación

#language

#fundamentals

Una capa oculta especial que se entrena en un atributo categórico de alta dimensión para aprender de forma gradual un vector de incorporación de menor dimensión. Una capa de incorporación permite que una red neuronal se entrene de manera mucho más eficiente que el entrenamiento solo con el atributo categórico de alta dimensión.

Por ejemplo, en la actualidad, la Tierra es compatible con unas 73,000 especies arbóreas. Supongamos que la especie de árbol es un atributo en tu modelo, por lo que la capa de entrada del modelo incluye un vector one-hot de 73,000 elementos de largo. Por ejemplo, es posible que baobab se represente de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos tienen el valor 0. El siguiente elemento contiene el valor 1. Los 66,767 elementos finales tienen el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento llevará mucho tiempo debido a que se multiplican 72,999 ceros. Quizás eliges que la capa de incorporación conste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.

En ciertas situaciones, la generación de hash es una alternativa razonable a una capa de incorporación.

espacio de incorporaciones

#language

Espacio vectorial de d-dimensional al que se asignan atributos de un espacio vectorial de mayor dimensión. Lo ideal es que el espacio de incorporaciones contenga una estructura que produzca resultados matemáticos significativos; por ejemplo, en un espacio de incorporaciones ideal, agregar y quitar incorporaciones puede resolver tareas de analogía de palabras.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, es un array de números de punto flotante tomado de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenados en una capa de incorporación. Por ejemplo, supongamos que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies de árboles de la Tierra. Quizás el siguiente array sea el vector de incorporación para un árbol baobab:

Un array de 12 elementos, cada uno con un número de punto flotante entre 0.0 y 1.0.

Un vector de incorporación no es un montón de números aleatorios. Una capa de incorporación determina estos valores a través del entrenamiento, similar a la forma en que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación de alguna característica de una especie arbórea. ¿Qué elemento representa la característica de qué especie arbórea? Es muy difícil para los humanos determinarlo.

La parte matemáticamente destacada de un vector de incorporación es que elementos similares tienen conjuntos similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto de números de punto flotante más parecido que las especies de árboles diferentes. Las secuoyas y las secuoyas son especies arbóreas relacionadas, por lo que tienen un conjunto de números que señalan flotante más similar que las secuoyas y las cocoteros. Los números en el vector de incorporación cambiarán cada vez que se vuelva a entrenar el modelo, incluso si se vuelve a entrenar el modelo con una entrada idéntica.

función de distribución empírica acumulada (eCDF o EDF)

Es una función de distribución acumulativa basada en mediciones empíricas de un conjunto de datos real. El valor de la función en cualquier punto a lo largo del eje x es la fracción de observaciones del conjunto de datos que son menores o iguales que el valor especificado.

minimización del riesgo empírico (ERM)

Elección de la función que minimiza la pérdida en el conjunto de entrenamiento. Compara esto con la minimización del riesgo estructural.

codificador

#language

En general, cualquier sistema de AA que convierta una representación externa, dispersa o sin procesar en una representación más procesada, densa o interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que suelen sincronizarse con un decodificador. Algunos Transformers vinculan codificadores con decodificadores, mientras que otros usan solo el codificador o el decodificador.

Algunos sistemas usan la salida del codificador como la entrada a una red de clasificación o regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y muestra un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformador para conocer la definición de codificador en la arquitectura de transformadores.

ensamble

Una colección de modelos entrenados de forma independiente cuyas predicciones se promedian o se agregan. En muchos casos, un ensamble produce mejores predicciones que un solo modelo. Por ejemplo, un bosque aleatorio es un ensamble compilado a partir de varios árboles de decisión. Ten en cuenta que no todos los bosques de decisiones son ensambles.

entropía

#df

En la teoría de la información, es una descripción de qué tan impredecible es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.

La entropía de un conjunto con dos valores posibles, “0” y “1” (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

H es la entropía.
p es la fracción de los ejemplos “1”.
q es la fracción de los ejemplos “0”. Observa que q = (1 - p)
log generalmente es log₂. En este caso, la unidad de entropía es un poco.

Por ejemplo, supongamos lo siguiente:

100 ejemplos contienen el valor “1”
300 ejemplos contienen el valor “0”

Por lo tanto, el valor de la entropía es el siguiente:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 bits por ejemplo

Un conjunto que está perfectamente equilibrado (por ejemplo, 200 “0” y 200 “1”) tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se desequilibra, su entropía se acerca 0.0.

En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

impureza de gini
Función de pérdida de entropía cruzada

La entropía suele llamarse entropía de Shannon.

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene el agente y permite que el agente observe el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este pasa de un estado a otro.

episodio

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente de aprender un entorno.

época

#fundamentals

Un pase de entrenamiento completo sobre el conjunto de entrenamiento completo, de modo que cada ejemplo se procese una vez.

Un ciclo de entrenamiento representa N/tamaño del lote iteraciones, en el que N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

El conjunto de datos consta de 1,000 ejemplos.
El tamaño del lote es de 50 ejemplos.

Por lo tanto, un solo ciclo de entrenamiento requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

política voraz de épsilon

#rl

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con una probabilidad de épsilon o una política codiciosa en caso contrario. Por ejemplo, si épsilon es 0.9, entonces la política sigue una política aleatoria el 90% del tiempo y una política codiciosa el 10% del tiempo.

En episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política aleatoria a seguir una política voraz. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, explota con avidez los resultados de la exploración aleatoria.

igualdad de oportunidades

#fairness

Una métrica de equidad para evaluar si un modelo predice el resultado deseable de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable de un modelo es la clase positiva, el objetivo será que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con las probabilidades equitativas, lo que requiere que tanto las tasas de verdaderos positivos como las tasas de falsos positivos sean las mismas para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite a personas de Lilicut y de Brobding en un riguroso programa de matemáticas. Las escuelas secundarias de Liliputa ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnagias no ofrecen clases de matemática y, como resultado, muchos menos estudiantes están calificados. La igualdad de oportunidades se cumple con la etiqueta preferida de "admitido" con respecto a la nacionalidad (liliputa o brobdingnagiano) si los estudiantes calificados tienen la misma probabilidad de ser admitidos independientemente de si son de Liliputa o Brobdingnag.

Por ejemplo, supongamos que 100 lilipinos y 100 de Brobdingnagians se postulan a la Universidad de Glubbdubdrib y que las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Postulantes de Liliputa (el 90% de ellos están calificados)

	Calificado	No cumple con los requisitos
Admitida	45	3
Rechazado	45	7
Total	90	10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes descalificados rechazados: 7/10 = 70% Porcentaje total de estudiantes de Lilicón que ingresaron: (45 + 3)/100 = 48%

Tabla 2: Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

	Calificado	No cumple con los requisitos
Admitida	5	9
Rechazado	5	81
Total	10	90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 81/90 = 90% Porcentaje total de estudiantes de Brobdingnagian admitidos: (5 + 9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades de aceptación de estudiantes calificados, ya que los estudiantes de Libia y los de Brobding tienen un 50% de probabilidades de ser admitidos.

Si bien la igualdad de oportunidades está satisfecha, las siguientes dos métricas de equidad no se satisfacen:

Paridad demográfica: Los estudiantes de Liliputa y de Brobdingnagias reciben entradas diferentes en la universidad. El 48% de los estudiantes de Liliputa ingresan al 48% de ellos, pero solo el 14% de los de Brobdingnag.
probabilidades equitativas: Si bien los estudiantes calificados de Liliputia y Brobdingnagias tienen las mismas posibilidades de ser admitidos, no se satisface la restricción adicional de que los estudiantes de Liliputa y Brobdingnagias no calificados tienen las mismas posibilidades de ser rechazados. Los residentes de California no calificados tienen una tasa de rechazo del 70%, mientras que los de Brobdingnagis no calificados tienen una tasa de rechazo del 90%.

Consulta "Igualdad de oportunidades en el aprendizaje supervisado" para obtener un análisis más detallado sobre la igualdad de oportunidades. Consulta también “Atacar la discriminación con un aprendizaje automático más inteligente” para obtener una visualización que explora las ventajas y desventajas de las optimizaciones en función de la igualdad de oportunidades.

probabilidades igualadas

#fairness

Una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible, con respecto a la clase positiva y a la clase negativa, no solo a una clase o a la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser iguales para todos los grupos.

Las probabilidades equitativas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad Glubbdubdrib admite a personas de Liliputa y Brobdingnagians a un riguroso programa de matemáticas. Las escuelas secundarias de Liliputa ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los alumnos están calificados para el programa universitario. Las escuelas secundarias de Brobdingnagias no ofrecen clases de matemática y, como resultado, muchos menos estudiantes están calificados. Las probabilidades equitativas se cumplirán siempre y cuando un postulante sea un lilipú o un brobdingnagiano, si está calificado, es igual de probable que se lo admita en el programa y, si no está calificado, es igual de probable que sea rechazado.

Supongamos que se aplican 100 residentes de Liliputa y 100 de Brobdingnagians a la universidad Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Postulantes de Liliputa (el 90% de ellos están calificados)

	Calificado	No cumple con los requisitos
Admitida	45	2
Rechazado	45	8
Total	90	10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes no calificados rechazados: 8/10 = 80% Porcentaje total de estudiantes de Liliputa admitidos: (45 + 2)/100 = 47%

Tabla 4. Postulantes al programa Brobdingnagian (el 10% de ellos reúnen los requisitos):

	Calificado	No cumple con los requisitos
Admitida	5	18
Rechazado	5	72
Total	10	90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 72/90 = 80% Porcentaje total de estudiantes de Brobdingnagian admitidos: (5 + 18)/100 = 23%

Las probabilidades equitativas están satisfechas porque los estudiantes calificados de Liliputa y Brobdingnagian tienen un 50% de probabilidades de ser admitidos, y los estudiantes de Liliputa y Brobdingnagian no calificados tienen un 80% de probabilidades de ser rechazados.

Las probabilidades equitativas se definen formalmente en "Igualdad de oportunidades en el aprendizaje supervisado" de la siguiente manera: "el predictor Ŷ cumple con las probabilidades igualadas con respecto al atributo protegido A y el resultado Y si Ŷ y A son independientes y condicionales en Y".

Estimador

#TensorFlow

API de TensorFlow obsoleta. Utiliza tf.keras en lugar de Estimadores.

sin conexión

Es el proceso de medir la calidad de las predicciones de un modelo de aprendizaje automático. Cuando desarrollas un modelo, por lo general, aplicas métricas de evaluación no solo en el conjunto de entrenamiento, sino también en un conjunto de validación y en un conjunto de prueba. También puedes usar métricas de evaluación para comparar diferentes modelos entre sí.

Ejemplo

#fundamentals

Son los valores de una fila de features y, posiblemente, de una etiqueta. Los ejemplos del aprendizaje supervisado se dividen en dos categorías generales:

Un ejemplo etiquetado consta de uno o más atributos y una etiqueta. Los ejemplos etiquetados se usan durante el entrenamiento.
Un ejemplo sin etiqueta consta de uno o más atributos, pero no una etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Aquí hay tres ejemplos etiquetados:

Funciones			Etiqueta
Temperatura	Humedad	Presionar	Puntuación de la prueba
15	47	998	Bueno
19	34	1020	Excelente
18	92	1012	Deficiente

Aquí hay tres ejemplos sin etiqueta:

Temperatura	Humedad	Presionar
12	62	1014
21	47	1017
19	41	1021

Por lo general, la fila de un conjunto de datos es la fuente sin procesar para un ejemplo. Es decir, un ejemplo, por lo general, consta de un subconjunto de las columnas en el conjunto de datos. Además, los atributos de un ejemplo también pueden incluir atributos sintéticos, como las combinaciones de atributos.

experiencia de reproducción

#rl

En el aprendizaje por refuerzo, técnica de DQN que se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, toma muestras de las transiciones del búfer de reproducción para crear datos de entrenamiento.

sesgo del investigador

#fairness

Consulta el sesgo de confirmación.

problema de gradiente con alto crecimiento

#seq

La tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a volverse sorprendentemente pronunciada (alta). Los gradientes empinados suelen provocar actualizaciones muy grandes de los pesos de cada nodo en una red neuronal profunda.

Los modelos que sufren el problema de gradiente con alto crecimiento se vuelven difíciles o imposibles de entrenar. El recorte de gradiente puede mitigar este problema.

Compara con el problema de gradiente de fuga.

F

F₁

Una métrica de clasificación binaria de "lista completa" que se basa tanto en la precisión como en la recuperación. Esta es la fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Por ejemplo, dada la siguiente información:

precisión = 0.6
recuperación = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Cuando la precisión y la recuperación son bastante similares (como en el ejemplo anterior), F₁ se acerca a su media. Cuando la precisión y la recuperación difieren de manera significativa, F₁ está más cerca del valor más bajo. Por ejemplo:

precisión = 0.9
recuperación = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

restricción de equidad

#fairness

Aplicar una restricción a un algoritmo para garantizar que se cumplan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

Realiza un procesamiento posterior de los resultados de tu modelo.
Modificación de la función de pérdida para incorporar una penalización por incumplir una métrica de equidad
Agregar directamente una restricción matemática a un problema de optimización.

métrica de equidad

#fairness

Una definición matemática de "equidad" que es medible. Algunas de las métricas de equidad de uso general incluyen las siguientes:

probabilidades equitativas
paridad predictiva
equidad contrafáctica
paridad demográfica

Muchas métricas de equidad son excluyentes mutuamente; consulta incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals

Ejemplo en el que el modelo predice la clase negativa de forma incorrecta. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

La proporción de ejemplos positivos reales para los que el modelo predijo por error la clase negativa. La siguiente fórmula calcula la tasa de falsos negativos:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Ejemplo en el que el modelo predice la clase positiva de manera incorrecta. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

tasa de falsos positivos (FPR)

#fundamentals

La proporción de ejemplos negativos reales para los que el modelo predijo por error la clase positiva. La siguiente fórmula calcula la tasa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje x en una curva ROC.

característica

#fundamentals

Una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consta de uno o más atributos. Por ejemplo, supongamos que entrenas un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres atributos y una etiqueta:

Funciones			Etiqueta
Temperatura	Humedad	Presionar	Puntuación de la prueba
15	47	998	92
19	34	1020	84
18	92	1012	87

Compara esto con label.

combinación de atributos

#fundamentals

Un atributo sintético formado por “combinar” atributos categóricos o agrupados.

Por ejemplo, considera un modelo de “previsión del estado de ánimo” que represente la temperatura en uno de los siguientes cuatro buckets:

freezing
chilly
temperate
warm

Y representa la velocidad del viento en uno de los siguientes tres segmentos:

still
light
windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno de los siete buckets anteriores. Por lo tanto, el modelo se entrena en, por ejemplo, freezing, independientemente del entrenamiento en, por ejemplo, windy.

Como alternativa, puedes crear una combinación de atributos de temperatura y velocidad del viento. Este atributo sintético tendría los siguientes 12 valores posibles:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Gracias a las combinaciones de atributos, el modelo puede aprender diferencias de estado de ánimo entre un día de freezing-windy y uno de freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos buckets diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 buckets y el otro tiene 2,000 buckets, la combinación de atributos resultante tendrá 2,000,000 buckets.

De manera formal, una cruz es un producto cartesiano.

Las combinaciones de atributos se usan mayormente con modelos lineales y rara vez se usan con redes neuronales.

ingeniería de atributos.

#fundamentals

#TensorFlow

Un proceso que implica los siguientes pasos:

Determinar qué atributos podrían ser útiles para entrenar un modelo.
Convertir los datos sin procesar del conjunto de datos en versiones eficientes de esos atributos

Por ejemplo, podrías determinar que temperature podría ser un atributo útil. Luego, puedes experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de los diferentes rangos temperature.

A veces, la ingeniería de atributos se denomina extracción de atributos o definición de atributos.

Haz clic en el ícono para obtener notas adicionales sobre TensorFlow.

En TensorFlow, la ingeniería de atributos suele implicar la conversión de entradas del archivo de registro sin procesar en búferes de protocolo tf.Example. Consulta también tf.Transform.

extracción de atributos

Término sobrecargado con una de las siguientes definiciones:

Recuperar representaciones de atributos intermedios calculadas por un modelo no supervisado o previamente entrenado (por ejemplo, valores de capa oculta en una red neuronal) para usar en otro modelo como entrada
Sinónimo de ingeniería de atributos.

importancias de atributos

#df

Sinónimo de importancias de variable.

conjunto de atributos

#fundamentals

Es el grupo de atributos con el que se entrena tu modelo de aprendizaje automático. Por ejemplo, el código postal, el tamaño y el estado de la propiedad pueden incluir un conjunto de atributos simples para un modelo que predice los precios de la vivienda.

especificación de atributos

#TensorFlow

Describe la información necesaria para extraer datos de atributos del búfer de protocolo tf.Example. Debido a que el búfer de protocolo tf.Example es solo un contenedor de datos, debes especificar lo siguiente:

Los datos que se extraerán (es decir, las claves de los atributos)
El tipo de datos (por ejemplo, número de punto flotante o entero)
La longitud (fija o variable)

vector de atributos

#fundamentals

Es el array de valores de atributos que consta de un ejemplo. El vector de atributos se ingresa durante el entrenamiento y durante la inferencia. Por ejemplo, el vector de atributos para un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida.
La capa de entrada contiene dos nodos, uno con el valor 0.92 y otro con el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que el vector de atributos del siguiente ejemplo podría ser algo como lo siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representarlos en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se podría representar con la codificación one-hot. En este caso, la parte del vector de atributos de un ejemplo en particular constaría de cuatro ceros y un solo 1.0 en la tercera posición, de la siguiente manera:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
un atributo de punto flotante; por ejemplo: 8.3

En este caso, el vector de atributos para cada ejemplo estaría representado por nueve valores. Dados los valores de ejemplo de la lista anterior, el vector de atributos sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

representación de atributos

Es el proceso de extraer atributos desde una fuente de entrada, como un documento o video, y asignar esos atributos a un vector de atributos.

Algunos expertos en AA usan la representación de atributos como sinónimo de ingeniería de atributos o extracción de atributos.

aprendizaje federado

Es un enfoque de aprendizaje automático distribuido que entrena modelos de aprendizaje automático mediante ejemplos descentralizados que se basan en dispositivos como smartphones. En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo actual desde un servidor central de coordinación. Los dispositivos usan los ejemplos almacenados en los dispositivos para realizar mejoras en el modelo. Luego, los dispositivos suben las mejoras del modelo (pero no los ejemplos de entrenamiento) al servidor de coordinación, donde se agregan con otras actualizaciones para generar un modelo global mejorado. Después de la agregación, las actualizaciones del modelo que procesan los dispositivos ya no son necesarias y se pueden descartar.

Dado que los ejemplos de entrenamiento nunca se suben, el aprendizaje federado sigue los principios de privacidad de la recopilación y la minimización de datos enfocadas.

Para obtener más información sobre el aprendizaje federado, consulta este instructivo.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, es una situación en la que las predicciones de un modelo influyen en los datos de entrenamiento del mismo modelo o de otro. Por ejemplo, un modelo que recomienda películas influirá en las que ven las personas, lo que luego influirá en los modelos de recomendación de películas posteriores.

red neuronal prealimentada (FFN)

Red neuronal sin conexiones cíclicas o recurrentes. Por ejemplo, las redes neuronales profundas tradicionales son redes neuronales prealimentadas. Compara esto con las redes neuronales recurrentes, que son cíclicas.

aprendizaje en pocos intentos

Enfoque de aprendizaje automático, que se usa a menudo para la clasificación de objetos, diseñado para entrenar clasificadores eficaces a partir de solo una pequeña cantidad de ejemplos de entrenamiento.

Consulta también aprendizaje en un intento y aprendizaje sin ejemplos.

instrucciones con ejemplos limitados

#language

#IA generativa

Una instrucción que contiene más de un ejemplo (un “poco”) que demuestra cómo debe responder el modelo de lenguaje grande. Por ejemplo, la siguiente instrucción larga contiene dos ejemplos que muestran a un modelo de lenguaje extenso cómo responder una consulta.

Partes de una instrucción	Notas
`¿Cuál es la moneda oficial del país especificado?`	La pregunta que quieres que el LLM responda.
`Francia: EUR`	Un ejemplo.
`Reino Unido: GBP`	Otro ejemplo.
`India:`	Es la consulta real.

Por lo general, la instrucción con ejemplos limitados produce resultados más deseables que las instrucciones sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requieren una más larga.

La instrucción con ejemplos limitados es una forma de aprendizaje con ejemplos limitados que se aplica al aprendizaje basado en instrucciones.

Violín tradicional

#language

Una biblioteca de configuración centrada en Python que establece los valores de las funciones y clases sin infraestructura ni código invasivos En el caso de Pax y otras bases de código de AA, estas funciones y clases representan modelos y entrenamiento hiperparámetros.

Fiddle supone que las bases de código de aprendizaje automático, por lo general, se dividen en los siguientes elementos:

Código de biblioteca, que define las capas y los optimizadores.
Es un código de "unión" del conjunto de datos que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamada del código de adhesión de una forma sin evaluar y mutable.

ajuste

#language

#image

#IA generativa

Un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado con el objetivo de definir mejor sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa para algunos modelos grandes de lenguaje es la siguiente:

Entrenamiento previo: Entrena un modelo grande de lenguaje en un conjunto de datos general amplio, como todas las páginas de Wikipedia en inglés.
Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos centrados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa de un modelo de imagen grande es la siguiente:

Entrenamiento previo: Entrena un modelo de imagen grande con un conjunto de datos de imágenes general amplio, como todas las imágenes de Wikimedia Commons.
Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como generar imágenes de orcas.

El ajuste puede implicar cualquier combinación de las siguientes estrategias:

Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste completo.
Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida), mientras se mantienen los demás parámetros existentes (por lo general, las capas más cercanas a la capa de entrada) Consulta el ajuste eficiente de parámetros.
Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida.

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste puede usar una función de pérdida o un tipo de modelo diferentes a los usados para entrenar el modelo previamente entrenado. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestre la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

destilación
aprendizaje basado en instrucciones

Lino

#language

Una biblioteca de código abierto de alto rendimiento para el aprendizaje profundo compilada en JAX. Flax proporciona funciones de entrenamiento de redes neuronales y métodos para evaluar su rendimiento.

Lino

#language

Biblioteca de Transformer de código abierto en Flax, diseñada principalmente para el procesamiento de lenguaje natural y la investigación multimodal.

puerta de descarte

#seq

Es la parte de una celda de memoria a corto plazo de larga duración que regula el flujo de información a través de la celda. Las puertas de eliminación mantienen el contexto cuando deciden qué información descartar del estado de la celda.

softmax completo

Sinónimo de softmax.

Compara esto con el muestreo de candidatos.

capa completamente conectada

Una capa oculta en la que cada nodo está conectado a todos los nodos de la capa oculta posterior.

Una capa completamente conectada también se conoce como una capa densa.

transformación de funciones

Es una función que toma una función como entrada y muestra una función transformada como resultado. JAX usa transformaciones de funciones.

G

GAN

Abreviatura de red generativa adversaria.

generalización

#fundamentals

La capacidad de un modelo de realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo opuesto a un modelo que se sobreajusta.

Haz clic en el ícono para obtener notas adicionales.

Entrenas un modelo con los ejemplos del conjunto de entrenamiento. En consecuencia, el modelo aprende las peculiaridades de los datos en el conjunto de entrenamiento. En esencia, se pregunta si tu modelo puede realizar predicciones correctas con ejemplos que no están en el conjunto de entrenamiento.

Para fomentar la generalización, la regularización ayuda a un modelo a entrenarse con menos frecuencia que las peculiaridades de los datos en el conjunto de entrenamiento.

curva de generalización

#fundamentals

Un gráfico de la pérdida de entrenamiento y la pérdida de validación como una función de la cantidad de iteraciones.

Una curva de generalización puede ayudarte a detectar un posible sobreajuste. Por ejemplo, la siguiente curva de generalización sugiere sobreajuste porque la pérdida de validación, en última instancia, es significativamente mayor que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje y está etiquetado como pérdida y el eje x se etiquetan iteraciones. Aparecerán dos diagramas. Uno muestra la pérdida de entrenamiento y el otro muestra la pérdida de validación.
Los dos diagramas comienzan de manera similar, pero la pérdida de entrenamiento disminuye mucho más baja que la pérdida de validación.

modelo lineal generalizado

Es una generalización de los modelos de regresión de mínimos cuadrados, que se basan en el ruido gaussiano, a otros tipos de modelos basados en otros tipos de ruido, como el ruido Poisson o el ruido categórico. Estos son algunos ejemplos de modelos lineales generalizados:

regresión logística
regresión de clases múltiples
regresión de mínimos cuadrados

Los parámetros de un modelo lineal generalizado pueden encontrarse a través de una optimización convexa.

Los modelos lineales generalizados exhiben las siguientes propiedades:

La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
La probabilidad promedio predicha por el modelo óptimo de regresión logística es igual a la etiqueta promedio en los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. A diferencia de un modelo profundo, un modelo lineal generalizado no puede "aprender atributos nuevos".

red generativa adversaria (GAN)

Un sistema para crear datos nuevos en el que un generador crea datos y un discriminador determina si esos datos creados son válidos o no.

IA generativa

#language

#image

#IA generativa

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos concuerdan en que los modelos de IA generativa pueden crear (“generar”) contenido que cumpla con los siguientes requisitos:

complejo
coherente
original

Por ejemplo, un modelo de IA generativa puede crear ensayos o imágenes sofisticados.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos ven estas tecnologías anteriores como IA generativa, mientras que otros sienten que la verdadera IA generativa requiere resultados más complejos de los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

modelo generativo

En términos prácticos, un modelo que realiza cualquiera de las siguientes acciones:

Crea (genera) nuevos ejemplos a partir del conjunto de datos de entrenamiento. Por ejemplo, un modelo generativo podría crear poesía luego de entrenar con un conjunto de datos de poemas. La parte del generador de una red generativa adversaria entra en esta categoría.
Determina la probabilidad de que un ejemplo nuevo provenga del conjunto de entrenamiento o de que se haya creado a partir del mismo mecanismo que creó el conjunto de entrenamiento. Por ejemplo, después de entrenar con un conjunto de datos compuesto por oraciones en inglés, un modelo generativo podría determinar la probabilidad de que una nueva entrada sea una oración en inglés válida.

En teoría, un modelo generativo puede discernir la distribución de ejemplos o atributos particulares en un conjunto de datos. Es decir:

p(examples)

Los modelos de aprendizaje no supervisado son generativos.

Compara esto con los modelos discriminativos.

generador

Subsistema dentro de una red generativa adversaria que crea ejemplos nuevos.

Compara esto con los modelos discriminativos.

impureza de gini

#df

Una métrica similar a la entropía. Los divisores usan valores derivados de la impureza del gini o la entropía para componer condiciones para los árboles de decisión de clasificación. El aumento de la información se deriva de la entropía. No existe un término equivalente universalmente aceptado para la métrica derivada de la impureza del gini; sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza de Gini también se denomina índice de gini o simplemente gini.

Haz clic en el ícono para obtener detalles matemáticos sobre la impureza del gini.

La impureza de Gini es la probabilidad de clasificar erróneamente un nuevo dato extraído de la misma distribución. La impureza del gini de un conjunto con dos valores posibles, "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) se calcula a partir de la siguiente fórmula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

Donde:

I es la impureza del gini.
p es la fracción de los ejemplos “1”.
q es la fracción de los ejemplos “0”. Ten en cuenta que q = 1-p

Por ejemplo, considera el siguiente conjunto de datos:

100 etiquetas (0.25 del conjunto de datos) contienen el valor “1”
300 etiquetas (0.75 del conjunto de datos) contienen el valor “0”

Por lo tanto, la impureza del gini es la siguiente:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

En consecuencia, una etiqueta aleatoria del mismo conjunto de datos tendría un 37.5% de probabilidades de clasificarse de forma incorrecta y un 62.5% de probabilidades de clasificarse de forma correcta.

Una etiqueta perfectamente equilibrada (por ejemplo, 200 “0” y 200 “1”) tendría una impureza de gini de 0.5. Una etiqueta altamente desequilibrada tendría una impureza de gini cercana a 0.0.

conjunto de datos dorado

Un conjunto de datos seleccionados manualmente que capturan la verdad fundamental. Los equipos pueden usar uno o más conjuntos de datos dorados para evaluar la calidad de un modelo.

Algunos conjuntos de datos dorados capturan diferentes subdominios de verdad fundamental. Por ejemplo, un conjunto de datos dorado para la clasificación de imágenes podría capturar las condiciones de iluminación y la resolución de la imagen.

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos grandes de lenguaje basados en Transformer y desarrollados por OpenAI.

Las variantes de GPT pueden aplicarse a varias modalidades, incluidas las siguientes:

generación de imágenes (por ejemplo, ImageGPT)
la generación de texto a imagen (por ejemplo, DALL-E).

gradient

Vector de las derivadas parciales con respecto a todas las variables independientes. En el aprendizaje automático, el gradiente es el vector de las derivadas parciales de la función del modelo. El gradiente apunta en la dirección del aumento más empinado.

acumulación de gradientes

Una técnica de propagación inversa que actualiza los parámetros solo una vez por ciclo de entrenamiento en lugar de una vez por iteración. Después de procesar cada minilote, la acumulación de gradientes simplemente actualiza un total activo de gradientes. Luego, después de procesar el último minilote del ciclo de entrenamiento, el sistema finalmente actualiza los parámetros en función del total de todos los cambios de gradientes.

La acumulación de gradientes es útil cuando el tamaño del lote es muy grande en comparación con la cantidad de memoria disponible para el entrenamiento. Cuando la memoria es un problema, la tendencia natural es reducir el tamaño del lote. Sin embargo, reducir el tamaño del lote en la propagación inversa normal aumenta la cantidad de actualizaciones de parámetros. La acumulación de gradientes permite al modelo evitar problemas de memoria, pero entrenarse eficientemente.

Árboles de gradiente (decisión) potenciados (GBT)

#df

Un tipo de bosque de decisión en el que:

El entrenamiento se basa en la potenciación de gradientes.
El modelo débil es un árbol de decisión.

potenciación de gradiente

#df

Algoritmo de entrenamiento en el que los modelos débiles se entrenan para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo, un modelo débil podría ser uno lineal o un modelo de árbol de decisión pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles previamente entrenados.

En la forma más simple de boosting de gradiente, en cada iteración, se entrena un modelo débil para predecir la pérdida de gradiente del modelo fuerte. Luego, el resultado del modelo sólido se actualiza restando el gradiente predicho, similar al descenso de gradientes.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

$F_{0}$ es el modelo fuerte inicial.
$F_{i+1}$ es el próximo modelo fuerte.
$F_{i}$ es el modelo fuerte actual.
$\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es análogo a la tasa de aprendizaje en el descenso de gradientes.
$f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$.

Las variaciones modernas del boosting de gradiente también incluyen la segunda derivada (hessiano) de la pérdida en su cálculo.

Por lo general, los árboles de decisión se usan como modelos débiles en el boosting de gradientes. Consulta los árboles con boosting del gradiente (decisión).

recorte de gradientes

#seq

Es un mecanismo de uso general para mitigar el problema de gradientes con alto crecimiento mediante la limitación artificial (recorte) del valor máximo de los gradientes cuando se usa el descenso de gradientes para entrenar un modelo.

descenso de gradientes

#fundamentals

Es una técnica matemática para minimizar la pérdida. El descenso de gradientes ajusta de manera iterativa los pesos y los sesgos, y encuentra gradualmente la mejor combinación para minimizar la pérdida.

El descenso de gradientes es mucho más antiguo que el aprendizaje automático.

gráfico

#TensorFlow

En TensorFlow, especificación de procesamiento. Los nodos del grafo representan operaciones. Las conexiones están orientadas y representan el paso del resultado de una operación (un Tensor) como un operando para otra operación. Para visualizar un grafo, usa TensorBoard.

ejecución por grafos

#TensorFlow

Entorno de programación de TensorFlow en el que el programa primero construye un grafo y, luego, ejecuta todo o parte de ese grafo. La ejecución por grafos es el modo de ejecución predeterminado en TensorFlow 1.x.

Compara esto con la ejecución inmediata.

política voraz

#rl

En el aprendizaje por refuerzo, que es una política que siempre elige la acción con el retorno esperado más alto.

Verdad fundamental

#fundamentals

Realidad.

La cosa que realmente sucedió.

Por ejemplo, considera un modelo de clasificación binaria que prediga si un estudiante en su primer año de universidad se graduará dentro de seis años. La verdad fundamental de este modelo es si el estudiante se graduó en seis años.

Haz clic en el ícono para obtener notas adicionales.

Evaluamos la calidad del modelo en función de la verdad fundamental. Sin embargo, la verdad fundamental no siempre es totalmente veraz. Por ejemplo, considera los siguientes ejemplos de posibles imperfecciones en la verdad fundamental:

En el ejemplo de graduación, ¿estamos seguros de que los registros de graduación de cada estudiante siempre son correctos? ¿Los registros de la universidad son impecables?
Supongamos que la etiqueta es un valor de punto flotante medido por instrumentos (por ejemplo, barómetros). ¿Cómo podemos asegurarnos de que cada instrumento está calibrado de manera idéntica o de que cada medición se realizó en las mismas circunstancias?
Si la etiqueta es una cuestión de opinión humana, ¿cómo podemos asegurarnos de que cada evaluador humano está evaluando los eventos de la misma manera? Para mejorar la coherencia, a veces intervienen evaluadores humanos expertos.

sesgo de correspondencia

#fairness

Dar por sentado que lo que es verdadero para un individuo, también lo es para todos los miembros de ese grupo Los efectos del sesgo de correspondencia pueden agravarse si se utiliza un muestreo de conveniencia para la recopilación de datos. En una muestra no representativa, se pueden crear atribuciones que no reflejan la realidad.

Consulta también el sesgo de homogeneidad de los demás y el sesgo endogrupal.

H

alucinación

#language

Es la producción de un resultado aparentemente creíble, pero incorrecto, según los hechos, por un modelo de IA generativa que pretende realizar una aserción sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirma que Barack Obama murió en 1865 está alucinando.

hash

En el aprendizaje automático, mecanismo para agrupar datos categóricos, en especial cuando hay una gran cantidad de categorías, pero la cantidad que realmente aparece en el conjunto de datos es comparativamente menor.

Por ejemplo, la Tierra es el hogar de unas 73,000 especies arbóreas. Se podría representar cada una de las 73,000 especies de árboles en 73,000 buckets categóricos separados. De manera alternativa, si solo 200 de esas especies arbóreas aparecen realmente en un conjunto de datos, se puede utilizar el hashing para dividir las especies arbóreas en quizás 500 grupos.

Un solo agrupamiento puede contener varias especies de árbol. Por ejemplo, con el hashing se podrían colocar baobab y arce rojo (dos especies con genéticas diferentes) en el mismo bucket. En cualquier caso, el hashing sigue siendo una buena manera de asignar grandes conjuntos categóricos al número de buckets seleccionado. El hashing convierte un atributo categórico que tiene una gran cantidad de valores posibles en una cantidad mucho menor de valores mediante la agrupación de los valores de manera determinista.

heurística

Es una solución sencilla y implementada con rapidez para un problema. Por ejemplo, “Con una heurística, conseguimos un 86% de exactitud. Cuando cambiamos a una red neuronal profunda, la precisión subió hasta un 98%".

capa oculta

#fundamentals

Es una capa en una red neuronal entre la capa de entrada (los atributos) y la capa de salida (la predicción). Cada capa oculta consta de una o más neuronas. Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con tres neuronas y la segunda con dos neuronas:

Una red neuronal profunda contiene más de una capa oculta. La ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.

agrupamiento en clústeres jerárquico

#clustering

Categoría de algoritmos de agrupamiento en clústeres que crean un árbol de clústeres. El agrupamiento en clústeres jerárquico es adecuado para datos jerárquicos, como las taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:

El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster y combina de manera iterativa los clústeres más cercanos para crear un árbol jerárquico.
El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y, luego, divide el clúster en un árbol jerárquico de forma iterativa.

Compara esto con el agrupamiento en clústeres basado en centroides.

pérdida de bisagra

Es una familia de funciones de pérdida para la clasificación que se diseñaron con el objetivo de encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan la pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

donde y es la etiqueta verdadera, ya sea -1 o +1, e y' es el resultado sin procesar del modelo clasificador:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En consecuencia, un trazado de pérdida de bisagra versus (y * y') se ve de la siguiente manera:

Representación cartesiana que consta de dos segmentos de líneas unidos. El primer segmento de línea comienza en (-3, 4) y termina en (1, 0). El segundo segmento de la línea comienza en (1, 0) y continúa indefinidamente con una pendiente de 0.

sesgo histórico

#fairness

Un tipo de sesgo que ya existe en el mundo y se abrió camino en un conjunto de datos. Estos sesgos tienden a reflejar los estereotipos culturales existentes, las desigualdades demográficas y los prejuicios contra ciertos grupos sociales.

Por ejemplo, considera un modelo de clasificación que prediga si el solicitante de un préstamo morirá o no, el cual se entrenó con datos históricos de mora de préstamos de la década de 1980 de bancos locales en dos comunidades diferentes. Si los solicitantes anteriores de la comunidad A tenían seis veces más probabilidades de no pagar sus préstamos que los solicitantes de la comunidad B, el modelo podría aprender un sesgo histórico que lo haría menos probable que aprobara los préstamos en la comunidad A, incluso si las condiciones históricas que provocaron que las tasas de incumplimiento más altas de esa comunidad ya no fueran relevantes.

datos de exclusión

Ejemplos que no se usan intencionalmente (se "excluyen") durante el entrenamiento. El conjunto de datos de validación y el conjunto de datos de prueba son ejemplos de datos de exclusión. Los datos de exclusión ayudan a evaluar la capacidad de tu modelo para generalizar respecto de datos que no sean los datos con los que se entrenó. La pérdida en el conjunto de exclusión proporciona una mejor estimación de la pérdida en un conjunto de datos no visto que la pérdida en el conjunto de entrenamiento.

host

#TensorFlow

#GoogleCloud

Cuando se entrena un modelo de AA en chips aceleradores (GPU o TPU), la parte del sistema que controla lo siguiente:

El flujo general del código.
La extracción y transformación de la canalización de entrada.

Por lo general, el host se ejecuta en una CPU, no en un chip acelerador; el dispositivo manipula tensores en los chips aceleradores.

hiperparámetro

#fundamentals

Las variables que tú o un servicio de ajuste de hiperparámetrosdurante ejecuciones sucesivas de entrenamiento de un modelo. Por ejemplo, una tasa de aprendizaje es un hiperparámetro. Puedes establecer la tasa de aprendizaje en 0.01 antes de una sesión de capacitación. Si determinas que 0.01 es demasiado alto, tal vez podrías establecer la tasa de aprendizaje en 0.003 para la próxima sesión de entrenamiento.

Por el contrario, los parámetros son los distintos pesos y sesgos que el modelo aprende durante el entrenamiento.

hiperplano

Límite que separa un espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones y un plano es un hiperplano en tres dimensiones. En el aprendizaje automático, un hiperplano suele ser el límite que separa un espacio de dimensiones altas. Las máquinas de vectores de compatibilidad de kernel usan hiperplanos para separar las clases positivas de las negativas, por lo general, en un espacio de dimensiones muy altas.

I

i.i.d.

Abreviatura de independiente e idénticamente distribuido.

reconocimiento de imágenes

#image

Es un proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes también se conoce como clasificación de imágenes.

Para obtener más información, consulta Práctica de AA: Clasificación de imágenes.

conjunto de datos desequilibrados

Sinónimo de conjunto de datos desequilibrados.

sesgo implícito

#fairness

Realiza automáticamente una asociación o suposición basada en los modelos y recuerdos de la mente de uno. El sesgo implícito puede afectar lo siguiente:

Cómo se recopilan y clasifican los datos
Cómo se diseñan y desarrollan los sistemas de aprendizaje automático

Por ejemplo, cuando se crea un clasificador para identificar fotos de bodas, un ingeniero puede usar como atributo la presencia de un vestido blanco en una foto. Sin embargo, los vestidos blancos han sido habituales durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

imputación

Forma abreviada de asignación de valor.

incompatibilidad de métricas de equidad

#fairness

La idea de que algunas nociones de equidad son incompatibles entre sí y no se pueden satisfacer de forma simultánea. Como resultado, no existe una única métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas del AA.

Aunque esto pueda parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos de equidad sean infrecuentes. En cambio, sugiere que la equidad debe definirse de forma contextual para un problema de AA determinado, con el objetivo de evitar daños específicos de sus casos de uso.

Consulta “Sobre la (im)posibilidad de equidad” para obtener un análisis más detallado de este tema.

aprendizaje en contexto

#language

#IA generativa

Sinónimo de instrucción con ejemplos limitados.

independiente e idénticamente distribuido (es decir,

#fundamentals

Datos que se obtienen de una distribución que no cambia y en los que cada valor extraído no depende de valores que se obtuvieron con anterioridad. Una i.i.d. es el gas ideal del aprendizaje automático; es una construcción matemática útil pero casi nunca se encuentra exactamente en el mundo real. Por ejemplo, la distribución de los visitantes de una página web puede ser i.i.d. en un período breve; es decir, la distribución no cambia durante ese período breve y la visita de una persona suele ser independiente de la visita de otra. Sin embargo, si amplías ese período, pueden aparecer las diferencias estacionales en los visitantes de la página web.

Consulta también no estacionariedad.

equidad individual

#fairness

Una métrica de equidad que verifica si las personas similares se clasifican de manera similar Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual y garantizar que dos estudiantes con calificaciones idénticas y calificaciones estandarizadas tengan las mismas probabilidades de obtener la entrada.

Ten en cuenta que la equidad individual se basa completamente en cómo defines la “similitud” (en este caso, las calificaciones y las calificaciones de las pruebas), y puedes correr el riesgo de introducir nuevos problemas de equidad si a tu métrica de similitud le falta información importante (como el rigor del plan de estudios de un estudiante).

Consulta “Equidad a través del reconocimiento” para obtener un análisis más detallado de la equidad individual.

inferencia

#fundamentals

En el aprendizaje automático, es el proceso de realizar predicciones mediante la aplicación de un modelo entrenado a ejemplos sin etiqueta.

La inferencia tiene un significado algo diferente en la estadística. Consulta el artículo de Wikipedia sobre inferencia estadística para obtener más detalles.

ruta de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo en particular desde la raíz hasta otras condiciones, y termina con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia de un ejemplo con los siguientes valores de atributos:

x = 7
y = 12
z = -3

La ruta de inferencia de la siguiente ilustración pasa por tres condiciones antes de llegar a la hoja (Zeta).

Árbol de decisión que consta de cuatro condiciones y cinco hojas.
La condición raíz es (x > 0). Dado que la respuesta es sí, la ruta de inferencia va de la raíz a la siguiente condición (y > 0).
Dado que la respuesta es Sí, la ruta de inferencia pasa a la
siguiente condición (z > 0). Dado que la respuesta es no, la ruta de inferencia viaja a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

aumento de información

#df

En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por número de ejemplos) de la entropía de sus nodos secundarios La entropía de un nodo es la entropía de los ejemplos en ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

entropía del nodo superior = 0.6
entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos están en un nodo secundario y el 60% está en el otro nodo. Por lo tanto:

Suma de entropía ponderada de nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

Entonces, la ganancia de información es la siguiente:

ganancia de información = entropía del nodo superior - suma de entropía ponderada de nodos secundarios
ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones que maximicen la ganancia de información.

sesgo endogrupal

#fairness

Mostrar parcialidad por el propio grupo o las propias características Si los verificadores o evaluadores son amigos, familiares o colegas del desarrollador de aprendizaje automático, el sesgo endogrupal puede invalidar las pruebas del producto o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

generador de entrada

Es un mecanismo mediante el cual los datos se cargan en una red neuronal.

Se puede pensar en un generador de entradas como un componente responsable de procesar datos sin procesar en tensores que se iteran a fin de generar lotes para el entrenamiento, la evaluación y la inferencia.

capa de entrada

#fundamentals

Es la capa de una red neuronal que contiene el vector de atributos. Es decir, la capa de entrada proporciona ejemplos de entrenamiento o inferencia. Por ejemplo, la capa de entrada de la siguiente red neuronal consta de dos atributos:

Cuatro capas: una de entrada, dos ocultas y una de salida.

condición en la configuración

#df

En un árbol de decisión, una condición que prueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición establecida:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo de casa es tudor, colonial o cape, esta condición se evalúa como Sí. Si el valor del atributo de estilo de casa es otro (por ejemplo, ranch), esta condición se evalúa como No.

Las condiciones en la configuración suelen generar árboles de decisión más eficientes que las condiciones que prueban las funciones de codificación one-hot.

instancia

Sinónimo de ejemplo.

ajuste de instrucciones

#IA generativa

Una forma de ajuste que mejora la capacidad de un modelo de IA generativa para seguir instrucciones. El ajuste de instrucciones implica entrenar un modelo en una serie de instrucciones, que, por lo general, abarcan una amplia variedad de tareas. El modelo resultante ajustado a las instrucciones tiende a generar respuestas útiles a instrucciones sin ejemplos en una variedad de tareas.

Comparar y contrastar con lo siguiente:

ajuste eficiente de parámetros
ajuste de instrucciones

interpretabilidad

#fundamentals

Es la capacidad de explicar o presentar el razonamiento de un modelo de AA en términos comprensibles para los humanos.

La mayoría de los modelos de regresión lineal, por ejemplo, son muy interpretables. (Solo tienes que consultar los pesos entrenados de cada atributo). Los bosques de decisiones también son altamente interpretables. Sin embargo, algunos modelos requieren una visualización sofisticada para convertirse en interpretables.

Para interpretar modelos de AA, puedes usar la Herramienta de interpretabilidad de aprendizaje (LIT).

acuerdo entre evaluadores

Es una medición de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si los evaluadores no están de acuerdo, es posible que se deban mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o fiabilidad entre evaluadores. Consulta también el coeficiente kappa de Cohen, que es una de las mediciones del acuerdo entre evaluadores más populares.

intersección sobre unión (IoU)

#image

Es la intersección de dos conjuntos dividido por su unión. En las tareas de detección de imágenes de aprendizaje automático, IoU se usa para medir la exactitud del cuadro de límite predicho del modelo con respecto al cuadro de límite de verdad fundamental. En este caso, el IoU de los dos cuadros es la relación entre el área superpuesta y el área total, y sus valores varían de 0 (sin superposición del cuadro de límite previsto y del cuadro de límite de la verdad fundamental) a 1 (el cuadro de límite previsto y el cuadro de límite de verdad del suelo tienen exactamente las mismas coordenadas).

Por ejemplo, en la siguiente imagen:

El cuadro delimitador previsto (las coordenadas que delimitan donde el modelo predice que se encuentra la mesa nocturna en la pintura) se describe en púrpura.
El cuadro delimitador de la verdad fundamental (las coordenadas que delimitan dónde se encuentra realmente la mesa nocturna en la pintura) se destaca en verde.

Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad fundamental (debajo de la izquierda) es 1 y la unión de los cuadros de límite para la predicción y la verdad fundamental (debajo de la derecha) es 7, por lo que el IoU es $\frac{1}{7}$.

Es la misma imagen anterior, pero con cada cuadro de límite dividido en cuatro cuadrantes. Hay siete cuadrantes en total, ya que el cuadrante inferior derecho del cuadro de límite de la verdad fundamental y el cuadrante superior izquierdo del cuadro de límite previsto se superponen entre sí. Esta sección superpuesta (resaltada en verde) representa la intersección y tiene un área de 1.

IoU

Abreviatura de intersección sobre la unión.

matriz de elementos

#recsystems

En los sistemas de recomendación, se trata de una matriz de vectores de incorporación generados por la factorización de matrices que contiene indicadores latentes sobre cada elemento. Cada fila de la matriz de elementos contiene el valor de un solo atributo latente para todos los elementos. Por ejemplo, piensa en un sistema de recomendación de películas. Cada columna en la matriz de elementos representa una película. Los indicadores latentes pueden representar géneros o pueden ser indicadores más difíciles de interpretar que impliquen interacciones complejas entre el género, las estrellas, la antigüedad de la película y otros factores.

La matriz de elementos tiene la misma cantidad de columnas que la matriz objetivo que se factoriza. Por ejemplo, en un sistema de recomendación de películas que evalúa 10,000 títulos de películas, la matriz de elementos tendrá 10,000 columnas.

items

#recsystems

En un sistema de recomendación, las entidades recomienda que un sistema. Por ejemplo, los videos son los elementos que recomienda una tienda de videos, mientras que los libros son los artículos que recomienda una librería.

iteración

#fundamentals

Una sola actualización de los parámetros de un modelo (los pesos y los sesgos de un modelo) durante el entrenamiento El tamaño del lote determina la cantidad de ejemplos que procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es 20, entonces el modelo procesa 20 ejemplos antes de ajustar los parámetros.

Cuando se entrena una red neuronal, una sola iteración involucra los dos pases siguientes:

Es un pase hacia delante para evaluar la pérdida en un solo lote.
Es una retropropagación (propagación inversa) para ajustar los parámetros del modelo según la pérdida y la tasa de aprendizaje.

J

JAX

Una biblioteca de procesamiento de arrays que combina XLA (Accelerated Linear Algebra) y la diferenciación automática para el procesamiento numérico de alto rendimiento. JAX proporciona una API simple y potente para escribir código numérico acelerado con transformaciones componibles. JAX ofrece las siguientes funciones:

grad (diferenciación automática)
jit (compilación justo a tiempo)
vmap (vectorización automática o lotes)
pmap (paralelización)

JAX es un lenguaje para expresar y componer transformaciones de código numérico análogo, pero mucho mayor en alcance, a la biblioteca NumPy de Python. (De hecho, la biblioteca .numpy en JAX es una versión funcionalmente equivalente, pero completamente reescrita, de la biblioteca Python NumPy).

JAX es ideal para acelerar muchas tareas de aprendizaje automático mediante la transformación de modelos y datos en un formato adecuado para el paralelismo entre GPU y chips aceleradores de TPU.

Flax, Optax, Pax y muchas otras bibliotecas se compilan en la infraestructura de JAX.

K

Keras

Una API de aprendizaje automático popular de Python. Keras se ejecuta en varios frameworks de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras.

máquinas de vectores soporte de Kernel (KSVM)

Algoritmo de clasificación que busca maximizar el margen entre clases positivas y negativas mediante la asignación de vectores de datos de entrada a un espacio de dimensiones más altas. Por ejemplo, considera un problema de clasificación en el que el conjunto de datos de entrada tiene cien atributos. Para maximizar el margen entre las clases positivas y negativas, una KSVM puede asignar internamente esos atributos a un espacio de un millón de dimensiones. Las KSVM usan una función de pérdida llamada pérdida de bisagra.

puntos clave

#image

Las coordenadas de características particulares en una imagen. Por ejemplo, para un modelo de reconocimiento de imágenes que distingue especies de flores, los puntos clave pueden ser el centro de cada pétalo, el tallo, el estambre, etcétera.

validación cruzada de k-fold

Algoritmo para predecir la capacidad de un modelo de generalizar datos nuevos La k en k-fold se refiere a la cantidad de grupos iguales en los que divides los ejemplos de un conjunto de datos, es decir, entrenas y pruebas tu modelo k veces. Para cada ronda de entrenamiento y prueba, un grupo diferente es el conjunto de prueba y todos los grupos restantes se convierten en el conjunto de entrenamiento. Después de k rondas de entrenamiento y pruebas, se calcula la media y la desviación estándar de las métricas de prueba elegidas.

Por ejemplo, supongamos que tu conjunto de datos consta de 120 ejemplos. Además, supongamos que decides establecer k en 4. Por lo tanto, después de mezclar los ejemplos, divides el conjunto de datos en cuatro grupos iguales de 30 ejemplos y realizas cuatro rondas de entrenamiento/prueba:

Por ejemplo, el error cuadrático medio (ECM) podría ser la métrica más significativa para un modelo de regresión lineal. Por lo tanto, encontrarás la media y la desviación estándar del ECM en las cuatro rondas.

k-medios

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura a ancho de perro:

Representación cartesiana con varias docenas de puntos de datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:

El mismo trazado cartesiano que en la ilustración anterior, excepto que con tres centroides agregados.
Los datos anteriores se agrupan en tres grupos distintos, y cada uno representa los datos más cercanos a un centroide en particular.

Imagina que un fabricante quiere determinar los tamaños ideales de suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura media y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores, se muestra el valor de k-means para ejemplos con solo dos atributos (alto y ancho). Ten en cuenta que k-means puede agrupar ejemplos en muchos atributos.

k-mediana

#clustering

Un algoritmo de agrupamiento en clústeres estrechamente relacionado con k-means. La diferencia práctica entre ambos es la siguiente:

En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
En k-mediana, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

k-medios se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-medios entre (2,2) y (5,-2) sería:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

regularización L₀

#fundamentals

Es un tipo de regularización que penaliza la cantidad total de pesos distintos de cero en un modelo. Por ejemplo, un modelo con 11 pesos distintos de cero se penalizaría más que un modelo similar con 10 pesos distintos de cero.

A veces, la regularización L₀ se denomina regularización de norma L0.

Haz clic en el ícono para obtener notas adicionales.

La regularización L₀ generalmente no es práctica en modelos grandes, ya que la regularización L₀ convierte el entrenamiento en un problema de optimización convex.

pérdida L₁

#fundamentals

Es una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L₁ para un lote de cinco ejemplos:

Valor real del ejemplo	Valor previsto del modelo	Valor absoluto de delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = pérdida L₁

La pérdida L₁ es menos sensible a los valores atípicos que la pérdida L₂.

El error absoluto medio es la pérdida L₁ promedio por ejemplo.

Haz clic en el ícono para ver los cálculos formales.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

En el ejemplo anterior, se ilustra lo siguiente:

$n$ es la cantidad de ejemplos.
$y$ es el valor real de la etiqueta.
$\hat{y}$ es el valor que el modelo predice para $y$.

regularización L₁

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma del valor absoluto de los pesos. La regularización L₁ ayuda a llevar los pesos de atributos irrelevantes o poco relevantes a exactamente 0. Un atributo con un peso de 0 se quita de manera efectiva del modelo.

Compara esto con la regularización L₂.

pérdida L₂

#fundamentals

Es una función de pérdida que calcula el cuadrado de la diferencia entre los valores de la etiqueta reales y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L₂ para un lote de cinco ejemplos:

Valor real del ejemplo	Valor previsto del modelo	Cuadrado de delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = pérdida L₂

Debido al cuadrado, la pérdida L₂ amplifica la influencia de los valores atípicos. Es decir, la pérdida L₂ reacciona con mayor intensidad ante las malas predicciones que la 1₁ pérdida. Por ejemplo, la pérdida L₁ para el lote anterior sería 8 en lugar de 16. Observa que un solo valor atípico representa 9 de los 16.

Los modelos de regresión suelen usar la pérdida L₂ como la función de pérdida.

El error cuadrático medio es la pérdida L₂ promedio por ejemplo. Pérdida al cuadrado es otro nombre para la pérdida L₂.

Haz clic en el ícono para ver los cálculos formales.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

En el ejemplo anterior, se ilustra lo siguiente:

$n$ es la cantidad de ejemplos.
$y$ es el valor real de la etiqueta.
$\hat{y}$ es el valor que el modelo predice para $y$.

Regularización L₂

#fundamentals

Tipo de regularización que penaliza los pesos en proporción a la suma de los cuadrados de los pesos. La regularización L₂ ayuda a llevar los pesos de valores atípicos (aquellos con valores negativos bajos o positivos altos) más cerca de 0, pero no exactamente a 0. Los atributos con valores muy cercanos a 0 permanecen en el modelo, pero no influyen mucho en la predicción del modelo.

La regularización L₂ siempre mejora la generalización en modelos lineales.

Compara esto con la regularización L₁.

etiqueta de recurso

#fundamentals

En el aprendizaje automático supervisado, porción "respuesta" o "resultado" de un ejemplo.

Cada ejemplo etiquetado consta de uno o más atributos y una etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, es probable que la etiqueta sea “es spam” o “no es spam”. En un conjunto de datos de lluvia, la etiqueta puede ser la cantidad de lluvia que cayó durante un período determinado.

ejemplo etiquetado

#fundamentals

Un ejemplo que contiene uno o más atributos y una etiqueta. Por ejemplo, en la siguiente tabla se muestran tres ejemplos etiquetados de un modelo de valoración de viviendas, cada uno con tres atributos y una etiqueta:

Cantidad de dormitorios	Cantidad de baños	Antigüedad de la casa	Precio de la casa (etiqueta)
3	2	15	USD 345,000
2	1	72	USD 179,000
4	2	34	USD 392,000

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones con ejemplos sin etiqueta.

Compara el ejemplo etiquetado con los ejemplos sin etiqueta.

filtración de etiquetas

Una falla en el diseño del modelo en la que un atributo es un proxy para la etiqueta. Por ejemplo, considera un modelo de clasificación binaria que prediga si un cliente potencial comprará o no un producto en particular. Supongamos que uno de los atributos para el modelo es un valor booleano llamado SpokeToCustomerAgent. Además, supongamos que solo se asigna un agente del cliente después de que el cliente potencial compra el producto. Durante el entrenamiento, el modelo aprenderá rápidamente la asociación entre SpokeToCustomerAgent y la etiqueta.

Lambda

#fundamentals

Sinónimo de tasa de regularización.

Lambda es un término sobrecargado. Aquí nos enfocamos en la definición del término dentro de la regularización.

LaMDA (modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo grande de lenguaje basado en Transformer y desarrollado por Google, entrenado con un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.

LaMDA: nuestra innovadora tecnología de conversación proporciona una descripción general.

puntos de referencia

#image

Sinónimo de puntos clave.

modelo de lenguaje

#language

Un model que estima la probabilidad de que un model o una secuencia de tokens ocurra en una secuencia más larga de tokens.

Haz clic en el ícono para obtener notas adicionales.

Aunque son contradictorios, muchos modelos que evalúan texto no son modelos de lenguaje. Por ejemplo, los modelos de clasificación de texto y los modelos de análisis de opiniones no son modelos de lenguaje.

modelo de lenguaje extenso

#language

Término informal sin una definición estricta que, por lo general, hace referencia a un modelo de lenguaje con una gran cantidad de parámetros. Algunos modelos grandes de lenguaje contienen más de 100,000 millones de parámetros.

Haz clic en el ícono para obtener notas adicionales.

Es posible que te preguntes cuándo un modelo de lenguaje se vuelve lo suficientemente grande como para denominarse modelo de lenguaje grande. Actualmente, no hay una línea que defina la cantidad de parámetros acordada.

La mayoría de los modelos grandes de lenguaje actuales (por ejemplo, GPT) se basan en la arquitectura de Transformer.

espacio latente

#language

Sinónimo de espacio de incorporación.

oculta

#fundamentals

Un conjunto de neuronas en una red neuronal. Los siguientes son tres tipos comunes de capas:

La capa de entrada, que proporciona valores para todos los atributos.
Una o más capas ocultas, que encuentran relaciones no lineales entre los atributos y la etiqueta.
La capa de salida, que proporciona la predicción

Por ejemplo, en la siguiente ilustración, se muestra una red neuronal con una capa de entrada, dos capas ocultas y una de salida:

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida. La capa de entrada consta de dos atributos. La primera capa oculta consta de tres neuronas, y la segunda capa oculta consta de dos neuronas. La capa de salida consta de un solo nodo.

En TensorFlow, las capas también son funciones de Python que toman tensores y opciones de configuración como entrada y producen otros tensores como salida.

API de Layers (tf.layers)

#TensorFlow

API de TensorFlow para construir una red neuronal profunda como una composición de capas. Esta API te permite compilar diferentes tipos de capas, como las siguientes:

tf.layers.Dense para una capa completamente conectada.
tf.layers.Conv2D para una capa convolucional.

La API de Layers sigue las convenciones de la API de capas de Keras. Es decir, a excepción de un prefijo diferente, todas las funciones de la API de Layers tienen los mismos nombres y firmas que sus contrapartes en la API de Layers de Keras.

hoja

#df

Cualquier extremo en un árbol de decisión. A diferencia de una condición, la hoja no realiza pruebas. Más bien, una hoja es una predicción posible. Una hoja también es el nodo terminal de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisión contiene tres hojas:

Árbol de decisión con dos condiciones que conducen a tres hojas.

Herramienta de interpretabilidad de aprendizaje (LIT)

Una herramienta interactiva y visual de comprensión de modelos y visualización de datos.

Puedes usar LIT de código abierto para interpretar modelos o visualizar texto, imágenes y datos tabulares.

tasa de aprendizaje

#fundamentals

Es un número de punto flotante que le indica al algoritmo de descenso de gradientes con qué grado de fuerza debe ajustar los pesos y los sesgos en cada iteración. Por ejemplo, una tasa de aprendizaje de 0.3 ajustaría las ponderaciones y los sesgos tres veces con mayor eficacia que una tasa de aprendizaje de 0.1.

La tasa de aprendizaje es un hiperparámetro clave. Si estableces una tasa de aprendizaje demasiado baja, el entrenamiento tardará demasiado. Si estableces una tasa de aprendizaje demasiado alta, el descenso de gradientes a menudo tiene problemas para alcanzar la convergencia.

Haz clic en el icono para obtener una explicación más matemática.

Durante cada iteración, el algoritmo de descenso de gradientes multiplica la tasa de aprendizaje por el gradiente. El producto resultante se denomina paso de gradiente.

regresión de mínimos cuadrados

Modelo de regresión lineal entrenado mediante la minimización de la pérdida L₂.

linear

#fundamentals

Relación entre dos o más variables que se pueden representar solo mediante sumas y multiplicaciones.

El diagrama de una relación lineal es una línea.

Compara esto con lo no lineal.

modelo lineal

#fundamentals

Un model que asigna un model por model para realizar model. (Los modelos lineales también incorporan un sesgo). Por el contrario, la relación de los atributos con las predicciones en los modelos profundos suele ser no lineal.

Por lo general, los modelos lineales son más fáciles de entrenar y interpretables que los modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre atributos.

La regresión lineal y la regresión logística son dos tipos de modelos lineales.

Haz clic en el ícono para ver los cálculos.

Un modelo lineal sigue esta fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En el ejemplo anterior, se ilustra lo siguiente:

y' es la predicción sin procesar. (En ciertos tipos de modelos lineales, esta predicción sin procesar se modificará aún más. Por ejemplo, consulta regresión logística).
b es el sesgo.
w es un peso, por lo que w₁ es el peso del primer atributo, w₂ es el peso del segundo atributo, y así sucesivamente.
x es un atributo, por lo que x₁ es el valor del primer atributo, x₂ es el valor del segundo, y así sucesivamente.

Por ejemplo, supongamos que un modelo lineal para tres atributos aprende los siguientes sesgos y pesos:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

Por lo tanto, con tres atributos (x₁, x₂ y x₃), el modelo lineal usa la siguiente ecuación para generar cada predicción:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supongamos que un ejemplo en particular contiene los siguientes valores:

x₁ = 4
x₂ = -10
x₃ = 5

Si conectas esos valores en la fórmula, se obtiene una predicción para este ejemplo:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Los modelos lineales incluyen no solo los modelos que usan solo una ecuación lineal para realizar predicciones, sino también un conjunto más amplio de modelos que usan una ecuación lineal como solo un componente de la fórmula que realiza las predicciones. Por ejemplo, la regresión logística procesa posteriormente la predicción sin procesar (y') para producir un valor de predicción final entre 0 y 1, de forma exclusiva.

regresión lineal

#fundamentals

Un tipo de modelo de aprendizaje automático en el que se cumplen las siguientes condiciones:

El modelo es un modelo lineal.
La predicción es un valor de punto flotante. (esta es la parte de regresión de regresión lineal).

Compara la regresión lineal con la regresión logística. Además, contrasta la regresión con la clasificación.

LIT

Abreviatura de Herramienta de interpretabilidad de aprendizaje (LIT), que antes se conocía como Herramienta de interpretabilidad del lenguaje.

LLM

#language

Abreviatura de modelo de lenguaje grande.

regresión logística

#fundamentals

Es un tipo de modelo de regresión que predice una probabilidad. Los modelos de regresión logística tienen las siguientes características:

La etiqueta es categórica. El término regresión logística generalmente se refiere a regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula las probabilidades para las etiquetas con más de dos valores posibles.
La función de pérdida durante el entrenamiento es la pérdida logística. (Se pueden colocar varias unidades de pérdida logística en paralelo para las etiquetas con más de dos valores posibles).
El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de esta definición también se aplica a los modelos profundos que predicen probabilidades de etiquetas categóricas.

Por ejemplo, considera un modelo de regresión logística que calcula la probabilidad de que un correo electrónico de entrada sea spam o no es spam. Durante la inferencia, supongamos que el modelo predice 0.72. Por lo tanto, el modelo estima lo siguiente:

Un 72% de probabilidades de que el correo electrónico sea spam.
Existe una probabilidad del 28% de que el correo electrónico no sea spam.

Un modelo de regresión logística usa la siguiente arquitectura de dos pasos:

El modelo genera una predicción sin procesar (y') mediante la aplicación de una función lineal de atributos de entrada.
El modelo usa esa predicción sin procesar como entrada para una función sigmoidea, que convierte la predicción sin procesar en un valor entre 0 y 1, exclusivo.

Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo, por lo general, esta cantidad se vuelve parte de un modelo de clasificación binaria de la siguiente manera:

Si el número predicho es mayor que el umbral de clasificación, el modelo de clasificación binaria predice la clase positiva.
Si el número predicho es inferior al umbral de clasificación, el modelo de clasificación binaria predice la clase negativa.

logit

Vector de predicciones sin procesar (no normalizadas) que genera un modelo de clasificación, que normalmente se pasa a una función de normalización. Si el modelo está resolviendo un problema de clasificación de clases múltiples, los logits generalmente se convierten en una entrada para la función softmax. La función softmax genera un vector de probabilidades (normalizadas) con un valor para cada clase posible.

Pérdida logística

#fundamentals

Es la función de pérdida que se usa en la regresión logística binaria.

Haz clic en el ícono para ver los cálculos.

La siguiente fórmula calcula la Pérdida logística:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

En el ejemplo anterior, se ilustra lo siguiente:

$(x,y)\in D$ es el conjunto de datos que contiene muchos ejemplos etiquetados, que son $(x,y)$ pares.
$y$ es la etiqueta en un ejemplo etiquetado. Como se trata de regresión logística, cada valor de $y$ debe ser 0 o 1.
$y'$ es el valor predicho (un valor entre 0 y 1, exclusivo), dado el conjunto de atributos en $x$.

logaritmo de probabilidad

#fundamentals

Logaritmo de las probabilidades de que ocurra algún evento.

Haz clic en el ícono para ver los cálculos.

Si el evento es una probabilidad binaria, entonces las probabilidades se refieren a la proporción entre la probabilidad de éxito (p) y la probabilidad de fracaso (1-p). Por ejemplo, supongamos que un evento determinado tiene una probabilidad del 90% de éxito y un 10% de probabilidad de fracaso. En este caso, las probabilidades se calculan de la siguiente manera:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

El logaritmo de probabilidad es simplemente el logaritmo de las probabilidades. Por convención, "logaritmo" se refiere al logaritmo natural, pero en realidad podría ser cualquier base superior a 1. Al ceñir a las convenciones, los logaritmos de probabilidad de nuestro ejemplo son los siguientes:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La función de logaritmo de probabilidad es el inverso de la función sigmoidea.

Memoria a corto plazo de larga duración (LSTM)

#seq

Tipo de celda en una red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones, como el reconocimiento de escritura a mano, la traducción automática y los subtítulos de imágenes. Las LSTM abordan el problema de gradiente de fuga que se produce cuando se entrenan RNN debido a secuencias de datos largas manteniendo el historial en un estado de memoria interna basado en la entrada y el contexto nuevos de celdas anteriores en la RNN.

LoRA

#language

#IA generativa

Abreviatura de Adaptabilidad de clasificación baja.

pérdida

#fundamentals

Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta.

Una función de pérdida calcula la pérdida.

agregador de pérdidas

Tipo de algoritmo de aprendizaje automático que mejora el rendimiento de un modelo mediante la combinación de las predicciones de varios modelos y el uso de esas predicciones para realizar una sola predicción. Como resultado, un agregador de pérdidas puede reducir la varianza de las predicciones y mejorar su exactitud.

curva de pérdida

#fundamentals

Un gráfico de la pérdida como una función de la cantidad de iteraciones de entrenamiento En el siguiente gráfico, se muestra una curva de pérdida típica:

Un gráfico cartesiano de pérdida frente a iteraciones de entrenamiento, que muestra una caída rápida en la pérdida en las iteraciones iniciales, seguida de una caída gradual y, luego, una pendiente plana durante las iteraciones finales.

Las curvas de pérdida pueden ayudarte a determinar cuándo tu modelo está convergiendo o sobreajustado.

Las curvas de pérdida pueden representar los siguientes tipos de pérdida:

pérdida de entrenamiento
pérdida de validación
pérdida de prueba

Consulta también la curva de generalización.

función de pérdida

#fundamentals

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida menor para los modelos que realizan buenas predicciones que para los modelos que realizan malas predicciones.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida que muestra una función de pérdida.

Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:

La pérdida L₂ (o error cuadrático medio) es la función de pérdida para la regresión lineal.
La pérdida logística es la función de pérdida para la regresión logística.

superficie de pérdida

Un gráfico de pesos versus pérdida. El descenso de gradientes tiene como objetivo encontrar los pesos para los cuales la superficie de pérdida es el mínimo local.

Adaptabilidad de clasificación baja (LoRA)

#language

#IA generativa

Algoritmo para realizar ajuste eficiente de parámetros que ajusta solo un subconjunto de los parámetros de un modelo de lenguaje grande. LoRA proporciona los siguientes beneficios:

Se ajusta más rápido que las técnicas que requieren un ajuste de todos los parámetros de un modelo.
Se reduce el costo de procesamiento de la inferencia en el modelo ajustado.

Un modelo ajustado con LoRA mantiene o mejora la calidad de sus predicciones.

LoRA habilita múltiples versiones especializadas de un modelo.

LSTM

#seq

Abreviatura de memoria a corto plazo de larga duración.

M

aprendizaje automático

#fundamentals

Es un programa o sistema que entrena un modelo a partir de datos de entrada. El modelo entrenado puede realizar predicciones útiles a partir de datos nuevos (nunca vistos) extraídos de la misma distribución que la que se usó para entrenar el modelo.

El aprendizaje automático también hace referencia al campo de estudio relacionado con estos programas o sistemas.

clase mayoritaria

#fundamentals

Etiqueta más común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, las etiquetas negativas son la clase mayoritaria.

Compara esto con la clase minoritaria.

Proceso de decisión de Markov (MDP)

#rl

Es un gráfico que representa el modelo de toma de decisiones en el que se toman las decisiones (o acciones) para navegar por una secuencia de estados bajo la suposición de que la propiedad de Markov es válida. En el aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.

Propiedad de Márkov

#rl

Una propiedad de ciertos entornos, en la que las transiciones de estado se determinan en su totalidad por la información implícita en el estado actual y la acción del agente.

modelo de lenguaje enmascarado

#language

Un modelo de lenguaje que predice la probabilidad de que los tokens candidatos completen los espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje enmascarado puede calcular las probabilidades de que las palabras candidatas reemplacen el subrayado en la siguiente oración:

Regresó el ____ del sombrero.

En la bibliografía, generalmente se usa la cadena "MASK" en lugar de subrayado. Por ejemplo:

La "MASK" del sombrero volvió.

La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales.

matplotlib

Biblioteca de código abierto para trazados en 2D de Python. matplotlib ayuda a visualizar diferentes aspectos del aprendizaje automático.

factorización de matrices

#recsystems

En matemáticas, mecanismo para encontrar las matrices cuyo producto escalar se aproxima a una matriz objetivo.

En los sistemas de recomendaciones, la matriz objetivo suele contener las calificaciones de los usuarios respecto de los elementos. Por ejemplo, la matriz objetivo de un sistema de recomendación de películas podría verse de la siguiente manera, donde los enteros positivos son calificaciones de los usuarios y 0 significa que el usuario no calificó la película:

	Casablanca	La historia de Filadelfia	Pantera Negra	Mujer Maravilla	Tiempos violentos
Usuario 1	5.0	3.0	0.0	2.0	0.0
Usuario 2	4.0	0.0	0.0	1.0	5.0
Usuario 3	3.0	1.0	4.0	5.0	0.0

El sistema de recomendación de películas tiene como objetivo predecir las calificaciones de los usuarios para las películas que no se calificaron. Por ejemplo, ¿le gustará al Usuario 1 Pantera Negra?

Un enfoque para los sistemas de recomendación es usar la factorización de matrices para generar las dos matrices siguientes:

Una matriz de usuarios, formada por la cantidad de usuarios X la cantidad de dimensiones de incorporación
Una matriz de elementos, formada por la cantidad de dimensiones de incorporación X la cantidad de elementos

Por ejemplo, el uso de la factorización de matrices en nuestros tres usuarios y cinco elementos podría generar la siguiente matriz de usuarios y matriz de elementos:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

El producto escalar de la matriz de usuarios y la matriz de elementos produce una matriz de recomendaciones que contiene no solo las calificaciones originales de los usuarios, sino también predicciones para las películas que cada usuario no ha visto. Por ejemplo, considera la calificación del Usuario 1 de Casablanca que fue de 5.0. El producto escalar correspondiente a esa celda en la matriz de recomendación debería ser de alrededor de 5.0, y es el siguiente:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Más importante aún, ¿al Usuario 1 le gustará Pantera Negra? Tomando el producto escalar correspondiente a la primera fila y la tercera columna se obtiene una calificación prevista de 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorización de matrices generalmente produce una matriz de usuarios y una matriz de elementos que, en conjunto, son significativamente más compactas que la matriz objetivo.

Error absoluto medio (MAE)

La pérdida promedio por ejemplo cuando se usa la pérdida L₁. Calcula el error absoluto medio de la siguiente manera:

Calcula la pérdida L₁ de un lote.
Divide la pérdida L₁ por la cantidad de ejemplos en el lote.

Haz clic en el ícono para ver los cálculos formales.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

Donde:

$n$ es la cantidad de ejemplos.
$y$ es el valor real de la etiqueta.
$\hat{y}$ es el valor que el modelo predice para $y$.

Por ejemplo, considera el cálculo de la pérdida L₁ en el siguiente lote de cinco ejemplos:

Valor real del ejemplo	Valor previsto del modelo	Pérdida (diferencia entre el valor real y el previsto)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = pérdida L₁

Por lo tanto, la pérdida L₁ es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparar el error absoluto medio con el error cuadrático medio y la raíz cuadrada del error cuadrático medio

error cuadrático medio (ECM)

La pérdida promedio por ejemplo cuando se usa la pérdida L₂. Calcula el error cuadrático medio de la siguiente manera:

Calcula la pérdida L₂ de un lote.
Divide la pérdida L₂ por la cantidad de ejemplos en el lote.

Haz clic en el ícono para ver los cálculos formales.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ donde:

$n$ es la cantidad de ejemplos.
$y$ es el valor real de la etiqueta.
$\hat{y}$ es la predicción del modelo para $y$.

Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:

Valor real	Predicción del modelo	Pérdida	Pérdida al cuadrado
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = pérdida L₂

Por lo tanto, el error cuadrático medio es:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

El error cuadrático medio es un optimizador de entrenamiento popular, en especial para la regresión lineal.

Comparar el error cuadrático medio con el error absoluto medio y la raíz cuadrada del error cuadrático medio

TensorFlow Playground usa el error cuadrático medio para calcular los valores de pérdida.

Haz clic en el ícono para ver más detalles sobre los valores atípicos.

Los valores atípicos influyen en gran medida en el error cuadrático medio. Por ejemplo, una pérdida de 1 es una pérdida al cuadrado de 1, pero una pérdida de 3 es una pérdida al cuadrado de 9. En la tabla anterior, el ejemplo con una pérdida de 3 representa alrededor del 56% del error cuadrático medio, mientras que cada uno de los ejemplos con una pérdida de 1 representa solo el 6% del error cuadrático medio.

Los valores atípicos no influyen tanto en el error absoluto medio como en el error cuadrático medio. Por ejemplo, una pérdida de 3 representa solo alrededor del 38% del error absoluto medio.

El recorte es una forma de evitar que los valores atípicos extremos afecten la capacidad predictiva de tu modelo.

malla

#TensorFlow

#GoogleCloud

En la programación paralela de AA, un término asociado con la asignación de datos y modelo a chips TPU y la definición de cómo estos valores se fragmentarán o replicarán.

Malla es un término sobrecargado que puede significar cualquiera de las siguientes opciones:

Un diseño físico de los chips TPU.
Una construcción lógica abstracta para asignar los datos y el modelo a los chips de TPU.

En cualquier caso, una malla se especifica como una forma.

metaaprendizaje

#language

Subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también puede apuntar a entrenar un modelo para que aprenda rápidamente una tarea nueva con una pequeña cantidad de datos o con la experiencia adquirida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

Aprende o mejora funciones diseñadas a mano (como un inicializador o un optimizador).
Ser más eficientes en términos de datos y de procesamiento
Mejorar la generalización

El metaaprendizaje se relaciona con el aprendizaje en pocos ejemplos.

métrica

#TensorFlow

Una estadística que te interesa.

Un objetivo es una métrica que un sistema de aprendizaje automático intenta optimizar.

API de Metrics (tf.metrics)

Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.

minilote

#fundamentals

Un subconjunto pequeño y seleccionado al azar de un lote que se procesa en una iteración. Por lo general, el tamaño del lote de un minilote es de entre 10 y 1,000 ejemplos.

Por ejemplo, supongamos que todo el conjunto de entrenamiento (el lote completo) consta de 1,000 ejemplos. Además, supongamos que estableces el tamaño del lote de cada minilote en 20. Por lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y, luego, ajusta los pesos y los sesgos en consecuencia.

Es mucho más eficiente calcular la pérdida en un minilote que la pérdida en todos los ejemplos en el lote completo.

descenso de gradientes estocástico de minilote

Un algoritmo de descenso de gradientes que usa minilotes. En otras palabras, el descenso de gradientes estocástico de minilotes estima el gradiente en función de un pequeño subconjunto de los datos de entrenamiento. El descenso de gradientes estocástico normal usa un minilote de tamaño 1.

pérdida de minimax

Una función de pérdida para redes generativas adversarias, basada en la entropía cruzada entre la distribución de datos generados y datos reales.

La pérdida de minimax se usa en el primer documento para describir las redes generativas adversarias.

clase minoritaria

#fundamentals

Etiqueta menos común en un conjunto de datos con desequilibrio de clases. Por ejemplo, dado un conjunto de datos que contiene un 99% de etiquetas negativas y un 1% de etiquetas positivas, las etiquetas positivas son la clase minoritaria.

Compara esto con la clase mayor.

Haz clic en el ícono para obtener notas adicionales.

Un conjunto de entrenamiento con un millón de ejemplos suena impresionante. Sin embargo, si la clase minoritaria está mal representada, incluso un conjunto de entrenamiento muy grande puede ser insuficiente. Enfócate menos en la cantidad total de ejemplos del conjunto de datos y más en la cantidad de ejemplos en la clase minoritaria.

Si tu conjunto de datos no contiene suficientes ejemplos de clases minoritarias, considera usar la reducción de muestreo (la definición del segundo punto) para complementar la clase minoritaria.

AA

Abreviatura de aprendizaje automático.

MNIST

#image

Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000 imágenes, cada imagen muestra cómo un ser humano escribió de forma manual un dígito particular del 0 al 9. Cada imagen se almacena como un array de números enteros de 28 × 28, en el que cada número entero es un valor de escala de grises entre 0 y 255, inclusive.

MNIST es un conjunto de datos canónico para el aprendizaje automático, que a menudo se usa para probar nuevos enfoques de aprendizaje automático. Para obtener más información, consulta The MNIST Database of HandWriting Digits.

modality

#language

Es una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y audio son cinco modalidades.

model

#fundamentals

En general, cualquier construcción matemática que procesa datos de entrada y muestra resultados. En otras palabras, un modelo es el conjunto de parámetros y estructuras necesarios para que un sistema realice predicciones. En el aprendizaje automático supervisado, un modelo toma un ejemplo como entrada y, luego, infiere una predicción como salida. En el aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:

Un modelo de regresión lineal consta de un conjunto de pesos y un sesgo.
Un modelo de red neuronal consta de lo siguiente:
- Un conjunto de capas ocultas, cada una con una o más neuronas.
- Los pesos y el sesgo asociados con cada neurona.
Un modelo de árbol de decisión consta de lo siguiente:
- La forma del árbol, es decir, el patrón en el que se conectan las condiciones y las hojas.
- Las condiciones y las salidas.

Puedes guardar, restablecer o hacer copias de un modelo.

El aprendizaje automático no supervisado también genera modelos, por lo general, una función que puede asignar un ejemplo de entrada al clúster más adecuado.

Haz clic en el ícono para comparar funciones algebraicas y de programación con modelos de AA.

Una función algebraica como la siguiente es un modelo:

  f(x, y) = 3x -5xy + y² + 17

La función anterior asigna valores de entrada (x e y) al resultado.

De manera similar, una función de programación como la siguiente también es un modelo:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un emisor pasa argumentos a la función de Python anterior, y esta última genera un resultado (a través de la declaración return).

Aunque una red neuronal profunda tiene una estructura matemática muy diferente a la de una función algebraica o de programación, una red neuronal profunda aún recibe entradas (un ejemplo) y muestra resultados (una predicción).

Un programador humano codifica una función de programación de forma manual. Por el contrario, un modelo de aprendizaje automático aprende de forma gradual los parámetros óptimos durante el entrenamiento automatizado.

capacidad del modelo

La complejidad de los problemas que un modelo puede aprender Cuanto más complejos sean los problemas que un modelo puede aprender, mayor será su capacidad. Por lo general, la capacidad de un modelo aumenta con la cantidad de parámetros del modelo. Para obtener una definición formal de capacidad del clasificador, consulta Dimensión VC.

modelo en cascada

#IA generativa

Un sistema que elige el model ideal para una consulta de inferencia específica.

Imagina un grupo de modelos que puede ser muy grande (muchos parámetros) y mucho más pequeño (muchos menos parámetros). Los modelos muy grandes consumen más recursos de procesamiento en tiempo de la inferencia que los modelos más pequeños. Sin embargo, los modelos muy grandes generalmente pueden inferir solicitudes más complejas que los modelos más pequeños. La cascada del modelo determina la complejidad de la consulta de inferencia y, luego, elige el modelo apropiado para realizar la inferencia. La motivación principal para la cascada del modelo es reducir los costos de inferencia, por lo general, mediante la selección de modelos más pequeños y la selección de solo un modelo más grande para consultas más complejas.

Imagina que un modelo pequeño se ejecuta en un teléfono y una versión más grande de ese modelo se ejecuta en un servidor remoto. Una buena cascada de modelos reduce el costo y la latencia, ya que permite que el modelo más pequeño maneje solicitudes simples y solo llame al modelo remoto para manejar solicitudes complejas.

Consulta también modelo de router.

paralelismo de modelos

#language

Es una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un model en diferentes model. El paralelismo de modelos habilita modelos que son demasiado grandes para adaptarse a un solo dispositivo.

Para implementar el paralelismo de modelos, por lo general, un sistema hace lo siguiente:

Fragmenta (divide) el modelo en partes más pequeñas.
Distribuye el entrenamiento de esas partes más pequeñas a través de múltiples procesadores. Cada procesador entrena su propia parte del modelo.
Combina los resultados para crear un solo modelo.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también el paralelismo de datos.

modelo de router

#IA generativa

Es el algoritmo que determina el model ideal para la model en model. Por lo general, un router de modelo es un modelo de aprendizaje automático que aprende de forma gradual cómo elegir el mejor modelo para una entrada determinada. Sin embargo, un router de modelo a veces puede ser un algoritmo de aprendizaje automático más simple.

entrenamiento de modelos

Es el proceso mediante el cual se determina el mejor model.

Momentum

Algoritmo de descenso de gradientes sofisticado en el que un paso de aprendizaje depende no solo de la derivada en el paso actual, sino también de las derivadas de los pasos que lo preceden inmediatamente. El momento implica calcular un promedio de movimiento ponderado exponencialmente de los gradientes a lo largo del tiempo, análogo al momento en física. El ímpetu a veces evita que el aprendizaje se quede atascado en los mínimos locales.

clasificación de clases múltiples

#fundamentals

En el aprendizaje supervisado, es un problema de clasificación en el que el conjunto de datos contiene más de dos clases de etiquetas. Por ejemplo, las etiquetas del conjunto de datos Iris deben ser una de las siguientes tres clases:

Setosa de iris
Iris virginica
Iris versicolor

Un modelo entrenado con el conjunto de datos Iris que predice el tipo de Iris en ejemplos nuevos realiza una clasificación de clases múltiples.

Por el contrario, los problemas de clasificación que distinguen exactamente dos clases son modelos de clasificación binaria. Por ejemplo, un modelo de correo electrónico que predice es spam o no es spam es un modelo de clasificación binaria.

En los problemas de agrupamiento en clústeres, la clasificación de clases múltiples se refiere a más de dos clústeres.

regresión logística de clases múltiples

Usar la regresión logística en los problemas de clasificación de clases múltiples.

autoatención de varios cabezales

#language

Es una extensión de la autoatención que aplica el mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención de varias cabezas.

modelo multimodal

#language

Es un modelo cuyas entradas o salidas incluyen más de una modalidad. Por ejemplo, considera un modelo que toma una imagen y una leyenda de texto (dos modalidades) como atributos, y genera una puntuación que indica qué tan apropiada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

clasificación multinomial

Sinónimo de clasificación de clases múltiples.

regresión multinomial

Sinónimo de regresión logística de varias clases.

multitarea

Una técnica de aprendizaje automático en la que un solo model se entrena para realizar varias model.

Los modelos multitarea se crean mediante el entrenamiento con datos que son apropiados para cada una de las diferentes tareas. Esto permite que el modelo aprenda a compartir información entre las tareas, lo que le permite aprender de manera más eficaz.

Un modelo entrenado para varias tareas a menudo tiene capacidades de generalización mejoradas y puede ser más sólido en el manejo de diferentes tipos de datos.

N

trampa de NaN

Cuando un número del modelo se vuelve NaN durante el entrenamiento, lo que causa que muchos otros números del modelo, finalmente, se conviertan en un NaN.

NaN es una abreviatura de Not un Number.

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que este escribió o dijo. Por ejemplo, un motor de búsqueda usa la comprensión del lenguaje natural para determinar qué busca el usuario en función de lo que escribió o dijo.

clase negativa

#fundamentals

En la clasificación binaria, una clase se denomina positiva y la otra se denomina negativa. La clase positiva es la cosa o el evento que el modelo está probando y la clase negativa es la otra posibilidad. Por ejemplo:

La clase negativa en una prueba médica puede ser "no es un tumor".
La clase negativa en un clasificador de correo electrónico puede ser “no es spam”.

Compara esto con la clase positiva.

muestreo negativo

Sinónimo de muestreo de candidatos.

Búsqueda de arquitectura neuronal (NAS)

Es una técnica para diseñar automáticamente la arquitectura de una red neuronal. Los algoritmos de NAS pueden reducir la cantidad de tiempo y recursos necesarios para entrenar una red neuronal.

Por lo general, la NAS usa lo siguiente:

Un espacio de búsqueda, que es un conjunto de arquitecturas posibles
Una función de entrenamiento, que mide qué tan bien se desempeña una arquitectura en particular en una tarea determinada.

Los algoritmos de NAS suelen comenzar con un pequeño conjunto de arquitecturas posibles y expandir gradualmente el espacio de búsqueda a medida que el algoritmo aprende más sobre qué arquitecturas son eficaces. Por lo general, la función de fitness se basa en el rendimiento de la arquitectura en un conjunto de entrenamiento, y el algoritmo suele entrenarse con una técnica de aprendizaje por refuerzo.

Los algoritmos de NAS han demostrado ser eficaces en la búsqueda de arquitecturas de alto rendimiento para una variedad de tareas, como la clasificación de imágenes, la clasificación de texto y la traducción automática.

neuronal prealimentada

#fundamentals

Un model que contiene al menos una model. Una red neuronal profunda es un tipo de red neuronal que contiene más de una capa oculta. Por ejemplo, en el siguiente diagrama, se muestra una red neuronal profunda que contiene dos capas ocultas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida.

Cada neurona en una red neuronal se conecta con todos los nodos de la siguiente capa. Por ejemplo, en el diagrama anterior, observa que cada una de las tres neuronas en la primera capa oculta se conecta por separado a ambas neuronas en la segunda capa oculta.

A veces, las redes neuronales implementadas en computadoras se denominan redes neuronales artificiales para diferenciarlas de las redes neuronales que se encuentran en el cerebro y otros sistemas nerviosos.

Algunas redes neuronales pueden imitar relaciones no lineales muy complejas entre diferentes atributos y la etiqueta.

Consulta también red neuronal convolucional y red neuronal recurrente.

neurona

#fundamentals

En el aprendizaje automático, es una unidad distinta dentro de una capa oculta de una red neuronal. Cada neurona realiza la siguiente acción de dos pasos:

Calcula la suma ponderada de los valores de entrada multiplicados por sus ponderaciones correspondientes.
Pasa la suma ponderada como entrada a una función de activación.

Una neurona en la primera capa oculta acepta entradas de los valores de atributos en la capa de entrada. Una neurona en cualquier capa oculta más allá de la primera acepta entradas de las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta entradas de las neuronas en la primera capa oculta.

En la siguiente ilustración, se destacan dos neuronas y sus entradas.

Una red neuronal con una capa de entrada, dos capas ocultas y una de salida. Se destacan dos neuronas: una en la primera capa oculta y otra en la segunda. La neurona destacada en la primera capa oculta recibe entradas de ambos atributos en la capa de entrada. La neurona destacada en la segunda capa oculta recibe entradas de cada una de las tres neuronas en la primera capa oculta.

Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del sistema nervioso.

n-grama

#seq

#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Como el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N	Nombres para este tipo de n-grama	Ejemplos
2	bigrama o 2-grama	para ir a, almorzar o cenar
3	trigrama o 3-grama	comí demasiado, tres ratones ciegos, las campanas
4	4-grama	el chico comía lentejas...

Muchos modelos de comprensión del lenguaje natural se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación mouse.

Compara los n-gramas con la bolsa de palabras, que son conjuntos desordenados de palabras.

CLN

#language

Abreviatura de comprensión del lenguaje natural.

nodo (árbol de decisión)

#df

En un árbol de decisión, cualquier condición o hoja.

Árbol de decisión con dos condiciones y tres hojas.

nodo (red neuronal)

#fundamentals

Una neurona en una capa oculta.

nodo (grafo de TensorFlow)

#TensorFlow

Una operación en un gráfico de TensorFlow

ruido

En términos generales, cualquier cosa que oculte la señal en un conjunto de datos. El ruido puede ingresar a los datos de varias maneras. Por ejemplo:

Los evaluadores humanos cometen errores durante el etiquetado.
Los instrumentos o personas omiten o registran incorrectamente los valores de atributos.

condición no binaria

#df

Es una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:

Una condición (number_of_legs = ?) que genera tres resultados
posibles. Un resultado (number_of_legs = 8) conduce a una hoja llamada araña. Un segundo resultado (number_of_legs = 4) conduce a una hoja llamada perro. Un tercer resultado (number_of_legs = 2) lleva a una hoja llamada penguin.

no lineal

#fundamentals

Relación entre dos o más variables que no se pueden representar solo a través de sumas y multiplicaciones. Una relación lineal se puede representar como una línea; una relación no lineal no se puede representar como una línea. Por ejemplo, piensa en dos modelos que relacionan un atributo con una sola etiqueta. El modelo de la izquierda es lineal y el de la derecha no es lineal:

Dos diagramas. Un diagrama es una línea, por lo que esta es una relación lineal.
El otro diagrama es una curva, por lo que esta es una relación no lineal.

sesgo de no respuesta

#fairness

Consulta sesgo de selección.

no estacionariedad

#fundamentals

Es un atributo cuyos valores cambian en una o más dimensiones, por lo general, el tiempo. Por ejemplo, considera los siguientes ejemplos de no estacionariedad:

La cantidad de trajes de baño que se venden en una tienda varía según la temporada.
La cantidad de una fruta específica cosechada en una región específica es cero durante gran parte del año, pero alta durante un período breve.
Debido al cambio climático, las temperaturas medias anuales están cambiando.

Compara esto con la estacionariedad.

normalización

#fundamentals

En términos generales, el proceso de convertir el rango de valores real de una variable en un rango estándar de valores, como:

-1 a +1
De 0 a 1
la distribución normal

Por ejemplo, supongamos que el rango real de valores de un atributo determinado es de 800 a 2,400. Como parte de la ingeniería de atributos, podrías normalizar los valores reales a un rango estándar, por ejemplo, de -1 a +1.

La normalización es una tarea común en la ingeniería de atributos. Por lo general, los modelos se entrenan más rápido (y producen mejores predicciones) cuando todos los atributos numéricos del vector de atributos tienen más o menos el mismo rango.

detección de novedades

Es el proceso que determina si un ejemplo nuevo (novedoso) proviene de la misma distribución que el conjunto de entrenamiento. En otras palabras, después del entrenamiento con el conjunto de entrenamiento, la detección de novedad determina si un ejemplo nuevo (durante la inferencia o durante el entrenamiento adicional) es un valor atípico.

Compara esto con la detección de valores atípicos.

datos numéricos

#fundamentals

Atributos representados como números enteros o de valores reales. Por ejemplo, un modelo de valoración de casas probablemente representaría su tamaño (en pies cuadrados o metros cuadrados) como datos numéricos. La representación de un atributo como datos numéricos indica que los valores del atributo tienen una relación matemática con la etiqueta. Es decir, es probable que el número de metros cuadrados de una casa tenga alguna relación matemática con el valor de la casa.

No todos los datos de números enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales de algunas partes del mundo son números enteros; sin embargo, los códigos postales de números enteros no deben representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no es dos veces más (o menos) potente que un código postal de 10000. Además, aunque diferentes códigos postales sí se correlacionan con diferentes valores de bienes raíces, no podemos suponer que los valores de bienes raíces en el código postal 20000 son dos veces más valiosos que los valores de bienes raíces en el código postal 10000. En su lugar, los códigos postales se deben representar como datos categóricos.

A veces, los atributos numéricos se denominan atributos continuos.

NumPy

Biblioteca matemática de código abierto que proporciona operaciones de array eficientes en Python. Pandas se basa en NumPy.

O

objetivo

Una métrica que tu algoritmo intenta optimizar.

función objetiva

Es la fórmula matemática o la métrica que un modelo quiere optimizar. Por ejemplo, la función objetiva para la regresión lineal suele ser la pérdida media al cuadrado. Por lo tanto, cuando se entrena un modelo de regresión lineal, el objetivo del entrenamiento es minimizar la pérdida al cuadrado promedio.

En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetiva es exactitud, la meta es maximizar la exactitud.

Consulta también pérdida.

condición oblicua

#df

En un árbol de decisión, una condición que involucra más de un atributo. Por ejemplo, si ambos son atributos, la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada al eje.

sin conexión

#fundamentals

Sinónimo de estático.

inferencia sin conexión

#fundamentals

Es el proceso mediante el cual un modelo genera un lote de predicciones y, luego, almacena en caché (guarda) esas predicciones. Luego, las apps pueden acceder a la predicción inferida desde la caché en lugar de volver a ejecutar el modelo.

Por ejemplo, considera un modelo que genera pronósticos meteorológicos locales (predicciones) una vez cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los pronósticos meteorológicos locales. Las apps de clima recuperan los pronósticos de la caché.

La inferencia sin conexión también se denomina inferencia estática.

Compara esto con la inferencia en línea.

codificación one-hot

#fundamentals

La representación de datos categóricos como un vector en el que:

Un elemento se establece en 1.
Todos los demás elementos se establecen en 0.

La codificación one-hot se usa comúnmente para representar strings o identificadores que tienen un conjunto finito de valores posibles. Por ejemplo, supongamos que un determinado atributo categórico llamado Scandinavia tiene cinco valores posibles:

“Dinamarca”
“Suecia”
“Noruega”
“Finlandia”
“Islandia”

La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:

country	Vector
“Dinamarca”	1	0	0	0	0
“Suecia”	0	1	0	0	0
“Noruega”	0	0	1	0	0
“Finlandia”	0	0	0	1	0
“Islandia”	0	0	0	0	1

Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones según cada uno de los cinco países.

Representar un atributo como datos numéricos es una alternativa a la codificación one-hot. Desafortunadamente, no es una buena opción representar los países escandinavos numéricamente. Por ejemplo, considera la siguiente representación numérica:

“Dinamarca” es 0
"Suecia" es 1
"Noruega" tiene 2
"Finlandia" tiene 3 años
"Islandia" tiene 4 años

Con la codificación numérica, un modelo interpretaría los números sin procesar de forma matemática y, luego, intentaría entrenar con esos números. Sin embargo, Islandia no es el doble (o la mitad) de algo que Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.

aprendizaje en un intento

Enfoque de aprendizaje automático, que se usa a menudo para la clasificación de objetos, diseñado para aprender clasificadores eficaces a partir de un solo ejemplo de entrenamiento.

Consulta también el aprendizaje en pocos intentos y el aprendizaje sin ejemplos.

instrucciones con un solo ejemplo

#language

#IA generativa

Una instrucción que contiene un ejemplo que demuestra cómo debería responder el modelo de lenguaje grande. Por ejemplo, la siguiente instrucción contiene un ejemplo en el que se muestra cómo un modelo de lenguaje extenso responde a una consulta.

Partes de una instrucción	Notas
`¿Cuál es la moneda oficial del país especificado?`	La pregunta que quieres que el LLM responda.
`Francia: EUR`	Un ejemplo.
`India:`	Es la consulta real.

Compara y contrasta la instrucción con un solo ejemplo con los siguientes términos:

instrucción sin ejemplos
instrucción con ejemplos limitados

uno frente a todos

#fundamentals

Dado un problema de clasificación con clases N, una solución que consta de N clasificadores binarios independientes: un clasificador binario para cada resultado posible Por ejemplo, dado un modelo que clasifica ejemplos como animal, vegetal o mineral, una solución de uno frente a todos proporcionaría los siguientes tres clasificadores binarios independientes:

animal frente a no animal
vegetal frente a no vegetal
mineral frente a no mineral

en línea

#fundamentals

Sinónimo de dinámico.

inferencia en línea

#fundamentals

Generación de predicciones a pedido. Por ejemplo, supongamos que una app pasa una entrada a un modelo y emite una solicitud para una predicción. Un sistema que usa inferencia en línea responde a la solicitud ejecutando el modelo (y mostrando la predicción a la app).

Compara esto con la inferencia sin conexión.

operación (op)

#TensorFlow

En TensorFlow, cualquier procedimiento que crea, manipula o destruye un tensor. Por ejemplo, una multiplicación de matrices es una operación que toma dos tensores como entrada y genera un tensor como salida.

Optax

Una biblioteca de procesamiento y optimización de gradientes para JAX. Optax facilita la investigación proporcionando componentes básicos que se pueden combinar de formas personalizadas para optimizar modelos paramétricos, como las redes neuronales profundas. Otros objetivos incluyen:

Proporcionar implementaciones eficientes, probadas y legibles de los componentes principales.
La mejora de la productividad, ya que permite combinar ingredientes de bajo nivel en optimizadores personalizados (o en otros componentes de procesamiento de gradientes)
Acelerar la adopción de nuevas ideas facilitando la colaboración de todos

optimizador

Es una implementación específica del algoritmo de descenso de gradientes. Entre los optimizadores populares, se incluyen los siguientes:

AdaGrad, que significa Descenso de GRADientes ADAptable.
Adam, que significa ADAptable con Momentum.

sesgo de homogeneidad de los demás

#fairness

Es la tendencia a ver a los miembros externos a un grupo como más semejantes que los miembros del grupo cuando se comparan actitudes, valores, rasgos de personalidad y otras características. Endogrupal se refiere a las personas con las que interactúas regularmente; los demás se refiere a las personas con las que no interactúas regularmente. Si creas un conjunto de datos pidiéndoles a las personas que proporcionen atributos sobre los demás, esos atributos pueden tener menos matices y ser más estereotipos que los atributos que los participantes enumeran para las personas de su grupo.

Por ejemplo, la gente de Liliputa podría describir con gran detalle las casas de otros lilipús, mencionando pequeñas diferencias en los estilos arquitectónicos, las ventanas, las puertas y los tamaños. Sin embargo, la misma persona de Buenos Aires podría simplemente declarar que todos los ciudadanos de California viven en casas idénticas.

El sesgo de homogeneidad de los demás es una forma de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

detección de valores atípicos

Es el proceso de identificar valores atípicos en un conjunto de entrenamiento.

Compara esto con la detección de novedades.

los valores atípicos

Valores distantes de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de los siguientes son valores atípicos:

Datos de entrada cuyos valores son aproximadamente 3 desviaciones estándar de la media.
Ponderaciones con valores absolutos altos
Valores predichos relativamente lejos de los valores reales

Por ejemplo, supongamos que widget-price es un atributo de un modelo determinado. Supongamos que la widget-price media es de 7 euros con una desviación estándar de 1 euros. Por lo tanto, los ejemplos que contienen una widget-price de 12 euros o 2 euros se considerarían valores atípicos porque cada uno de esos precios representa cinco desviaciones estándar de la media.

Los valores atípicos suelen deberse a errores tipográficos o de entrada. En otros casos, los valores atípicos no son errores. Después de todo, los valores a cinco desviaciones estándar de la media son poco frecuentes, pero casi imposibles.

Los valores atípicos suelen causar problemas en el entrenamiento del modelo. El recorte es una forma de administrar los valores atípicos.

evaluación fuera de bolsa (evaluación OOB)

#df

Un mecanismo para evaluar la calidad de un bosque de decisiones mediante la prueba de cada árbol de decisión en comparación con los ejemplos que no se usaron durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, se evalúa con respecto al tercio restante de los ejemplos.

La evaluación fuera de circulación es una aproximación eficiente y conservadora desde el punto de vista informático del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, 10 modelos se entrenan en una validación cruzada de 10 veces). Con la evaluación OOB, se entrena un solo modelo. Debido a que el bolso retiene algunos datos de cada árbol durante el entrenamiento, la evaluación OOB puede usar esos datos para aproximar la validación cruzada.

capa de salida

#fundamentals

Capa "final" de una red neuronal. La capa de salida contiene la predicción.

En la siguiente ilustración, se muestra una pequeña red neuronal profunda con una capa de entrada, dos capas ocultas y una de salida:

sobreajuste

#fundamentals

Crear un model que coincida con los model de forma tan estrecha que el modelo no puede realizar predicciones correctas con datos nuevos.

La regularización puede reducir el sobreajuste. Entrenar con un conjunto de entrenamiento grande y diverso también puede reducir el sobreajuste.

Haz clic en el ícono para obtener notas adicionales.

El sobreajuste es como seguir estrictamente los consejos de tu profesor favorito. Probablemente tengas éxito en la clase de ese profesor, pero podrías “sobreajustar” las ideas de ese profesor y no tener éxito en otras clases. Seguir los consejos de una combinación de profesores te permitirá adaptarte mejor a nuevas situaciones.

sobremuestreo

Reutilizar los ejemplos de una clase minoritaria en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera un problema de clasificación binaria en el que la proporción entre la clase de mayoría y la clase minoritaria es 5,000:1. Si el conjunto de datos contiene un millón de ejemplos, entonces contiene solo alrededor de 200 ejemplos de la clase minoritaria, que podrían ser muy pocos ejemplos para un entrenamiento eficaz. Para superar esta deficiencia, podrías sobremuestrear (reutilizar) esos 200 ejemplos varias veces, lo que daría lugar a ejemplos suficientes para un entrenamiento útil.

Debes tener cuidado con el sobreajuste cuando realices el sobremuestreo.

Compara esto con el submuestreo.

P

datos empaquetados

Un enfoque para almacenar datos de manera más eficiente.

Los datos empaquetados almacenan datos mediante un formato comprimido o de alguna otra manera que permita acceder a ellos de manera más eficiente. Los datos empaquetados minimizan la cantidad de memoria y procesamiento necesarios para acceder a ellos, lo que lleva a un entrenamiento más rápido y una inferencia de modelo más eficiente.

Los datos empaquetados suelen usarse con otras técnicas, como el aumento de datos y la regularización, lo que mejora aún más el rendimiento de los modelos.

pandas

#fundamentals

Una API de análisis de datos orientada a columnas compilada en numpy. Muchos frameworks de aprendizaje automático, incluido TensorFlow, admiten las estructuras de datos de Pandas como entradas. Consulta la documentación de Pandas para obtener más detalles.

parámetro

#fundamentals

Los pesos y los sesgos que aprende un modelo durante el entrenamiento Por ejemplo, en un modelo de regresión lineal, los parámetros constan del sesgo (b) y todos los pesos (w₁, w₂, etc.) en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En cambio, los hiperparámetros son los valores que tú (o un servicio de ajuste de hiperparámetros) suministras al modelo. Por ejemplo, una tasa de aprendizaje es un hiperparámetro.

ajuste eficiente de parámetros

#language

#IA generativa

Es un conjunto de técnicas para ajustar un modelo de lenguaje previamente entrenado (PLM) grande de forma más eficiente que el ajuste completo. Por lo general, el ajuste eficiente en cuanto a parámetros ajusta muchos menos parámetros que el ajuste completo, pero suele producir un modelo de lenguaje grande que funciona tan bien (o casi tan bien) que un modelo grande de lenguaje compilado a partir del ajuste completo.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

ajuste de instrucciones
ajuste de instrucciones

El ajuste eficiente en cuanto a parámetros también se conoce como ajuste eficiente de parámetros.

Servidor de parámetros (PS)

#TensorFlow

Trabajo que realiza un seguimiento de los parámetros de un modelo en una configuración distribuida.

actualización de parámetros

Es la operación para ajustar los parámetros de un modelo durante el entrenamiento, generalmente dentro de una sola iteración de descenso de gradientes.

derivada parcial

Derivada en la que todas menos una de las variables se consideran una constante. Por ejemplo, la derivada parcial de f(x, y) con respecto a x es la derivada de f, considerada como una función de x sola (es decir, que mantiene y constante). La derivada parcial de f con respecto a x se centra únicamente en cómo cambia x e ignora todas las demás variables de la ecuación.

sesgo de participación

#fairness

Sinónimo de sesgo de no respuesta. Consulta sesgo de selección.

estrategia de partición

Es el algoritmo por el cual las variables se dividen en servidores de parámetros.

Pax

Es un framework de programación diseñado para entrenar modelos de red neuronal a gran escala que abarcan varios chip acelerador de segmentos o Pods de TPU.

Pax se basa en Flax, que se basa en JAX.

Diagrama que indica la posición de Pax en la pila de software.
Pax se basa en JAX. Pax consta de tres capas. La capa inferior contiene TensorStore y Flax.
La capa del medio contiene Optax y Flaxformer. La capa superior contiene la biblioteca de modelos de Praxis. Fiddle se basa en Pax.

perceptrón

Un sistema (de hardware o software) que toma uno o más valores de entrada, ejecuta una función en la suma ponderada de las entradas y calcula un solo valor de salida. En el aprendizaje automático, la función suele ser no lineal, como ReLU, sigmoidea o tanh. Por ejemplo, el siguiente perceptrón utiliza la función sigmoidea para procesar tres valores de entrada:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales se modifica con un peso antes de ingresar al perceptrón:

Un perceptrón que toma 3 entradas, cada una multiplicada por pesos separados. El perceptrón da como resultado un solo valor.

Los perceptrones son las neuronas de las redes neuronales.

rendimiento

Término sobrecargado con los siguientes significados:

El significado estándar dentro de la ingeniería de software. A saber: ¿Qué tan rápido (o eficazmente) se ejecuta este software?
El significado dentro del aprendizaje automático. En este caso, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este model? Es decir, ¿qué tan buenas son las predicciones del modelo?

importancias de las variables de permutación

#df

Es un tipo de importancia variable que evalúa el aumento del error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.

perplejidad

Medición de qué tan bien está logrando su tarea un model. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra que un usuario escribe en el teclado de un teléfono y ofrecer una lista de posibles palabras para completarlas. La perplejidad, P, para esta tarea, es aproximadamente la cantidad de suposiciones que debes ofrecer para que tu lista contenga la palabra real que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Es la infraestructura que rodea al algoritmo de aprendizaje automático. Una canalización incluye recopilar los datos, colocarlos en archivos de datos de entrenamiento, entrenar uno o más modelos y exportar los modelos a producción.

canalización

#language

Una forma de paralelismo de modelos en la que el procesamiento de un modelo se divide en etapas consecutivas, y cada una de ellas se ejecuta en un dispositivo diferente. Mientras una etapa procesa un lote, la anterior puede funcionar en el siguiente lote.

Consulta también el entrenamiento en etapas.

PJIT

Una función de JAX que divide el código para ejecutarlo en varios chips de aceleración El usuario pasa una función a pjit, que muestra una función que tiene la semántica equivalente, pero se compila en un cálculo de XLA que se ejecuta en varios dispositivos (como GPU o núcleos TPU).

pjit permite a los usuarios fragmentar cálculos sin reescribirlos mediante el particionador SPMD.

A partir de marzo de 2023, pjit se fusionó con jit. Consulta Arreglos distribuidos y paralelización automática para obtener más detalles.

PLM

#language

#IA generativa

Abreviatura de modelo de lenguaje previamente entrenado.

pmap

Función JAX que ejecuta copias de una función de entrada en varios dispositivos de hardware subyacentes (CPU, GPU o TPU), con diferentes valores de entrada. pmap se basa en SPMD.

policy

#rl

En el aprendizaje por refuerzo, el mapeo probabilístico de un agente de estados a acciones.

reducción

#image

Reducir una matriz (o matrices) creada por una capa convolucional anterior a una matriz más pequeña La reducción generalmente implica tomar el valor máximo o promedio en el área agrupada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3 x 3:

La matriz de 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Una operación de reducción, al igual que una convolucional, divide esa matriz en porciones y, luego, desliza esa operación convolucional en zancadas. Por ejemplo, supongamos que la operación de reducción divide la matriz convolucional en porciones de 2 × 2 con un zancada de 1 × 1. Como se ilustra en el siguiente diagrama, se producen cuatro operaciones de reducción. Imagina que cada operación de reducción elige el valor máximo de las cuatro en esa porción:

La reducción permite aplicar la invariancia traslacional en la matriz de entrada.

La reducción para aplicaciones de visión se conoce más formalmente como reducción espacial. Por lo general, las aplicaciones de series temporales se refieren a la reducción como reducción temporal. De manera menos formal, la reducción a menudo se denomina submuestreo o reducción de muestreo.

codificación posicional

#language

Una técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos de transformador usan la codificación posicional para comprender mejor la relación entre las diferentes partes de la secuencia.

Una implementación común de codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal están determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a atender diferentes partes de la secuencia según su posición.

clase positiva

#fundamentals

La clase que estás probando.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser “spam”.

Compara esto con la clase negativa.

Haz clic en el ícono para obtener notas adicionales.

El término clase positiva puede ser confuso, ya que el resultado "positivo" de muchas pruebas suele ser un resultado no deseado. Por ejemplo, la clase positiva en muchas pruebas médicas corresponde a tumores o enfermedades. En general, quieres que un médico te diga “¡Felicitaciones! Los resultados de la prueba fueron negativos". En cualquier caso, la clase positiva es el evento que la prueba busca encontrar.

Es cierto que estás probando simultáneamente las clases positiva y negativa.

posprocesamiento

#fairness

#fundamentals

Ajustar la salida de un modelo después de que este se haya ejecutado El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se podría aplicar el procesamiento posterior a un clasificador binario estableciendo un umbral de clasificación de modo que se mantenga la igualdad de oportunidad para algún atributo. Para ello, se verifica que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

AUC de PR (área bajo la curva PR)

Área bajo la curva de precisión-recuperación interpolada que se obtiene cuando se trazan puntos (recuperación, precisión) para diferentes valores del umbral de clasificación. Según cómo se calcule, el AUC de PR puede ser equivalente a la precisión promedio del modelo.

Praxis

Una biblioteca principal de AA de alto rendimiento de Pax. A menudo, la praxis se denomina "biblioteca de capas".

La praxis no solo contiene las definiciones para la clase de capa, sino también la mayoría de sus componentes complementarios, incluidos los siguientes:

entradas de datos
Bibliotecas de configuración (HParam y Fiddle)
optimizadores

La praxis proporciona las definiciones para la clase Model.

precision

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando el modelo predijo la clase positiva, ¿qué porcentaje de las predicciones fueron correctas?

Esta es la fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Donde:

verdadero positivo significa que el modelo predijo correctamente la clase positiva.
falso positivo significa que el modelo predijo por error la clase positiva.

Por ejemplo, supongamos que un modelo hizo 200 predicciones positivas. De estas 200 predicciones positivas:

150 fueron verdaderos positivos.
50 fueron falsos positivos.

En este caso, ocurre lo siguiente:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Compara esto con la exactitud y la recuperación.

curva de precisión-recuperación

Una curva de precisión frente a recuperación en diferentes umbrales de clasificación.

Predicción

#fundamentals

La salida de un modelo. Por ejemplo:

La predicción de un modelo de clasificación binaria es la clase positiva o la negativa.
La predicción de un modelo de clasificación de clases múltiples es una clase.
La predicción de un modelo de regresión lineal es un número.

#IA generativa

Entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes torpes y, por lo general, deben definirse mejor mediante un entrenamiento adicional. Por ejemplo, los expertos en AA podrían entrenar con anterioridad un modelo grande de lenguaje en un gran conjunto de datos de texto, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, el modelo resultante podría definirse mejor a través de cualquiera de las siguientes técnicas:

destilación
ajuste
ajuste de instrucciones
ajuste eficiente de parámetros
ajuste de instrucciones

creencia previa

Lo que crees sobre los datos antes de comenzar a entrenar con ellos. Por ejemplo, la regularización L₂ se basa en una creencia previa de que los pesos deben ser pequeños y, normalmente, distribuirse alrededor de cero.

modelo de regresión probabilística

Un modelo de regresión que usa no solo los pesos de cada atributo, sino también la incertidumbre de esos pesos. Un modelo de regresión probabilística genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un modelo de regresión probabilística podría producir una predicción de 325 con una desviación estándar de 12. Para obtener más información sobre los modelos de regresión probabilística, consulta Colab en tensorflow.org.

función de densidad de probabilidad

Es una función que identifica la frecuencia de las muestras de datos que tienen exactamente un valor en particular. Cuando los valores de un conjunto de datos son números de punto flotante continuos, rara vez se producen coincidencias exactas. Sin embargo, la integrating de una función de densidad de probabilidad del valor x al valor y proporciona la frecuencia esperada de las muestras de datos entre x y y.

Por ejemplo, considera una distribución normal con una media de 200 y una desviación estándar de 30. Para determinar la frecuencia esperada de las muestras de datos que se encuentran dentro del rango de 211.4 a 218.7, puedes integrar la función de densidad de probabilidad para una distribución normal de 211.4 a 218.7.

mensaje

#language

#IA generativa

Cualquier texto que se ingresa como entrada en un modelo de lenguaje grande para condicionar el modelo de modo que se comporte de cierta manera Las instrucciones pueden ser tan cortas como una frase o arbitrariamente largas (por ejemplo, el texto completo de una novela). Los mensajes se clasifican en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría de instrucción	Ejemplo	Notas
Pregunta	`¿Qué tan rápido puede volar una paloma?`
Instrucción	`Escribe un poema divertido sobre el arbitraje.`	Un mensaje en el que se le pide al modelo de lenguaje extenso que haga algo.
Ejemplo	`Traduce código de Markdown a HTML. Por ejemplo: Markdown: * elemento de lista HTML: <ul> <li>elemento de la lista</li> </ul>`	La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol	`Explica por qué el descenso de gradientes se utiliza en el entrenamiento del aprendizaje automático hasta un doctorado en Física.`	La primera parte de la oración es una instrucción, y la parte corresponde a la frase "para un doctorado en física".
Entrada parcial para que se complete el modelo	`El primer ministro del Reino Unido vive en`	Una instrucción de entrada parcial puede terminar de manera abrupta (como en este ejemplo) o con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos... casi cualquier cosa.

aprendizaje basado en instrucciones

#language

#IA generativa

Es una capacidad de ciertos modelos que les permite adaptar su comportamiento en respuesta a una entrada de texto arbitraria (mensajes). En un paradigma típico de aprendizaje basado en instrucciones, un modelo de lenguaje grande responde a una instrucción mediante la generación de texto. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprender basado en instrucciones no está entrenado de forma específica para responder a la instrucción anterior. En cambio, el modelo "conoce" muchos hechos sobre física, mucho sobre reglas generales del lenguaje y mucho sobre lo que constituye respuestas generalmente útiles. Ese conocimiento es suficiente para proporcionar una respuesta (con suerte) útil. Los comentarios humanos adicionales (“Esa respuesta era demasiado complicada” o “¿Cuál es una reacción?”) permiten que algunos sistemas de aprendizaje basados en instrucciones mejoren gradualmente la utilidad de sus respuestas.

diseño de mensajes

#language

#IA generativa

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language

#IA generativa

El arte de crear mensajes que generen las respuestas deseadas a partir de un modelo de lenguaje grande. Seres humanos realizan ingeniería de instrucciones. Escribir instrucciones bien estructuradas es esencial para garantizar respuestas útiles de un modelo grande de lenguaje. La ingeniería de instrucciones depende de muchos factores, incluidos los siguientes:

El conjunto de datos que se usa para entrenar previamente y posiblemente ajustar el modelo grande de lenguaje.
La temperature y otros parámetros de decodificación que el modelo usa para generar respuestas.

Consulta Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.

ajuste de mensajes

#language

#IA generativa

Un mecanismo de ajuste eficiente de parámetros que aprende un "prefijo" que el sistema antepone a la instrucción real.

Una variación del ajuste de mensajes, a veces llamada ajuste de prefijos, es anteponer el prefijo en cada capa. Por el contrario, la mayoría del ajuste de mensajes solo agrega un prefijo a la capa de entrada.

Haz clic en el ícono para obtener más información sobre los prefijos.

Para el ajuste de mensajes, el “prefijo” (también conocido como “mensaje en segundo plano”) es un conjunto de vectores aprendidos y específicos de la tarea que se anteponen a las incorporaciones de token de texto de la instrucción real. El sistema aprende la instrucción de software inmovilizando todos los demás parámetros del modelo y realizando ajustes en una tarea específica.

etiquetas de proxy

#fundamentals

Son datos que se usan para aproximar etiquetas que no están disponibles directamente en un conjunto de datos.

Por ejemplo, supongamos que debes entrenar un modelo para predecir el nivel de estrés de los empleados. Tu conjunto de datos contiene muchos atributos predictivos, pero no contiene una etiqueta llamada nivel de estrés. No se preocupe, elige “accidentes en el lugar de trabajo” como etiqueta de proxy para el nivel de estrés. Después de todo, los empleados con mucho estrés tienen más accidentes que los calmos. ¿O no? Los accidentes de trabajo pueden subir y bajar por varias razones.

Como segundo ejemplo, supongamos que deseas que ¿está lloviendo? como una etiqueta booleana para tu conjunto de datos, pero este no contiene datos sobre lluvia. Si hay fotografías disponibles, podrías establecer imágenes de personas con paraguas como una etiqueta de proxy para ¿está lloviendo? ¿Es una buena etiqueta de proxy? Probablemente, pero las personas de algunas culturas tienen más probabilidades de llevar paraguas para protegerse del sol en lugar de la lluvia.

Las etiquetas de proxy suelen ser imperfectas. Cuando sea posible, elige etiquetas reales en lugar de etiquetas de proxy. Dicho esto, cuando una etiqueta real está ausente, elige la etiqueta del proxy con mucho cuidado y elige la opción de etiqueta de proxy menos horrible.

proxy (atributos sensibles)

#fairness

Un atributo que se usa como reemplazo de un atributo sensible. Por ejemplo, el código postal de una persona puede usarse como representación de sus ingresos, origen étnico o raza.

función pura

Es una función cuyas salidas se basan solo en sus entradas y que no tiene efectos secundarios. Específicamente, una función pura no usa ni cambia ningún estado global, como el contenido de un archivo o el valor de una variable fuera de la función.

Las funciones puras se pueden usar para crear código seguro para subprocesos, lo que es beneficioso cuando se fragmenta el código del model en varios model.

Los métodos de transformación de funciones de JAX requieren que las funciones de entrada sean funciones puras.

P. Función Q

#rl

En el aprendizaje por refuerzo, es la función que predice el retorno esperado después de realizar una acción en un estado y, luego, seguir una política determinada.

La función Q también se conoce como función de valor de acción de estado.

Q-Learning

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov mediante la ecuación de Bellman. El proceso de decisión de Markov modela un entorno.

cuantil

Cada bucket en el agrupamiento en cuantiles.

agrupamiento en cuantiles

Distribución de los valores de un atributo en buckets para que cada bucket contenga la misma (o casi la misma) cantidad de ejemplos. Por ejemplo, en la siguiente figura, se dividen 44 puntos en 4 buckets, cada uno de los cuales contiene 11 puntos. Para que cada bucket de la figura contenga la misma cantidad de puntos, algunos buckets abarcan un ancho diferente de valores X.

44 datos divididos en 4 buckets de 11 puntos cada uno.
Aunque cada bucket contiene la misma cantidad de datos, algunos buckets contienen un rango más amplio de valores de atributos que otros.

cuantización

Término sobrecargado que podría usarse de cualquiera de las siguientes maneras:

Implementar el agrupamiento en cuantiles en un atributo en particular
Transformar datos en ceros y unos para acelerar el almacenamiento, el entrenamiento y la inferencia Como los datos booleanos son más resistentes al ruido y a los errores que otros formatos, la cuantización puede mejorar la precisión del modelo. Las técnicas de cuantización incluyen el redondeo, el truncamiento y la discretización.
Reducir la cantidad de bits que se usan para almacenar los parámetros de un modelo Por ejemplo, supongamos que los parámetros de un modelo se almacenan como números de punto flotante de 32 bits. La cuantización convierte esos parámetros de 32 bits a 4, 8 o 16 bits. La cuantización reduce los siguientes elementos:
- Uso de procesamiento, memoria, disco y red
- Momento de inferir una predicción
- Consumo de energía
Sin embargo, a veces la cuantización disminuye la precisión de las predicciones de un modelo.

cola

#TensorFlow

Operación de TensorFlow que implementa una estructura de datos en cola. Por lo general, se usa en E/S.

R

RAG

#fundamentals

Abreviatura de generación aumentada de recuperación.

bosque aleatorio

#df

Es un ensamble de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como bagging.

Los bosques aleatorios son un tipo de bosque de decisión.

política aleatoria

#rl

En el aprendizaje por refuerzo, política que elige una acción de forma aleatoria.

clasificación

Es un tipo de aprendizaje supervisado cuyo objetivo es ordenar una lista de elementos.

rango (ordinalidad)

Es la posición ordinal de una clase en un problema de aprendizaje automático que clasifica las clases de mayor a menor. Por ejemplo, un sistema de clasificación de comportamiento podría clasificar las recompensas de un perro de la más alta (un filete) a la más baja (col rizada marchita).

rango (tensor)

#TensorFlow

La cantidad de dimensiones en un tensor. Por ejemplo, un escalar tiene rango 0, un vector tiene rango 1 y una matriz tiene rango 2.

No se debe confundir con rango (ordinalidad).

evaluador

#fundamentals

Una persona que proporciona etiquetas para ejemplos. "Anotador" es otro nombre para el evaluador.

recall

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando la verdad fundamental era la clase positiva, ¿qué porcentaje de predicciones identificó el modelo de forma correcta como la clase positiva?

Esta es la fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Donde:

verdadero positivo significa que el modelo predijo correctamente la clase positiva.
falso negativo significa que el modelo predijo por error la clase negativa.

Por ejemplo, supongamos que tu modelo hizo 200 predicciones con ejemplos en los que la verdad fundamental era la clase positiva. De estas 200 predicciones:

180 fueron verdaderos positivos.
20 fueron falsos negativos.

En este caso, ocurre lo siguiente:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Haz clic en el ícono para ver notas sobre los conjuntos de datos con desequilibrio de clase.

La recuperación es particularmente útil para determinar el poder predictivo de los modelos de clasificación en los que la clase positiva es poco frecuente. Por ejemplo, considera un conjunto de datos con desequilibrio de clases en el que la clase positiva de una enfermedad determinada se presenta solo en 10 pacientes de un millón. Supongamos que tu modelo realiza cinco millones de predicciones que producen los siguientes resultados:

30 verdaderos positivos
20 falsos negativos
4,999,000 Verdaderos negativos
950 falsos positivos

Por lo tanto, la recuperación de este modelo es la siguiente:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Por el contrario, la exactitud de este modelo es la siguiente:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Ese alto valor de precisión parece impresionante, pero en esencia, no tiene sentido. La recuperación es una métrica mucho más útil que la exactitud para los conjuntos de datos con desequilibrio de clase.

sistema de recomendación

#recsystems

Es un sistema que selecciona para cada usuario un conjunto relativamente pequeño de elementos deseables de un gran corpus. Por ejemplo, un sistema de recomendación de videos podría recomendar dos videos de un corpus de 100,000 videos, seleccionando Casablanca y The Philadelphia Story para un usuario, y Mujer Maravilla y Pantera Negra para otro. Un sistema de recomendación de videos puede basar sus recomendaciones en factores como los siguientes:

Películas que usuarios similares han calificado o visto
Género, directores, actores, segmento demográfico...

Unidad lineal rectificada (ReLU)

#fundamentals

Una función de activación con el siguiente comportamiento:

Si la entrada es negativa o cero, entonces el resultado es 0.
Si la entrada es positiva, entonces el resultado es igual a la entrada.

Por ejemplo:

Si la entrada es -3, entonces el resultado es 0.
Si la entrada es +3, entonces el resultado es 3.0.

A continuación, se muestra un gráfico de ReLU:

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU todavía permite que una red neuronal aprenda relaciones no lineales entre atributos y la etiqueta.

red neuronal recurrente

#seq

Red neuronal que se ejecuta intencionalmente varias veces, en la que partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de ejecuciones anteriores de la red neuronal sobre partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura, se muestra una red neuronal recurrente que se ejecuta cuatro veces. Ten en cuenta que los valores aprendidos en las capas ocultas de la primera ejecución se vuelven parte de la entrada a las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se vuelven parte de la entrada de la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar de solo el significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

modelo de regresión

#fundamentals

Informalmente, un modelo que genera una predicción numérica. (por el contrario, un modelo de clasificación genera una predicción de clase). Por ejemplo, los siguientes son todos los modelos de regresión:

Modelo que predice el valor de una casa determinada, como 423,000 euros.
Modelo que predice la esperanza de vida de un árbol determinado, como 23.2 años.
Un modelo que predice la cantidad de lluvia que caerá en una determinada ciudad durante las próximas seis horas, como 0.45 cm.

Los siguientes son dos tipos comunes de modelos de regresión:

La regresión lineal, que encuentra la línea que mejor se ajusta a los valores de las etiquetas según los atributos.
Regresión logística, que genera una probabilidad entre 0.0 y 1.0 que un sistema suele asignar a una predicción de clase.

No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una predicción numérica es solo un modelo de clasificación que tiene nombres de clases numéricos. Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no de regresión.

regularización

#fundamentals

Cualquier mecanismo que reduzca el sobreajuste Entre los tipos populares de regularización, se incluyen los siguientes:

Regularización L₁
Regularización L₂
regularización de retirados
interrupción anticipada (este no es un método de regularización formal, pero puede limitar el sobreajuste de manera eficaz)

La regularización también puede definirse como la penalización por la complejidad de un modelo.

Haz clic en el ícono para obtener notas adicionales.

La regularización es contraintuitiva. Por lo general, el aumento de la regularización aumenta la pérdida de entrenamiento, lo cual es confuso porque, bueno, ¿el objetivo no es minimizar la pérdida de entrenamiento?

En realidad, no. El objetivo no es minimizar la pérdida de entrenamiento. El objetivo es realizar excelentes predicciones con ejemplos del mundo real. Sorprendentemente, aunque un aumento de la regularización aumenta la pérdida de entrenamiento, por lo general, ayuda a los modelos a realizar mejores predicciones con ejemplos del mundo real.

tasa de regularización

#fundamentals

Es un número que especifica la importancia relativa de la regularización durante el entrenamiento. Aumentar la tasa de regularización reduce el sobreajuste, pero puede reducir el poder predictivo del modelo. Por el contrario, omitir o disminuir la tasa de regularización aumenta el sobreajuste.

Haz clic en el ícono para ver los cálculos.

Por lo general, la tasa de regularización se representa con la letra griega lambda. En la siguiente ecuación simplificada de pérdida, se muestra la influencia de lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

En el ejemplo anterior, la regularización es cualquier mecanismo de regularización, incluidos los siguientes:

Regularización L₁
Regularización L₂

aprendizaje por refuerzo (RL)

#rl

Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando se interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juego anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a pérdidas.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#IA generativa

#rl

Usa los comentarios de evaluadores humanos para mejorar la calidad de las respuestas de un modelo. Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 👎. Luego, el sistema puede ajustar las respuestas futuras según esos comentarios.

ReLU

#fundamentals

Abreviatura de unidad lineal rectificada.

búfer de reproducción

#rl

En algoritmos similares a DQN, es la memoria que usa el agente para almacenar transiciones de estado y usarlas en la reproducción de la experiencia.

de Cloud SQL

Una copia del conjunto de entrenamiento o el modelo, por lo general, en otra máquina Por ejemplo, un sistema podría usar la siguiente estrategia para implementar el paralelismo de datos:

Colocar réplicas de un modelo existente en varias máquinas
Enviar diferentes subconjuntos del conjunto de entrenamiento a cada réplica
Agrega las actualizaciones de parámetros.

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no es un reflejo de las frecuencias del mundo real ni del grado en que una propiedad es característica de una clase de individuos. El sesgo de reporte puede influir en la composición de los datos de los que aprenden.

Por ejemplo, en los libros, la palabra reír es más frecuente que respirarla. Un modelo de aprendizaje automático que estima la frecuencia relativa de la risa y la respiración en el corpus de un libro probablemente determinaría que reír es más común que respirar.

representación de vectores

Es el proceso de asignar datos a atributos útiles.

reclasificación

#recsystems

La etapa final de un sistema de recomendación, durante la cual los elementos calificados se pueden volver a calificar de acuerdo con algún otro algoritmo (por lo general, no de AA). La reclasificación evalúa la lista de elementos generados por la fase de puntuación, realizando acciones como:

Eliminar los elementos que el usuario ya compró
Aumentar la puntuación de elementos más recientes

generación de recuperación aumentada (RAG)

#fundamentals

Es una técnica para mejorar la calidad de los resultados del modelo grande de lenguaje (LLM) basándolo en fuentes de conocimiento recuperadas después de entrenar el modelo. RAG mejora la exactitud de las respuestas del LLM, ya que le proporciona al LLM entrenado acceso a la información recuperada de bases de conocimiento o documentos confiables.

Entre las motivaciones comunes para usar la generación de aumento de recuperación, se incluyen las siguientes:

Aumentar la exactitud fáctica de las respuestas generadas de un modelo.
Darle al modelo acceso a conocimientos con los que no se entrenó
Cambiar el conocimiento que usa el modelo.
Habilita el modelo para citar fuentes.

Por ejemplo, supongamos que una app de química usa la API de PaLM para generar resúmenes relacionados con las consultas de los usuarios. Cuando el backend de la app recibe una consulta, el backend hace lo siguiente:

Busca datos ("recupera") que son relevantes para la consulta del usuario.
Agrega ("aumentos") los datos químicos relevantes a la consulta del usuario.
Indica al LLM que cree un resumen basado en los datos agregados.

return

#rl

En el aprendizaje por refuerzo, dada una política determinada y un estado determinado, el resultado es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente da cuenta de la naturaleza demorada de las recompensas esperadas mediante el descuento de recompensas según las transiciones de estado requeridas para obtener la recompensa.

Por lo tanto, si el factor de descuento es $\gamma$y $r_0, \ldots, r_{N}$denota las recompensas hasta el final del episodio, el cálculo de la devolución será el siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, el resultado numérico de realizar una acción en un estado, según lo define el entorno.

regularización de cresta

Sinónimo de regularización L₂. El término regularización de cresta se usa con más frecuencia en contextos de estadística pura, mientras que la regularización L₂ se usa con más frecuencia en el aprendizaje automático.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

Curva ROC (característica operativa del receptor)

#fundamentals

Un gráfico de la tasa de verdaderos positivos frente a la tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Por ejemplo, supongamos que un modelo de clasificación binaria separa perfectamente todas las clases negativas de todas las positivas:

Una recta numérica con 8 ejemplos positivos en el lado derecho y 7 ejemplos negativos en el lado izquierdo.

La curva ROC para el modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje x es la tasa de falsos positivos y el eje y es la tasa de verdaderos positivos. La curva tiene una forma de L invertida. La curva
comienza en (0.0,0.0) y va directamente a (0.0,1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se muestran los valores sin procesar de regresión logística para un modelo terrible que no puede separar las clases negativas de las positivas en absoluto:

Es una recta numérica con ejemplos positivos y clases negativas completamente entrelazadas.

La curva ROC para este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0)
a (1.0,1.0).

Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierto grado, pero, por lo general, no a la perfección. Entonces, una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje x es la tasa de falsos positivos y el eje y es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco tembloroso que atraviesa los puntos de la brújula de oeste a norte.

El punto en una curva ROC más cercana a (0.0,1.0) identifica teóricamente el umbral de clasificación ideal. Sin embargo, otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, es posible que los falsos negativos causen mucho más dolor que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

solicitud de función

#language

#IA generativa

Es una parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin una instrucción de rol, un modelo grande de lenguaje proporciona una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, un modelo de lenguaje extenso puede responder de una manera más apropiada y útil para un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de las siguientes instrucciones está en negrita:

Resume este artículo para obtener un doctorado en economía.
Describir cómo funcionan las mareas para un niño de diez años.
Explica la crisis financiera de 2008. Habla como lo harías con un niño o un golden retriever.

raíz

#df

El nodo inicial (la primera condición) en un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisiones. Por ejemplo:

Árbol de decisión con dos condiciones y tres hojas. La condición inicial (x > 2) es la raíz.

directorio raíz

#TensorFlow

El directorio que especificas para alojar subdirectorios del punto de control de TensorFlow y archivos de eventos de varios modelos.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals

Raíz cuadrada del error cuadrático medio.

invariancia rotacional

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo aún puede identificar una raqueta de tenis si apunta hacia arriba, hacia los lados o hacia abajo. Ten en cuenta que la invariancia rotacional no siempre es conveniente; por ejemplo, un 9 al revés no debería clasificarse como un 9.

Consulta también la invariancia traslacional y la invariancia de tamaño.

R al cuadrado

Métrica de regresión que indica cuánta variación en una etiqueta se debe a un atributo individual o a un conjunto de atributos. El R cuadrado es un valor entre 0 y 1, que se puede interpretar de la siguiente manera:

Un R cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
Un R cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
Un R cuadrado entre 0 y 1 indica el grado en el que se puede predecir la variación de la etiqueta a partir de un atributo en particular o un conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10% de la varianza en la etiqueta se debe al conjunto de atributos, un R al cuadrado de 0.20 significa que el 20% se debe al conjunto de atributos, y así sucesivamente.

R cuadrado es el cuadrado del coeficiente de correlación de Pearson entre los valores que un modelo predijo y la verdad fundamental.

S

sesgo del muestreo

#fairness

Consulta sesgo de selección.

muestreo con reemplazo

#df

Un método de selección de elementos de un conjunto de elementos candidatos en el que el mismo elemento se puede elegir varias veces. La frase "con reemplazo" significa que, después de cada selección, el elemento seleccionado se muestra en el grupo de elementos candidatos. El método inverso, muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige al azar fig como el primer elemento. Si usas el muestreo con reemplazo, el sistema elegirá el segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig.

Si usas el muestreo sin reemplazo, una vez que se elige, no se puede volver a elegir una muestra. Por ejemplo, si el sistema selecciona al azar fig como la primera muestra, no se puede volver a elegir fig. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Haz clic en el ícono para obtener notas adicionales.

La palabra reemplazo en muestreo con reemplazo confunde a muchas personas. En inglés, replacement significa "sustitución". Sin embargo, el muestreo con reemplazo en realidad usa la definición en francés de reemplazo, que significa "devolver algo".

La palabra inglesa replacement se traduce como la palabra remplacement.

SavedModel

#TensorFlow

El formato recomendado para guardar y recuperar modelos de TensorFlow. El modelo guardado es un formato de serialización recuperable y neutral con respecto al lenguaje, que permite que los sistemas y las herramientas de nivel superior produzcan, consuman y transformen modelos de TensorFlow.

Para obtener más información, consulta la sección sobre cómo guardar y restablecer la Guía para programadores de TensorFlow.

Económico

#TensorFlow

Un objeto de TensorFlow responsable de guardar puntos de control del modelo.

escalar

Un solo número o una sola cadena que se puede representar como un tensor de rango 0. Por ejemplo, cada una de las siguientes líneas de código crea un escalar en TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

escalamiento

Cualquier transformación o técnica matemática que cambie el rango de una etiqueta o un valor de atributo. Algunas formas de escalamiento son muy útiles para las transformaciones, como la normalización.

Estas son algunas formas comunes de escalamiento útiles en el aprendizaje automático:

el escalamiento lineal, que por lo general usa una combinación de resta y división para reemplazar el valor original por un número entre -1 y +1 o entre 0 y 1.
escala logarítmica, que reemplaza el valor original por su logaritmo.
Normalización de puntuación Z, que reemplaza el valor original por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo.

scikit-learn

Plataforma popular de aprendizaje automático de código abierto. Consulta scikit-learn.org.

puntuación

#recsystems

Es la parte de un sistema de recomendación que proporciona un valor o una clasificación para cada elemento producido en la fase de generación de candidatos.

sesgo de selección

#fairness

Errores en las conclusiones que se extraen de los datos muestreados debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las siguientes formas de sesgo de selección:

sesgo de cobertura: La población representada en el conjunto de datos no coincide con la población sobre la que el modelo de aprendizaje automático realiza predicciones.
sesgo muestral: Los datos no se recolectan de forma aleatoria del grupo objetivo.
sesgo de no respuesta (también llamado sesgo de participación): Los usuarios de ciertos grupos rechazan realizar encuestas con frecuencias diferentes que los usuarios de otros grupos.

Por ejemplo, supongamos que creas un modelo de aprendizaje automático que predice qué disfrutan las personas de una película. Para recopilar datos de entrenamiento, entregas una encuesta a todos los que están en la primera fila de un cine que proyecta la película. A primera vista, esto puede parecer una forma razonable de recopilar un conjunto de datos; sin embargo, esta forma de recopilación de datos puede introducir las siguientes formas de sesgo de selección:

sesgo de cobertura: Cuando se toma una muestra de una población que eligió ver la película, es posible que las predicciones de tu modelo no generalicen a las personas que aún no expresaron ese nivel de interés en la película.
sesgo del muestreo: En lugar de realizar un muestreo aleatorio de la población prevista (todas las personas en la película), solo se tomaron muestras de las personas en la primera fila. Es posible que las personas sentadas en la primera fila estén más interesadas en la película que las que están en otras filas.
sesgo de no respuesta: En general, las personas con opiniones sólidas tienden a responder a las encuestas opcionales con mayor frecuencia que las personas con opiniones leves. Dado que la encuesta de la película es opcional, es más probable que las respuestas formen una distribución bimodal en lugar de una distribución normal (en forma de campana).

autoatención (también llamada capa de autoatención)

#language

Capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones de token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida se construye mediante la integración de la información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de autoatención se refiere a la secuencia que asiste a sí misma en lugar de a algún otro contexto. La autoatención es uno de los componentes principales de Transformers y usa una terminología de búsqueda de diccionario, como "consulta", "clave" y "valor".

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada de una palabra puede ser una incorporación simple. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra respecto de cada elemento en toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba demasiado cansado.

En la siguiente ilustración (de Transformer: Una novedosa arquitectura de red neuronal para la comprensión del lenguaje), se muestra el patrón de atención de una capa de autoatención para el pronombre it, donde la oscuridad de cada línea indica cuánto contribuye cada palabra a la representación:

La siguiente oración aparece dos veces: El animal no cruzó la calle porque estaba demasiado cansado. Las líneas conectan el pronombre en una oración con cinco tokens (The, animal, street, it y el punto) en la otra oración. La línea entre el pronombre it
y la palabra animal es más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "ella". En este caso, la capa de atención aprendió a destacar palabras a las que esta podría referirse, asignando el peso más alto a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.

Consulta también la atención y la autoatención de varios cabezales.

aprendizaje autosupervisado

Una familia de técnicas para convertir un problema de aprendizaje automático no supervisado en un problema de aprendizaje automático supervisado mediante la creación de etiquetas subrogadas a partir de ejemplos sin etiqueta.

Algunos modelos basados en Transformer, como BERT, usan aprendizaje autosupervisado.

El entrenamiento autosupervisado es un enfoque de aprendizaje semisupervisado.

autoentrenamiento

Variante del aprendizaje autosupervisado que es particularmente útil cuando se cumplen todas las siguientes condiciones:

La proporción entre los ejemplos sin etiqueta y los ejemplos etiquetados en el conjunto de datos es alta.
Este es un problema de clasificación.

El autoentrenamiento funciona mediante la iteración en los siguientes dos pasos hasta que el modelo deja de mejorar:

Usa el aprendizaje automático supervisado para entrenar un modelo con los ejemplos etiquetados.
Usa el modelo creado en el paso 1 para generar predicciones (etiquetas) en los ejemplos sin etiqueta y mover aquellos en los que la confianza es alta a los ejemplos etiquetados con la etiqueta predicha.

Ten en cuenta que con cada iteración del paso 2 se agregan más ejemplos etiquetados para los entrenamientos del paso 1.

aprendizaje semisupervisado

Entrenamiento de un modelo con datos en el que algunos de los ejemplos de entrenamiento tienen etiquetas, pero otros no. Una técnica para el aprendizaje semisupervisado es inferir etiquetas para los ejemplos sin etiquetar y entrenar con las etiquetas inferidas para crear un modelo nuevo. El aprendizaje semisupervisado puede ser útil si es costoso obtener las etiquetas, pero los ejemplos sin etiqueta son abundantes.

El autoentrenamiento es una técnica para el aprendizaje semisupervisado.

atributo sensible

#fairness

Atributo humano que puede ser objeto de consideración especial por motivos legales, éticos, sociales o personales.

Análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo (positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, mediante la comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones en los comentarios textuales de un curso universitario para determinar en qué grado a los estudiantes les gustó o disgustó el curso en general.

modelo de secuencia

#seq

Modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el siguiente video que se mirará a partir de una secuencia de videos vistos anteriormente.

tarea de secuencia por secuencia

#language

Una tarea que convierte una secuencia de entrada de tokens en una secuencia de tokens de salida. Por ejemplo, los siguientes son dos tipos populares de tareas de secuencia por secuencia:

Traductores:
- Secuencia de entrada de muestra: "Te quiero".
- Secuencia de salida de muestra: "Je t'aime".
Búsqueda de respuestas:
- Secuencia de entrada de muestra: "¿Necesito mi auto en Nueva York?".
- Secuencia de salida de ejemplo: "No. Mantén el vehículo en casa".

modelos

Es el proceso de hacer que un modelo entrenado esté disponible para proporcionar predicciones a través de la inferencia en línea o la inferencia sin conexión.

forma (tensor)

Es la cantidad de elementos en cada dimensión de un tensor. La forma se representa como una lista de números enteros. Por ejemplo, el siguiente tensor bidimensional tiene una forma de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow usa el formato de fila mayor (estilo C) para representar el orden de las dimensiones, por lo que la forma en TensorFlow es [3,4] en lugar de [4,3]. En otras palabras, en un Tensor de TensorFlow bidimensional, la forma es [cantidad de filas, cantidad de columnas].

Una forma estática es una forma de tensor que se conoce en el tiempo de compilación.

Una forma dinámica es desconocida en el tiempo de compilación y, por lo tanto, depende de los datos del tiempo de ejecución. Este tensor puede representarse con una dimensión de marcador de posición en TensorFlow, como en [3, ?].

fragmento

#TensorFlow

#GoogleCloud

Una división lógica del conjunto de entrenamiento o del modelo. Por lo general, algún proceso crea fragmentos mediante la división de los ejemplos o los parámetros en fragmentos (por lo general) del mismo tamaño. Luego, cada fragmento se asigna a una máquina diferente.

La fragmentación de un modelo se denomina paralelismo de modelos y la fragmentación de datos se denomina paralelismo de datos.

reducción

#df

Un hiperparámetro en la potenciación de gradientes que controla el sobreajuste La reducción en el boosting de gradientes es análoga a la tasa de aprendizaje en descenso de gradientes. La reducción es un valor decimal entre 0.0 y 1.0. Un valor de reducción más bajo reduce el sobreajuste más que un valor de reducción mayor.

función sigmoidea

#fundamentals

Función matemática que "aprieta" un valor de entrada dentro de un rango restringido, generalmente de 0 a 1 o de -1 a +1. Es decir, puedes pasar cualquier número (dos, un millón, mil millones negativos, lo que sea) a una función sigmoidea, y el resultado seguirá dentro del rango restringido. Un diagrama de la función de activación sigmoidea se ve de la siguiente manera:

La función sigmoidea tiene varios usos en el aprendizaje automático, incluidos los siguientes:

Convertir el resultado sin procesar de un modelo de regresión logística o regresión multinomial en una probabilidad
Actuar como una función de activación en algunas redes neuronales

Haz clic en el ícono para ver los cálculos.

La función sigmoidea sobre un número de entrada x tiene la siguiente fórmula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En el aprendizaje automático, x suele ser una suma ponderada.

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres: métrica que se usa para determinar qué tan similares (cuán similares) son dos ejemplos cualquiera.

programa único / varios datos (SPMD)

Es una técnica de paralelismo en la que el mismo procesamiento se ejecuta en diferentes datos de entrada en paralelo en diferentes dispositivos. El objetivo de SPMD es obtener resultados más rápido. Es el estilo más común de programación paralela.

invariancia de tamaño

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a un gato si consume 2 millones de píxeles o 200,000 píxeles. Ten en cuenta que incluso los mejores algoritmos de clasificación de imágenes tienen límites prácticos sobre la invariancia de tamaño. Por ejemplo, es poco probable que un algoritmo (o una persona) clasifique correctamente una imagen de gato que consuma solo 20 píxeles.

Consulta también la invariancia traslacional y la invariancia rotacional.

esbozo

#clustering

En el aprendizaje automático no supervisado: categoría de algoritmos que realizan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y, luego, agruparlos en buckets.

El esbozo disminuye el procesamiento requerido para los cálculos de similitud en conjuntos de datos grandes. En lugar de calcular la similitud para cada par de ejemplos en el conjunto de datos, calculamos la similitud solo para cada par de puntos dentro de cada bucket.

omitir-grama

#language

Un n-grama que puede omitir (o, también, "omitir") palabras del contexto original, lo que significa que las palabras N podrían no haber sido adyacentes originalmente. De manera más precisa, un "k-skip-n-gram" es un n-grama en el que se pueden haber omitido hasta k palabras.

Por ejemplo, “el zorro marrón rápido” tiene los siguientes 2 gramos posibles:

"rápido"
“marrón rápido”
"fox marrón"

Un "1-skip-2-grama" es un par de palabras que tienen 1 palabra como máximo entre ellas. Por lo tanto, “the fast brown fox” tiene los siguientes 2-gramos de 1 omisión:

"el marrón"
“rápido zorro”

Además, todos los 2-gramas también son 1-omiten-2-gramas, ya que se puede omitir menos de una palabra.

Los Omitir gramas son útiles para entender mejor el contexto circundante de una palabra. En el ejemplo, “fox” se asoció directamente con “fast” en el conjunto de 1-skip-2-grams, pero no en el conjunto de 2-gramos.

Los Skip-gramas ayudan a entrenar modelos de incorporación de palabras.

softmax

#fundamentals

Función que determina las probabilidades para cada clase posible en un modelo de clasificación de clases múltiples. Las probabilidades suman exactamente 1,0. Por ejemplo, la siguiente tabla muestra cómo softmax distribuye varias probabilidades:

La imagen es...	Probabilidad
perro	0,85
gato	0,13
caballo	0,02

Softmax también se denomina softmax completo.

Compara esto con el muestreo de candidatos.

Haz clic en el ícono para ver los cálculos.

La ecuación de softmax es la siguiente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

En el ejemplo anterior, se ilustra lo siguiente:

$\sigma_i$ es el vector de salida. Cada elemento del vector de salida especifica la probabilidad de este elemento. La suma de todos los elementos en el vector de salida es 1.0. El vector de salida contiene la misma cantidad de elementos que el vector de entrada, $z$.
$z$ es el vector de entrada. Cada elemento del vector de entrada contiene un valor de punto flotante.
$K$ es la cantidad de elementos en el vector de entrada (y el vector de salida).

Por ejemplo, supongamos que el vector de entrada es el siguiente:

[1.2, 2.5, 1.8]

Por lo tanto, softmax calcula el denominador de la siguiente manera:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Por lo tanto, la probabilidad de softmax de cada elemento es:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Por lo tanto, el vector de salida es el siguiente:

$$\sigma = [0.154, 0.565, 0.281]$$

La suma de los tres elementos en $\sigma$ es 1.0. ¡Vaya!

ajuste de instrucciones discretas

#language

#IA generativa

Es una técnica que se usa para ajustar un modelo grande de lenguaje para una tarea en particular, sin un ajuste que requiera muchos recursos. En lugar de volver a entrenar todos los pesos del modelo, el ajuste de instrucción programable ajusta automáticamente una instrucción para lograr el mismo objetivo.

Cuando se proporciona una instrucción de texto, el ajuste de instrucción parcial por lo general agrega incorporaciones de token adicionales a la instrucción y usa la propagación inversa para optimizar la entrada.

Un mensaje "firme" contiene tokens reales en lugar de incorporaciones de token.

atributo disperso

#language

#fundamentals

atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor de 1 y un millón de valores de 0 está disperso. Por el contrario, un atributo denso tiene valores que predominantemente no son cero ni están vacíos.

En el aprendizaje automático, un número sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 especies posibles de árboles en un bosque, un solo ejemplo podría identificar solo un árbol de arce. O de los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".

Por lo general, en un modelo representas atributos dispersos con la codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre la codificación one-hot para lograr una mayor eficiencia.

representación dispersa

#language

#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 especies de árboles en un bosque en particular. Supongamos además que cada ejemplo identifica solo una especie.

Podrías usar un vector one-hot para representar las especies arbóreas en cada ejemplo. Un vector one-hot contendría un solo 1 (para representar la especie arbórea específica de ese ejemplo) y 35 0 (para representar las 35 especies arbóreas que no en ese ejemplo). Por lo tanto, la representación one-hot de maple podría verse de la siguiente manera:

Es un vector en el que las posiciones 0 a 23 contienen el valor 0, la posición 24 contiene el valor 1 y las posiciones 25 a 35 contienen el valor 0.

De manera alternativa, la representación dispersa simplemente identificaría la posición de la especie en particular. Si maple está en la posición 24, la representación dispersa de maple sería simplemente:

Ten en cuenta que la representación dispersa es mucho más compacta que la representación one-hot.

Haz clic en el ícono para ver un ejemplo un poco más complejo.

Supongamos que cada ejemplo en tu modelo debe representar las palabras de una oración en inglés, pero no el orden de esas palabras. El inglés tiene unas 170,000 palabras, por lo que es un atributo categórico con alrededor de 170,000 elementos. La mayoría de las oraciones en inglés usan una fracción extremadamente pequeña de esas 170,000 palabras, por lo que el conjunto de palabras en un solo ejemplo probablemente será datos dispersos.

Considera la siguiente oración:

My dog is a great dog

Podrías usar una variante de vector one-hot para representar las palabras de esta oración. En esta variante, varias celdas del vector pueden contener un valor distinto de cero. Además, en esta variante, una celda puede contener un número entero distinto de uno. Aunque las palabras “mi”, “es”, “un” y “grande” aparecen solo una vez en la oración, la palabra “perro” aparece dos veces. El uso de esta variante de vectores one-hot para representar las palabras de esta oración produce el siguiente vector de 170,000 elementos:

Una representación dispersa de la misma oración sería simplemente:

Si sientes confusión, haz clic en el ícono.

El término "representación dispersa" confunde a muchas personas porque la representación dispersa no es un vector disperso en sí mismo. Más bien, la representación dispersa es en realidad una representación densa de un vector disperso. La representación de índice del sinónimo es un poco más clara que la "representación dispersa".

vector disperso

#fundamentals

Vector cuyos valores son en su mayoría ceros. Consulta también el atributo disperso y la dispersión.

dispersión

El número de elementos establecidos en cero (o nulo) en un vector o matriz dividido por el número total de entradas en ese vector o matriz. Por ejemplo, considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de dispersión es el siguiente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La dispersión de atributos se refiere a la dispersión de un vector de atributos, mientras que la dispersión de modelos se refiere a la dispersión de los pesos del modelo.

reducción espacial

#image

Consulta reducción.

split

#df

En un árbol de decisión, otro nombre para una condición.

separador

#df

Durante el entrenamiento de un árbol de decisión, la rutina (y el algoritmo) responsable de encontrar la mejor condición en cada nodo.

SPMD;

Abreviatura de un solo programa / varios datos.

pérdida de bisagra al cuadrado

Cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza los valores atípicos de manera más severa que la pérdida de bisagra normal.

pérdida al cuadrado

#fundamentals

Sinónimo de pérdida L₂.

entrenamiento por etapas

#language

Es una táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilado progresivo:

La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas de la etapa 1. La etapa 3 comienza el entrenamiento con los pesos aprendidos en las 6 capas ocultas de la etapa 2.

Tres etapas, que están etiquetadas como Etapa 1, Etapa 2 y Etapa 3.
Cada etapa contiene un número diferente de capas: la etapa 1 contiene 3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
Las 3 capas de la Etapa 1 se convierten en las primeras 3 capas de la Etapa 2.
De manera similar, las 6 capas de la etapa 2 se convierten en las primeras 6 capas de la etapa 3.

Consulta también la canalización.

state

#fundamentals

Algoritmo de descenso de gradientes en el que el tamaño del lote es uno. En otras palabras, el SGD se entrena en un solo ejemplo elegido de manera uniforme y aleatoria de un conjunto de entrenamiento.

stride

#image

En una operación convolucional o de reducción, el delta en cada dimensión de la siguiente serie de porciones de entrada. Por ejemplo, la siguiente animación muestra un zancada (1,1) durante una operación convolucional. Por lo tanto, la siguiente porción de entrada comienza una posición a la derecha de la porción de entrada anterior. Cuando la operación alcanza el borde derecho, la siguiente porción se extiende a la izquierda, pero una posición hacia abajo.

En el ejemplo anterior, se muestra un stride bidimensional. Si la matriz de entrada es tridimensional, el segmento también será tridimensional.

minimización del riesgo estructural (SRM)

Un algoritmo que equilibra dos objetivos:

La necesidad de crear el modelo más predictivo (por ejemplo, con la pérdida más baja)
La necesidad de mantener el modelo lo más simple posible (por ejemplo, una regularización estricta)

Por ejemplo, una función que minimiza la pérdida + regularización en el conjunto de entrenamiento es un algoritmo de minimización del riesgo estructural.

Compara esto con la minimización del riesgo empírico.

submuestreo

#image

Consulta reducción.

token de subpalabra

#language

En los modelos de lenguaje, un token que es una subcadena de una palabra, que puede ser la palabra completa.

Por ejemplo, una palabra como “itemize” podría dividirse en las partes “item” (una palabra raíz) y “ize” (un sufijo), cada una de las cuales está representada por su propio token. Dividir las palabras poco comunes en esas partes, llamadas subpalabras, permite que los modelos de lenguaje operen en las partes constituyentes más comunes de la palabra, como los prefijos y sufijos.

Por el contrario, es posible que las palabras comunes como “ingresa” no estén divididas y se puedan representar con un solo token.

resumen

#TensorFlow

En TensorFlow, valor o conjunto de valores calculados en un paso en particular, por lo general, que se usa para hacer un seguimiento de las métricas del modelo durante el entrenamiento.

aprendizaje automático supervisado

#fundamentals

Entrenar un model a partir de model y sus model correspondientes El aprendizaje automático supervisado es análogo al aprendizaje de un tema mediante el estudio de un conjunto de preguntas y sus respuestas correspondientes. Después de dominar la asignación entre preguntas y respuestas, el estudiante puede proporcionar respuestas a preguntas nuevas (nunca antes vistas) sobre el mismo tema.

Compara esto con el aprendizaje automático no supervisado.

atributo sintético

#fundamentals

Es un atributo que no está presente entre los atributos de entrada, pero que se ensambla a partir de uno o más de ellos. Los métodos para crear atributos sintéticos incluyen los siguientes:

Agrupamiento de un atributo continuo en discretizaciones de rango.
Crear una combinación de atributos
Multiplicación (o división) de un atributo por otros atributos o por sí mismo Por ejemplo, si a y b son atributos de entrada, los siguientes son ejemplos de atributos sintéticos:
- ab
- a²
Aplicar una función trascendental al valor de un atributo Por ejemplo, si c es un atributo de entrada, los siguientes son ejemplos de atributos sintéticos:
- sin(c)
- ln(c)

Los atributos creados mediante la normalización o el escalamiento solo no se consideran atributos sintéticos.

T

T5

#language

Un modelo de aprendizaje por transferencia de texto a texto presentado por la IA de Google en 2020. T5 es un modelo de codificador-decodificador basado en la arquitectura de Transformer, entrenado con un conjunto de datos muy grande. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas de manera conversacional.

El T5 recibe su nombre de las cinco T de “Transformador de transferencia de texto a texto”.

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar modelos de procesamiento de lenguaje natural (PLN) a gran escala. T5 se implementa en la base de código T5X (que se basa en JAX y Flax).

Q-learning tabular

#rl

En el aprendizaje por refuerzo, mediante la implementación de Q-learning mediante el uso de una tabla para almacenar las funciones Q de cada combinación de state y action.

destino

Sinónimo de etiqueta.

red de destino

#rl

En el aprendizaje de Deep Q, es una red neuronal que es una aproximación estable de la red neuronal principal, donde esta implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores Q que predice la red de destino. Por lo tanto, evitas el ciclo de reacción que se produce cuando la red principal se entrena en función de los valores Q que predijo por sí misma. Si evitas estos comentarios, aumenta la estabilidad del entrenamiento.

tarea

Un problema que se puede resolver con técnicas de aprendizaje automático, como las siguientes:

clasificación
regresión
agrupamiento en clústeres
detección de anomalías

temperatura

#language

#image

#IA generativa

Un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y las propiedades preferidas de la salida del modelo. Por ejemplo, es probable que aumentes la temperatura cuando crees una aplicación que genere resultados creativos. Por el contrario, probablemente bajarías la temperatura cuando crees un modelo que clasifique imágenes o texto para mejorar la exactitud y coherencia del modelo.

#TensorFlow

Cantidad total de escalares que contiene un tensor. Por ejemplo, un tensor de [5, 10] tiene un tamaño de 50.

TensorStore

Una biblioteca para leer y escribir de manera eficiente arrays multidimensionales grandes.

condición de finalización

#rl

En el aprendizaje por refuerzo, son las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o supera un umbral de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocidos como ceros y cruces), un episodio termina cuando un jugador marca tres espacios consecutivos o cuando todos están marcados.

prueba

#df

En un árbol de decisión, otro nombre para una condición.

pérdida de prueba

#fundamentals

Una métrica que representa la pérdida de un modelo con respecto al conjunto de prueba. Cuando compilas un model, por lo general, intentas minimizar la pérdida de prueba. Esto se debe a que una pérdida de prueba baja es un indicador de mayor calidad que una pérdida de entrenamiento baja o una pérdida de validación baja.

Una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o de validación a veces sugiere que debes aumentar la tasa de regularización.

conjunto de prueba

Un subconjunto del conjunto de datos reservado para probar un modelo entrenado.

Tradicionalmente, divides los ejemplos en el conjunto de datos en los siguientes tres subconjuntos:

un conjunto de entrenamiento
un conjunto de validación
un conjunto de prueba

Cada ejemplo de un conjunto de datos debe pertenecer a solo uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento y al conjunto de prueba.

El conjunto de entrenamiento y el de validación están estrechamente vinculados al entrenamiento de un modelo. Debido a que el conjunto de prueba solo se asocia indirectamente con el entrenamiento, la pérdida de prueba es una métrica menos sesgada y de mayor calidad que la pérdida de entrenamiento o pérdida de validación.

intervalo de texto

#language

El intervalo del índice del array asociado con una subsección específica de una cadena de texto. Por ejemplo, la palabra good en la cadena s="Be good now" de Python ocupa el intervalo de texto de 3 a 6.

tf.Example

#TensorFlow

Búfer de protocolo estándar que se usa para describir datos de entrada para el entrenamiento o la inferencia de modelos de aprendizaje automático.

tf.keras

#TensorFlow

Es una implementación de Keras integrada en TensorFlow.

umbral (para árboles de decisión)

#df

En una condición alineada con el eje, es el valor con el que se compara un atributo. Por ejemplo, 75 es el valor del umbral en la siguiente condición:

grade >= 75

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren un análisis de series temporales, incluida la clasificación, el agrupamiento en clústeres, la previsión y la detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para prever las ventas futuras de abrigos de invierno por mes según los datos históricos de ventas.

Intervalo de tiempo

#seq

Una celda “desenrollada” dentro de una red neuronal recurrente. Por ejemplo, en la siguiente figura, se muestran tres pasos temporales (etiquetados con los subíndices t-1, t y t+1):

Tres pasos de tiempo en una red neuronal recurrente. La salida del primer paso se convierte en una entrada del segundo paso. La salida del segundo paso se convierte en entrada del tercer paso.

token

#language

En un modelo de lenguaje, la unidad atómica con la que el modelo se entrena y realiza predicciones. Por lo general, un token es uno de los siguientes:

una palabra, por ejemplo, la frase "dogs like cats" consta de tres tokens de palabras: "dogs", "like" y "cats".
un carácter, por ejemplo, la frase “bike Fish” consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra "perros" como dos tokens (la palabra raíz "perro" y el sufijo plural "s"). Ese mismo modelo de lenguaje podría ver la sola palabra "más alta" como dos subpalabras (la palabra raíz "alto" y el sufijo "er").

#fundamentals

Proceso de determinar los parámetros ideales (pesos y sesgos) que componen un modelo. Durante el entrenamiento, un sistema lee los ejemplos y ajusta los parámetros de forma gradual. El entrenamiento usa cada ejemplo desde unas cuantas veces hasta miles de millones de veces.

pérdida de entrenamiento

#fundamentals

Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento particular. Por ejemplo, supongamos que la función de pérdida es error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) de la iteración 10 sea 2.2 y la pérdida de entrenamiento de la iteración número 100 sea 1.9.

En una curva de pérdida, se representa la pérdida de entrenamiento frente a la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

Una pendiente descendente implica que el modelo está mejorando.
Una pendiente ascendente indica que el modelo está empeorando.
Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, se muestra la siguiente curva de pérdida un poco idealizada:

Una pendiente empinada hacia abajo durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
Una pendiente que se aplana gradualmente (pero aún baja) hasta llegar al final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales
Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

La representación de la pérdida de entrenamiento frente a las iteraciones. Esta curva de pérdida comienza con una pendiente empinada hacia abajo. La pendiente se compacta de forma gradual hasta que se vuelve cero.

Si bien la pérdida de entrenamiento es importante, consulta también la generalización.

desviación entre el entrenamiento y la entrega

#fundamentals

La diferencia entre el rendimiento de un modelo durante el entrenamiento y el rendimiento de ese mismo modelo durante la entrega.

conjunto de entrenamiento

#fundamentals

Subconjunto del conjunto de datos que se usa para entrenar un modelo.

Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos:

un conjunto de entrenamiento
un conjunto de validación
un conjunto de prueba

Lo ideal sería que cada ejemplo del conjunto de datos pertenezca solo a uno de los subconjuntos anteriores. Por ejemplo, un solo ejemplo no debe pertenecer al conjunto de entrenamiento y al conjunto de validación.

trayectoria

#rl

En el aprendizaje por refuerzo, una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, la acción, la recompensa y el siguiente estado para una transición de estado determinada.

aprendizaje por transferencia

Transferencia de información de una tarea de aprendizaje automático a otra. Por ejemplo, en el aprendizaje de tareas múltiples, un solo modelo resuelve varias tareas, como un modelo profundo que tiene diferentes nodos de resultado para distintas tareas. El aprendizaje por transferencia puede implicar la transferencia de conocimientos de la solución de una tarea más simple a una más compleja, o la transferencia de conocimientos de una tarea en la que hay más datos a otra en la que hay menos.

La mayoría de los sistemas de aprendizaje automático resuelven una única tarea. El aprendizaje por transferencia es un paso inicial hacia la inteligencia artificial, en la que un solo programa puede resolver múltiples tareas.

Transformer

#language

Arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida sin depender de convoluciones o redes neuronales recurrentes. Un transformador puede verse como una pila de capas de autoatención.

Un Transformer puede incluir cualquiera de los siguientes elementos:

un codificador
un decodificador
un codificador y un decodificador,

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva de la misma longitud. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la secuencia de incorporación de entrada, lo que transforma cada elemento de la secuencia en una incorporación nueva. La primera subcapa del codificador agrega información de la secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de incorporaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a las del codificador. La tercera subcapa del decodificador toma la salida del codificador y aplica el mecanismo de autoatención para recopilar información de ella.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer: Una arquitectura de red neuronal novedosa para la comprensión del lenguaje) ofrece una buena introducción a los transformadores.

invariancia traslacional

#image

En un problema de clasificación de imágenes, es la capacidad de un algoritmo para clasificar correctamente imágenes, incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el algoritmo aún puede identificar un perro, ya sea en el centro del marco o en el extremo izquierdo.

Consulta también la invariancia de tamaño y la invariancia rotacional.

trigrama

#seq

#fundamentals

Producir un model con una capacidad predictiva deficiente debido a que el modelo no ha capturado por completo la complejidad de los datos de entrenamiento. Muchos problemas pueden causar el subajuste, incluidos los siguientes:

Entrenar con el conjunto incorrecto de atributos
Entrenamiento durante muy pocos ciclos de entrenamiento o con una tasa de aprendizaje demasiado baja.
Entrenamiento con una tasa de regularización demasiado alta
Proporcionar muy pocas capas ocultas en una red neuronal profunda.

submuestreo

Quitar ejemplos de la clase mayor en un conjunto de datos con desequilibrio de clases para crear un conjunto de entrenamiento más equilibrado

Por ejemplo, considera un conjunto de datos en el que la proporción entre la clase mayoritaria y la clase minoritaria es 20:1. Para superar este desequilibrio de clases, puedes crear un conjunto de entrenamiento que conste de todos los ejemplos de clases minoritarias, pero solo una décima parte de las clases mayoritarias, lo que crearía una proporción de clases de entrenamiento de 2:1. Gracias al submuestreo, este conjunto de entrenamiento más equilibrado puede producir un mejor modelo. De manera alternativa, este conjunto de entrenamiento más equilibrado puede contener ejemplos insuficientes para entrenar un modelo eficaz.

Compara esto con el sobremuestreo.

unidireccional

#language

Es un sistema que solo evalúa el texto que antecede a una sección objetivo del texto. En cambio, un sistema bidireccional evalúa tanto el texto que antecede y sigue una sección objetivo del texto. Consulta bidireccional para obtener más detalles.

modelo unidireccional de lenguaje

#language

Es un modelo de lenguaje que basa sus probabilidades solo en los tokens que aparecen antes, no después de los tokens objetivo. Compara esto con el modelo bidireccional de lenguaje.

ejemplo sin etiqueta

#fundamentals

Un ejemplo que contiene atributos, pero no etiqueta. Por ejemplo, en la siguiente tabla se muestran tres ejemplos sin etiqueta de un modelo de valoración de casas, cada uno con tres atributos, pero sin valor de viviendas:

Cantidad de dormitorios	Cantidad de baños	Antigüedad de la casa
3	2	15
2	1	72
4	2	34

En el aprendizaje automático supervisado, los modelos se entrenan con ejemplos etiquetados y realizan predicciones con ejemplos sin etiqueta.

En el aprendizaje semisupervisado y no supervisado, los ejemplos sin etiqueta se usan durante el entrenamiento.

Compara el ejemplo sin etiqueta con el ejemplo etiquetado.

aprendizaje automático no supervisado

#clustering

#fundamentals

Entrenamiento de un model para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es agrupar en clústeres los datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones en función de varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento en clústeres puede ser útil cuando las etiquetas útiles son escasas o faltan. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.

Haz clic en el ícono para obtener notas adicionales.

Otro ejemplo de aprendizaje automático no supervisado es el análisis de componentes principales (ACP). Por ejemplo, la aplicación de ACP en un conjunto de datos que contiene el contenido de millones de carritos de compras podría revelar que los carritos de compras que contienen limones con frecuencia también contienen antiácidos.

modelado de aumento

Una técnica de modelado, de uso general en marketing, que modela el “efecto causal” (también conocido como el “impacto incremental”) de un “tratamiento” en una “persona”. Estos son dos ejemplos:

Los médicos pueden usar el modelado de aumento para predecir la disminución de la mortalidad (efecto causal) de un procedimiento médico (tratamiento) según la edad y los antecedentes médicos de un paciente (individual).
Los especialistas en marketing pueden usar el modelado de aumento para predecir el aumento en la probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona (persona).

El modelado de aumento difiere de la clasificación o la regresión en el sentido de que algunas etiquetas (por ejemplo, la mitad de las etiquetas en tratamientos binarios) siempre faltan en el modelado de aumento. Por ejemplo, un paciente puede recibir o no un tratamiento. Por lo tanto, solo podemos observar si sanará o no solo en una de estas dos situaciones (pero nunca en ambas). La ventaja principal de un modelo de mejora es que puede generar predicciones para la situación no observada (lo contrafáctico) y usarlo para calcular el efecto causal.

subiendo la ponderación

Aplicación de un peso a la clase con reducción de muestreo igual al factor por el que se realizó la reducción de muestreo.

matriz de usuarios

#recsystems

En los sistemas de recomendación, es un vector de incorporación generado por la factorización de matrices que contiene indicadores latentes sobre las preferencias del usuario. Cada fila de la matriz de usuarios contiene información sobre la intensidad relativa de varios indicadores latentes para un solo usuario. Por ejemplo, piensa en un sistema de recomendación de películas. En este sistema, las señales latentes de la matriz de usuarios pueden representar el interés de cada usuario en géneros particulares o pueden ser señales más difíciles de interpretar que impliquen interacciones complejas entre varios factores.

La matriz de usuarios tiene una columna para cada atributo latente y una fila para cada usuario. Es decir, la matriz de usuarios tiene la misma cantidad de filas que la matriz objetivo que se factoriza. Por ejemplo, en un sistema de recomendación de películas para 1,000,000 de usuarios, la matriz de usuarios tendrá 1,000,000 de filas.

V

la validación de políticas

#fundamentals

Es la evaluación inicial de la calidad de un modelo. La validación comprueba la calidad de las predicciones de un modelo en comparación con el conjunto de validación.

Debido a que el conjunto de validación difiere del conjunto de entrenamiento, la validación ayuda a protegerse contra el sobreajuste.

Puedes pensar en evaluar el modelo con el conjunto de validación como la primera ronda de prueba y evaluar el modelo con el conjunto de prueba como la segunda ronda de pruebas.

pérdida de validación

#fundamentals

Una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración particular de entrenamiento.

Consulta también la curva de generalización.

conjunto de validación

#fundamentals

Subconjunto del conjunto de datos que realiza la evaluación inicial contra un modelo entrenado. Por lo general, debes evaluar el modelo entrenado con el conjunto de validación varias veces antes de evaluarlo con el conjunto de prueba.

Tradicionalmente, divides los ejemplos del conjunto de datos en los siguientes tres subconjuntos:

un conjunto de entrenamiento
un conjunto de validación
un conjunto de prueba

asignación de valor

El proceso de reemplazar un valor faltante por un sustituto aceptable. Cuando falta un valor, puedes descartar el ejemplo completo o puedes usar la asignación de valores para recuperar el ejemplo.

Por ejemplo, considera un conjunto de datos que contiene un atributo temperature que se supone que se registra cada hora. Sin embargo, la lectura de la temperatura no estuvo disponible durante una hora en particular. Esta es una sección del conjunto de datos:

Marca de tiempo	Temperatura
1680561000	10
1680564600	12
1680568200	faltante
1680571800	20
1680575400	21
1680579000	21

Un sistema podría borrar el ejemplo faltante o imputar la temperatura faltante a 12, 16, 18 o 20, según el algoritmo de asignación.

problema de desvanecimiento del gradiente

#seq

Es la tendencia de que los gradientes de las capas ocultas iniciales de algunas redes neuronales profundas se vuelvan sorprendentemente planos (bajos). Los gradientes cada vez más bajos generan cambios cada vez más pequeños en los pesos de los nodos de una red neuronal profunda, lo que lleva a poco o nada de aprendizaje. Los modelos que sufren el problema de desvanecimiento del gradiente se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo de larga duración solucionan este problema.

Compara con el problema de gradiente con alto crecimiento.

importancias variables

#df

Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.

Por ejemplo, considera un árbol de decisión que calcule precios de viviendas. Supongamos que este árbol de decisión usa tres características: tamaño, edad y estilo. Si se calcula que un conjunto de importancias variables para los tres atributos es {size=5.8, age=2.5, style=4.7}, el tamaño es más importante que la edad o el estilo para el árbol de decisión.

Existen diferentes métricas de importancia variable, que pueden informar a los expertos en AA sobre los diferentes aspectos de los modelos.

codificador automático variacional (VAE)

#language

Es un tipo de codificador automático que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los codificadores automáticos variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional, una técnica para estimar los parámetros de un modelo de probabilidad.

vector

Término muy sobrecargado cuyo significado varía en los diferentes campos matemáticos y científicos. Dentro del aprendizaje automático, un vector tiene dos propiedades:

Tipo de datos: los vectores en el aprendizaje automático suelen contener números de punto flotante.
Cantidad de elementos: Es la longitud o su dimensión del vector.

Por ejemplo, considera un vector de atributos que contiene ocho números de punto flotante. Este vector de atributos tiene una longitud o dimensión de ocho. Ten en cuenta que los vectores de aprendizaje automático suelen tener una gran cantidad de dimensiones.

Puedes representar muchos tipos diferentes de información como un vector. Por ejemplo:

Cualquier posición en la superficie de la Tierra se puede representar como un vector bidimensional, en el que una dimensión es la latitud y la otra es la longitud.
Los precios actuales de cada una de las 500 acciones se pueden representar como un vector de 500 dimensiones.
Una distribución de probabilidad sobre un número finito de clases se puede representar como un vector. Por ejemplo, un sistema de clasificación multiclase que predice uno de los tres colores de salida (rojo, verde o amarillo) podría indicar que el vector (0.3, 0.2, 0.5) signifique P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Los vectores se pueden concatenar; por lo tanto, una variedad de diferentes medios se puede representar como un solo vector. Algunos modelos operan directamente en la concatenación de muchas codificaciones one-hot.

Los procesadores especializados, como las TPU, están optimizados para realizar operaciones matemáticas en vectores.

Un vector es un tensor de rango 1.

W

Pérdida de Wasserstein

Una de las funciones de pérdida de uso general en redes generativas adversarias, según la distancia del movimiento de tierra entre la distribución de los datos generados y los datos reales.

ponderación

#fundamentals

Es un valor que un modelo multiplica por otro valor. El entrenamiento es el proceso de determinar los pesos ideales de un modelo. La inferencia es el proceso de usar esos pesos aprendidos para hacer predicciones.

Haz clic en el ícono para ver un ejemplo de los pesos en un modelo lineal.

Imagina un modelo lineal con dos atributos. Supongamos que el entrenamiento determina los siguientes pesos (y sesgo):

El sesgo, b, tiene un valor de 2.2
El peso, w₁ asociado con un atributo, es 1.5.
El peso, w₂ asociado con el otro atributo, es 0.4.

Ahora, imagina un ejemplo con los siguientes valores de atributos:

El valor de un atributo, x₁, es 6.
El valor del otro atributo, x₂, es 10.

Este modelo lineal usa la siguiente fórmula para generar una predicción, y':

$$y' = b + w_1x_1 + w_2x_2$$

Por lo tanto, la predicción tiene las siguientes características:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si un peso es 0, el atributo correspondiente no contribuye al modelo. Por ejemplo, si w₁ es 0, entonces el valor de x₁ es irrelevante.

mínimos cuadrados ponderados alternos (WALS, Weighted Alternating Least Squares)

#recsystems

Un algoritmo para minimizar la función objetivo durante la factorización de matrices en los sistemas de recomendación, lo que permite una reducción de los pesos de los ejemplos faltantes. WALS minimiza el error cuadrático ponderado entre la matriz original y la reconstrucción al alternar entre la corrección de la factorización de filas y la de columnas. Cada una de estas optimizaciones puede resolverse con optimización convexa de mínimos cuadrados. Para obtener más información, consulta el curso de Sistemas de recomendación.

suma ponderada

#fundamentals

Es la suma de todos los valores de entrada relevantes multiplicados por sus ponderaciones correspondientes. Por ejemplo, supongamos que las entradas relevantes son las siguientes:

valor de entrada	peso de entrada
2	−1.3
-1	0.6
3	0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una suma ponderada es el argumento de entrada para una función de activación.

modelo amplio

Modelo lineal que generalmente tiene muchos atributos de entrada dispersos. Se hace referencia a este modelo como "amplio", ya que se trata de un tipo especial de red neuronal con una gran cantidad de entradas que se conectan directamente al nodo de salida. Los modelos amplios suelen ser más fáciles de inspeccionar y depurar que los modelos profundos. Aunque los modelos amplios no pueden expresar no linealidades a través de capas ocultas, los modelos amplios pueden usar transformaciones como la combinación de atributos y el agrupamiento en buckets para modelar no linealidades de diferentes maneras.

Compara esto con el modelo profundo.

width

Es la cantidad de neuronas en una capa particular de una red neuronal.

la sabiduría de la multitud

#df

La idea de que promediar las opiniones o estimaciones de un gran grupo de personas ("la multitud") a menudo produce resultados sorprendentemente buenos. Por ejemplo, imagina un juego en el que las personas adivinan la cantidad de gomitas empaquetadas en un frasco grande. Aunque la mayoría de las conjeturas individuales serán imprecisas, se demostró de manera empírica que el promedio de todas las suposiciones es sorprendentemente cercana al número real de gomitas en el frasco.

Los conjuntos son un software análogo de la sabiduría de la multitud. Incluso si los modelos individuales realizan predicciones extremadamente inexactas, promediar las predicciones de muchos modelos suele generar predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisión individual puede hacer predicciones deficientes, un bosque de decisión a menudo realiza muy buenas predicciones.

incorporación de palabras

#language

Representa cada palabra en un conjunto de palabras dentro de un vector de incorporación; es decir, representa cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían representaciones relativamente similares, las cuales serían muy diferentes de las representaciones de avión, anteojos de sol y pasta dental.

X

XLA (álgebra lineal acelerada)

Compilador de aprendizaje automático de código abierto para GPU, CPU y aceleradores de AA.

El compilador XLA toma modelos de frameworks de AA populares, como PyTorch, TensorFlow y JAX, y los optimiza para una ejecución de alto rendimiento en diferentes plataformas de hardware, como GPU, CPU y aceleradores de AA.

Z

aprendizaje sin ejemplos

Es un tipo de entrenamiento de aprendizaje automático en el que el modelo infiere una predicción para una tarea para la que aún no se entrenó específicamente. En otras palabras, al modelo no se le proporcionan ejemplos de entrenamiento específico de tareas, pero se le pide que realice una inferencia para esa tarea.

instrucciones sin ejemplos

#language

#IA generativa

Una instrucción que no proporciona un ejemplo de cómo quieres que responda el modelo de lenguaje grande. Por ejemplo:

Partes de una instrucción	Notas
`¿Cuál es la moneda oficial del país especificado?`	La pregunta que quieres que el LLM responda.
`India:`	Es la consulta real.

El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:

Rupia
INR
₹
Rupia hindú
La rupia
La rupia india

Todas las respuestas son correctas, aunque puede que prefieras un formato en particular.

Compara y contrasta la instrucción sin ejemplos con los siguientes términos:

instrucciones con un solo ejemplo
instrucción con ejemplos limitados

Normalización de puntuación Z

#fundamentals

Es una técnica de ajuste que reemplaza un valor de atributo sin procesar por un valor de punto flotante que representa la cantidad de desviaciones estándar de la media de ese atributo. Por ejemplo, considera un atributo cuya media es 800 y cuya desviación estándar es 100. En la siguiente tabla, se muestra cómo la normalización de la puntuación Z asignaría el valor sin procesar a su puntuación Z:

Valor sin procesar	Puntaje Z
800	0
950	+1.5
575	−2.25

El modelo de aprendizaje automático se entrena según las puntuaciones Z para ese atributo, en lugar de los valores sin procesar.