Entraîner un modèle à l'aide de Vertex AI et du SDK Python

Ce tutoriel est un guide de bout en bout qui vous explique comment utiliser le SDK Vertex AI pour Python afin de créer un modèle à entraînement personnalisé. Vous exécutez du code dans un notebook Jupyter qui utilise un conteneur Docker pour entraîner et créer le modèle. Ce tutoriel s'adresse aux data scientists qui débutent sur Vertex AI et sont familiarisés avec les notebooks, Python et le workflow de machine learning (ML).

Le processus commence à l'aide de la console Google Cloud pour créer le projet contenant votre travail. Dans votre projet, vous utilisez Vertex AI Workbench pour créer un notebook Jupyter. L'environnement de notebook est l'endroit où vous exécutez le code qui télécharge et prépare un ensemble de données, puis utilise l'ensemble de données pour créer et entraîner un modèle. À la fin du tutoriel, le modèle entraîné génère des prédictions.

L'objectif de ce tutoriel est de vous guider à travers toutes les étapes nécessaires pour créer des prédictions en moins d'une heure. L'ensemble de données utilisé est relativement petit afin que l'entraînement de votre modèle ne prenne pas beaucoup de temps. Lorsque vous aurez terminé, vous pourrez appliquer ce que vous avez appris à des ensembles de données plus volumineux. Plus votre ensemble de données est volumineux, plus vos prédictions sont précises.

Étapes du tutoriel

  1. Prérequis - créez votre compte et votre projet Google Cloud.

  2. Créer un notebook Jupyter : créez et préparez un notebook Jupyter et son environnement. Vous utilisez le notebook pour exécuter du code qui crée votre ensemble de données, crée et entraîne votre modèle et génère vos prédictions.

  3. Créer un ensemble de données - téléchargez un ensemble de données BigQuery accessible au public, puis utilisez-le pour créer un ensemble de données tabulaire Vertex AI. L'ensemble de données contient les données que vous utilisez pour entraîner le modèle.

  4. Créer un script d'entraînement - créez un script Python que vous transmettez à votre job d'entraînement. Le script s'exécute lorsque le job d'entraînement entraîne et crée votre modèle.

  5. Entraîner un modèle - utilisez votre ensemble de données tabulaire pour entraîner et déployer un modèle. Vous utilisez le modèle pour créer vos prédictions.

  6. Effectuer des prédictions - utilisez votre modèle pour créer des prédictions. Cette section explique également comment supprimer les ressources que vous créez lors de l'exécution de ce tutoriel afin d'éviter des frais inutiles.

Objectifs

Ce tutoriel vous explique comment utiliser le SDK Vertex AI pour Python pour effectuer les opérations suivantes :

  • Créer un bucket Cloud Storage pour stocker un ensemble de données
  • Prétraiter les données pour l'entraînement
  • Utiliser les données traitées pour créer un ensemble de données dans BigQuery
  • Utiliser l'ensemble de données BigQuery pour créer un ensemble de données tabulaire Vertex AI
  • Créer et entraîner un modèle personnalisé
  • Déployer le modèle personnalisé sur un point de terminaison
  • Générer une prédiction
  • Annuler le déploiement du modèle
  • Supprimer toutes les ressources créées dans le tutoriel pour éviter des frais supplémentaires.

Ressources facturables utilisées

Ce tutoriel utilise des ressources facturables associées aux services Google Cloud Vertex AI, BigQuery et Cloud Storage. Si vous débutez sur Google Cloud, vous pouvez peut-être utiliser un ou plusieurs de ces services sans frais. Vertex AI offre 300 $ de crédits gratuits aux nouveaux clients, et Cloud Storage et BigQuery proposent également des versions gratuites. Pour en savoir plus, consultez les ressources suivantes :

Pour éviter des frais supplémentaires, la dernière étape de ce tutoriel vous explique comment supprimer toutes les ressources Google Cloud facturables que vous avez créées.