Prepara i dati di addestramento testo per l'estrazione delle entità

Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati Vertex AI per addestrare un modello di estrazione di entità.

I dati di addestramento per l'estrazione delle entità sono costituiti da documenti annotati con le etichette che identificano i tipi di entità che vuoi che il modello identificare. Ad esempio, potresti creare un modello di estrazione di entità per identificare terminologia specializzata in documenti legali o brevetti. Le annotazioni specificano le posizioni delle entità che stai etichettando e le etichette stesse.

Se stai annotando documenti strutturati o semistrutturati per un set di dati utilizzato per addestrare modelli AutoML come fatture o contratti, Vertex AI può prendere in considerazione posizione nella pagina come fattore che contribuisce a creare un'etichetta appropriata. Per Ad esempio, un contratto immobiliare ha sia una data di accettazione che una data. Vertex AI può imparare a distinguere tra le entità in base alla posizione spaziale dell'annotazione.

Requisiti dei dati

  • Devi fornire almeno 50 e non più di 100.000 documenti di addestramento.
  • Devi fornire almeno 1 etichetta univoca e non più di 100 per annotare le entità che vuoi estrarre.
  • Puoi utilizzare un'etichetta per annotare da 1 a 10 parole.
  • I nomi delle etichette possono contenere da 2 a 30 caratteri.
  • Puoi includere annotazioni nei file JSON Lines oppure aggiungere annotations in un secondo momento utilizzando la console Google Cloud dopo aver caricato i documenti.
  • Puoi includere documenti in linea o file TXT di riferimento che si trovano nei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti suggerimenti si applicano ai set di dati utilizzati per l'addestramento AutoML.

  • Utilizza ogni etichetta almeno 200 volte nel set di dati di addestramento.
  • Annota ogni occorrenza delle entità che vuoi che il modello identifichi.

File di input

I tipi di file di input per l'estrazione delle entità devono essere JSON Lines. Il campo Formato e i tipi di valore dei file JSON Lines sono determinati da un file di schema, quale sono file YAML accessibili pubblicamente.

Puoi scaricare il file di schema per l'estrazione delle entità dai seguenti file Percorso di Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.

L'esempio seguente mostra come utilizzare lo schema per creare proprio file JSON Lines. L'esempio include interruzioni di riga per favorire la leggibilità. Nel tuo nei file JSON, includi le interruzioni di riga solo dopo ogni documento. Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Puoi anche aggiungere annotazioni ai documenti utilizzando la console Google Cloud. Crea un file JSON Lines contenente solo contenuti (senza il campo textSegmentAnnotations); vengono caricati su Vertex AI senza annotazioni.