Questa pagina è stata tradotta dall'API Cloud Translation.

Specifica di uno schema

BigQuery consente di specificare lo schema di una tabella quando carichi i dati in una tabella e quando crei una tabella vuota. In alternativa, puoi utilizzare il rilevamento automatico dello schema per i formati di dati supportati.

Quando carichi file di esportazione Avro, Parquet, ORC, Firestore o di esportazione Datastore, lo schema viene recuperato automaticamente dai dati di origine autodescrittivi.

Puoi specificare lo schema di una tabella nei seguenti modi:

Utilizzare la console Google Cloud.
Utilizza l'istruzione SQL CREATE TABLE.
Incorpora utilizzando lo strumento a riga di comando bq.
Crea un file di schema in formato JSON.
Chiama il metodo jobs.insert e configura la proprietà schema nella configurazione del job load.
Chiama il metodo tables.insert e configura lo schema nella risorsa della tabella utilizzando la proprietà schema.

Dopo aver caricato i dati o creato una tabella vuota, puoi modificare la definizione dello schema della tabella.

Componenti dello schema

Quando specifichi uno schema di tabella, devi indicare il nome e il tipo di dati di ogni colonna. Puoi anche fornire la descrizione, la modalità e il valore predefinito di una colonna.

Nomi delle colonne

Il nome di una colonna può contenere lettere (a-z, A-Z), numeri (0-9) o trattini bassi (_) e deve iniziare con una lettera o un trattino basso. Se utilizzi nomi di colonna flessibili, BigQuery supporta l'inizio di un nome di colonna con un numero. Presta attenzione quando inizi le colonne con un numero, poiché l'utilizzo di nomi di colonna flessibili con l'API BigQuery Storage Read o l'API BigQuery StorageWrite richiede una gestione speciale. Per ulteriori informazioni sul supporto dei nomi di colonna flessibili, consulta nomi di colonna flessibili.

I nomi delle colonne hanno una lunghezza massima di 300 caratteri. I nomi di colonna non possono utilizzare uno dei seguenti prefissi:

_TABLE_
_FILE_
_PARTITION
_ROW_TIMESTAMP
__ROOT__
_COLIDENTIFIER

Non sono consentiti nomi di colonna duplicati anche se l'uso delle maiuscole e delle minuscole è diverso. Ad esempio, una colonna denominata Column1 è considerata identica a una colonna denominata column1. Per scoprire di più sulle regole di denominazione delle colonne, consulta Nomi delle colonne nella documentazione di riferimento di GoogleSQL.

Se il nome di una tabella (ad esempio test) corrisponde ai nomi di una colonna (ad esempio test), l'espressione SELECT interpreta la colonna test come STRUCT contenente tutte le altre colonne della tabella. Per evitare il conflitto, utilizza uno dei seguenti metodi:

Evita di utilizzare lo stesso nome per una tabella e le sue colonne.
Assegna alla tabella un alias diverso. Ad esempio, la seguente query assegna un alias di tabella t alla tabella project1.dataset.test:
```
SELECT test FROM project1.dataset.test AS t;
```
Includi il nome della tabella quando fai riferimento a una colonna. Ad esempio:
```
SELECT test.test FROM project1.dataset.test;
```

Nomi delle colonne flessibili

Hai maggiore flessibilità nella scelta dei nomi nelle colonne, compreso l'accesso esteso a caratteri in lingue diverse dall'inglese e a simboli aggiuntivi.

I nomi delle colonne flessibili supportano i seguenti caratteri:

Qualsiasi lettera in qualsiasi lingua, rappresentata dall'espressione regolare Unicode \p{L}.
Qualsiasi carattere numerico in qualsiasi lingua, come rappresentato dall'espressione regolare Unicode \p{N}.
Qualsiasi carattere di punteggiatura del connettore, inclusi i trattini bassi, come rappresentato dall'espressione regolare Unicode \p{Pc}.
Un trattino o un trattino come rappresentato dall'espressione regolare Unicode \p{Pd}.
Qualsiasi marchio destinato ad accompagnare un altro carattere, come rappresentato dall'espressione regolare Unicode \p{M}. Ad esempio, accenti, dieresi o contenuti che includono riquadri.
I seguenti caratteri speciali:
- Una e commerciale (&) rappresentata dall'espressione regolare Unicode \u0026.
- Un segno di percentuale (%) come rappresentato dall'espressione regolare Unicode \u0025.
- Un segno di uguale (=) come rappresentato dall'espressione regolare Unicode \u003D.
- Un segno più (+) come rappresentato dall'espressione regolare Unicode \u002B.
- I due punti (:) come rappresentati dall'espressione regolare Unicode \u003A.
- Un apostrofo (') come rappresentato dall'espressione regolare Unicode \u0027.
- Un segno di minore (<) come rappresentato dall'espressione regolare Unicode \u003C.
- Un segno di maggiore (>) come rappresentato dall'espressione regolare Unicode \u003E.
- Un segno numerico (#) come rappresentato dall'espressione regolare Unicode \u0023.
- Una riga verticale (|) rappresentata dall'espressione regolare Unicode \u007c.
- Spazio vuoto.

I nomi delle colonne flessibili non supportano i seguenti caratteri speciali:

Un punto esclamativo (!) come rappresentato dall'espressione regolare Unicode \u0021.
Una virgoletta (") come rappresentata dall'espressione regolare Unicode \u0022.
Un simbolo del dollaro ($) come rappresentato dall'espressione regolare Unicode \u0024.
Una parentesi aperta (() rappresentata dall'espressione regolare Unicode \u0028.
Una parentesi chiusa ()) rappresentata dall'espressione regolare Unicode \u0029.
Un asterisco (*) come rappresentato dall'espressione regolare Unicode \u002A.
Una virgola (,) come rappresentata dall'espressione regolare Unicode \u002C.
Un punto (.) come rappresentato dall'espressione regolare Unicode \u002E.
Una barra (/) rappresentata dall'espressione regolare Unicode \u002F.
Un punto e virgola (;) come rappresentato dall'espressione regolare Unicode \u003B.
Un punto interrogativo (?) come rappresentato dall'espressione regolare Unicode \u003F.
Una chiocciola (@) come rappresentata dall'espressione regolare Unicode \u0040.
Una parentesi quadra aperta ([) come rappresentata dall'espressione regolare Unicode \u005B.
Una barra rovesciata (\) come rappresentata dall'espressione regolare Unicode \u005C.
Una parentesi quadra chiusa (]) come rappresentata dall'espressione regolare Unicode \u005D.
Un accento circonflesso (^) come rappresentato dall'espressione regolare Unicode \u005E.
Un accento grave (`) come rappresentato dall'espressione regolare Unicode \u0060.
Una parentesi graffa aperta {{) come rappresentata dall'espressione regolare Unicode \u007B.
Una parentesi graffa chiusa (}) come rappresentata dall'espressione regolare Unicode \u007D.
Una tilde (~) rappresentata dall'espressione regolare Unicode \u007E.

Per ulteriori linee guida, consulta Nomi delle colonne.

I caratteri della colonna espansi sono supportati sia dall'API BigQuery Storage Read che dall'API BigQuery Storage Scrivi. Per utilizzare l'elenco espanso di caratteri Unicode con l'API BigQuery Storage Read, devi impostare un flag. Puoi utilizzare l'attributo displayName per recuperare il nome della colonna. L'esempio seguente mostra come impostare un flag con il client Python:

from google.cloud.bigquery_storage import types
requested_session = types.ReadSession()

#set avro serialization options for flexible column.
options = types.AvroSerializationOptions()
options.enable_display_name_attribute = True
requested_session.read_options.avro_serialization_options = options

Per utilizzare l'elenco espanso di caratteri Unicode con l'API BigQuery StorageWrite, devi fornire lo schema con la notazione column_name, a meno che tu non stia utilizzando l'oggetto writer JsonStreamWriter. L'esempio seguente mostra come fornire lo schema:

syntax = "proto2";
package mypackage;
// Source protos located in github.com/googleapis/googleapis
import "google/cloud/bigquery/storage/v1/annotations.proto";

message FlexibleSchema {
  optional string item_name_column = 1
  [(.google.cloud.bigquery.storage.v1.column_name) = "name-列"];
  optional string item_description_column = 2
  [(.google.cloud.bigquery.storage.v1.column_name) = "description-列"];
}

In questo esempio, item_name_column e item_description_column sono nomi segnaposto che devono essere conformi alla convenzione di denominazione per il buffer di protocollo. Tieni presente che le annotazioni column_name hanno sempre la precedenza sui nomi dei segnaposto.

Il caricamento dei dati Parquet non supporta i nomi flessibili delle colonne per impostazione predefinita. Per registrarti a questa anteprima, compila il modulo di registrazione. Tieni presente che dopo la registrazione all'anteprima, eventuali nomi di colonna non validi (ad esempio, regole di confronto dei nomi di colonna) restituiscono un errore. Per i progetti non registrati, la richiesta di caricamento sostituisce i caratteri non validi con trattini bassi, invece di restituire un errore.
Per impostazione predefinita, il caricamento dei dati CSV tramite il rilevamento automatico dello schema non supporta i nomi flessibili delle colonne. Per registrarti a questa anteprima, compila il modulo di registrazione. Tieni presente che dopo la registrazione all'anteprima, eventuali nomi di colonna non validi (ad esempio, regole di confronto dei nomi di colonna) restituiscono un errore. Per i progetti non registrati, la richiesta di caricamento sostituisce i caratteri non validi con trattini bassi anziché restituire un errore.

Limitazioni

I nomi delle colonne flessibili non sono supportati con le tabelle esterne.

Descrizioni delle colonne

Ogni colonna può includere una descrizione facoltativa. La descrizione è una stringa con una lunghezza massima di 1024 caratteri.

Valori predefiniti

Il valore predefinito per una colonna deve essere un valore letterale o una delle seguenti funzioni:

Tipi di dati GoogleSQL

GoogleSQL ti consente di specificare i seguenti tipi di dati nello schema. Il tipo di dati è obbligatorio.

Nome	Tipo di dati	Descrizione
Numero intero	`INT64`	Valori numerici senza componenti frazionari
Virgola mobile	`FLOAT64`	Approssimare valori numerici con componenti frazionari
Numerico	`NUMERIC`	Valori numerici esatti con componenti frazionari
BigNumeric	`BIGNUMERIC`	Valori numerici esatti con componenti frazionari
Booleano	`BOOL`	TRUE o FALSE (senza distinzione tra maiuscole e minuscole)
Stringa	`STRING`	Dati Unicode (caratteri a lunghezza variabile)
Byte	`BYTES`	Dati binari di lunghezza variabile
Date	`DATE`	Una data di calendario logica
Data/Ora	`DATETIME`	Un anno, mese, giorno, ora, minuto, secondo e sottosecondo
Ora	`TIME`	Un'ora, indipendente da una data specifica
Timestamp	`TIMESTAMP`	Un momento assoluto, con una precisione in microsecondi
Struct (record)	`STRUCT`	Contenitore di campi ordinati, ciascuno con un tipo (obbligatorio) e un nome di campo (facoltativo)
Area geografica	`GEOGRAPHY`	Un insieme di punti sulla superficie terrestre (un insieme di punti, linee e poligoni sullo sferoide di riferimento WGS84, con bordi geodetici)
JSON	`JSON`	Rappresenta JSON, un formato di interscambio dati leggero
RANGE (anteprima)	`RANGE`	Un intervallo di valori `DATE`, `DATETIME` o `TIMESTAMP`

Per ulteriori informazioni sui tipi di dati in GoogleSQL, consulta Tipi di dati di GoogleSQL.

Puoi anche dichiarare un tipo di array quando esegui query sui dati. Per maggiori informazioni, vedi Utilizzare gli array.

Modalità

BigQuery supporta le seguenti modalità per le colonne. La modalità è facoltativa. Se la modalità non è specificata, il valore predefinito della colonna è NULLABLE.

Modalità	Descrizione
Ammette valori Null	La colonna consente valori `NULL` (impostazione predefinita)
Obbligatorio	I valori `NULL` non sono consentiti
Ripetuto	La colonna contiene un array di valori del tipo specificato

Per ulteriori informazioni sulle modalità, consulta mode nella sezione TableFieldSchema.

Modalità di arrotondamento

Quando una colonna è di tipo NUMERIC o BIGNUMERIC, puoi impostare l'opzione colonna rounding_mode, che determina in che modo i valori in quella colonna vengono arrotondati quando vengono scritti nella tabella. Puoi impostare l'opzione rounding_mode in una colonna di primo livello o in un campo STRUCT. Sono supportate le seguenti modalità di arrotondamento:

"ROUND_HALF_AWAY_FROM_ZERO": questa modalità (predefinita) arrotonda le lettere maiuscole a metà strada da zero.
"ROUND_HALF_EVEN": questa modalità arrotonda i casi a metà strada verso la cifra pari più vicina.

Non puoi impostare l'opzione rounding_mode per una colonna di tipo diverso da NUMERIC o BIGNUMERIC. Per scoprire di più su questi tipi, consulta Tipi di decimali.

L'esempio seguente crea una tabella e inserisce valori arrotondati in base alla modalità di arrotondamento della colonna:

CREATE TABLE mydataset.mytable (
  x NUMERIC(5,2) OPTIONS (rounding_mode='ROUND_HALF_EVEN'),
  y NUMERIC(5,2) OPTIONS (rounding_mode='ROUND_HALF_AWAY_FROM_ZERO')
);
INSERT mydataset.mytable (x, y)
VALUES (NUMERIC "1.025", NUMERIC "1.025"),
       (NUMERIC "1.0251", NUMERIC "1.0251"),
       (NUMERIC "1.035", NUMERIC "1.035"),
       (NUMERIC "-1.025", NUMERIC "-1.025");

La tabella mytable ha il seguente aspetto:

+-------+-------+
| x     | y     |
+-------+-------+
| 1.02  | 1.03  |
| 1.03  | 1.03  |
| 1.04  | 1.04  |
| -1.02 | -1.03 |
+-------+-------+

Per maggiori informazioni, consulta roundingMode in TableFieldSchema.

Specifica gli schemi

Quando carichi i dati o crei una tabella vuota, puoi specificare lo schema della tabella utilizzando la console Google Cloud o lo strumento a riga di comando bq. La specifica di uno schema è supportata quando carichi file CSV e JSON (delimitato da nuova riga). Quando carichi dati di esportazione Avro, Parquet, ORC, Firestore o dati di esportazione Datastore, lo schema viene recuperato automaticamente dai dati di origine autodescrittivi.

Per specificare uno schema di tabella:

Console

Nella console Google Cloud, puoi specificare uno schema utilizzando l'opzione Aggiungi campo o Modifica come testo.

Nella console Google Cloud, apri la pagina BigQuery.

Vai a BigQuery
Nel riquadro Spazio di esplorazione, espandi il progetto e seleziona un set di dati.
Espandi l'opzione Azioni e fai clic su Apri.
Nel riquadro dei dettagli, fai clic su Crea tabella .
Nella pagina Crea tabella, nella sezione Origine, seleziona Tabella vuota.
Nella sezione Destinazione della pagina Crea tabella:
- Per Nome set di dati, scegli il set di dati appropriato
- Nel campo Nome tabella, inserisci il nome della tabella che stai creando.
- Verifica che l'opzione Tipo di tabella sia impostata su Tabella nativa.
Nella sezione Schema, inserisci la definizione dello schema.
- Opzione 1: utilizza Aggiungi campo e specifica il nome, il tipo e la modalità di ogni campo.
- Opzione 2: fai clic su Modifica come testo e incolla lo schema sotto forma di array JSON. Quando utilizzi un array JSON, generi lo schema seguendo la stessa procedura utilizzata per la creazione di un file di schema JSON.
Fai clic su Crea tabella.

SQL

Utilizza l'istruzione CREATE TABLE. Specifica lo schema utilizzando l'opzione colonna. L'esempio seguente crea una nuova tabella denominata newtable con colonne x, y, z di tipi interi, stringhe e booleani:

Nella console Google Cloud, vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor query, inserisci la seguente istruzione:

CREATE TABLE IF NOT EXISTS mydataset.newtable (x INT64, y STRING, z BOOL)
  OPTIONS(
    description = 'My example table');

Fai clic su Esegui.

Per ulteriori informazioni su come eseguire le query, vedi Eseguire una query interattiva.

bq

Fornisci lo schema in linea nel formato field:data_type,field:data_type utilizzando uno dei seguenti comandi:

Se carichi i dati, utilizza il comando bq load.
Se stai creando una tabella vuota, utilizza il comando bq mk.

Se specifichi lo schema nella riga di comando, non puoi includere i tipi RECORD (STRUCT) o RANGE, non puoi includere una descrizione della colonna e non puoi specificare la modalità della colonna. Tutte le modalità predefinite sono: NULLABLE. Per includere descrizioni, modalità, tipi di RECORD e tipi di RANGE, fornisci un file di schema JSON.

Per caricare i dati in una tabella utilizzando una definizione di schema in linea, inserisci il comando load e specifica il formato dei dati utilizzando il flag --source_format. Se stai caricando i dati in una tabella di un progetto diverso da quello predefinito, includi l'ID progetto nel seguente formato: project_id:dataset.table_name.

(Facoltativo) Fornisci il flag --location e imposta il valore sulla tua posizione.

bq --location=location load \
--source_format=format \
project_id:dataset.table_name \
path_to_source \
schema

Sostituisci quanto segue:

location: il nome del luogo in cui ti trovi. Il flag --location è facoltativo. Ad esempio, se utilizzi BigQuery nell'area geografica di Tokyo, puoi impostare il valore del flag su asia-northeast1. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.
format: NEWLINE_DELIMITED_JSON o CSV.
project_id: il tuo ID progetto.
dataset: il set di dati che contiene la tabella in cui vengono caricati i dati.
table_name: il nome della tabella in cui vengono caricati i dati.
path_to_source: la posizione del file di dati CSV o JSON sulla macchina locale o in Cloud Storage.
schema: la definizione dello schema incorporato.

Esempio:

Inserisci il comando seguente per caricare i dati da un file CSV locale denominato myfile.csv in mydataset.mytable nel tuo progetto predefinito. Lo schema viene specificato in linea.

bq load \
--source_format=CSV \
mydataset.mytable \
./myfile.csv \
qtr:STRING,sales:FLOAT,year:STRING

Per ulteriori informazioni sul caricamento dei dati in BigQuery, consulta Introduzione al caricamento dei dati.

Per specificare una definizione di schema in linea quando crei una tabella vuota, inserisci il comando bq mk con il flag --table o -t. Se stai creando una tabella in un progetto diverso da quello predefinito, aggiungi l'ID progetto al comando nel seguente formato: project_id:dataset.table.

bq mk --table project_id:dataset.table schema

Sostituisci quanto segue:

project_id: il tuo ID progetto.
dataset: un set di dati nel tuo progetto.
table: il nome della tabella che stai creando.
schema: una definizione di schema incorporata.

Ad esempio, il seguente comando crea una tabella vuota denominata mytable nel progetto predefinito. Lo schema è specificato in linea.

bq mk --table mydataset.mytable qtr:STRING,sales:FLOAT,year:STRING

Per saperne di più sulla creazione di una tabella vuota, consulta Creazione di una tabella vuota con una definizione di schema.

C#

Per specificare lo schema di una tabella quando carichi i dati in una tabella:

Prima di provare questo esempio, segui le istruzioni per la configurazione di C# nella guida rapida di BigQuery sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API C# di BigQuery.

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.


using Google.Apis.Bigquery.v2.Data;
using Google.Cloud.BigQuery.V2;
using System;

public class BigQueryLoadTableGcsJson
{
    public void LoadTableGcsJson(
        string projectId = "your-project-id",
        string datasetId = "your_dataset_id"
    )
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        var gcsURI = "gs://cloud-samples-data/bigquery/us-states/us-states.json";
        var dataset = client.GetDataset(datasetId);
        var schema = new TableSchemaBuilder {
            { "name", BigQueryDbType.String },
            { "post_abbr", BigQueryDbType.String }
        }.Build();
        TableReference destinationTableRef = dataset.GetTableReference(
            tableId: "us_states");
        // Create job configuration
        var jobOptions = new CreateLoadJobOptions()
        {
            SourceFormat = FileFormat.NewlineDelimitedJson
        };
        // Create and run job
        BigQueryJob loadJob = client.CreateLoadJob(
            sourceUri: gcsURI, destination: destinationTableRef,
            schema: schema, options: jobOptions);
        loadJob = loadJob.PollUntilCompleted().ThrowOnAnyError();  // Waits for the job to complete.
        // Display the number of rows uploaded
        BigQueryTable table = client.GetTable(destinationTableRef);
        Console.WriteLine(
            $"Loaded {table.Resource.NumRows} rows to {table.FullyQualifiedId}");
    }
}

Per specificare uno schema quando crei una tabella vuota:


using Google.Cloud.BigQuery.V2;

public class BigQueryCreateTable
{
    public BigQueryTable CreateTable(
        string projectId = "your-project-id",
        string datasetId = "your_dataset_id"
    )
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        var dataset = client.GetDataset(datasetId);
        // Create schema for new table.
        var schema = new TableSchemaBuilder
        {
            { "full_name", BigQueryDbType.String },
            { "age", BigQueryDbType.Int64 }
        }.Build();
        // Create the table
        return dataset.CreateTable(tableId: "your_table_id", schema: schema);
    }
}

Go

Per specificare lo schema di una tabella quando carichi i dati in una tabella:

Prima di provare questo esempio, segui le istruzioni per la configurazione di Go nella guida rapida di BigQuery sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Go di BigQuery.

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

import (
	"context"
	"fmt"

	"cloud.google.com/go/bigquery"
)

// importJSONExplicitSchema demonstrates loading newline-delimited JSON data from Cloud Storage
// into a BigQuery table and providing an explicit schema for the data.
func importJSONExplicitSchema(projectID, datasetID, tableID string) error {
	// projectID := "my-project-id"
	// datasetID := "mydataset"
	// tableID := "mytable"
	ctx := context.Background()
	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	gcsRef := bigquery.NewGCSReference("gs://cloud-samples-data/bigquery/us-states/us-states.json")
	gcsRef.SourceFormat = bigquery.JSON
	gcsRef.Schema = bigquery.Schema{
		{Name: "name", Type: bigquery.StringFieldType},
		{Name: "post_abbr", Type: bigquery.StringFieldType},
	}
	loader := client.Dataset(datasetID).Table(tableID).LoaderFrom(gcsRef)
	loader.WriteDisposition = bigquery.WriteEmpty

	job, err := loader.Run(ctx)
	if err != nil {
		return err
	}
	status, err := job.Wait(ctx)
	if err != nil {
		return err
	}

	if status.Err() != nil {
		return fmt.Errorf("job completed with error: %v", status.Err())
	}
	return nil
}

Per specificare uno schema quando crei una tabella vuota:

import (
	"context"
	"fmt"
	"time"

	"cloud.google.com/go/bigquery"
)

// createTableExplicitSchema demonstrates creating a new BigQuery table and specifying a schema.
func createTableExplicitSchema(projectID, datasetID, tableID string) error {
	// projectID := "my-project-id"
	// datasetID := "mydatasetid"
	// tableID := "mytableid"
	ctx := context.Background()

	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	sampleSchema := bigquery.Schema{
		{Name: "full_name", Type: bigquery.StringFieldType},
		{Name: "age", Type: bigquery.IntegerFieldType},
	}

	metaData := &bigquery.TableMetadata{
		Schema:         sampleSchema,
		ExpirationTime: time.Now().AddDate(1, 0, 0), // Table will be automatically deleted in 1 year.
	}
	tableRef := client.Dataset(datasetID).Table(tableID)
	if err := tableRef.Create(ctx, metaData); err != nil {
		return err
	}
	return nil
}

Java

Per specificare lo schema di una tabella quando carichi i dati in una tabella:

Prima di provare questo esempio, segui le istruzioni per la configurazione di Java nella guida rapida di BigQuery sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java di BigQuery.

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.FormatOptions;
import com.google.cloud.bigquery.Job;
import com.google.cloud.bigquery.JobInfo;
import com.google.cloud.bigquery.LoadJobConfiguration;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardSQLTypeName;
import com.google.cloud.bigquery.TableId;

// Sample to load JSON data from Cloud Storage into a new BigQuery table
public class LoadJsonFromGCS {

  public static void runLoadJsonFromGCS() {
    // TODO(developer): Replace these variables before running the sample.
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    String sourceUri = "gs://cloud-samples-data/bigquery/us-states/us-states.json";
    Schema schema =
        Schema.of(
            Field.of("name", StandardSQLTypeName.STRING),
            Field.of("post_abbr", StandardSQLTypeName.STRING));
    loadJsonFromGCS(datasetName, tableName, sourceUri, schema);
  }

  public static void loadJsonFromGCS(
      String datasetName, String tableName, String sourceUri, Schema schema) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(datasetName, tableName);
      LoadJobConfiguration loadConfig =
          LoadJobConfiguration.newBuilder(tableId, sourceUri)
              .setFormatOptions(FormatOptions.json())
              .setSchema(schema)
              .build();

      // Load data from a GCS JSON file into the table
      Job job = bigquery.create(JobInfo.of(loadConfig));
      // Blocks until this load table job completes its execution, either failing or succeeding.
      job = job.waitFor();
      if (job.isDone()) {
        System.out.println("Json from GCS successfully loaded in a table");
      } else {
        System.out.println(
            "BigQuery was unable to load into the table due to an error:"
                + job.getStatus().getError());
      }
    } catch (BigQueryException | InterruptedException e) {
      System.out.println("Column not added during load append \n" + e.toString());
    }
  }
}

Per specificare uno schema quando crei una tabella vuota:

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardSQLTypeName;
import com.google.cloud.bigquery.StandardTableDefinition;
import com.google.cloud.bigquery.TableDefinition;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableInfo;

public class CreateTable {

  public static void runCreateTable() {
    // TODO(developer): Replace these variables before running the sample.
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    Schema schema =
        Schema.of(
            Field.of("stringField", StandardSQLTypeName.STRING),
            Field.of("booleanField", StandardSQLTypeName.BOOL));
    createTable(datasetName, tableName, schema);
  }

  public static void createTable(String datasetName, String tableName, Schema schema) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(datasetName, tableName);
      TableDefinition tableDefinition = StandardTableDefinition.of(schema);
      TableInfo tableInfo = TableInfo.newBuilder(tableId, tableDefinition).build();

      bigquery.create(tableInfo);
      System.out.println("Table created successfully");
    } catch (BigQueryException e) {
      System.out.println("Table was not created. \n" + e.toString());
    }
  }
}

Python

Per specificare lo schema di una tabella quando carichi i dati in una tabella, configura la proprietà LoadJobConfig.schema.

Prima di provare questo esempio, segui le istruzioni per la configurazione di Python nella guida rapida di BigQuery sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Python di BigQuery.

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the table to create.
# table_id = "your-project.your_dataset.your_table_name"

job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("name", "STRING"),
        bigquery.SchemaField("post_abbr", "STRING"),
    ],
    source_format=bigquery.SourceFormat.NEWLINE_DELIMITED_JSON,
)
uri = "gs://cloud-samples-data/bigquery/us-states/us-states.json"

load_job = client.load_table_from_uri(
    uri,
    table_id,
    location="US",  # Must match the destination dataset location.
    job_config=job_config,
)  # Make an API request.

load_job.result()  # Waits for the job to complete.

destination_table = client.get_table(table_id)
print("Loaded {} rows.".format(destination_table.num_rows))

Per specificare uno schema quando crei una tabella vuota, configura la proprietà Table.schema.

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the table to create.
# table_id = "your-project.your_dataset.your_table_name"

schema = [
    bigquery.SchemaField("full_name", "STRING", mode="REQUIRED"),
    bigquery.SchemaField("age", "INTEGER", mode="REQUIRED"),
]

table = bigquery.Table(table_id, schema=schema)
table = client.create_table(table)  # Make an API request.
print(
    "Created table {}.{}.{}".format(table.project, table.dataset_id, table.table_id)
)

Specifica di un file di schema JSON

Se preferisci, puoi specificare lo schema utilizzando un file di schema JSON anziché una definizione di schema incorporato. Un file di schema JSON è composto da un array JSON che contiene quanto segue:

Il nome della colonna
Il tipo di dati della colonna.
Facoltativo: la modalità della colonna (se non specificata, la modalità predefinita è NULLABLE)
(Facoltativo) I campi della colonna se è di tipo STRUCT
Facoltativo: la descrizione della colonna
Facoltativo: i tag di criterio della colonna, utilizzati per il controllo dell'accesso a livello di campo
Facoltativo: la lunghezza massima dei valori della colonna per i tipi STRING o BYTES
(Facoltativo) La precisione della colonna per i tipi NUMERIC o BIGNUMERIC
(Facoltativo) La scala della colonna per i tipi NUMERIC o BIGNUMERIC
(Facoltativo) Regole di confronto della colonna per i tipi STRING
Facoltativo: il valore predefinito della colonna
Facoltativo: la modalità di arrotondamento della colonna, se la colonna è di tipo NUMERIC o BIGNUMERIC

Creazione di un file di schema JSON

Per creare un file di schema JSON, inserisci un valore TableFieldSchema per ogni colonna. I campi name e type sono obbligatori. Tutti gli altri campi sono facoltativi.

[
  {
    "name": string,
    "type": string,
    "mode": string,
    "fields": [
      {
        object (TableFieldSchema)
      }
    ],
    "description": string,
    "policyTags": {
      "names": [
        string
      ]
    },
    "maxLength": string,
    "precision": string,
    "scale": string,
    "collation": string,
    "defaultValueExpression": string,
    "roundingMode": string
  },
  {
    "name": string,
    "type": string,
    ...
  }
]

Se la colonna è di tipo RANGE<T>, utilizza il campo rangeElementType per descrivere T, dove T deve essere uno tra DATE, DATETIME o TIMESTAMP.

[
  {
    "name": "duration",
    "type": "RANGE",
    "mode": "NULLABLE",
    "rangeElementType": {
      "type": "DATE"
    }
  }
]

L'array JSON è indicato dalle parentesi iniziali e finali []. Ogni voce di colonna deve essere separata da una virgola: },.

Per scrivere uno schema di tabella esistente in un file locale:

bq

bq show \
--schema \
--format=prettyjson \
project_id:dataset.table > path_to_file

Sostituisci quanto segue:

project_id: il tuo ID progetto.
dataset: un set di dati nel tuo progetto.
table: il nome di uno schema di tabella esistente.
path_to_file: la posizione del file locale in cui stai scrivendo lo schema della tabella.

Python

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

Per scrivere un file JSON di schema da una tabella utilizzando la libreria client Python, chiama il metodo Client.schema_to_json.

from google.cloud import bigquery

client = bigquery.Client()

# TODO(dev): Change the table_id variable to the full name of the
# table you want to get schema from.
table_id = "your-project.your_dataset.your_table_name"

# TODO(dev): Change schema_path variable to the path
# of your schema file.
schema_path = "path/to/schema.json"
table = client.get_table(table_id)  # Make an API request.

# Write a schema file to schema_path with the schema_to_json method.
client.schema_to_json(table.schema, schema_path)

with open(schema_path, "r", encoding="utf-8") as schema_file:
    schema_contents = schema_file.read()

# View table properties
print(f"Got table '{table.project}.{table.dataset_id}.{table.table_id}'.")
print(f"Table schema: {schema_contents}")

Puoi utilizzare il file di output come punto di partenza per il tuo file di schema JSON. Se utilizzi questo approccio, assicurati che il file contenga solo l'array JSON che rappresenta lo schema della tabella.

Ad esempio, il seguente array JSON rappresenta uno schema di tabella di base. Questo schema ha tre colonne: qtr (REQUIRED STRING), rep (NULLABLE STRING) e sales (NULLABLE FLOAT).

[
  {
    "name": "qtr",
    "type": "STRING",
    "mode": "REQUIRED",
    "description": "quarter"
  },
  {
    "name": "rep",
    "type": "STRING",
    "mode": "NULLABLE",
    "description": "sales representative"
  },
  {
    "name": "sales",
    "type": "FLOAT",
    "mode": "NULLABLE",
    "defaultValueExpression": "2.55"
  }
]

Utilizzo di un file di schema JSON

Dopo aver creato il file di schema JSON, puoi specificarlo utilizzando lo strumento a riga di comando bq. Non puoi utilizzare un file di schema con la console Google Cloud o l'API.

Fornisci il file di schema:

Se carichi i dati, utilizza il comando bq load.
Se stai creando una tabella vuota, utilizza il comando bq mk.

Quando fornisci un file di schema JSON, questo deve essere archiviato in una posizione leggibile localmente. Non puoi specificare un file di schema JSON archiviato in Cloud Storage o Google Drive.

Specifica di un file di schema quando carichi i dati

Per caricare i dati in una tabella utilizzando una definizione di schema JSON, segui questi passaggi:

bq

bq --location=location load \
--source_format=format \
project_id:dataset.table \
path_to_data_file \
path_to_schema_file

Sostituisci quanto segue:

location: il nome del luogo in cui ti trovi. Il flag --location è facoltativo. Ad esempio, se utilizzi BigQuery nell'area geografica di Tokyo, puoi impostare il valore del flag su asia-northeast1. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.
format: NEWLINE_DELIMITED_JSON o CSV.
project_id: il tuo ID progetto.
dataset: il set di dati che contiene la tabella in cui vengono caricati i dati.
table: il nome della tabella in cui vengono caricati i dati.
path_to_data_file: la posizione del file di dati CSV o JSON sulla macchina locale o in Cloud Storage.
path_to_schema_file: il percorso del file di schema sulla tua macchina locale.

Esempio:

Inserisci il comando seguente per caricare i dati da un file CSV locale denominato myfile.csv in mydataset.mytable nel tuo progetto predefinito. Lo schema è specificato in myschema.json nella directory attuale.

bq load --source_format=CSV mydataset.mytable ./myfile.csv ./myschema.json

Python

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

Per caricare uno schema di tabella da un file JSON utilizzando la libreria client Python, chiama il metodo schema_from_json.

from google.cloud import bigquery

client = bigquery.Client()

# TODO(dev): Change uri variable to the path of your data file.
uri = "gs://your-bucket/path/to/your-file.csv"
# TODO(dev): Change table_id to the full name of the table you want to create.
table_id = "your-project.your_dataset.your_table"
# TODO(dev): Change schema_path variable to the path of your schema file.
schema_path = "path/to/schema.json"
# To load a schema file use the schema_from_json method.
schema = client.schema_from_json(schema_path)

job_config = bigquery.LoadJobConfig(
    # To use the schema you loaded pass it into the
    # LoadJobConfig constructor.
    schema=schema,
    skip_leading_rows=1,
)

# Pass the job_config object to the load_table_from_file,
# load_table_from_json, or load_table_from_uri method
# to use the schema on a new table.
load_job = client.load_table_from_uri(
    uri, table_id, job_config=job_config
)  # Make an API request.

load_job.result()  # Waits for the job to complete.

destination_table = client.get_table(table_id)  # Make an API request.
print(f"Loaded {destination_table.num_rows} rows to {table_id}.")

Specifica di un file di schema durante la creazione di una tabella

Per creare una tabella vuota in un set di dati esistente utilizzando un file di schema JSON:

bq

bq mk --table project_id:dataset.table path_to_schema_file

Sostituisci quanto segue:

project_id: il tuo ID progetto.
dataset: un set di dati nel tuo progetto.
table: il nome della tabella che stai creando.
path_to_schema_file: il percorso del file di schema sulla tua macchina locale.

Ad esempio, il seguente comando crea una tabella denominata mytable in mydataset nel progetto predefinito. Lo schema è specificato in myschema.json nella directory attuale:

bq mk --table mydataset.mytable ./myschema.json

Python

Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

Per caricare uno schema di tabella da un file JSON utilizzando la libreria client Python, chiama il metodo schema_from_json.

from google.cloud import bigquery

client = bigquery.Client()

# TODO(dev): Change table_id to the full name of the table you want to create.
table_id = "your-project.your_dataset.your_table_name"
# TODO(dev): Change schema_path variable to the path of your schema file.
schema_path = "path/to/schema.json"
# To load a schema file use the schema_from_json method.
schema = client.schema_from_json(schema_path)

table = bigquery.Table(table_id, schema=schema)
table = client.create_table(table)  # API request
print(f"Created table {table_id}.")

Specifica di uno schema nell'API

Specifica uno schema di tabella utilizzando l'API:

Per specificare uno schema quando carichi i dati, chiama il metodo jobs.insert e configura la proprietà schema nella risorsa JobConfigurationLoad.
Per specificare uno schema quando crei una tabella, chiama il metodo tables.insert e configura la proprietà schema nella risorsa Table.

La specifica di uno schema utilizzando l'API è simile alla procedura per la creazione di un file di schema JSON.

Sicurezza dei tavoli

Per controllare l'accesso alle tabelle in BigQuery, consulta Introduzione ai controlli di accesso alle tabelle.

Passaggi successivi

Scopri come specificare colonne nidificate e ripetute in una definizione di schema.
Scopri di più sul rilevamento automatico degli schemi.
Scopri di più sul caricamento dei dati in BigQuery.
Scopri di più su come creare e utilizzare le tabelle.