Questa pagina è stata tradotta dall'API Cloud Translation.

Creazione di set di dati

Questo documento descrive come creare set di dati in BigQuery.

Puoi creare set di dati nei seguenti modi:

Utilizzo della console Google Cloud.
Utilizzo di una query SQL.
Utilizzo del comando bq mk nello strumento a riga di comando bq.
Chiamata al metodo API datasets.insert.
Utilizzare le librerie client.
Copia di un set di dati esistente.

Per vedere i passaggi per copiare un set di dati, anche tra regioni diverse, consulta Copia di set di dati.

Per scoprire come eseguire query sulle tabelle in un set di dati pubblico, vedi Eseguire query su un set di dati pubblico con la console Google Cloud.

Limitazioni del set di dati

I set di dati BigQuery sono soggetti alle seguenti limitazioni:

La località del set di dati può essere impostata solo al momento della creazione. Dopo aver creato un set di dati, la relativa località non può essere modificata.
Tutte le tabelle a cui viene fatto riferimento in una query devono essere archiviate in set di dati nella stessa località.
Quando copi una tabella, i set di dati che contengono la tabella di origine e la tabella di destinazione devono risiedere nella stessa località.
I nomi dei set di dati devono essere univoci per ogni progetto.
Se modifichi il modello di fatturazione dello spazio di archiviazione di un set di dati, devi attendere 14 giorni prima di poterlo modificare di nuovo.
Non puoi registrare un set di dati per la fatturazione dell'archiviazione fisica se hai impegni legacy di slot a costo fisso legacy nella stessa regione del set di dati.

Prima di iniziare

Concedi ruoli IAM (Identity and Access Management) che concedono agli utenti le autorizzazioni necessarie per eseguire ogni attività in questo documento.

Autorizzazioni obbligatorie

Per creare un set di dati, devi disporre dell'autorizzazione IAM bigquery.datasets.create.

Ciascuno dei seguenti ruoli IAM predefiniti include le autorizzazioni necessarie per creare un set di dati:

roles/bigquery.dataEditor
roles/bigquery.dataOwner
roles/bigquery.user
roles/bigquery.admin

Per ulteriori informazioni sui ruoli IAM in BigQuery, consulta Autorizzazioni e ruoli predefiniti.

Denominare i set di dati

Quando crei un set di dati in BigQuery, il nome del set di dati deve essere univoco per ogni progetto. Il nome del set di dati può contenere quanto segue:

Può includere un massimo di 1024 caratteri.
Lettere (maiuscole o minuscole), numeri e trattini bassi.

Per impostazione predefinita, i nomi dei set di dati sono sensibili alle maiuscole. mydataset e MyDataset possono coesistere nello stesso progetto, a meno che per uno di essi non sia stata disattivata la sensibilità alle maiuscole.

I nomi dei set di dati non possono contenere spazi o caratteri speciali come -, &, @ o %.

Set di dati nascosti

Un set di dati nascosto è un set di dati il cui nome inizia con un trattino basso. Puoi eseguire query su tabelle e viste in set di dati nascosti, proprio come faresti in qualsiasi altro set di dati. I set di dati nascosti hanno le seguenti restrizioni:

Questi vengono nascosti nel riquadro Explorer della console Google Cloud.
Non compaiono in nessuna visualizzazione di INFORMATION_SCHEMA.
Non possono essere utilizzati con set di dati collegati.
Non vengono visualizzati in Data Catalog.

Creazione di set di dati

Per creare un set di dati:

Console

Apri la pagina BigQuery nella console Google Cloud.

Vai alla pagina di BigQuery
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Espandi l'opzione Azioni e fai clic su Crea set di dati.
Nella pagina Crea set di dati:
- In ID set di dati, inserisci il nome univoco del set di dati.
- In Tipo di località, scegli una posizione geografica per il set di dati. Dopo aver creato un set di dati, la località non può essere modificata.
  
  Nota: se scegli EU o una regione basata sull'UE come località del set di dati, i dati principali dei clienti BigQuery si trovano nell'UE. I dati principali dei clienti BigQuery sono definiti nei Termini specifici dei servizi.
- (Facoltativo) Se vuoi che le tabelle in questo set di dati scadano, seleziona Abilita scadenza della tabella , quindi specifica l'età massima predefinita per la tabella in giorni.
  
  Nota: se il progetto non è associato a un account di fatturazione, BigQuery imposta automaticamente la scadenza predefinita della tabella per i set di dati che crei nel progetto. Puoi specificare una scadenza predefinita per la tabella più breve per un set di dati, ma non puoi specificare una scadenza più lunga per la tabella predefinita.
- (Facoltativo) Se vuoi utilizzare una chiave di crittografia gestita dal cliente (CMEK), espandi Opzioni avanzate e seleziona Chiave di crittografia gestita dal cliente (CMEK).
- (Facoltativo) Se vuoi utilizzare nomi delle tabelle senza distinzione tra maiuscole e minuscole, espandi Opzioni avanzate, quindi seleziona Attiva nomi delle tabelle senza distinzione tra maiuscole e minuscole.
- (Facoltativo) Se vuoi utilizzare le regole di confronto predefinite, espandi Opzioni avanzate, seleziona Attiva le regole di confronto predefinite e poi la Collazione predefinita da utilizzare.
- (Facoltativo) Se vuoi utilizzare una modalità di arrotondamento predefinita, espandi Opzioni avanzate, quindi seleziona la Modalità di arrotondamento predefinita.
- (Facoltativo) Se vuoi abilitare il modello di fatturazione dell'archiviazione fisica, espandi Opzioni avanzate, quindi seleziona Abilita il modello di fatturazione dell'archiviazione fisica.
  
  Quando cambi il modello di fatturazione di un set di dati, sono necessarie 24 ore prima che la modifica abbia effetto.
  
  Una volta modificato il modello di fatturazione dello spazio di archiviazione di un set di dati, devi attendere 14 giorni prima di poterlo modificare di nuovo.
- (Facoltativo) Se vuoi impostare la finestra di spostamento cronologico del set di dati, espandi Opzioni avanzate e seleziona la finestra di spostamento cronologico da utilizzare.
- Fai clic su Crea set di dati.

SQL

Utilizza l'istruzione CREATE SCHEMA.

Per creare un set di dati in un progetto diverso da quello predefinito, aggiungi l'ID progetto all'ID del set di dati nel seguente formato: PROJECT_ID.DATASET_ID.

Nella console Google Cloud, vai alla pagina BigQuery.

Vai a BigQuery
Nell'editor query, inserisci la seguente istruzione:
```
CREATE SCHEMA PROJECT_ID.DATASET_ID
  OPTIONS (
    default_kms_key_name = 'KMS_KEY_NAME',
    default_partition_expiration_days = PARTITION_EXPIRATION,
    default_table_expiration_days = TABLE_EXPIRATION,
    description = 'DESCRIPTION',
    labels = [('LABEL_1','VALUE_1'),('LABEL_2','VALUE_2')],
    location = 'LOCATION',
    max_time_travel_hours = HOURS,
    storage_billing_model = BILLING_MODEL);
```
Sostituisci quanto segue:
- PROJECT_ID: il tuo ID progetto
- DATASET_ID: l'ID del set di dati che stai creando
- KMS_KEY_NAME: il nome della chiave predefinita di Cloud Key Management Service utilizzata per proteggere le tabelle appena create in questo set di dati, a meno che al momento della creazione non venga fornita una chiave diversa. Non puoi creare una tabella criptata da Google in un set di dati con questo set di parametri.
- PARTITION_EXPIRATION: la durata predefinita (in giorni) per le partizioni nelle tabelle partizionate appena create. La scadenza predefinita della partizione non ha un valore minimo. La scadenza corrisponde alla data della partizione più il valore intero. Qualsiasi partizione creata in una tabella partizionata nel set di dati viene eliminata PARTITION_EXPIRATION giorni dopo la data della partizione. Se fornisci l'opzione time_partitioning_expiration quando crei o aggiorni una tabella partizionata, la scadenza della partizione a livello di tabella ha la precedenza su quella predefinita a livello di set di dati.
- TABLE_EXPIRATION: la durata predefinita (in giorni) delle tabelle appena create. Il valore minimo è 0,042 giorni (un'ora). La scadenza corrisponde all'ora attuale più il valore intero. Qualsiasi tabella creata nel set di dati viene eliminata TABLE_EXPIRATION giorni dopo l'ora di creazione. Questo valore viene applicato se non imposti una scadenza per la tabella quando crei la tabella.
- DESCRIPTION: una descrizione del set di dati
- LABEL_1:VALUE_1: la coppia chiave-valore che vuoi impostare come prima etichetta in questo set di dati
- LABEL_2:VALUE_2: la coppia chiave-valore che vuoi impostare come seconda etichetta
- LOCATION: la località del set di dati. Dopo aver creato un set di dati, la località non può essere modificata.
  Nota: se scegli EU o una regione basata sull'UE come località del set di dati, i dati principali dei clienti BigQuery si trovano nell'UE. I dati principali dei clienti BigQuery sono definiti nei Termini specifici dei servizi.
- HOURS: la durata in ore della finestra di spostamento cronologico per il nuovo set di dati. Il valore HOURS deve essere un numero intero espresso in multipli di 24 (48, 72, 96, 120, 144, 168) compresi tra 48 (2 giorni) e 168 (7 giorni). Se questa opzione non è specificata, il valore predefinito è 168 ore.
- BILLING_MODEL: imposta il modello di fatturazione dell'archiviazione per il set di dati. Imposta il valore BILLING_MODEL su PHYSICAL per utilizzare i byte fisici per il calcolo dei costi di archiviazione o su LOGICAL per utilizzare i byte logici. LOGICAL è l'impostazione predefinita.
  Quando cambi il modello di fatturazione di un set di dati, sono necessarie 24 ore prima che la modifica abbia effetto.
  
  Una volta modificato il modello di fatturazione dello spazio di archiviazione di un set di dati, devi attendere 14 giorni prima di poterlo modificare di nuovo.
Fai clic su Esegui.

Per ulteriori informazioni su come eseguire le query, vedi Eseguire una query interattiva.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk con il flag --location.

Per creare un set di dati in un progetto diverso da quello predefinito, aggiungi l'ID progetto al nome del set di dati nel seguente formato: PROJECT_ID:DATASET_ID.

bq --location=LOCATION mk \
    --dataset \
    --default_kms_key=KMS_KEY_NAME \
    --default_partition_expiration=PARTITION_EXPIRATION \
    --default_table_expiration=TABLE_EXPIRATION \
    --description="DESCRIPTION" \
    --label=LABEL_1:VALUE_1 \
    --label=LABEL_2:VALUE_2 \
    --max_time_travel_hours=HOURS \
    --storage_billing_model=BILLING_MODEL \
    PROJECT_ID:DATASET_ID

Sostituisci quanto segue:

LOCATION: la località del set di dati. Dopo aver creato un set di dati, la località non può essere modificata. Puoi impostare un valore predefinito per la località utilizzando il file .bigqueryrc.

Nota: se scegli UE come località del set di dati, i dati dei clienti BigQuery principali si trovano nell'UE. I dati principali dei clienti BigQuery sono definiti nei Termini specifici dei servizi.
KMS_KEY_NAME: il nome della chiave predefinita di Cloud Key Management Service utilizzata per proteggere le tabelle appena create in questo set di dati, a meno che al momento della creazione non venga fornita una chiave diversa. Non puoi creare una tabella criptata da Google in un set di dati con questo set di parametri.
PARTITION_EXPIRATION: la durata predefinita (in secondi) delle partizioni nelle tabelle partizionate appena create. La scadenza della partizione predefinita non ha un valore minimo. La scadenza corrisponde alla data della partizione più il valore intero. Qualsiasi partizione creata in una tabella partizionata nel set di dati viene eliminata PARTITION_EXPIRATION secondi dopo la data della partizione. Se fornisci il flag --time_partitioning_expiration quando crei o aggiorni una tabella partizionata, la scadenza della partizione a livello di tabella ha la precedenza sulla scadenza predefinita della partizione a livello di set di dati.
TABLE_EXPIRATION: la durata predefinita (in secondi) delle tabelle appena create. Il valore minimo è 3600 secondi (un'ora). Il tempo di scadenza corrisponde all'ora attuale più il valore intero. Qualsiasi tabella creata nel set di dati viene eliminata TABLE_EXPIRATION secondi dopo l'ora di creazione. Questo valore viene applicato se non imposti una scadenza per la tabella quando crei la tabella.
DESCRIPTION: una descrizione del set di dati
LABEL_1:VALUE_1: la coppia chiave-valore da impostare come prima etichetta in questo set di dati e LABEL_2:VALUE_2 è la coppia chiave-valore da impostare come seconda etichetta.
HOURS: la durata in ore della finestra di spostamento cronologico per il nuovo set di dati. Il valore HOURS deve essere un numero intero espresso in multipli di 24 (48, 72, 96, 120, 144, 168) tra 48 (2 giorni) e 168 (7 giorni). Se questa opzione non è specificata, il valore predefinito è 168 ore.
BILLING_MODEL: imposta il modello di fatturazione dell'archiviazione per il set di dati. Imposta il valore BILLING_MODEL su PHYSICAL per utilizzare i byte fisici per il calcolo degli addebiti per lo spazio di archiviazione o su LOGICAL per utilizzare i byte logici. LOGICAL è l'impostazione predefinita.

Quando cambi il modello di fatturazione di un set di dati, sono necessarie 24 ore prima che la modifica abbia effetto.

Una volta modificato il modello di fatturazione dello spazio di archiviazione di un set di dati, devi attendere 14 giorni prima di poterlo modificare di nuovo.
PROJECT_ID: il tuo ID progetto.
DATASET_ID è l'ID del set di dati che stai creando.

Ad esempio, il seguente comando crea un set di dati denominato mydataset con località dei dati impostata su US, scadenza predefinita della tabella di 3600 secondi (1 ora) e descrizione This is my dataset. Anziché utilizzare il flag --dataset, il comando usa la scorciatoia -d. Se ometti -d e --dataset, il comando per impostazione predefinita crea un set di dati.

bq --location=US mk -d \
    --default_table_expiration 3600 \
    --description "This is my dataset." \
    mydataset

Per confermare che il set di dati è stato creato, inserisci il comando bq ls. Inoltre, puoi creare una tabella quando crei un nuovo set di dati utilizzando il formato seguente: bq mk -t dataset.table. Per ulteriori informazioni sulla creazione di tabelle, consulta Creazione di una tabella.

Terraform

Utilizza la risorsa google_bigquery_dataset.

Per eseguire l'autenticazione in BigQuery, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per le librerie client.

Crea un set di dati

L'esempio seguente crea un set di dati denominato mydataset:

resource "google_bigquery_dataset" "default" {
  dataset_id                      = "mydataset"
  default_partition_expiration_ms = 2592000000  # 30 days
  default_table_expiration_ms     = 31536000000 # 365 days
  description                     = "dataset description"
  location                        = "US"
  max_time_travel_hours           = 96 # 4 days

  labels = {
    billing_group = "accounting",
    pii           = "sensitive"
  }
}

Quando crei un set di dati utilizzando la risorsa google_bigquery_dataset, viene concesso automaticamente l'accesso al set di dati a tutti gli account che sono membri dei ruoli di base a livello di progetto. Se esegui il comando terraform show dopo aver creato il set di dati, il blocco access per il set di dati sarà simile al seguente:

Blocco di accesso per un set di dati creato con Terraform.

Per concedere l'accesso al set di dati, ti consigliamo di utilizzare una delle google_bigquery_iam risorse, come mostrato nell'esempio seguente, a meno che tu non preveda di creare oggetti autorizzati, come le viste autorizzate, all'interno del set di dati. In questo caso, utilizza la risorsa google_bigquery_dataset_access. Consulta la documentazione per esempi.

Creare un set di dati e concedere l'accesso

L'esempio seguente crea un set di dati denominato mydataset, quindi utilizza la risorsa google_bigquery_dataset_iam_policy per concedergli l'accesso.

resource "google_bigquery_dataset" "default" {
  dataset_id                      = "mydataset"
  default_partition_expiration_ms = 2592000000  # 30 days
  default_table_expiration_ms     = 31536000000 # 365 days
  description                     = "dataset description"
  location                        = "US"
  max_time_travel_hours           = 96 # 4 days

  labels = {
    billing_group = "accounting",
    pii           = "sensitive"
  }
}

# Update the user, group, or service account
# provided by the members argument with the
# appropriate principals for your organization.
data "google_iam_policy" "default" {
  binding {
    role = "roles/bigquery.dataOwner"
    members = [
      "user:raha@altostrat.com",
    ]
  }
  binding {
    role = "roles/bigquery.admin"
    members = [
      "user:raha@altostrat.com",
    ]
  }
  binding {
    role = "roles/bigquery.user"
    members = [
      "group:analysts@altostrat.com",
    ]
  }
  binding {
    role = "roles/bigquery.dataViewer"
    members = [
      "serviceAccount:bqcx-1234567891011-abcd@gcp-sa-bigquery-condel.iam.gserviceaccount.com",
    ]
  }
}

resource "google_bigquery_dataset_iam_policy" "default" {
  dataset_id  = google_bigquery_dataset.default.dataset_id
  policy_data = data.google_iam_policy.default.policy_data
}

Crea un set di dati con una chiave di crittografia gestita dal cliente

L'esempio seguente crea un set di dati denominato mydataset e utilizza anche le risorse google_kms_crypto_key e google_kms_key_ring per specificare una chiave Cloud Key Management Service per il set di dati. Devi abilitare l'API Cloud Key Management Service prima di eseguire questo esempio.

resource "google_bigquery_dataset" "default" {
  dataset_id                      = "mydataset"
  default_partition_expiration_ms = 2592000000  # 30 days
  default_table_expiration_ms     = 31536000000 # 365 days
  description                     = "dataset description"
  location                        = "US"
  max_time_travel_hours           = 96 # 4 days

  default_encryption_configuration {
    kms_key_name = google_kms_crypto_key.crypto_key.id
  }

  labels = {
    billing_group = "accounting",
    pii           = "sensitive"
  }
  depends_on = [google_project_iam_member.service_account_access]
}

resource "google_kms_crypto_key" "crypto_key" {
  name     = "example-key"
  key_ring = google_kms_key_ring.key_ring.id
}

resource "random_id" "default" {
  byte_length = 8
}

resource "google_kms_key_ring" "key_ring" {
  name     = "${random_id.default.hex}-example-keyring"
  location = "us"
}

# Enable the BigQuery service account to encrypt/decrypt Cloud KMS keys
data "google_project" "project" {
}

resource "google_project_iam_member" "service_account_access" {
  project = data.google_project.project.project_id
  role    = "roles/cloudkms.cryptoKeyEncrypterDecrypter"
  member  = "serviceAccount:bq-${data.google_project.project.number}@bigquery-encryption.iam.gserviceaccount.com"
}

Per applicare la tua configurazione Terraform a un progetto Google Cloud, completa i passaggi nelle sezioni seguenti.

Prepara Cloud Shell

Avvia Cloud Shell.
Imposta il progetto Google Cloud predefinito a cui vuoi applicare le configurazioni Terraform.

Devi eseguire questo comando una sola volta per progetto e puoi eseguirlo in qualsiasi directory.
```
export GOOGLE_CLOUD_PROJECT=PROJECT_ID
```
Le variabili di ambiente vengono sostituite se imposti valori espliciti nel file di configurazione Terraform.

Prepara la directory

Ogni file di configurazione Terraform deve avere la propria directory (chiamata anche modulo principale).

In Cloud Shell, crea una directory e un nuovo file al suo interno. Il nome del file deve avere l'estensione .tf, ad esempio main.tf. In questo tutorial, il file è denominato main.tf.
```
mkdir DIRECTORY && cd DIRECTORY && touch main.tf
```
Se stai seguendo un tutorial, puoi copiare il codice campione in ogni sezione o passaggio.

Copia il codice campione nel nuovo oggetto main.tf.

Facoltativamente, copia il codice da GitHub. Questa opzione è consigliata se lo snippet Terraform fa parte di una soluzione end-to-end.
Esamina e modifica i parametri di esempio da applicare al tuo ambiente.
Salva le modifiche.
Inizializza Terraform. Devi eseguire questa operazione una sola volta per directory.
```
terraform init
```
Facoltativamente, per utilizzare la versione più recente del provider Google, includi l'opzione -upgrade:
```
terraform init -upgrade
```

Applica le modifiche

Esamina la configurazione e verifica che le risorse che Terraform creerà o aggiornerà soddisfino le tue aspettative:
```
terraform plan
```
Apporta le correzioni necessarie alla configurazione.
Applica la configurazione Terraform eseguendo questo comando e inserendo yes al prompt:
```
terraform apply
```
Attendi finché in Terraform non viene visualizzato il messaggio "Applicazione completata!".
Apri il progetto Google Cloud per visualizzare i risultati. Nella console Google Cloud, vai alle risorse nella UI per assicurarti che Terraform le abbia create o aggiornate.