Diese Seite wurde von der Cloud Translation API übersetzt.

Automatische Datenqualität verwenden

Auf dieser Seite wird beschrieben, wie Sie einen Dataplex-Datenqualitätsscan erstellen.

Weitere Informationen zu Datenqualitätsscans finden Sie unter Informationen zur automatischen Datenqualität.

Hinweise

Aktivieren Sie die Dataplex API.

API aktivieren
Optional: Wenn Dataplex Empfehlungen für Datenqualitätsregeln basierend auf den Ergebnissen eines Datenprofilerstellungsscans generieren soll, erstellen Sie den Datenprofilerstellungsscan und führen Sie ihn aus.

Berechtigungen

Zum Ausführen eines Datenqualitätsscans für eine BigQuery-Tabelle benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.

Hinweis: Dataplex erstellt in Ihrem Projekt keinen BigQuery-Job. Sie benötigen diese Berechtigung jedoch, um einen DryRun-Job zu erstellen und die Berechtigungen für die Tabelle zu prüfen.
Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto des Projekts, das die Leseberechtigung für Datenqualitätsscans enthält, für die entsprechende BigQuery-Tabelle erteilen.

Hinweis: Wenn Sie keine Datenqualitäts- oder Datenprofilscans erstellt haben oder in diesem Projekt keinen Dataplex-Lake haben, erstellen Sie eine Dienst-ID. Führen Sie dazu folgenden Befehl aus: gcloud beta services identity create --service=dataplex.googleapis.com. Dieser Befehl gibt eine Dataplex-Dienst-ID zurück, sofern vorhanden.
Wenn sich die Datenqualitätsregeln auf zusätzliche Tabellen beziehen, muss das Dienstkonto des Scanprojekts Leseberechtigungen für diese Tabellen haben.
Bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die IAM-Rolle BigQuery Data Editor (roles/bigquery.dataEditor) für das Ergebnis-Dataset und die -Tabelle zu gewähren, um die erforderlichen Berechtigungen zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle zu erhalten. Hierdurch werden die folgenden Berechtigungen gewährt:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Wenn die BigQuery-Daten in einem Dataplex-Lake organisiert sind, gewähren Sie dem Dataplex-Dienstkonto die Rollen roles/dataplex.metadataReader und roles/dataplex.viewer. Alternativ benötigen Sie alle der folgenden Berechtigungen:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto die Cloud Storage-Rolle roles/storage.objectViewer für den Bucket zu. Alternativ können Sie dem Dataplex-Dienstkonto die folgenden Berechtigungen zuweisen:
- storage.buckets.get
- storage.objects.get
Wenn Sie die Ergebnisse des Datenqualitätsscans in der Google Cloud Console auf den Seiten „BigQuery“ und „Data Catalog“ für die Quelltabellen veröffentlichen möchten, muss Ihnen entweder die IAM-Rolle „BigQuery Data Editor“ (roles/bigquery.dataEditor) oder die Berechtigung bigquery.tables.update für die Tabelle gewährt werden.
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie diesen Spalten die Dataplex-Dienstkontoberechtigungen zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt auch Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen der einzelnen Nutzer werden bei Richtlinien auf Zeilenebene nicht ausgewertet.

Datenscanberechtigungen und -rollen

Zur Verwendung der automatischen Datenqualität benötigen Sie entweder die Berechtigungen zum Ausführen von Datenscans oder eine Rolle mit vordefinierten Berechtigungen zum Ausführen von Datenscans.

In der folgenden Tabelle sind die DataScan-Berechtigungen aufgeführt:

Name der Berechtigung	Erteilt folgende Berechtigungen:
`dataplex.datascans.create`	`DataScan` erstellen
`dataplex.datascans.delete`	`DataScan` löschen
`dataplex.datascans.get`	Operative Metadaten wie ID oder Zeitplan, aber keine Ergebnisse und Regeln ansehen
`dataplex.datascans.getData`	Details zu `DataScan` ansehen, einschließlich Regeln und Ergebnisse
`dataplex.datascans.list`	Liste `DataScan`s
`dataplex.datascans.run`	`DataScan` ausführen
`dataplex.datascans.update`	Beschreibung von `DataScan` aktualisieren
`dataplex.datascans.getIamPolicy`	Aktuelle IAM-Berechtigungen für den Scan ansehen
`dataplex.datascans.setIamPolicy`	IAM-Berechtigungen für den Scan festlegen

Weisen Sie Nutzern mindestens eine der folgenden Rollen zu:

roles/dataplex.dataScanAdmin: Vollständiger Zugriff auf DataScan Ressourcen.
roles/dataplex.dataScanEditor: Schreibzugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanViewer: Lesezugriff auf DataScan-Ressourcen ohne Regeln und Ergebnisse.
roles/dataplex.dataScanDataViewer: Lesezugriff auf DataScan-Ressourcen, einschließlich Regeln und Ergebnisse.

Datenqualitätsregeln definieren

Sie können Datenqualitätsregeln mithilfe von integrierten Regeln oder benutzerdefinierten SQL-Prüfungen definieren. Wenn Sie die Google Cloud CLI verwenden, können Sie diese Regeln in einer JSON- oder YAML-Datei definieren.

Die Beispiele in den folgenden Abschnitten zeigen, wie Sie eine Vielzahl von Datenqualitätsregeln definieren. Mit den Regeln wird eine Beispieltabelle validiert, die Daten zu Kundentransaktionen enthält. Angenommen, die Tabelle hat das folgende Schema:

Spaltenname	Spaltentyp	Spaltenbeschreibung
transaction_timestamp	Zeitstempel	Zeitstempel der Transaktion. Die Tabelle ist nach diesem Feld partitioniert.
customer_id	String	Eine Kundennummer im Format 8 Buchstaben gefolgt von 16 Ziffern.
transaction_id	String	Die Transaktions-ID muss in der Tabelle eindeutig sein.
currency_id	String	Eine der unterstützten Währungen.Der Währungstyp muss mit einer der verfügbaren Währungen in der Dimensionstabelle `dim_currency` übereinstimmen.
Menge	float	Transaktionsbetrag.
discount_pct	float	Rabattprozentsatz. Dieser Wert muss zwischen 0 und 100 liegen.

Datenqualitätsregeln mit integrierten Regeltypen definieren

Die folgenden Beispielregeln basieren auf integrierten Regeltypen. Mit der Google Cloud Console oder der API können Sie Regeln anhand von integrierten Regeltypen erstellen. Dataplex empfiehlt möglicherweise einige dieser Regeln.

Spaltenname	Regeltyp	Vorgeschlagene Dimension	Regelparameter
`transaction_id`	Eindeutigkeitsprüfung	Eindeutigkeit	Threshold: `Not Applicable` (Grenzwert: 500)
`amount`	Nullprüfung	Vollständigkeit	Threshold: `100%` (Grenzwert: 500)
`customer_id`	Prüfung auf Regex (regulärer Ausdruck)	Gültigkeit	Regulärer Ausdruck: `^[0-9]{8}[a-zA-Z]{16}$` Schwellenwert: `100%`
`currency_id`	Wertesatzprüfung	Gültigkeit	Satz aus: `USD,JPY,INR,GBP,CAN` Schwellenwert: `100%`

Datenqualitätsregeln mit benutzerdefinierten SQL-Regeln definieren

Verwenden Sie das folgende Framework, um benutzerdefinierte SQL-Regeln zu erstellen:

Wenn Sie eine Regel erstellen, die jeweils eine Zeile auswertet, erstellen Sie einen Ausdruck, der die Anzahl der erfolgreichen Zeilen generiert, wenn Dataplex die Abfrage SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE auswertet. Dataplex prüft die Anzahl der erfolgreichen Zeilen auf den Grenzwert.
Wenn Sie eine Regel erstellen, die für alle Zeilen auswertet oder eine Tabellenbedingung verwendet, erstellen Sie einen Ausdruck, der Erfolg oder Fehler zurückgibt, wenn Dataplex die Abfrage SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE auswertet.
Wenn Sie eine Regel erstellen, die den ungültigen Status eines Datasets auswertet, geben Sie eine Anweisung an, die ungültige Zeilen zurückgibt. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das nachgestellte Semikolon aus der SQL-Anweisung weg.
Sie können auf eine Datenquellentabelle und alle ihre Vorbedingungsfilter verweisen, indem Sie den Datenreferenzparameter ${data()} in einer Regel verwenden, anstatt die Quelltabelle und ihre Filter explizit anzugeben. Beispiele für Vorbedingungsfilter sind Zeilenfilter, Stichprobenprozentsatz und inkrementelle Filter. Beim Parameter ${data()} wird zwischen Groß- und Kleinschreibung unterschieden.

Die folgenden Beispielregeln basieren auf benutzerdefinierten SQL-Regeln.

Regeltyp	Regelbeschreibung	SQL-Ausdruck
Zeilenbedingung	Prüft, ob der Wert von `discount_pct` zwischen 0 und 100 liegt.	`0` < `discount_pct` UND `discount_pct` < `100`
Zeilenbedingung	Prüfen Sie anhand der Referenz, ob `currency_id` eine der unterstützten Währungen ist.	`currency_id in (select id from my_project_id.dim_dataset.dim_currency)`
Tabellenbedingung	Aggregierter SQL-Ausdruck, der prüft, ob der durchschnittliche `discount_pct` zwischen 30% und 50 % liegt.	`30<avg(discount) AND avg(discount) <50`
Zeilenbedingung	Prüft, ob ein Datum nicht in der Zukunft liegt.	`TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()`
Tabellenbedingung	Eine benutzerdefinierte BigQuery-Funktion (UDF), um zu prüfen, ob der durchschnittliche Transaktionsbetrag unter einem vordefinierten Wert pro Land liegt. Erstellen Sie die UDF (JavaScript) mit dem folgenden Befehl: CREATE OR REPLACE FUNCTION myProject.myDataset.average_by_country ( country STRING, average FLOAT64) RETURNS BOOL LANGUAGE js AS R""" if (country = "CAN" && average < 5000){ return 1 } else if (country = "IND" && average < 1000){ return 1 } else { return 0 } """;	Beispielregel zum Prüfen des durchschnittlichen Transaktionsbetrags für `country=CAN`. myProject.myDataset.average_by_country( "CAN", (SELECT avg(amount) FROM myProject.myDataset.transactions_table WHERE currency_id = 'CAN' ))
Tabellenbedingung	Eine Vorhersageklausel in BigQuery ML zum Identifizieren von Anomalien in `discount_pct`. Er prüft, ob ein Rabatt basierend auf `customer`, `currency` und `transaction` angewendet werden soll. Die Regel prüft mindestens 99% der Fälle, ob die Vorhersage mit dem tatsächlichen Wert übereinstimmt. Annahme: Das ML-Modell wird erstellt, bevor die Regel verwendet wird. Erstellen Sie das ML-Modell mit dem folgenden Befehl: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	Die folgende Regel prüft, ob die Vorhersagegenauigkeit größer als 99 % ist. SELECT accuracy > 0.99 FROM ML.EVALUATE (MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names WHERE transaction_timestamp > '2022-01-01'; ) )
Zeilenbedingung	Eine BigQuery ML-Vorhersagefunktion zum Identifizieren von Anomalien in `discount_pct`. Die Funktion prüft anhand von `customer`, `currency` und `transaction`, ob ein Rabatt angewendet werden soll. Die Regel gibt alle Vorkommen an, bei denen die Vorhersage nicht übereinstimmte. Annahme: Das ML-Modell wird vor Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	Die folgende Regel prüft, ob die Rabattvorhersage mit dem tatsächlichen Wert für jede Zeile übereinstimmt. IF(discount_pct > 0, 1, 0) =(SELECT predicted_label FROM ML.PREDICT( MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names AS t WHERE t.transaction_timestamp = transaction_timestamp LIMIT 1 ) ) )
SQL-Assertion	Prüft, ob der `discount_pct` für heute größer als 30% ist. Dazu wird geprüft, ob Zeilen mit einem Rabattprozentsatz vorhanden sind, der kleiner oder gleich 30 ist.	`SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date()`
SQL-Assertion (mit Datenverweisparameter)	Prüft, ob der `discount_pct` heute für alle unterstützten Währungen größer als 30% ist. Der Datumsfilter `transaction_timestamp >= current_date()` wird als Zeilenfilter auf die Datenquellentabelle angewendet. Der Datenverweisparameter `${data()}` fungiert als Platzhalter für `my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date()` und wendet den Zeilenfilter an.	`SELECT * FROM ${data()} WHERE discount_pct > 30`

Datenqualitätsregeln mit der gcloud CLI definieren

In der folgenden Beispiel-YAML-Datei werden zum Teil dieselben Regeln wie bei den Beispielregeln mit integrierten Typen und den benutzerdefinierten SQL-Beispielregeln verwendet. Sie können diese YAML-Datei als Eingabe für den gcloud CLI-Befehl verwenden.

rules:
- uniquenessExpectation: {}
  column: transaction_id
  dimension: UNIQUENESS
- nonNullExpectation: {}
  column: amount
  dimension: COMPLETENESS
  threshold: 1
- regexExpectation:
    regex: '^[0-9]{8}[a-zA-Z]{16}$'
  column : customer_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- setExpectation :
    values :
    - 'USD'
    - 'JPY'
    - 'INR'
    - 'GBP'
    - 'CAN'
  column : currency_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rangeExpectation:
    minValue : '0'
    maxValue : '100'
  column : discount_pct
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rowConditionExpectation:
    sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
  column: discount_pct
  dimension: VALIDITY
  threshold: 1
- rowConditionExpectation:
    sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
  column: currency_id
  dimension: VALIDITY
  threshold: 1
- tableConditionExpectation:
    sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
  dimension: VALIDITY
- rowConditionExpectation:
    sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
  column: transaction_timestamp
  dimension: VALIDITY
  threshold: 1
- sqlAssertion:
    sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
  dimension: VALIDITY

Datenqualitätsscan erstellen

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf Datenqualitätsscan erstellen.
Füllen Sie im Fenster Scan definieren die folgenden Felder aus:
1. Geben Sie einen Anzeigenamen ein.
2. Die Scan-ID wird automatisch generiert, wenn Sie keine eigene ID angeben. Weitere Informationen finden Sie in der Namenskonvention für Ressourcen.
3. Optional: Geben Sie eine Beschreibung ein.
4. Klicken Sie im Feld Tabelle auf Durchsuchen, wählen Sie Ihre Tabelle aus und klicken Sie auf Auswählen. Dataplex unterstützt nur BigQuery-Standardtabellen.
  
  Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.
  
  Klicken Sie zum Durchsuchen der im Dataplex-Lake organisierten Tabellen auf In Dataplex-Lakes suchen.
5. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  - Wenn Sie Inkrementell auswählen: Wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Das kann eine Spalte sein, die die Tabelle partitioniert.
6. Optional: Fügen Sie Labels hinzu. Labels sind key:value-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud-Ressourcen gruppieren können.
7. Klicken Sie auf Filter, um die Daten zu filtern. Klicken Sie das Kästchen Zeilen filtern an. Der Eingabewert für den Zeilenfilter muss ein gültiger SQL-Ausdruck sein, der als Teil einer WHERE-Klausel in der BigQuery-Standard-SQL-Syntax verwendet werden kann. Beispiel: col1 >= 0 Der Filter kann eine Kombination aus mehreren Spaltenbedingungen sein. Beispiel: col1 >= 0 AND col2 < 10.
8. Wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Stichprobenerhebung aus, um Stichproben Ihrer Daten zu erfassen. Wählen Sie einen Prozentsatz zwischen 0,0% und 100,0% mit bis zu 3 Dezimalstellen aus. Wählen Sie für größere Datasets einen niedrigeren Stichprobenprozentsatz aus. Wenn Sie beispielsweise für eine Tabelle mit etwa 1 PB einen Wert zwischen 0, 1% und 1, 0 % eingeben, erfasst Dataplex 1–10 TB Daten. Bei inkrementellen Datenscans wendet Dataplex Stichproben auf das neueste Inkrement an.
9. Klicken Sie auf das Kästchen Ergebnisse in der BigQuery- und Dataplex Catalog-UI veröffentlichen, um die Ergebnisse des Datenqualitätsscans in der Google Cloud Console auf den Seiten BigQuery und Data Catalog in der Google Cloud Console zu veröffentlichen. Die letzten Scanergebnisse finden Sie auf den BigQuery- und Data Catalog-Seiten der Quelltabelle auf dem Tab Datenqualität. Wie Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen, erfahren Sie unter Veröffentlichte Ergebnisse freigeben. In den folgenden Fällen ist die Veröffentlichungsoption möglicherweise nicht verfügbar:
  - Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
  - Bei einem weiteren Datenqualitätsscan werden Ergebnisse veröffentlicht.
  Weitere Informationen zu den Berechtigungen, die zum Ansehen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.
10. Klicken Sie auf Weiter.
Wählen Sie im Fenster Planen eine der folgenden Optionen aus:
- Wiederholen: Führen Sie den Job zum Scannen der Datenqualität nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Zeit der Scan ausgeführt wird. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Format cron, um den Zeitplan anzugeben.
- On demand: Führen Sie den Job zum Scannen der Datenqualität bei Bedarf aus.
Klicken Sie auf Weiter.
Definieren Sie im Fenster Datenqualitätsregeln die Regeln, die für diesen Datenqualitätsscan konfiguriert werden sollen. Klicken Sie auf Regeln hinzufügen und wählen Sie dann eine der folgenden Optionen aus.
- Profilbasierte Empfehlungen: Erstellen Sie Regeln aus den Empfehlungen, die auf einem vorhandenen Scan zur Datenprofilerstellung basieren.
  1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie empfohlene Regeln abrufen möchten.
  2. Scan Project (Projekt scannen): Empfehlungen basierend auf einem vorhandenen Scan zur Datenprofilerstellung. Standardmäßig wählt Dataplex Profilscans aus demselben Projekt aus, in dem Sie den Datenqualitätsscan erstellen. Wenn Sie den Scan in einem anderen Projekt erstellt haben, müssen Sie das Projekt angeben, aus dem Profilscans abgerufen werden sollen.
  3. Profilergebnisse auswählen: Basierend auf den ausgewählten Spalten und dem ausgewählten Projekt werden mehrere Profilergebnisse angezeigt.
  4. Wählen Sie ein oder mehrere Profilergebnisse aus und klicken Sie dann auf OK. Daraufhin wird eine Liste mit Regeln zur Auswahl angezeigt.
  5. Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die entsprechenden Kästchen anklicken und dann Auswählen auswählen. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
- Integrierte Regeltypen: Erstellen Sie Regeln aus vordefinierten Regeln. Liste der vordefinierten Regeln
  1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie Regeln auswählen möchten.
  2. Regeltypen auswählen: Je nach den von Ihnen ausgewählten Spalten stehen mehrere Regeltypen zur Auswahl.
  3. Wählen Sie einen oder mehrere Regeltypen aus und klicken Sie dann auf OK. Dadurch wird eine Liste mit Regeln zur Auswahl ausgefüllt.
  4. Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
- SQL-Zeilenprüfregel: Erstellen Sie eine benutzerdefinierte SQL-Regel, die auf jede Zeile angewendet werden soll (benutzerdefinierte SQL-Zeilenprüfungsregel).
  1. Wählen Sie unter Dimension eine Dimension aus.
  2. Wählen Sie unter Schwellenwert für bestandene Prüfung einen Prozentsatz der Datensätze aus, die die Prüfung bestehen müssen.
  3. Wählen Sie unter Spaltenname eine Spalte aus.
  4. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (fehlgeschlagen) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.
  5. Klicken Sie auf Hinzufügen.
- SQL-Aggregatprüfungsregel: Erstellen Sie eine benutzerdefinierte Bedingungsregel für die SQL-Tabelle.
  1. Wählen Sie unter Dimension eine Dimension aus.
  2. Wählen Sie unter Spaltenname eine Spalte aus.
  3. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (fehlgeschlagen) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.
  4. Klicken Sie auf Hinzufügen.
- SQL-Assertion-Regel: Erstellen Sie eine benutzerdefinierte SQL-Assertion-Regel, um die Daten auf einen ungültigen Status zu prüfen.
  1. Wählen Sie unter Dimension eine Dimension aus.
  2. Optional: Wählen Sie unter Spaltenname eine Spalte aus.
  3. Geben Sie im Feld SQL-Anweisung angeben eine SQL-Anweisung ein, die Zeilen zurückgibt, die dem ungültigen Status entsprechen. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das nachgestellte Semikolon aus der SQL-Anweisung weg. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.
  4. Klicken Sie auf Hinzufügen.
Dataplex ermöglicht benutzerdefinierte Namen für Datenqualitätsregeln für Monitoring und Benachrichtigungen. Für jede Datenqualitätsregel können Sie optional einen Namen und eine Beschreibung für die benutzerdefinierte Regel zuweisen. Dazu bearbeiten Sie eine Regel und geben die folgenden Details an:
- Regelname: Geben Sie einen Namen für die benutzerdefinierte Regel mit bis zu 63 Zeichen ein. Der Regelname kann Buchstaben (a–z, A–Z), Ziffern (0–9) und Bindestriche (-) enthalten und muss mit einem Buchstaben beginnen und mit einer Ziffer oder einem Buchstaben enden.
- Beschreibung: Geben Sie eine Regelbeschreibung mit einer maximalen Länge von 1.024 Zeichen ein.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie auf Durchsuchen, um ein vorhandenes BigQuery-Dataset auszuwählen, in dem die Ergebnisse des Datenqualitätsscans gespeichert werden sollen.

Wenn die angegebene Tabelle nicht vorhanden ist, erstellt Dataplex sie für Sie. Wenn Sie eine vorhandene Tabelle verwenden, achten Sie darauf, dass sie mit dem Exporttabellenschema kompatibel ist.

Hinweis: Sie können dieselbe Ergebnistabelle freigeben, um die Ergebnisse mehrerer Datenqualitätsscans zu speichern oder zu exportieren.
Klicken Sie auf Erstellen.

Nachdem der Scan erstellt wurde, können Sie ihn jederzeit ausführen. Klicken Sie dazu auf Jetzt ausführen.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans create data-quality, um einen Datenqualitätsscan zu erstellen.

Wenn die Quelldaten in einem Dataplex-Lake organisiert sind, fügen Sie das Flag --data-source-entity ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Wenn die Quelldaten nicht in einem Dataplex-Lake organisiert sind, fügen Sie das Flag --data-source-resource ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenqualitätsscans.
LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt werden soll.
DATA_QUALITY_SPEC_FILE: Pfad zur JSON- oder YAML-Datei mit den Spezifikationen für den Datenqualitätsscan. Die Datei kann eine lokale Datei oder ein Cloud Storage-Pfad mit dem Präfix gs:// sein. Verwenden Sie diese Datei, um die Datenqualitätsregeln für den Scan festzulegen. Sie können in dieser Datei auch zusätzliche Details angeben, z. B. Filter, Stichprobenprozentsatz und Aktionen nach dem Scan wie Exportieren nach BigQuery oder Senden von E-Mail-Benachrichtigungen. Weitere Informationen finden Sie in der Dokumentation zur JSON-Darstellung.
DATA_SOURCE_ENTITY: Die Dataplex-Entität, die die Daten für den Datenqualitätsscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenqualitätsscan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

Verwenden Sie APIs Explorer, um einen Datenqualitätsscan zu erstellen.

Wenn Sie Regeln für den Datenqualitätsscan mithilfe von Regelempfehlungen erstellen möchten, die auf den Ergebnissen eines Datenprofilerstellungsscans basieren, rufen Sie die Methode dataScans.jobs.generateDataQualityRules für den Scan der Datenprofilerstellung auf.

Tabellenschema exportieren

Wenn Sie die Ergebnisse des Datenqualitätsscans in eine vorhandene BigQuery-Tabelle exportieren möchten, muss sie mit dem folgenden Tabellenschema kompatibel sein:

Spaltenname	Datentyp der Spalte	Name des Unterfelds (falls zutreffend)	Datentyp des Unterfelds	Modus	Beispiel
data_quality_scan	`struct/record`	`resource_name`	`string`	Nullwerte zulässig	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	Nullwerte zulässig	`dataplex-back-end-dev-project`
		`location`	`string`	Nullwerte zulässig	`us-central1`
		`data_scan_id`	`string`	Nullwerte zulässig	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	Nullwerte zulässig	Entitätsfall: `//dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1` Tabellenfall: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	Nullwerte zulässig	`dataplex-back-end-dev-project`
		`dataplex_entity_project_number`	`integer`	Nullwerte zulässig	`123456789`
		`dataplex_lake_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-lake`
		`dataplex_zone_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-zone`
		`dataplex_entity_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-entity`
		`table_project_id`	`string`	Nullwerte zulässig	`test-project`
		`table_project_number`	`integer`	Nullwerte zulässig	`987654321`
		`dataset_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle die Tabelle ist) `test-dataset`
		`table_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle die Tabelle ist) `test-table`
data_quality_job_id	`string`			Nullwerte zulässig	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_quality_job_configuration	`json`	`trigger`	`string`	Nullwerte zulässig	`ondemand`/`schedule`
		`incremental`	`boolean`	Nullwerte zulässig	`true`/`false`
		`sampling_percent`	`float`	Nullwerte zulässig	(0–100) `20.0` (steht für 20%)
		`row_filter`	`string`	Nullwerte zulässig	`col1 >= 0 AND col2 < 10`
job_labels	`json`			Nullwerte zulässig	`{"key1":value1}`
job_start_time	`timestamp`			Nullwerte zulässig	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			Nullwerte zulässig	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			Nullwerte zulässig	`7500`
rule_name	`string`			Nullwerte zulässig	`test-rule`
rule_type	`string`			Nullwerte zulässig	`Range Check`
rule_evaluation_type	`string`			Nullwerte zulässig	`Per row`
rule_column	`string`			Nullwerte zulässig	`Rule only attached to a certain column`
rule_dimension	`string`			Nullwerte zulässig	`UNIQUENESS`
job_quality_result	`struct/record`	`passed`	`boolean`	Nullwerte zulässig	`true`/`false`
job_quality_result	`struct/record`	`score`	`float`	Nullwerte zulässig	`90.8`
job_dimension_result	`json`			Nullwerte zulässig	`{"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}`
rule_threshold_percent	`float`			Nullwerte zulässig	(0,0–100,0) `Rule-threshold-pct in API * 100`
rule_parameters	`json`			Nullwerte zulässig	`{min: 24, max:5345}`
rule_pass	`boolean`			Nullwerte zulässig	`True`
rule_rows_evaluated	`integer`			Nullwerte zulässig	`7400`
rule_rows_passed	`integer`			Nullwerte zulässig	`3`
rule_rows_null	`integer`			Nullwerte zulässig	`4`
rule_failed_records_query	`string`			Nullwerte zulässig	"SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));"

Wenn Sie BigQueryExport für einen Job zum Scannen der Datenqualität konfigurieren, beachten Sie die folgenden Richtlinien:

Verwenden Sie für das Feld resultsTable das Format //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Verwenden Sie eine BigQuery-Standardtabelle.
Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, erstellt Dataplex die Tabelle für Sie.
Standardmäßig wird die Tabelle täglich nach der Spalte job_start_time partitioniert.
Wenn Sie die Tabelle in anderen Konfigurationen partitionieren möchten oder die Partition nicht möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie dann die vorab erstellte Tabelle als Ergebnistabelle an.
Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
Wenn VPC-SC im Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
Wenn die Tabelle während der Scanausführungsphase geändert wird, wird der aktuell ausgeführte Job in die vorherige Ergebnistabelle exportiert und die Tabellenänderung wird ab dem nächsten Scanjob wirksam.
Ändern Sie nicht das Tabellenschema. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht der Tabelle.
Wenn Sie die Kosten senken möchten, können Sie je nach Anwendungsfall einen Ablaufzeitpunkt für die Partition festlegen. Weitere Informationen finden Sie unter Ablaufdatum für Partition festlegen.

Datenqualitätsscan ausführen

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Datenqualitätsscan, um ihn auszuführen.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans run, um einen Datenqualitätsscan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans.

REST

Verwenden Sie APIs Explorer, um den Datenqualitätsscan durchzuführen.

Ergebnisse des Datenqualitätsscans ansehen

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Namen eines Scans, um die detaillierten Ergebnisse aufzurufen.
- Im Abschnitt Übersicht werden Informationen zu den letzten sieben Jobs angezeigt, einschließlich des Zeitpunkts der Scanausführung, der Anzahl der in jedem Job gescannten Datensätze, ob alle Datenqualitätsprüfungen bestanden wurden, ob Fehler aufgetreten sind, die Anzahl der fehlgeschlagenen Datenqualitätsprüfungen und welche Dimensionen fehlgeschlagen sind.
- Im Abschnitt Konfiguration des Datenqualitätsscans werden Details zum Scan angezeigt.
Klicken Sie auf den Tab Jobverlauf, um die Datenqualitätswerte für den Prozentsatz der bestandenen Regeln zu sehen. Klicken Sie dann auf eine Job-ID.

gcloud

Die Ergebnisse eines Datenqualitätsscanjobs können Sie mit dem Befehl gcloud dataplex datascans jobs describe aufrufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Jobs für den Datenqualitätsscan.
LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans, zu dem der Job gehört.
--view=FULL: Geben Sie FULL an, um das Ergebnis des Scanjobs anzusehen.

REST

Verwenden Sie den APIs Explorer, um die Ergebnisse eines Datenqualitätsscans anzusehen.

Historische Scanergebnisse ansehen

Dataplex speichert den Verlauf der Datenqualitätsscans der letzten 300 Jobs oder des letzten Jahres, je nachdem, was zuerst eintritt.

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Namen eines Scans.
Klicken Sie auf den Tab Jobverlauf.

Der Tab Jobverlauf enthält Informationen zu vergangenen Jobs. Sie enthält alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus, die Uhrzeit der Jobausführung, ob die einzelnen Regeln bestanden wurden oder nicht.
Klicken Sie in der Spalte Job-ID auf einen der Jobs, um detaillierte Informationen zu einem Job aufzurufen.

gcloud

Mit dem Befehl gcloud dataplex datascans jobs list können Sie alle Jobs eines Datenqualitätsscans aufrufen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans, für den alle Jobs aufgerufen werden sollen.

REST

Verwenden Sie APIs Explorer, um alle Scanjobs anzusehen.

Wenn Sie beim Erstellen eines Datenqualitätsscans die Scanergebnisse auf den Seiten BigQuery und Data Catalog in der Google Cloud Console veröffentlichen, werden die neuesten Scanergebnisse auf dem Tab Datenqualität dieser Seiten angezeigt.

Sie können den Nutzern in Ihrer Organisation Zugriff auf die veröffentlichten Scanergebnisse gewähren. So gewähren Sie Zugriff auf die Scanergebnisse:

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, auf das Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.

So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.

Benachrichtigungen in Cloud Logging festlegen

So legen Sie mithilfe der Logs in Cloud Logging Benachrichtigungen für Datenqualitätsfehler fest:

Console

Rufen Sie in der Google Cloud Console den Log-Explorer von Cloud Logging auf.

Zum Log-Explorer
Geben Sie im Fenster Abfrage Ihre Abfrage ein. Siehe Beispielabfragen.
Klicken Sie auf Abfrage ausführen.
Klicken Sie auf Benachrichtigung erstellen. Dadurch wird eine Seitenleiste geöffnet.
Geben Sie den Namen der Benachrichtigungsrichtlinie ein und klicken Sie auf Weiter.
Überprüfen Sie die Abfrage.
1. Klicken Sie auf die Schaltfläche Logvorschau, um die Abfrage zu testen. Daraufhin werden Logs mit übereinstimmenden Bedingungen angezeigt.
2. Klicken Sie auf Weiter.
Legen Sie die Zeit zwischen den Benachrichtigungen fest und klicken Sie auf Weiter.
Legen Sie fest, wer über die Benachrichtigung benachrichtigt werden soll, und klicken Sie auf Speichern, um die Benachrichtigungsrichtlinie zu erstellen.

Alternativ können Sie Ihre Benachrichtigungen konfigurieren und bearbeiten. Rufen Sie dazu in der Google Cloud Console Monitoring > Benachrichtigungen auf.

gcloud

Nicht unterstützt.

REST

Verwenden Sie APIs Explorer, um Benachrichtigungen in Cloud Logging festzulegen.

Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene

Eine Beispielabfrage zum Festlegen von Benachrichtigungen für allgemeine Datenqualitätsfehler bei einem Datenqualitätsscan:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND NOT jsonPayload.dataQuality.passed=true

Eine Beispielabfrage zum Festlegen von Benachrichtigungen zu Datenqualitätsfehlern für eine Dimension (z. B. Eindeutigkeit) eines bestimmten Datenqualitätsscans:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false

Eine Beispielabfrage zum Festlegen von Benachrichtigungen bei Datenqualitätsfehlern für eine Tabelle.

Legen Sie Benachrichtigungen zu Datenqualitätsfehlern für eine BigQuery-Tabelle fest, die nicht in einem Dataplex-Lake organisiert ist:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

Legen Sie Benachrichtigungen zu Datenqualitätsfehlern für eine BigQuery-Tabelle fest, die in einem Dataplex-Lake organisiert ist:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

Beispielabfragen, die pro Regelbenachrichtigungen festgelegt werden sollen

Eine Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln mit dem angegebenen Namen der benutzerdefinierten Regel für einen Datenqualitätsscan:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.ruleName="custom-name"
AND jsonPayload.result="FAILED"
```
Eine Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln eines bestimmten Bewertungstyps für einen Datenqualitätsscan:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.evalutionType="PER_ROW"
AND jsonPayload.result="FAILED"
```
Eine Beispielabfrage zum Festlegen von Benachrichtigungen zu allen fehlgeschlagenen Datenqualitätsregeln für eine Spalte in der Tabelle, die für einen Datenqualitätsscan verwendet wird:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.column="CInteger"
AND jsonPayload.result="FAILED"
```

Probleme mit der Datenqualität beheben

Für jeden Job mit Regeln auf Zeilenebene, die fehlschlagen, erstellt Dataplex eine Abfrage, um die fehlerhaften Einträge abzurufen. Führen Sie diese Abfrage aus, um die Datensätze anzuzeigen, die nicht mit Ihrer Regel übereinstimmen.

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Namen des Scans, für dessen Einträge Sie eine Fehlerbehebung durchführen möchten.
Klicken Sie auf den Tab Jobverlauf.
Klicken Sie auf die Job-ID des Jobs, der Probleme mit der Datenqualität identifiziert hat.
Ein Fenster mit den Jobergebnissen wird geöffnet. Suchen Sie im Abschnitt Regeln die Spalte Abfrage zum Abrufen fehlgeschlagener Einträge. Klicken Sie für die fehlgeschlagene Regel auf Abfrage in Zwischenablage kopieren.
Führen Sie die Abfrage in BigQuery aus, um die Einträge zu sehen, die zum Fehlschlagen des Jobs geführt haben.

gcloud

Nicht unterstützt.

REST

Verwenden Sie APIs Explorer, um die Abfrage zum Abrufen fehlgeschlagener Datensätze für fehlgeschlagene Jobs aufzurufen.

Datenqualitätsscan aktualisieren

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie in der Zeile mit dem zu bearbeitenden Scan auf die drei vertikalen Punkte > Bearbeiten.
Die Werte bearbeiten
Klicken Sie auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-quality, um die Beschreibung eines Datenqualitätsscans zu aktualisieren:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie Folgendes:

DATASCAN: Der Name des Datenqualitätsscans, der aktualisiert werden soll.
LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenqualitätsscan.

REST

Verwenden Sie APIs Explorer, um Ihren Datenqualitätsscan zu bearbeiten.

Datenqualitätsscan löschen

Console

Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.

Zur Datenqualität
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans delete, um einen Datenqualitätsscan zu löschen:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenqualitätsscans, der gelöscht werden soll.
LOCATION: Die Google Cloud-Region, in der der Datenqualitätsscan erstellt wurde.

REST

Verwenden Sie APIs Explorer, um den Datenqualitätsscan zu löschen.

Nächste Schritte

Weitere Informationen zur Datenprofilerstellung
Datenprofilerstellung verwenden
Folgen Sie einer Anleitung zum Verwalten von Datenqualitätsregeln als Code mit Terraform.

Automatische Datenqualität verwenden

Hinweise

Berechtigungen

Datenscanberechtigungen und -rollen

Datenqualitätsregeln definieren

Datenqualitätsregeln mit integrierten Regeltypen definieren

Datenqualitätsregeln mit benutzerdefinierten SQL-Regeln definieren

Datenqualitätsregeln mit der gcloud CLI definieren

Datenqualitätsscan erstellen

Console

gcloud

REST

Tabellenschema exportieren

Datenqualitätsscan ausführen

Console

gcloud

REST

Ergebnisse des Datenqualitätsscans ansehen

Console

gcloud

REST

Historische Scanergebnisse ansehen

Console

gcloud

REST

Veröffentlichte Ergebnisse teilen

Benachrichtigungen in Cloud Logging festlegen

Console

gcloud

REST

Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene

Beispielabfragen, die pro Regelbenachrichtigungen festgelegt werden sollen

Probleme mit der Datenqualität beheben

Console

gcloud

REST

Datenqualitätsscan aktualisieren

Console

gcloud

REST

Datenqualitätsscan löschen

Console

gcloud

REST

Nächste Schritte