Visão geral do Data Catalog

O Data Catalog do Dataplex é um inventário central dos ativos de dados de uma organização. O Data Catalog cataloga automaticamente metadados de fontes do Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e muito mais. O Data Catalog também indexa metadados de tabelas e conjuntos de arquivos do Cloud Storage por meio da descoberta.

É possível descobrir dados com o recurso de pesquisa de metadados regida pelo Dataplex em toda a organização. É possível aprimorar ainda mais os metadados com um contexto comercial essencial e ativar o rastreamento de linhagem, a criação de perfil de dados, as verificações de qualidade de dados e os recursos de controle de acesso.

Com o Data Catalog, as organizações melhoram a descoberta de dados, a gestão de metadados e a

Por que você precisa do Data Catalog?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

As partes interessadas em dados (consumidores, produtores e administradores) de uma organização enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem a localização e a origem dos dados. Eles precisam navegar por "pântanos" de dados.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados dentre vários conjuntos duplicados é relevante e atualizado?
    • Como um conjunto de dados se relaciona com outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • Um tempo valioso é perdido se os consumidores de dados precisarem descobrir como solicitar acesso aos dados, aguardar sem um tempo de resposta definido, encaminhar e esperar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo ao uso eficiente dos dados. O Data Catalog fornece um repositório centralizado que permite às organizações o seguinte:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Apoie a tomada de decisões baseada em dados e acelere o tempo de insights, enriquecendo os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece três funções principais:

  • Pesquisar entradas de dados a que você tem acesso
  • Como marcar entradas de dados com metadados
  • Como fornecer segurança no nível da coluna para tabelas do BigQuery

Além disso, o Data Catalog pode se basear nos resultados de uma verificação de Proteção de Dados Sensíveis para identificar dados confidenciais diretamente no Data Catalog na forma de modelos de tag.

Como o Data Catalog funciona

O Data Catalog pode catalogar metadados de recursos de diferentes sistemas do Google Cloud.

Também é possível usar as APIs Data Catalog para fazer a integração com origens de dados personalizadas.

Depois que seus dados forem catalogados, será possível adicionar seus próprios metadados a esses recursos usando tags.

O Data Catalog descobre metadados de fontes de dados do Google Cloud, como BigQuery, Pub/Sub, Dataproc Metastore e Cloud Storage, além de fontes de dados que não estão na nuvem, como Hive e Oracle.
Figura 1. O Data Catalog lê metadados de serviços do Google Cloud e origens de dados personalizadas.

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais sobre metadados, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma experiência de pesquisa avançada baseada em predicados para metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter permissões de leitura dos metadados de uma entrada de dados para aplicar a pesquisa e a descoberta nesses metadados. O Data Catalog não indexa os dados em uma entrada de dados. O Data Catalog só indexa os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e as permissões fornecidos pelo sistema de armazenamento subjacente. É possível fazer edições no sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada de dados.

Para saber mais sobre a pesquisa do Data Catalog, consulte Pesquisar recursos de dados com o Data Catalog.

Catalogação automática de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados vinculados do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas e conexões do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos da Vertex AI, conjuntos de dados e recursos da Vertex AI Feature Store

Além de catalogar recursos nos IDs de projeto a que você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Catalogue recursos que não são do Google Cloud

Para catalogar metadados de sistemas que não são do Google Cloud na sua organização, use o seguinte:

Acessar o Data Catalog

É possível acessar as funcionalidades do Data Catalog usando:

A seguir