Introdução ao preparo de dados do BigQuery

Neste documento, descrevemos a preparação de dados aumentada por IA no BigQuery. Os preparativos de dados são recursos do BigQuery que usam o Gemini no BigQuery para analisar seus dados e fornecer sugestões inteligentes de limpeza, transformação e enriquecimento. É possível reduzir significativamente o tempo e o esforço necessários para tarefas manuais de preparação de dados. A programação de preparações de dados é feita pelo Dataform.

Vantagens

  • Reduza o tempo gasto no desenvolvimento de pipelines de dados com sugestões de transformação geradas pelo Gemini e com reconhecimento de contexto.
  • Você pode validar os resultados gerados em uma prévia e receber sugestões de limpeza e enriquecimento da qualidade dos dados com o mapeamento de esquema automatizado.
  • Com o Dataform, você usa um processo de integração contínua e desenvolvimento contínuo (CI/CD), que oferece suporte à colaboração entre equipes para revisões de código e controle de origem.

Pontos de entrada da preparação de dados

É possível criar e gerenciar preparações de dados na página do BigQuery Studio. Consulte Abrir o editor de preparação de dados no BigQuery.

Quando você abre uma tabela na preparação de dados do BigQuery, um job do BigQuery é executado usando suas credenciais. A execução cria linhas de amostra da tabela escolhida e grava os resultados em uma tabela temporária no mesmo projeto. O Gemini usa os dados de amostra e o esquema para gerar sugestões de preparação de dados mostradas no editor.

Visualizações no editor de preparação de dados

As preparações de dados aparecem como guias na página BigQuery. Cada guia tem uma série de subguias ou visualizações de preparação de dados, em que você cria e gerencia as preparações de dados.

Visualização de dados

Quando você cria uma nova preparação de dados, uma guia do editor de preparação de dados é aberta, mostrando a visualização de dados, que contém uma amostra representativa da tabela. Para preparações de dados atuais, clique em um nó na visualização de gráfico do pipeline de preparação de dados para acessar a visualização de dados.

Com a visualização de dados, você pode fazer o seguinte:

  • Interaja com seus dados para criar etapas de preparação de dados.
  • Aplicar sugestões do Gemini.
  • Para melhorar a qualidade das sugestões do Gemini, insira valores de exemplo nas células.

Em cada coluna da tabela, um perfil estatístico (histograma) mostra a contagem dos principais valores de cada coluna nas linhas de visualização.

Visualização de dados no editor de preparação de dados

Visualização em gráfico

A visualização em gráfico é uma visão geral da preparação de dados. Ele aparece como uma guia na página BigQuery do console quando você abre uma preparação de dados. O gráfico mostra nós para todas as etapas do pipeline de preparação de dados. Selecione um nó no gráfico para configurar as etapas de preparação de dados que ele representa.

Visualização gráfica no editor de preparação de dados

Visualização de esquema

A visualização do esquema de preparação de dados mostra o esquema atual da etapa ativa de preparação de dados. O esquema mostrado corresponde às colunas na visualização de dados.

Na visualização de esquema, é possível realizar operações dedicadas, como remover colunas, o que também cria etapas na lista Etapas aplicadas.

Visualização de esquema no editor de preparação de dados

Sugestões do Gemini

O Gemini oferece sugestões contextuais para ajudar nas seguintes tarefas de preparação de dados:

  • Aplicar transformações e regras de qualidade de dados
  • Padronizar e enriquecer dados
  • Como automatizar o mapeamento de esquema

Cada sugestão aparece em um card na lista de sugestões do editor de preparação de dados. O card contém as seguintes informações:

  • A categoria de alto nível da etapa, como Manter linhas ou Transformação
  • Uma descrição da etapa, como Manter linhas se COLUMN_NAME não for NULL
  • A expressão SQL correspondente usada para executar a etapa.

Você pode visualizar, editar ou aplicar o card de sugestão ou ajustar a sugestão. Também é possível adicionar etapas manualmente. Para mais informações, consulte Preparar dados com o Gemini.

Para refinar as sugestões do Gemini, dê um exemplo do que mudar em uma coluna.

Amostragem de dados

O BigQuery usa amostragem de dados para fornecer uma prévia da preparação de dados. É possível conferir a amostra na visualização de dados de cada nó.

Quando você adiciona tabelas padrão do BigQuery como uma fonte, os dados são preparados usando uma função TABLESAMPLE do BigQuery. Essa função cria uma amostra de 10 mil registros.

Quando você adiciona uma visualização ou uma tabela externa como fonte, o sistema lê os primeiros 1 milhão de registros. Com base nesses registros, o sistema seleciona uma amostra representativa de 10 mil registros.

Os dados na amostra não são atualizados automaticamente. As tabelas de amostra são armazenadas como resultados de consultas em cache e expiram em aproximadamente 24 horas. Para atualizar manualmente a tabela de amostra, consulte Atualizar exemplos de preparação de dados.

Modo de gravação

Para otimizar os custos e o tempo de processamento, mude as configurações do modo de gravação para processar incrementalmente novos dados da origem. Por exemplo, se você tiver uma tabela no BigQuery em que os registros são inseridos diariamente e um painel do Looker que precisa refletir os dados alterados, é possível programar a preparação de dados do BigQuery para ler incrementalmente os novos registros da tabela de origem e propagá-los para a tabela de destino.

Para configurar a forma como a preparação de dados é gravada em uma tabela de destino, consulte Otimizar a preparação de dados processando dados de forma incremental.

Os seguintes modos de gravação são compatíveis:

Opção do modo de gravação Descrição
Atualização completa Executa as etapas de preparação em todos os dados de origem e recria a tabela de destino por completo. A tabela é recriada, não truncada. A atualização completa é o modo padrão ao gravar em uma tabela de destino.
adicionar ao final Insere todos os dados da preparação como linhas adicionais na tabela de destino.
Incremental Insere apenas os dados novos ou, dependendo da sua escolha de coluna incremental, alterados na tabela de destino. Com base na sua escolha de coluna incremental, a preparação de dados seleciona o mecanismo ideal de detecção de registros de mudança. Ele escolhe valores máximos para tipos de dados numéricos e de data/hora e únicos para dados categóricos. O máximo insere apenas registros em que o valor da coluna especificada é maior que o valor máximo dessa mesma coluna na tabela de destino. Inserções exclusivas só registram valores de coluna especificados que não estão presentes nos valores atuais da mesma coluna na tabela de destino.

Etapas de preparação de dados compatíveis

O BigQuery é compatível com os seguintes tipos de etapas de preparação de dados:

Tipo de etapa Descrição
Origem Adiciona uma origem quando você seleciona uma tabela do BigQuery para leitura ou quando adiciona uma etapa de junção.
Transformação Limpa e transforma dados usando uma expressão SQL. Você recebe cartões de sugestão para as seguintes expressões:
  • Funções de conversão de tipo, como CAST
  • Funções de string, como SUBSTR, CONCAT, REPLACE, UPPER, LOWER e TRIM
  • Funções de data/hora, como PARSE_DATE, TIMESTAMP, EXTRACT e DATE_ADD
  • Funções JSON, como JSON_EXTRACT

Você também pode usar qualquer expressão SQL válida do BigQuery nas etapas de transformação manual. Por exemplo:
  • Cálculos com números, como conversão de watt-hora para quilowatt-hora
  • Funções de matriz, como ARRAY_AGG, ARRAY_CONCAT e UNNEST
  • Funções de janela, como ROW_NUMBER, LAG, LEAD, RANK e NTILE


Para mais informações, consulte Adicionar uma transformação.
Filtro Remove linhas usando a sintaxe da cláusula WHERE. Ao adicionar uma etapa de filtro, você pode transformá-la em uma etapa de validação.

Para mais informações, consulte Filtrar linhas.
Validação Envia para uma tabela de erros as linhas que não atendem aos critérios da regra de validação. Se os dados não passarem na regra de validação e nenhuma tabela de erros estiver configurada, a preparação de dados vai falhar durante a execução.

Para mais informações, consulte Configurar a tabela de erros e adicionar uma regra de validação.
Participar Une valores de duas fontes. As tabelas precisam estar no mesmo local. As colunas de chave de junção precisam ser do mesmo tipo de dados. As preparações de dados são compatíveis com as seguintes operações de junção:
  • Junções internas
  • Mesclagens à esquerda
  • Mesclagens à direita
  • Mesclagens externas completas
  • Junções cruzadas (se nenhuma coluna de chave de junção for selecionada, uma junção cruzada será usada)


Para mais informações, consulte Adicionar uma operação de junção.
Destino Define um destino para gerar etapas de preparação de dados. Se você inserir uma tabela de destino que não existe, a preparação de dados vai criar uma tabela usando as informações do esquema atual.

Para mais informações, consulte Adicionar ou mudar uma tabela de destino.
Excluir colunas Exclui colunas do esquema. Você realiza essa etapa na visualização de esquema.

Para mais informações, consulte Excluir uma coluna.

Como programar execuções de preparação de dados

Para executar as etapas de preparação de dados e carregar os dados preparados na tabela de destino, crie uma programação. É possível programar preparações de dados no editor de preparação de dados e gerenciá-las na página Programação do BigQuery. Para mais informações, consulte Programar preparações de dados.

Como criar pipelines com tarefas de preparação de dados

É possível criar pipelines do BigQuery compostos por tarefas de preparação de dados, consulta SQL e notebooks. Em seguida, é possível executar esses pipelines em uma programação. Para mais informações, consulte Introdução aos pipelines do BigQuery.

Como controlar o acesso

Controle o acesso aos preparos de dados usando papéis do Identity and Access Management (IAM), criptografia com chaves do BigQuery e do Dataform do Cloud KMS e o VPC Service Controls.

Permissões e papéis do IAM

Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs precisam de permissões do IAM. Para mais informações, consulte Papéis obrigatórios e Configurar o Gemini para BigQuery.

Criptografia com chaves do Cloud KMS

Criptografe dados no nível do conjunto de dados ou do projeto usando as chaves padrão do Cloud KMS gerenciadas pelo cliente no BigQuery. Para mais informações, consulte Definir uma chave padrão de conjunto de dados e Definir uma chave padrão de projeto.

É possível criptografar o código do pipeline no nível do projeto por padrão usando uma chave do Cloud KMS do Dataform.

Perímetros do VPC Service Controls

Se você usa o VPC Service Controls, configure o perímetro para proteger o Dataform e o BigQuery. Para mais informações, consulte as limitações do VPC Service Controls para BigQuery e Dataform.

Limitações

A preparação de dados está disponível com as seguintes limitações:

  • Todos os conjuntos de dados de origem e destino da preparação de dados do BigQuery de uma determinada preparação precisam estar no mesmo local. Saiba mais em Locais.
  • Durante a edição do pipeline, os dados e as interações são enviados para um data center do Gemini para processamento. Para mais informações, consulte Locais.
  • O Gemini no BigQuery não é compatível com o Assured Workloads.
  • As preparações de dados do BigQuery não permitem visualizar, comparar ou restaurar versões.
  • As respostas do Gemini são baseadas em uma amostra do conjunto de dados que você fornece ao criar o pipeline de preparação de dados. Para mais informações, consulte como o Gemini para Google Cloud usa seus dados e os termos do programa Trusted Tester do Gemini para Google Cloud .
  • A preparação de dados do BigQuery não tem uma API própria. Para conferir as APIs necessárias, consulte Configurar o Gemini no BigQuery.

Locais

É possível usar a preparação de dados em qualquer local do BigQuery compatível. Seus jobs de processamento de dados são executados e armazenados no local dos conjuntos de dados de origem. Se um local do repositório for especificado, ele precisará ser o mesmo que o local dos conjuntos de dados de origem. A região de armazenamento do código de preparação de dados pode ser diferente da região de execução do job.

Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:

  1. Acessar a página do BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, encontre o projeto em que você ativou os recursos de código.

  3. Clique em Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.

  4. Em Região, selecione a região que você quer usar para recursos de código.

  5. Clique em Selecionar.

Para conferir uma lista de regiões em que ele está disponível, consulte Locais do BigQuery Studio.

O Gemini no BigQuery opera globalmente. Portanto, não é possível restringir o tratamento de dados do Gemini a uma região específica ao projetar suas preparações de dados. No entanto, o tratamento de dados do BigQuery no momento do design e da execução é sempre realizado no local dos conjuntos de dados de origem. Para saber mais sobre os locais em que o Gemini no BigQuery processa dados, consulte Locais de veiculação do Gemini.

Preços

A execução de preparações de dados e a criação de amostras de prévia de dados usam recursos do BigQuery, que são cobrados conforme as taxas mostradas em Preços do BigQuery.

A preparação de dados está incluída nos preços do Gemini no BigQuery. É possível usar a preparação de dados do BigQuery durante a prévia sem custo adicional. Para mais informações, consulte Configurar o Gemini no BigQuery.

Cotas

Para mais informações, consulte cotas do Gemini no BigQuery.

A seguir