Componentes do Dataproc

Os clusters do Dataproc têm os seguintes tipos de componentes:

  • Componentes instalados: componentes que são instalados na imagem e ativados quando o cluster é criado.

  • Componentes opcionais: componentes selecionados para instalação e uso no cluster durante a criação. O Dataproc instala e ativa componentes opcionais dependendo da versão da imagem do cluster da seguinte maneira:

    • 2.2 e versões anteriores da imagem: os componentes opcionais são instalados automaticamente. Os componentes opcionais selecionados são ativados, e os não selecionados são desinstalados na criação do cluster.

    • 2.3 e versões de imagem mais recentes: os componentes opcionais são instalados durante a criação do cluster. Para mais informações, consulte Versões de lançamento do Dataproc 2.3.x.

  • Componentes de ação de inicialização: componentes instalados em um cluster como parte de uma ação de inicialização especificada ao criar um cluster.

Os componentes opcionais são instalados em um cluster antes da execução de ações de inicialização no cluster.

As páginas de versão da imagem do Dataproc listam os componentes e tipos de componentes disponíveis nas versões mais recentes da imagem do Dataproc.

Os componentes opcionais têm as seguintes vantagens em relação às ações de inicialização usadas para instalar componentes:

  • Os componentes opcionais são testados como compatíveis com versões específicas do Dataproc.
  • Os componentes opcionais são ativados com um parâmetro de criação de cluster. As ações de inicialização exigem um script.

Componentes opcionais disponíveis

Componente opcional Nome do componente
em comandos da Google Cloud CLI e solicitações de API
Versão de imagem Etapa da versão
Delta Lake DELTA 2.2.46 e mais recentes GA
Docker DOCKER 1.5 ou superior GA
Flink FLINK 1.5 ou superior GA
HBase HBASE 1.5 ou mais recente
(não disponível na versão 2.1 e mais recentes)
Descontinuado
Hive WebHCat HIVE_WEBHCAT 1.3 ou superior GA
Hudi HUDI 1.5 ou superior GA
Iceberg (em inglês) ICEBERG 2.2 ou mais recente GA
Jupyter Notebook JUPYTER 1.3 ou superior GA
Pig (link em inglês) PORCO 1.5* ou mais recente GA
Presto PRESTO 1.3 ou mais recente
(não disponível na versão 2.1 e mais recentes)
GA
Ranger RANGER 1.3 ou superior GA
Solr SOLR 1.3 ou superior GA
Trino TRINO 2.1 ou mais recente GA
Zeppelin Notebook ZEPPELIN 1.3 ou superior GA
Zookeeper ZOOKEEPER 1.0 ou superior GA

Observações:

  • O Apache Pig é um componente opcional nas versões de imagem 2.3 e mais recentes. Ele foi pré-instalado na 2.2 e em versões anteriores de imagem.

Adicionar componentes opcionais

Console

  1. No Google Cloud console, acesse a página Criar um cluster do Dataproc.

    Acessar "Criar um cluster"

    O painel Configurar cluster está selecionado.

  2. Na seção Componentes, em Componentes opcionais, selecione um ou mais componentes para instalar no cluster.

Google Cloud CLI

Para criar um cluster do Dataproc e instalar um ou mais componentes opcionais no cluster, use o comando gcloud beta dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Especifique componentes opcionais pela API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.