Optionale Dataproc-Pig-Komponente

Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zur Analyse großer Datenmengen.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Apache Pig ist eine optionale Komponente in Dataproc-Image-Versionen ab 2.3.

Informationen zu den Komponentenversionen, die in den neuesten Dataproc-Image-Releases enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pig-Komponente enthält, den Befehl gcloud dataproc clusters create CLUSTER_NAME mit dem Flag --optional-components. Sie benötigen dazu die Image-Version 2.3 oder höher.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

Die Pig-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Aktivieren Sie die Komponente:

  1. Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
  2. Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.