Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zur Analyse großer Datenmengen.
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Apache Pig ist eine optionale Komponente in Dataproc-Image-Versionen ab 2.3
.
Informationen zu den Komponentenversionen, die in den neuesten Dataproc-Image-Releases enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
gcloud
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pig-Komponente enthält, den Befehl gcloud dataproc clusters create CLUSTER_NAME
mit dem Flag --optional-components
. Sie benötigen dazu die Image-Version 2.3 oder höher.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
Die Pig-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.
Console
Aktivieren Sie die Komponente:
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.