Dataproc-Cluster umfassen die folgenden Arten von Komponenten:
Installierte Komponenten: Komponenten, die im Image installiert und beim Erstellen des Clusters aktiviert werden.
Optionale Komponenten: Komponenten, die Sie beim Erstellen des Clusters zum Installieren und Verwenden in Ihrem Cluster auswählen. Dataproc installiert und aktiviert optionale Komponenten je nach Cluster-Image-Version so:
2.2
und ältere Imageversionen: Optionale Komponenten werden automatisch installiert. Ausgewählte optionale Komponenten werden aktiviert und nicht ausgewählte optionale Komponenten werden beim Erstellen des Clusters deinstalliert.2.3
und höher: Optionale Komponenten werden während der Clustererstellung installiert. Weitere Informationen finden Sie unter Dataproc 2.3.x-Release-Versionen.
Komponenten der Initialisierungsaktion: Komponenten, die im Rahmen einer Initialisierungsaktion auf einem Cluster installiert werden, die Sie beim Erstellen eines Clusters angeben.
Optionale Komponenten werden in einem Cluster installiert, bevor auf dem Cluster Initialisierungsaktionen ausgeführt werden.
Auf den Seiten mit den Dataproc-Image-Versionen sind die Komponenten und Komponententypen aufgeführt, die in den neuesten Dataproc-Image-Releases verfügbar sind.
Optionale Komponenten haben gegenüber Initialisierungsaktionen, die zum Installieren von Komponenten verwendet werden, die folgenden Vorteile:
- Optionale Komponenten wurden auf Kompatibilität mit bestimmten Dataproc-Versionen getestet.
- Optionale Komponenten werden mit einem Parameter für die Clustererstellung aktiviert. Für Initialisierungsaktionen ist ein Script erforderlich.
Verfügbare optionale Komponenten
Optionale Komponente | Komponentenname in Google Cloud CLI-Befehlen und API-Anfragen |
Image-Version | Releasestufe |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 und höher | GA |
Docker | DOCKER | 1.5 oder höher | GA |
Flink | FLINK | 1.5 oder höher | AV |
HBase | HBASE | 1.5 oder höher (nicht in 2.1 und höher verfügbar) |
Eingestellte Funktionen |
Hive WebHCat | HIVE_WEBHCAT | 1.3 oder höher | GA |
Hudi | HUDI | 1.5 oder höher | GA |
Eisberg | ICEBERG | 2.2 und höher | GA |
Jupyter-Notebook | JUPYTER | 1.3 oder höher | GA |
Pig | PIG | 1.5* und höher | GA |
Presto | PRESTO | 1.3 oder höher (nicht in 2.1 und höher verfügbar) |
GA |
Ranger | RANGER | 1.3 oder höher | AV |
Solr | SOLR | 1.3 oder höher | GA |
Trino | TRINO | 2.1 oder höher | GA |
Zeppelin-Notebook | ZEPPELIN | 1.3 oder höher | AV |
Zookeeper | ZOOKEEPER | 1.0 oder höher | GA |
Hinweise:
- Apache Pig ist in den Image-Versionen 2.3 und höher eine optionale Komponente. Sie war in
2.2
und früheren Image-Versionen vorinstalliert.
Optionale Komponenten hinzufügen
Console
- Rufen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen auf.
Der Bereich Cluster einrichten ist ausgewählt.
- Wählen Sie im Abschnitt Komponenten unter Optionale Komponenten eine oder mehrere Komponenten aus, die auf Ihrem Cluster installiert werden sollen.
Google Cloud CLI
Verwenden Sie zum Erstellen eines Dataproc-Clusters und zur Installation einer oder mehrerer optionaler Komponenten im Cluster den Befehl gcloud beta dataproc clusters create cluster-name
mit dem Flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
Optionale Komponenten können über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.