Diese Seite wurde von der Cloud Translation API übersetzt.

Releaseversionen 2.3.x

Komponente	2.3.7-debian12/-ubuntu22/-ml-ubuntu22/-rocky9 2025/07/25	2.3.6-debian12/-ubuntu22/-ml-ubuntu22/-rocky9 2025/07/15	2.3.5-debian12/-ubuntu22/-ml-ubuntu22/-rocky9 2025/07/04	2.3.4-debian12/-ubuntu22/-ml-ubuntu22/-rocky9 2025/06/20	2.3.3-debian12/-ubuntu22/-ml-ubuntu22/-rocky9 2025/06/09
Apache Atlas ^{Initialisierungsaktion}	2.2.0	2.2.0	2.2.0	2.2.0	2.2.0
Apache Flink ^{optionale Komponente}	1.17.0	1.17.0	1.17.0	1.17.0	1.17.0
Apache Hadoop ^installiert	3.3.6	3.3.6	3.3.6	3.3.6	3.3.6
Apache Hive ^installiert	3.1.3	3.1.3	3.1.3	3.1.3	3.1.3
Apache Hive WebHCat ^{optionale Komponente}	3.1.3	3.1.3	3.1.3	3.1.3	3.1.3
Apache Hudi ^{optionale Komponente}	0.15.0	0.15.0	0.15.0	0.15.0	0.15.0
Apache Iceberg ^{optionale Komponente}	1.6.1	1.6.1	1.6.1	1.6.1	1.6.1
Apache Kafka ^{Initialisierungsaktion}	3.1.0	3.1.0	3.1.0	3.1.0	3.1.0
Apache Pig ^{optionale Komponente}	0.18.0-SNAPSHOT	0.18.0-SNAPSHOT	0.18.0-SNAPSHOT	0.18.0-SNAPSHOT	0.18.0-SNAPSHOT
Apache Spark ^installiert	3.5.3	3.5.3	3.5.3	3.5.3	3.5.3
Apache Sqoop ^{Initialisierungsaktion}	1.5.0-SNAPSHOT	1.5.0-SNAPSHOT	1.5.0-SNAPSHOT	1.5.0-SNAPSHOT	1.5.0-SNAPSHOT
Apache Tez ^installiert	0.10.2	0.10.2	0.10.2	0.10.2	0.10.2
BigQuery Connector ^installiert	0.42.3	0.42.3	0.42.3	0.42.3	0.42.3
Cloud Storage-Connector ^installiert	3.1.0	3.1.0	3.1.0	3.1.0	3.1.0
Conscrypt ^installiert	2.5.2	2.5.2	2.5.2	2.5.2	2.5.2
Delta Lake ^{optionale Komponente}	3.2.0	3.2.0	3.2.0	3.2.0	3.2.0
Docker ^{optionale Komponente}	28.1	28.1	28.1	28.1	28.1
Hue ^{Initialisierungsaktion}	4.11.0	4.11.0	4.11.0	4.11.0	4.11.0
Java ^installed	11	11	11	11	11
JupyterLab Notebook ^{optionale Komponente}	3.6	3.6	3.6	3.6	3.6
Oozie ^{Initialisierungsaktion}	5.2.1	5.2.1	5.2.1	5.2.1	5.2.1
Python ^installiert	micromamba 2.0.5 mit Python 3.11	micromamba 2.0.5 mit Python 3.11	micromamba 2.0.5 mit Python 3.11	micromamba 2.0.5 mit Python 3.11	micromamba 2.0.5 mit Python 3.11
R ^installiert	R 4.3	R 4.3	R 4.3	R 4.3	R 4.3
Ranger ^{optionale Komponente}	2.4.0	2.4.0	2.4.0	2.4.0	2.4.0
Scala ^installiert	2.12.18	2.12.18	2.12.18	2.12.18	2.12.18
Solr ^{optionale Komponente}	9.4.1	9.4.1	9.4.1	9.4.1	9.4.1
Trino ^{optionale Komponente}	432	432	432	432	432
^Optionale Zeppelin NotebookKomponente	0.10.1	0.10.1	0.10.1	0.10.1	0.10.1
Zookeeper ^{optionale Komponente}	3.9.3	3.9.3	3.9.3	3.9.3	3.9.3

Wichtige Änderungen in Version 2.3:

Version 2.3 ist ein schlankes Image, das nur Kernkomponenten enthält. Dadurch wird das Risiko von Common Vulnerabilities and Exposures (CVEs) verringert. Wenn Sie höhere Sicherheitsanforderungen erfüllen müssen, verwenden Sie beim Erstellen eines Dataproc-Clusters die Image-Version 2.3 oder höher.
Wenn Sie beim Erstellen eines Dataproc-Clusters mit dem 2.3-Image optionale Komponenten installieren, werden diese während der Clustererstellung heruntergeladen und installiert. Dadurch kann sich die Startzeit des Clusters verlängern. Um diese Verzögerung zu vermeiden, können Sie ein benutzerdefiniertes Image mit den vorinstallierten optionalen Komponenten erstellen. Dazu führen Sie generate_custom_image.py mit dem Flag --optional-components aus.
Hinweis
:Sie müssen die optionalen Komponenten angeben, die Sie installieren möchten, wenn Sie den Cluster erstellen. Weitere Informationen finden Sie unter Optionale Komponenten hinzufügen.
Das folgende Beispiel zeigt den Google Cloud CLI-Befehl zum Erstellen eines Clusters mit optionalen Komponenten:
```
gcloud dataproc clusters create CLUSTER_NAME
    --optional-components=COMPONENT_NAME \
    ... other flags
```

Hinweise:

Die folgenden Komponenten sind in 2.3-Images optional:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab-Notebook
- Ranger
- Solr
- Zeppelin-Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled und HDFS-Audit-Logging sind in Version 2.3-Images standardmäßig aktiviert.
micromamba wird anstelle von conda in früheren Image-Versionen als Teil der Python-Installation installiert.
Probleme bei der Docker- und Zeppelin-Installation:
- Die Installation schlägt fehl, wenn der Cluster keinen öffentlichen Internetzugang hat. Als Workaround können Sie einen Cluster erstellen, der ein benutzerdefiniertes Image mit vorinstallierten optionalen Komponenten verwendet. Führen Sie dazu generate_custom_image.py mit dem Flag --optional-components aus.
- Die Installation kann fehlschlagen, wenn der Cluster an eine ältere untergeordnete Image-Version angepinnt ist: Pakete werden bei Bedarf aus öffentlichen OSS-Repositories installiert und ein Paket ist möglicherweise nicht upstream verfügbar, um die Installation zu unterstützen. Als Workaround können Sie einen Cluster erstellen, der ein benutzerdefiniertes Image mit vorinstallierten optionalen Komponenten verwendet. Führen Sie dazu generate_custom_image.py mit dem --optional-components-Flag aus.

Komponenten für maschinelles Lernen (ML) in Version 2.3 des Images

Das Dataproc-Image 2.3-ml-ubuntu erweitert das Basis-Image 2.3 mit ML-spezifischer Software. Es unterstützt optionale Komponenten für Version 2.3 und andere Funktionen von Version 2.3 und fügt die in den folgenden Abschnitten aufgeführten Komponentenversionen hinzu.

GPU-spezifische Bibliotheken

Für Dataproc-Jobs, die GPU-VMs verwenden, sind die folgenden NVIDIA-Treiber und ‑Bibliotheken im 2.3-ml-ubuntu-Image verfügbar. Sie können sie für die folgenden Aufgaben verwenden:

Spark-Batch-Arbeitslasten mit der NVIDIA Spark Rapids-Bibliothek beschleunigen
Arbeitslasten für maschinelles Lernen trainieren
Verteilte Batchinferenz mit Spark ausführen

Paketname	Version
Spark Rapids	25.04.0
NVIDIA-Treiber	Ubuntu 22.04 LTS, beschleunigt mit NVIDIA-Treiberversion 570
CUDA	12.6.3
cublas	12.6.4
cusolver	11.7.1
cupti	12.6.80
cusparse	12.5.4
cuDNN	9.10.1
NCCL	2.27.5

XGBoost-Bibliotheken

Die folgenden Maven-Paketversionen sind im 2.3-ml-ubuntu-Image verfügbar, damit Sie XGBoost mit Spark in Java oder Scala verwenden können.

Gruppen-ID	Paketname	Version
ml.dmlc	xgboost4j-gpu_2.12	2.1.1
ml.dmlc	xgboost4j-spark-gpu_2.12	2.1.1

Python-Bibliotheken

Das 2.3-ml-ubuntu-Image enthält die folgenden Bibliotheken, die verschiedene Phasen im ML-Lebenszyklus unterstützen.

Python-Bibliotheken für das Image „2.3-ml-ubuntu“

Paket	Version
beschleunigen	1.8.1
conda	23.11.0
cookiecutter	2.5.0
curl	8.12.1
cython	3.0.12
dask	1.12.2023
Datasets	3.6.0
deepspeed	0.17.2
delta-spark	3.2.0
evaluate	0.4.5
fastavro	1.9.7
fastparquet	1.10.2023
fiona	1.10.0
gateway-provisioners[yarn]	0.4.0
gcsfs	2023.12.2.post1
google-auth-oauthlib	1.2.2
google-cloud-aiplatform	1.88.0
google-cloud-bigquery[pandas]	3.31.0
google-cloud-bigquery-storage	2.30.0
google-cloud-bigtable	2.30.1
google-cloud-container	2.56.1
google-cloud-datacatalog	3.26.1
google-cloud-dataproc	5.18.1
google-cloud-datastore	2.21.0
google-cloud-language	2.17.2
google-cloud-logging	3.11.4
google-cloud-monitoring	2.27.2
google-cloud-pubsub	2.29.1
google-cloud-redis	2.18.1
google-cloud-spanner	3.53.0
google-cloud-speech	2.32.0
google-cloud-storage	2.19.0
google-cloud-texttospeech	2.25.1
google-cloud-translate	3.20.3
google-cloud-vision	3.10.2
huggingface_hub	0.33.1
httplib2	0.22.0
ipyparallel	8.6.1
ipython-sql	0.3.9
ipywidgets	8.1.7
jupyter_contrib_nbextensions	0.7.0
jupyter_http_over_ws	0.0.8
jupyter_kernel_gateway	2.5.2
jupyter_server	1.24.0
jupyterhub	4.1.6
jupyterlab	3.6.8
jupyterlab-git	0.44.0
jupyterlab_widgets	3.0.15
Koalas	0.22.0
langchain	0.3.26
lightgbm	4.6.0
Markdown	3.5.2
matplotlib	3.8.4
mlflow	3.1.1
nbconvert	7.14.2
nbdime	3.2.1
nltk	3.9.1
Notebook	6.5.7
numba	0.58.1
numpy	1.26.4
oauth2client	4.1.3
onnx	1.17.0
openblas	0.3.25
opencv	4.11.0
orc	2.1.1
pandas	2.1.4
pandas-profiling	3.0.0
Ghostwriting-Agentur	2.4.0
pyarrow	16.1.0
pydot	2.0.0
pyhive	0.7.0
pynvml	12.0.0
pysal	23.7
pytables	3.9.2
Python	3.11
regex	25.12.2023
Anfragen	2.32.2
requests-kerberos	0.12.0
rtree	1.1.0
scikit-image	0.22.0
scikit-learn	1.5.2
scipy	1.11.4
seaborn	0.13.2
sentence-transformers	5.0.0
setuptools	79.0.1
shap	0.48.0
wohlgeformt	2.1.1
spacy	3.8.7
spark-tensorflow-distributor	1.0.0
spyder	5.5.6
sqlalchemy	2.0.41
sympy	1.13.3
tensorflow	2.18.0
Tokenizer	0.21.4.dev0
Toree	0.5.0
Fackel	2.6.0
torch-model-archiver	0.11.1
torcheval	0.0.7
Tornado	6.4.2
torchvision	0.21.0
traitlets	5.14.3
transformers	4.53.1
uritemplate	4.1.1
virtualenv	20.26.6
wordcloud	1.9.4
xgboost	2.1.4

R-Bibliotheken

Die folgenden R-Bibliotheksversionen sind im 2.3-ml-ubuntu-Image enthalten.

R-Bibliotheken für das Image „2.3-ml-ubuntu“

Paketname	Version
r-ggplot2	3.4.4
r-irkernel	1.3.2
r-rcurl	1.98-1.16
r-recommended	4.3