Versioni release 2.3.x

Componente 2.3.7-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/25
2.3.6-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/15
2.3.5-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/04
2.3.4-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/20
2.3.3-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/09
Azione di inizializzazione
Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente facoltativo
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
installato
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
installato
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
componente facoltativo
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente facoltativo
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente facoltativo
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Azione di inizializzazione
Apache Kafka
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente facoltativo
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
installato
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Azione di inizializzazione
Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
installato
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Connettore BigQuery
installato
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage Connector
installato
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
installato
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente facoltativo
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente facoltativo
28,1 28,1 28,1 28,1 28,1
Azione di inizializzazione
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
installato
11 11 11 11 11
Blocco note JupyterLab
componente facoltativo
3.6 3.6 3.6 3.6 3.6
Oozie
Oozie
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
installato
micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11
R
installato
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
componente facoltativo
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
installata
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
componente facoltativo
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente facoltativo
432 432 432 432 432
Zeppelin Notebook
componente facoltativo
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
componente facoltativo
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Modifiche importanti nella versione 2.3:

  • La versione 2.3 è un'immagine leggera che contiene solo i componenti principali, riducendo l'esposizione alle vulnerabilità ed esposizioni comuni (CVE). Per requisiti di conformità alla sicurezza più elevati, utilizza la versione dell'immagine 2.3 o successive quando crei un cluster Dataproc.

  • Se scegli di installare componenti facoltativi quando crei un cluster Dataproc con l'immagine 2.3, questi verranno scaricati e installati durante la creazione del cluster. Ciò potrebbe aumentare il tempo di avvio del cluster. Per evitare questo ritardo, puoi creare un'immagine personalizzata con i componenti facoltativi preinstallati. Ciò si ottiene eseguendo generate_custom_image.py con il flag --optional-components.

Note:

  • Di seguito sono riportati i componenti facoltativi nelle immagini 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Blocco note JupyterLab
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zookeeper
  • yarn.nodemanager.recovery.enabled e l'audit logging HDFS sono abilitati per impostazione predefinita nelle immagini 2.3.

  • micromamba, anziché conda nelle versioni precedenti dell'immagine, viene installato come parte dell'installazione di Python.

  • Problemi di installazione di Docker e Zeppelin:

    • L'installazione non va a buon fine se il cluster non ha accesso a internet pubblico. Come soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con i componenti facoltativi preinstallati. Per farlo, esegui generate_custom_image.py con il flag --optional-components.
    • L'installazione può non riuscire se il cluster è bloccato su una versione secondaria precedente dell'immagine: i pacchetti vengono installati su richiesta dai repository OSS pubblici e un pacchetto potrebbe non essere disponibile upstream per supportare l'installazione. Come soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti facoltativi preinstallati nell'immagine personalizzata. Per farlo, esegui generate_custom_image.py con il flag --optional-components.

Componenti di machine learning (ML) della versione 2.3 dell'immagine

L'immagine Dataproc 2.3-ml-ubuntu estende l'immagine di base 2.3 con software specifico per l'ML. Supporta i componenti opzionali delle immagini 2.3 e altre funzionalità 2.3 e aggiunge le versioni dei componenti elencate nelle sezioni seguenti.

Librerie specifiche per la GPU

Per i job Dataproc che utilizzano VM GPU, nell'immagine 2.3-ml-ubuntu sono disponibili i seguenti driver e librerie NVIDIA. Puoi utilizzarli per svolgere le seguenti attività:

  • Accelera i carichi di lavoro batch Spark con la libreria NVIDIA Spark Rapids
  • Addestrare carichi di lavoro di machine learning
  • Esegui l'inferenza batch distribuita utilizzando Spark
Nome pacchetto Versione
Spark Rapids 25.04.0
Driver NVIDIA Ubuntu 22.04 LTS Accelerated con il driver NVIDIA versione 570
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Librerie XGBoost

Le seguenti versioni del pacchetto Maven sono disponibili nell'immagine 2.3-ml-ubuntu per consentirti di utilizzare XGBoost con Spark in Java o Scala.

ID gruppo Nome pacchetto Versione
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Librerie Python

L'immagine 2.3-ml-ubuntu contiene le seguenti librerie, che supportano diverse fasi del ciclo di vita del machine learning.

Librerie Python dell'immagine `2.3-ml-ubuntu`
Pacchetto Versione
accelerare1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask1/12/2023
set di dati3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet1/10/2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koala0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
panda2.1.4
pandas-profiling3.0.0
cartiera2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex25/12/2023
richieste2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
formoso2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizzatori0.21.4.dev0
toree0.5.0
torcia2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tromba d'aria6.4.2
torchvision0.21.0
traitlets5.14.3
trasformatori4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

Librerie R

Le seguenti versioni della libreria R sono incluse nell'immagine 2.3-ml-ubuntu.

Librerie R dell'immagine `2.3-ml-ubuntu`
Nome pacchetto Versione
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1,98-1,16
r-recommended 4.3