2.3.x 출시 버전

구성요소 2.3.7-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/25
2.3.6-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/15
2.3.5-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/04
2.3.4-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/20
2.3.3-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/09
Apache Atlas
초기화 작업
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
선택적 구성요소
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
설치됨
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
설치됨
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
선택적 구성요소
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
선택적 구성요소
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
선택적 구성요소
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
초기화 작업
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
선택적 구성요소
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
설치됨
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
초기화 작업
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
설치됨
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
BigQuery 커넥터
설치됨
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage Connector
설치됨
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
설치됨
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
선택적 구성요소
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
선택적 구성요소
28.1 28.1 28.1 28.1 28.1
Hue
초기화 작업
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
설치됨
11 11 11 11 11
JupyterLab 노트북
선택적 구성요소
3.6 3.6 3.6 3.6 3.6
Oozie
초기화 작업
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
설치됨
Python 3.11을 사용하는 micromamba 2.0.5 Python 3.11을 사용하는 micromamba 2.0.5 Python 3.11을 사용하는 micromamba 2.0.5 Python 3.11을 사용하는 micromamba 2.0.5 Python 3.11을 사용하는 micromamba 2.0.5
R
설치됨
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
선택적 구성요소
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
설치됨
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
선택적 구성요소
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
선택적 구성요소
432 432 432 432 432
Zeppelin 노트북
선택적 구성요소
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
선택적 구성요소
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

2.3의 중요 변경사항:

  • 버전 2.3은 핵심 구성요소만 포함하는 경량 이미지로, Common Vulnerabilities and Exposures(CVE)에 대한 노출을 줄입니다. 보안 규정 준수 요구사항이 더 높은 경우 Dataproc 클러스터를 만들 때 이미지 버전 2.3 이상을 사용하세요.

  • 2.3 이미지로 Dataproc 클러스터를 만들 때 선택적 구성요소를 설치하도록 선택하면 클러스터 생성 중에 다운로드되고 설치됩니다. 이렇게 하면 클러스터 시작 시간이 늘어날 수 있습니다. 이 지연을 방지하려면 선택적 구성요소가 사전 설치된 커스텀 이미지를 만들면 됩니다. 이는 --optional-components 플래그로 generate_custom_image.py를 실행하여 달성할 수 있습니다.

참고:

  • 다음은 2.3 이미지의 선택적 구성요소입니다.

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab 노트북
    • Ranger
    • Solr
    • Zeppelin 노트북
    • Zookeeper
  • yarn.nodemanager.recovery.enabled 및 HDFS 감사 로깅은 2.3 이미지에서 기본적으로 사용 설정됩니다.

  • 이전 이미지 버전의 conda 대신 micromamba가 Python 설치의 일부로 설치됩니다.

  • Docker 및 Zeppelin 설치 문제:

    • 클러스터가 공개 인터넷에 액세스할 수 없는 경우 설치가 실패합니다. 해결 방법으로 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요. --optional-components 플래그와 함께 generate_custom_image.py를 실행하면 됩니다.
    • 클러스터가 이전 하위 부 이미지 버전에 고정되어 있는 경우 설치가 실패할 수 있습니다. 패키지는 공개 OSS 저장소에서 필요에 따라 설치되며, 설치를 지원하기 위해 패키지가 업스트림에서 제공되지 않을 수 있습니다. 해결 방법으로 커스텀 이미지에 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요. 이렇게 하려면 --optional-components 플래그와 함께 generate_custom_image.py를 실행합니다.

이미지 버전 2.3 머신러닝(ML) 구성요소

Dataproc 2.3-ml-ubuntu 이미지는 ML 전용 소프트웨어로 2.3 기본 이미지를 확장합니다. 2.3 이미지 선택적 구성요소와 기타 2.3 기능을 지원하고 다음 섹션에 나열된 구성요소 버전을 추가합니다.

GPU 전용 라이브러리

GPU VM을 사용하는 Dataproc 작업의 경우 2.3-ml-ubuntu 이미지에서 다음 NVIDIA 드라이버와 라이브러리를 사용할 수 있습니다. 이를 사용하여 다음 태스크를 수행할 수 있습니다.

패키지 이름 버전
Spark Rapids 25.04.0
NVIDIA 드라이버 NVIDIA 드라이버 버전 570이 적용된 Ubuntu 22.04 LTS Accelerated
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

XGBoost 라이브러리

다음 Maven 패키지 버전2.3-ml-ubuntu 이미지에서 사용할 수 있으며, 이를 통해 Java 또는 Scala에서 Spark와 함께 XGBoost를 사용할 수 있습니다.

그룹 ID 패키지 이름 버전
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Python 라이브러리

2.3-ml-ubuntu 이미지에는 ML 수명 주기의 여러 단계를 지원하는 다음 라이브러리가 포함되어 있습니다.

`2.3-ml-ubuntu` 이미지 Python 라이브러리
패키지 버전
accelerate1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex2023.12.25
requests2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizers0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformers4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

R 라이브러리

다음 R 라이브러리 버전은 2.3-ml-ubuntu 이미지에 포함되어 있습니다.

`2.3-ml-ubuntu` 이미지 R 라이브러리
패키지 이름 버전
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3