2.3의 중요 변경사항:
버전
2.3
은 핵심 구성요소만 포함하는 경량 이미지로, Common Vulnerabilities and Exposures(CVE)에 대한 노출을 줄입니다. 보안 규정 준수 요구사항이 더 높은 경우 Dataproc 클러스터를 만들 때 이미지 버전2.3
이상을 사용하세요.2.3
이미지로 Dataproc 클러스터를 만들 때 선택적 구성요소를 설치하도록 선택하면 클러스터 생성 중에 다운로드되고 설치됩니다. 이렇게 하면 클러스터 시작 시간이 늘어날 수 있습니다. 이 지연을 방지하려면 선택적 구성요소가 사전 설치된 커스텀 이미지를 만들면 됩니다. 이는--optional-components
플래그로generate_custom_image.py
를 실행하여 달성할 수 있습니다.
참고:
다음은 2.3 이미지의 선택적 구성요소입니다.
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab 노트북
- Ranger
- Solr
- Zeppelin 노트북
- Zookeeper
yarn.nodemanager.recovery.enabled
및 HDFS 감사 로깅은 2.3 이미지에서 기본적으로 사용 설정됩니다.이전 이미지 버전의 conda 대신 micromamba가 Python 설치의 일부로 설치됩니다.
Docker 및 Zeppelin 설치 문제:
- 클러스터가 공개 인터넷에 액세스할 수 없는 경우 설치가 실패합니다. 해결 방법으로 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요.
--optional-components
플래그와 함께generate_custom_image.py
를 실행하면 됩니다. - 클러스터가 이전 하위 부 이미지 버전에 고정되어 있는 경우 설치가 실패할 수 있습니다. 패키지는 공개 OSS 저장소에서 필요에 따라 설치되며, 설치를 지원하기 위해 패키지가 업스트림에서 제공되지 않을 수 있습니다.
해결 방법으로 커스텀 이미지에 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요. 이렇게 하려면
--optional-components
플래그와 함께generate_custom_image.py
를 실행합니다.
- 클러스터가 공개 인터넷에 액세스할 수 없는 경우 설치가 실패합니다. 해결 방법으로 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요.
이미지 버전 2.3 머신러닝(ML) 구성요소
Dataproc 2.3-ml-ubuntu
이미지는 ML 전용 소프트웨어로 2.3 기본 이미지를 확장합니다. 2.3 이미지 선택적 구성요소와 기타 2.3 기능을 지원하고 다음 섹션에 나열된 구성요소 버전을 추가합니다.
GPU 전용 라이브러리
GPU VM을 사용하는 Dataproc 작업의 경우 2.3-ml-ubuntu
이미지에서 다음 NVIDIA 드라이버와 라이브러리를 사용할 수 있습니다. 이를 사용하여 다음 태스크를 수행할 수 있습니다.
- NVIDIA Spark Rapids 라이브러리로 Spark 일괄 워크로드 가속화
- 머신러닝 워크로드 학습
- Spark를 사용하여 분산 일괄 추론 실행
패키지 이름 | 버전 |
---|---|
Spark Rapids | 25.04.0 |
NVIDIA 드라이버 | NVIDIA 드라이버 버전 570이 적용된 Ubuntu 22.04 LTS Accelerated |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
XGBoost 라이브러리
다음 Maven 패키지 버전은 2.3-ml-ubuntu
이미지에서 사용할 수 있으며, 이를 통해 Java 또는 Scala에서 Spark와 함께 XGBoost를 사용할 수 있습니다.
그룹 ID | 패키지 이름 | 버전 |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Python 라이브러리
2.3-ml-ubuntu
이미지에는 ML 수명 주기의 여러 단계를 지원하는 다음 라이브러리가 포함되어 있습니다.
패키지 | 버전 |
---|---|
accelerate | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 2023.12.1 |
datasets | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 2023.10.1 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
notebook | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
papermill | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 2023.12.25 |
requests | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
shapely | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizers | 0.21.4.dev0 |
toree | 0.5.0 |
torch | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornado | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformers | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
R 라이브러리
다음 R 라이브러리 버전은 2.3-ml-ubuntu
이미지에 포함되어 있습니다.
패키지 이름 | 버전 |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1.98-1.16 |
r-recommended | 4.3 |