Componente Jupyter opcional de Dataproc

Puedes instalar componentes adicionales, como Jupyter, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe el componente Jupyter.

El componente Jupyter es un cuaderno web para un solo usuario que permite realizar análisis de datos interactivos y es compatible con la interfaz web de JupyterLab. La interfaz de usuario web de Jupyter está disponible en el puerto 8123 del primer nodo maestro del clúster.

Abre cuadernos para varios usuarios. Puedes crear una instancia de Vertex AI Workbench con Dataproc habilitado o instalar el complemento Dataproc JupyterLab en una máquina virtual para ofrecer cuadernos a varios usuarios.

Configura Jupyter. Jupyter se puede configurar proporcionando dataproc:jupyter propiedades del clúster. Para reducir el riesgo de ejecución de código remoto a través de APIs de servidor de cuaderno no seguras, el valor predeterminado de la propiedad de clúster dataproc:jupyter.listen.all.interfaces es false, que restringe las conexiones a localhost (127.0.0.1) cuando la pasarela de componentes está habilitada (es necesario activar la pasarela de componentes para instalar el componente Jupyter).

El cuaderno de Jupyter proporciona un kernel de Python para ejecutar código de Spark y un kernel de PySpark. De forma predeterminada, los cuadernos se guardan en Cloud Storage en el segmento de desarrollo por fases de Dataproc, que especifica el usuario o se crea automáticamente al crear el clúster. La ubicación se puede cambiar al crear el clúster mediante la propiedad de clúster dataproc:jupyter.notebook.gcs.dir.

Trabajar con archivos de datos. Puedes usar un cuaderno de Jupyter para trabajar con archivos de datos que se hayan subido a Cloud Storage. Como el conector de Cloud Storage está preinstalado en un clúster de Dataproc, puedes hacer referencia a los archivos directamente en tu cuaderno. Aquí tienes un ejemplo que accede a archivos CSV en Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Consulta los ejemplos de PySpark de funciones genéricas de carga y guardado.

Instalar Jupyter

Instala el componente al crear un clúster de Dataproc. El componente Jupyter requiere la activación de la pasarela de componentes de Dataproc.

Consola

  1. Habilita el componente.
    • En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. El panel Configurar clúster está seleccionado.
    • En la sección Componentes, haz lo siguiente:

CLI de gcloud

Para crear un clúster de Dataproc que incluya el componente Jupyter, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

Ejemplo de la versión más reciente de la imagen predeterminada

En el siguiente ejemplo, se instala el componente Jupyter en un clúster que usa la versión de imagen predeterminada más reciente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

El componente Jupyter se puede instalar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Abrir las interfaces de usuario de Jupyter y JupyterLab

Haz clic en los enlaces de Component Gateway de la consolaGoogle Cloud para abrir en tu navegador local la interfaz de usuario del cuaderno de Jupyter o de JupyterLab que se ejecuta en el nodo maestro del clúster.

Selecciona "GCS" o "Disco local" para crear un cuaderno de Jupyter en cualquiera de las dos ubicaciones.

Montar GPUs en nodos maestros y de trabajador

Puedes añadir GPUs a los nodos maestros y de trabajador de tu clúster cuando utilices un cuaderno de Jupyter para lo siguiente:

  1. Preprocesa los datos en Spark, recoge un DataFrame en el nodo maestro y ejecuta TensorFlow.
  2. Usar Spark para orquestar ejecuciones de TensorFlow en paralelo
  3. Ejecuta Tensorflow-on-YARN.
  4. Usar con otros casos prácticos de aprendizaje automático que usen GPUs