Se usó la API de Cloud Translation para traducir esta página.

Usa buckets con espacio de nombres jerárquico habilitado para las cargas de trabajo de Hadoop

En esta página, se describe cómo usar buckets con espacio de nombres jerárquico habilitado para las cargas de trabajo de Hadoop.

Descripción general

Cuando usas un bucket de Cloud Storage con espacio de nombres jerárquico, puedes configurar el conector de Cloud Storage para que use la operación rename folder para cargas de trabajo como Hadoop, Spark y Hive.

En un bucket sin espacio de nombres jerárquico, se realiza una operación de cambio de nombre en Hadoop, Spark y Hive implica varios trabajos de copia y eliminación de objetos, lo que afecta al rendimiento y la coherencia. Cambia el nombre de una carpeta con Cloud Storage, de este modo se optimiza el rendimiento y se garantiza la coherencia cuando se manejan carpetas con una gran cantidad de objetos.

Antes de comenzar

Para usar las funciones de los buckets con espacio de nombres jerárquico, usa las siguientes versiones del conector de Cloud Storage:

2.2.23 o posterior (si usas la versión 2.x.x)
3.0.1 o posterior (si usas la versión 3.x.x)

Las versiones anteriores del conector (3.0.0 y anteriores a la 2.2.23) tienen limitaciones. Para obtener más información sobre las limitaciones, consulta Compatibilidad con la versión 3.0.0 del conector de Cloud Storage o versiones anteriores a la 2.2.23.

Habilita el conector de Cloud Storage en un clúster

En esta sección, se describe cómo habilitar el conector de Cloud Storage en un clúster de Dataproc y en un clúster de Hadoop autoadministrado.

Dataproc

Puedes usar Google Cloud CLI para crear un clúster de Dataproc y habilitar el conector de Cloud Storage para realizar las operaciones de carpetas.

Crea un clúster de Dataproc con el siguiente comando:
```
  gcloud dataproc clusters create CLUSTER_NAME
  --properties=core:fs.gs.hierarchical.namespace.folders.enable=true,
  core:fs.gs.http.read-timeout=30000
  
```
Aquí:
- CLUSTER_NAME es el nombre del clúster. Por ejemplo: my-cluster
- fs.gs.hierarchical.namespace.folders.enable se usa para habilitar el espacio de nombres jerárquico en un bucket.
- fs.gs.http.read-timeout es el tiempo máximo permitido, en milisegundos, para leer datos de una conexión establecida. Este es un parámetro de configuración opcional.
  
  Nota: Si usas la versión 3.0.0 del conector de Cloud Storage o una versión anterior a la 2.2.23, no se admite el parámetro de configuración fs.gs.hierarchical.namespace.folders.enable y se genera un error si se incluye.

Hadoop autoadministrado

Puedes habilitar el conector de Cloud Storage en tu clúster de Hadoop autoadministrado para realizar las operaciones de carpetas.

Agrega lo siguiente al archivo de configuración core-site.xml:
```
    <property>
      <name>fs.gs.hierarchical.namespace.folders.enable</name>
      <value>true</value>
    </property>
    <property>
      <name>fs.gs.http.read-timeout</name>
      <value>30000</value>
    </property>
  
```
Aquí:
- fs.gs.hierarchical.namespace.folders.enable se usa para habilitar el espacio de nombres jerárquico en un bucket.
- fs.gs.http.read-timeout es el tiempo máximo permitido, en milisegundos, para leer datos de una conexión establecida. Este es un parámetro de configuración opcional.
  
  Nota: Si usas la versión 3.0.0 del conector de Cloud Storage o una versión anterior a la 2.2.23, no se admite el parámetro de configuración fs.gs.hierarchical.namespace.folders.enable y se genera un error si se incluye.

Compatibilidad con la versión 3.0.0 del conector de Cloud Storage o versiones anteriores a la 2.2.23

Usar la versión 3.0.0 del conector de Cloud Storage o versiones anteriores a la 2.2.23, o inhabilitar las operaciones de carpetas para el espacio de nombres jerárquico puede generar las siguientes limitaciones:

Cambio de nombre ineficiente de carpetas: ocurren operaciones de cambio de nombre de carpetas en Hadoop usando operaciones de copiar y borrar a nivel de objeto, lo que es más lento y menos eficiente que la operación rename folder dedicada.
Acumulación de carpetas vacías: Las carpetas no se borran automáticamente, lo que genera la acumulación de carpetas vacías en tu bucket. La acumulación de carpetas vacías puede tener el siguiente impacto:
- Aumentan los costos de almacenamiento si no se borran de forma explícita.
- Ralentiza las operaciones de listas y aumenta el riesgo de tiempos de espera con operaciones operación de lista.
  
  Nota: Para reducir el riesgo de tiempos de espera con operaciones de listas, configura el valor de tiempo de espera de fs.gs.http.read-timeout en 30000 milisegundos. Para configurar los parámetros de configuración de tiempo de espera, consulta las instrucciones de Dataproc o Hadoop autoadministrado, según el que uses.
Problemas de compatibilidad: Mezclar el uso de la versión anterior y la nueva del conector, o habilitar e inhabilitar operaciones de carpetas puede generar problemas de compatibilidad cuando se les cambia el nombre a las carpetas. Considera la siguiente situación que usa una combinación de versiones de conector:
1. Usa la versión del conector de Cloud Storage anterior a la 2.2.23 para realizar las siguientes tareas:
  1. Escribe objetos en la carpeta foo/.
  2. Cambia el nombre de la carpeta foo/ a bar/. La operación de cambio de nombre copia y borra los objetos en foo/, pero no borra la carpeta foo/ vacía.
2. Usa la versión 2.2.23 del conector de Cloud Storage con la configuración de operaciones de carpetas para cambiar el nombre de la carpeta bar/ a foo/.
La versión 2.2.23 del conector, con la operación de carpeta habilitada detecta la carpeta foo/ existente, lo que hace que la operación de cambio de nombre pueden fallar. La versión anterior del conector no eliminó la carpeta foo/ como se inhabilitó la operación de la carpeta.

¿Qué sigue?

Pruébalo tú mismo

Si es la primera vez que usas Google Cloud, crea una cuenta para evaluar el rendimiento de Cloud Storage en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Probar Cloud Storage gratis

Usa buckets con espacio de nombres jerárquico habilitado para las cargas de trabajo de Hadoop Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Descripción general

Antes de comenzar

Habilita el conector de Cloud Storage en un clúster

Dataproc

Hadoop autoadministrado

Compatibilidad con la versión 3.0.0 del conector de Cloud Storage o versiones anteriores a la 2.2.23

¿Qué sigue?

Pruébalo tú mismo

Usa buckets con espacio de nombres jerárquico habilitado para las cargas de trabajo de Hadoop