Supervisa el estado del disco


Puedes verificar el estado de un volumen de Persistent Disk o de Google Cloud Hyperdisk si revisas la métrica de estado de rendimiento del disco. Esta métrica indica si el rendimiento del disco podría verse afectado por eventos adversos en Compute Engine.

También es posible que se vea un problema que afecta el estado de rendimiento del disco en el panel de Personalized Service Health (PSH) de tu proyecto o en el panel de Google Cloud Service Health.

En este documento, se analiza el estado de rendimiento del disco y cómo usarlo para solucionar problemas de rendimiento.

Cuándo verificar el estado de un disco

Si observas un problema de rendimiento con un disco, revisa la métrica de estado de rendimiento del disco para verificar su estado. La métrica de estado de rendimiento del disco se actualiza cada minuto y representa el rendimiento del disco durante todo el minuto anterior. Para conocer los pasos para verificar el estado del disco, consulta Cómo ver el estado de rendimiento del disco.

En la siguiente tabla, se resumen los valores posibles del estado de rendimiento del disco.

Estado Significado
Healthy El rendimiento del disco es el esperado.
Degraded Es posible que observes temporalmente una latencia de E/S más alta de lo esperado.
Severely degraded Se produce una latencia de E/S alta o algún otro error.

Si el estado de rendimiento no es Healthy, consulta Cómo comprender cada estado para conocer los próximos pasos.

Si el estado de rendimiento es Healthy, el disco funciona con normalidad y debes buscar otras causas para el problema de rendimiento. Debes verificar si hay errores en la aplicación o el sistema operativo, y asegurarte de que el disco esté optimizado correctamente. Para obtener instrucciones sobre la optimización, consulta Optimiza Hyperdisk y Optimiza Persistent Disk.

Cómo se relaciona el estado del disco con otras métricas de rendimiento del disco

El estado del disco, según lo indica la métrica de estado de rendimiento, muestra el estado interno del disco desde la perspectiva de Google. Si el estado de un disco es Degraded o Severely Degraded, la causa raíz siempre se encuentra dentro de la infraestructura de Compute Engine.

Por lo general, no puedes cambiar el estado de un disco modificando la carga de trabajo. Sin embargo, en casos excepcionales, un cambio en la carga de trabajo puede desencadenar un problema interno, por lo que es posible mitigar un problema modificando la carga de trabajo.

Para obtener información sobre las otras métricas de rendimiento del disco disponibles, consulta Revisa las métricas de rendimiento del disco.

Situaciones que no afectan el estado de rendimiento del disco

El estado de rendimiento del disco no está relacionado con los problemas de rendimiento causados por los siguientes factores:

  • Optimización del disco incompleta o insuficiente
  • Límite de rendimiento asociado con el disco y el tipo de máquina (si el tipo de máquina elegido no puede cumplir con los requisitos de rendimiento de tu carga de trabajo)
  • Aumento de la carga en el disco debido al tráfico de la carga de trabajo
  • Error del usuario, la aplicación o el sistema operativo
  • Discos completos o dañados
  • En el caso de los volúmenes de Hyperdisk y Persistent Disk Extreme, las IOPS o la capacidad de procesamiento no se aprovisionaron de forma suficiente.

En estas situaciones, es tu responsabilidad mejorar el rendimiento, por ejemplo, optimizando el disco, aumentando la carga de trabajo, cambiando el tipo de máquina y aprovisionando más capacidad, IOPS o capacidad de procesamiento.

Cómo ver el estado de un disco en Cloud Monitoring

Para ver el estado de un disco, crea un gráfico en el Explorador de métricas.

Roles y permisos requeridos

Para obtener los permisos que necesitas para verificar la métrica de estado del rendimiento del disco, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Crea un gráfico en el Explorador de métricas

Para crear un gráfico, compila una consulta con la interfaz controlada por menús, el lenguaje de consulta de Monitoring (MQL) o PromQL.

Para ver el estado de uno o más discos en un gráfico, sigue estas instrucciones.
  1. En la consola de Google Cloud , ve a la página  Explorador de métricas:

    Ir al Explorador de métricas

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

  2. En la barra de herramientas de la consola de Google Cloud , selecciona tu proyecto de Google Cloud . Para las configuraciones de App Hub, selecciona el proyecto host de App Hub o el proyecto de administración de la carpeta habilitada para apps.
  3. En el elemento Métrica, expande el menú Seleccionar una métrica, ingresa VM Instance en la barra de filtros y, luego, usa los submenús para seleccionar un métrica y tipo de recurso específicos:
    1. En el menú Recursos activos, selecciona Instancia de VM.
    2. En el menú Categorías de métricas activas, selecciona Instancia.
    3. En el menú Métricas activas, selecciona Estado de rendimiento del disco.
    4. Haz clic en Aplicar.
    El nombre calificado en su totalidad para esta métrica es compute.googleapis.com/instance/disk/performance_status.
  4. Configura cómo se ven los datos.
    Inhabilita la agregación. Asegúrate de que, en el elemento Agregación, el primer menú esté configurado como Sin agregar y el segundo menú como Ninguno.
    Para ver el estado de un disco específico, filtra por device_name.

    Para obtener más información sobre la configuración de un gráfico, consulta elige métricas cuando uses el Explorador de métricas.

MQL

  1. Abre el editor de consultas: Sigue los pasos que se indican en Cómo escribir consultas en MQL.

  2. Ingresa tu consulta en el Editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingresa la siguiente consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Reemplaza DISK_NAME por el nombre del disco, por ejemplo, disk-1.

PromQL

  1. Abre el editor de consultas: Sigue los pasos que se indican en Cómo escribir consultas de PromQL.

  2. Ingresa tu consulta en el Editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingresa la siguiente consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Reemplaza DISK_NAME por el nombre del disco, por ejemplo, disk-1.

Si ves los resultados en un gráfico, hay 3 líneas para cada disco, una para cada estado posible. Del mismo modo, si ves el resultado de la consulta en una tabla, esta tendrá 3 filas por cada disco.

Si creaste la consulta con PromQL o MQL, cada fila o línea tendrá un valor de 1 o 0. En el caso de las consultas creadas con los menús, los valores de serán 100% o 0.

El estado actual del disco se representa con la fila o la línea cuyo valor es 100% o 1.

Por ejemplo, en la siguiente captura de pantalla, se muestra el gráfico de un disco llamado a-test-VM, cuyo estado es Healthy:

Captura de pantalla que muestra el gráfico en el que el estado del disco es Correcto

Si ves los resultados de la consulta como una tabla, la siguiente es un ejemplo de los resultados para un disco que es Healthy:

performance_status valor
Healthy 1
Degraded 0
Severely Degraded 0

En la siguiente captura de pantalla, se muestra el gráfico de un disco llamado replica-23509 cuyo estado es Degradado: Captura de pantalla en la que se muestra el gráfico en el que el estado del disco es Degraded

Para obtener información sobre el significado de cada estado de rendimiento, consulta Información sobre cada estado. Después de crear el gráfico, puedes guardarlo en un panel para usarlo en el futuro.

Resultados fraccionarios

Si tu consulta incluye resultados fraccionarios, como en la siguiente tabla, esto suele deberse a que el período de visualización seleccionado fue largo. Como resultado, Cloud Monitoring agregó los datos a lo largo del tiempo. Un valor de 77% para el estado Healthy significa que el estado del disco fue Healthy el 77% del período de visualización seleccionado.

performance_status valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para obtener una vista más detallada del estado de un disco, usa un período de visualización de unas horas o algunos minutos.

Comprende cada estado

En esta sección, se explica qué significa cada estado y cuándo es posible que debas tomar medidas adicionales.

Healthy

El estado Healthy indica que, desde la perspectiva de Google, el disco funciona con normalidad.

Si un disco de Healthy tiene problemas de rendimiento, no te comuniques con el equipo de asistencia. En su lugar, soluciona los problemas del disco con algunas de las siguientes sugerencias:

  • Revisa las métricas de rendimiento del disco, como la latencia y la profundidad de la cola.
  • Verifica los registros y las métricas de tu carga de trabajo para detectar anomalías y cuellos de botella.
  • Si usas un Persistent Disk, asegúrate de que la capacidad aprovisionada pueda satisfacer las necesidades de rendimiento del disco. Si usas volúmenes de Hyperdisk o discos persistentes extremos, verifica que hayas aprovisionado suficientes IOPS y capacidad de procesamiento.
  • Asegúrate de haber seguido los lineamientos para optimizar el disco. Para obtener más información, consulta Optimiza Hyperdisk y Optimiza Persistent Disk.

Degraded

Por lo general, no es necesario que te comuniques con el equipo de asistencia si el estado del disco es Degraded. Por lo general, un Degraded status se debe al mantenimiento interno normal de la infraestructura de Compute Engine.

Es posible que no notes ningún impacto en el rendimiento del disco mientras su estado sea Degraded. Si el problema de rendimiento y el estado Degraded se correlacionan en el tiempo, es posible que el problema de rendimiento no esté relacionado con el estado Degraded.

En el improbable caso de que un problema de rendimiento se deba al estado Degraded, el impacto suele ser temporal. El estado del disco debería volver a Healthy en unos minutos.

Puedes ignorar el estado Degraded de forma segura si no hay problemas de rendimiento con el disco.

Qué hacer si hay un problema de rendimiento

Si el estado de rendimiento de tu disco es Degraded y observas un problema de rendimiento, sigue estos pasos:

  1. Consulta el panel de PSH para ver si hay algún incidente que afecte el disco. Si hay un incidente, no te comuniques con el equipo de asistencia, ya que Google está al tanto y trabajando para resolver el problema.
  2. Si no hay problemas conocidos, espera al menos 5 minutos para que el problema de rendimiento se resuelva por sí solo.
  3. Si, después de 5 minutos, el problema de rendimiento no se resuelve y el estado sigue siendo Degraded, asegúrate de que el problema de rendimiento no se deba a que el disco no está lo suficientemente optimizado. Por ejemplo, verifica la latencia y la profundidad de la cola del disco. Es posible que el problema de rendimiento y el estado Degraded no estén relacionados y sean solo una coincidencia. Para ello, revisa las métricas del disco y los lineamientos de optimización del rendimiento.

  4. Si los problemas de rendimiento continúan y se cumplen todas las siguientes condiciones, puedes comunicarte con el equipo de asistencia para obtener ayuda:

    • El estado del disco es Degraded desde hace más de 5 minutos.
    • Tienes la certeza razonable de que no se trata de un problema de carga de trabajo porque optimizaste el disco y verificaste que no haya otros problemas, como un cuello de botella o una aplicación sobrecargada.
    • No hay alertas en el panel de PSH

Google no recomienda crear una alerta directamente para el estado Degraded, sino que sugiere crear alertas sobre el estado de la aplicación de nivel superior y usar esta métrica para depurar problemas.

Severely Degraded

Un disco cuyo estado de rendimiento es Severely Degraded está experimentando un problema de rendimiento. Este problema puede deberse a un incidente o error, y es posible que ya se vea en el panel de PSH o en el panel de Google Cloud estado del servicio.

Qué hacer

Si el estado de rendimiento del disco es Severely Degraded, sigue estos pasos:

  1. Verifica el panel de PSH y el panel de estado general Google Cloud para ver si hay un incidente que afecte el disco. Si hay un incidente, no te comuniques con el equipo de asistencia, ya que Google está al tanto y trabajando para resolver el problema.
  2. Si no hay problemas conocidos en ninguno de los paneles, comunícate con el equipo de asistencia para obtener ayuda.

Árbol de decisión

En el siguiente diagrama, se ilustra cómo proceder si un disco tiene un problema de rendimiento y se resume la información de las secciones anteriores.

Diagrama de flujo que describe los pasos para interpretar la métrica de estado de rendimiento del disco.

Como se muestra en el diagrama de flujo, solo debes comunicarte con el equipo de asistencia si no hay alertas conocidas en los paneles de PSH y de servicios de Cloud, y el estado del disco es Severely Degraded. Si el disco es Degraded, comunícate con el equipo de asistencia solo si se cumplen todas las siguientes condiciones:

  • El disco está Degraded durante más de 5 minutos.
  • Descartaste un error o una configuración incorrecta de la carga de trabajo (como problemas de redes).
  • No se pueden realizar optimizaciones adicionales a nivel de la aplicación, la carga de trabajo o el disco.
  • Revisaste todas las métricas del disco.
  • Examinaste los registros de tu carga de trabajo y de la máquina virtual (VM).

¿Qué sigue?