Surveiller l'état du disque


Vous pouvez vérifier l'état d'un volume Persistent Disk ou Google Cloud Hyperdisk en examinant la métrique État des performances du disque. Cette métrique indique si les performances du disque sont potentiellement affectées par des événements indésirables dans Compute Engine.

Un problème affectant l'état des performances du disque peut également être visible dans le tableau de bord Personal Service Health (PSH) ou Google Cloud Service Health de votre projet.

Ce document traite de l'état des performances du disque et explique comment l'utiliser pour résoudre les problèmes de performances.

Quand vérifier l'état d'un disque ?

Si vous constatez un problème de performances avec un disque, vérifiez son état en examinant la métrique d'état des performances du disque. La métrique sur l'état des performances du disque est actualisée toutes les minutes et représente les performances du disque au cours de la minute précédente. Pour savoir comment vérifier l'état du disque, consultez Afficher l'état des performances du disque.

Le tableau suivant récapitule les valeurs possibles de l'état des performances du disque.

État Signification
Healthy Les performances du disque sont conformes aux attentes.
Degraded Vous pouvez observer temporairement une latence d'E/S plus élevée que prévu.
Severely degraded Une latence d'E/S élevée ou d'autres erreurs se produisent.

Si l'état des performances n'est pas Healthy, consultez Comprendre chaque état pour connaître la marche à suivre.

Si l'état des performances est Healthy, cela signifie que le disque fonctionne normalement et que vous devez rechercher d'autres causes au problème de performances. Vous devez rechercher les erreurs d'application ou de système d'exploitation, et vous assurer que votre disque est correctement optimisé. Pour obtenir des consignes d'optimisation, consultez Optimiser Hyperdisk et Optimiser Persistent Disk.

Relation entre l'état du disque et les autres métriques de performances

L'état du disque indiqué par la métrique sur l'état des performances correspond à l'état interne du disque du point de vue de Google. Si l'état d'un disque est Degraded ou Severely Degraded, la cause première se trouve toujours dans l'infrastructure Compute Engine.

En général, vous ne pouvez pas modifier l'état d'un disque en modifiant la charge de travail. Toutefois, dans de rares cas, une modification de la charge de travail peut déclencher un problème interne. Il est donc possible d'atténuer un problème en modifiant la charge de travail.

Pour en savoir plus sur les autres métriques de performances de disque disponibles, consultez Examiner les métriques de performances des disques.

Scénarios qui n'affectent pas l'état des performances du disque

L'état des performances du disque n'est pas lié aux problèmes de performances causés par les facteurs suivants :

  • Optimisation incomplète ou insuffisante du disque
  • Limite de performances associée au disque et au type de machine (si le type de machine choisi ne peut pas répondre aux exigences de performances de votre charge de travail)
  • Charge accrue sur le disque en raison du trafic de charge de travail
  • Erreur de l'utilisateur, de l'application ou du système d'exploitation
  • Disques pleins ou corrompus
  • Pour les volumes Hyperdisk et Extreme Persistent Disk, les IOPS ou le débit sont insuffisants.

Dans ces situations, il vous incombe d'améliorer les performances, par exemple en optimisant le disque, en augmentant la charge de travail, en modifiant le type de machine et en provisionnant plus de capacité, d'IOPS ou de débit.

Afficher l'état d'un disque dans Cloud Monitoring

Pour afficher l'état d'un disque, créez un graphique dans l'explorateur de métriques.

Rôles et autorisations requis

Pour obtenir les autorisations nécessaires pour vérifier la métrique d'état des performances du disque, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer un graphique dans l'explorateur de métriques

Pour créer un graphique, créez une requête à l'aide de l'interface pilotée par un menu, du langage MQL (Monitoring Query Language) ou de PromQL.

Pour afficher l'état d'un ou de plusieurs disques sur un graphique, suivez ces instructions.
  1. Dans la console Google Cloud , accédez à la page  Explorateur de métriques :

    Accéder à l'explorateur de métriques

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

  2. Dans la barre d'outils de la console Google Cloud , sélectionnez votre projet Google Cloud . Pour les configurations App Hub, sélectionnez le projet hôte App Hub ou le projet de gestion du dossier compatible avec les applications.
  3. Dans l'élément Métrique, développez le menu Sélectionner une métrique, saisissez VM Instance dans la barre de filtre, puis utilisez les sous-menus pour sélectionner un type de ressource et des métriques spécifiques :
    1. Dans le menu Ressources actives, sélectionnez Instance de VM.
    2. Dans le menu Catégories de métriques actives, sélectionnez Instance.
    3. Dans le menu Métriques actives, sélectionnez État des performances du disque.
    4. Cliquez sur Appliquer.
    Le nom complet de cette métrique est compute.googleapis.com/instance/disk/performance_status.
  4. Configurez le mode d'affichage des données.
     Désactivez l'agrégation. Assurez-vous que, dans l'élément Agrégation, le premier menu est défini sur Non agrégé et le second sur Aucun.
    Pour afficher l'état d'un disque spécifique, filtrez par device_name.

    Pour plus d'informations sur la configuration d'un graphique, consultez la page Sélectionner des métriques lors de l'utilisation de l'explorateur de métriques.

MQL

  1. Ouvrez l'éditeur de requête en suivant les étapes décrites dans Rédiger des requêtes MQL.

  2. Saisissez votre requête dans l'Éditeur de requête. Par exemple, pour afficher l'état des performances d'un disque spécifique, saisissez la requête suivante :

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Remplacez DISK_NAME par le nom du disque, par exemple disk-1.

PromQL

  1. Ouvrez l'éditeur de requête en suivant les étapes décrites dans Écrire des requêtes PromQL.

  2. Saisissez votre requête dans l'Éditeur de requête. Par exemple, pour afficher l'état des performances d'un disque spécifique, saisissez la requête suivante :

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Remplacez DISK_NAME par le nom du disque, par exemple disk-1.

Si vous affichez les résultats dans un graphique, il y aura trois lignes pour chaque disque, une pour chaque état possible. De même, si vous affichez le résultat de la requête dans un tableau, celui-ci comporte trois lignes pour chaque disque.

Si vous avez créé la requête avec PromQL ou MQL, chaque ligne aura une valeur de 1 ou 0. Pour les requêtes créées à l'aide des menus, les valeurs de seront 100% ou 0.

L'état actuel du disque est représenté par la ligne dont la valeur est 100% ou 1.

Par exemple, la capture d'écran suivante montre le graphique d'un disque nommé a-test-VM, dont l'état est Healthy :

Capture d'écran montrant le graphique où l'état du disque est "Sain"

Si vous affichez les résultats de la requête sous forme de tableau, voici un exemple de résultats pour un disque Healthy :

performance_status valeur
Healthy 1
Degraded 0
Severely Degraded 0

La capture d'écran suivante montre le graphique d'un disque appelé replica-23509 dont l'état est Dégradé : Capture d'écran montrant le graphique où l'état du disque est "Dégradé"

Pour en savoir plus sur la signification de chaque état des performances, consultez Comprendre chaque état. Une fois le graphique créé, vous pouvez l'enregistrer dans un tableau de bord pour l'utiliser ultérieurement.

Résultats fractionnaires

Si votre requête inclut des résultats fractionnaires comme dans le tableau suivant, cela est généralement dû à la longue période d'affichage sélectionnée. Par conséquent, Cloud Monitoring a agrégé les données au fil du temps. Une valeur 77% pour l'état Healthy signifie que l'état du disque était Healthy pendant 77 % de la période d'affichage sélectionnée.

performance_status valeur
Healthy 77%
Degraded 23%
Severely Degraded 0

Pour obtenir une vue plus précise de l'état d'un disque, utilisez une période d'affichage de quelques heures ou de quelques minutes.

Comprendre chaque état

Cette section explique la signification de chaque état et les actions que vous devrez peut-être effectuer.

Healthy

L'état Healthy indique que, du point de vue de Google, le disque fonctionne normalement.

Si un disque Healthy présente des problèmes de performances, ne contactez pas l'assistance. À la place, résolvez le problème de disque en suivant les suggestions ci-dessous :

  • Examinez les métriques de performances des disques, telles que la latence et la profondeur de la file d'attente.
  • Consultez les journaux et les métriques de votre charge de travail pour détecter les anomalies et les goulots d'étranglement.
  • Si vous utilisez un disque persistant, assurez-vous que la capacité provisionnée peut répondre aux besoins de performances du disque. Si vous utilisez des volumes Hyperdisk ou Extreme Persistent Disk, vérifiez que vous avez provisionné suffisamment d'IOPS et de débit.
  • Assurez-vous d'avoir suivi les consignes pour optimiser le disque. Pour en savoir plus, consultez Optimiser Hyperdisk et Optimiser Persistent Disk.

Degraded

Vous n'avez généralement pas besoin de contacter l'assistance si l'état de votre disque est Degraded. Un Degraded status est généralement dû à une maintenance interne normale de l'infrastructure Compute Engine.

Vous ne remarquerez peut-être aucun impact sur les performances du disque lorsque son état est Degraded. Si le problème de performances et l'état Degraded sont corrélés dans le temps, il est possible que le problème de performances ne soit pas lié à l'état Degraded.

Dans le cas peu probable où un problème de performances serait dû à l'état Degraded, l'impact est généralement temporaire. L'état du disque devrait revenir à Healthy en quelques minutes.

Vous pouvez ignorer l'état Degraded si le disque ne présente aucun problème de performances.

Que faire en cas de problème de performances ?

Si l'état des performances de votre disque est Degraded et que vous constatez un problème de performances, procédez comme suit :

  1. Consultez le tableau de bord PSH pour voir si un incident affecte le disque. En cas d'incident, ne contactez pas l'assistance. Google est au courant et s'efforce de résoudre le problème.
  2. Si aucun problème connu n'est détecté, patientez au moins cinq minutes pour que le problème de performances se résolve de lui-même.
  3. Si, au bout de cinq minutes, le problème de performances n'est pas résolu et que l'état est toujours Degraded, assurez-vous que le problème de performances n'est pas dû à une optimisation insuffisante du disque. Par exemple, vérifiez la latence et la profondeur de la file d'attente du disque. Il est possible que le problème de performances et l'état Degraded n'aient aucun lien et ne soient qu'une coïncidence. Pour ce faire, examinez les métriques du disque et les consignes d'optimisation des performances.

  4. Si les problèmes de performances persistent et que toutes les conditions suivantes sont remplies, vous pouvez contacter l'assistance pour obtenir de l'aide :

    • L'état du disque est Degraded depuis plus de cinq minutes.
    • Vous êtes raisonnablement sûr qu'il ne s'agit pas d'un problème de charge de travail, car vous avez optimisé le disque et vérifié qu'il n'y avait pas d'autres problèmes tels qu'un goulot d'étranglement ou une application surchargée.
    • Aucune alerte n'est affichée dans le tableau de bord PSH.

Google ne recommande pas de créer une alerte directement pour l'état Degraded, mais plutôt d'alerter sur l'état de l'application de niveau supérieur et d'utiliser cette métrique pour déboguer les problèmes.

Severely Degraded

Un disque dont l'état des performances est Severely Degraded présente un problème de performances. Ce problème peut être dû à un incident ou à une erreur, et peut déjà être visible dans le tableau de bord PSH ou dans le tableau de bord Google Cloud Service Health.

Que faire ?

Si l'état des performances de votre disque est Severely Degraded, procédez comme suit :

  1. Consultez le tableau de bord PSH et le tableau de bord sur l'état général Google Cloud pour identifier un éventuel incident affectant le disque. En cas d'incident, ne contactez pas l'assistance. Google en est informé et s'efforce de résoudre le problème.
  2. Si aucun problème connu n'est indiqué dans les deux tableaux de bord, contactez l'assistance pour obtenir de l'aide.

Arbre de décision

Le schéma suivant illustre la procédure à suivre en cas de problème de performances d'un disque et récapitule les informations des sections précédentes.

Organigramme décrivant les étapes à suivre pour interpréter la métrique d'état des performances du disque.

Comme indiqué dans l'organigramme, vous ne devez contacter l'assistance que si aucune alerte connue n'est affichée dans les tableaux de bord PSH et des services cloud, et si l'état du disque est Severely Degraded. Si le disque est Degraded, ne contactez l'assistance que si toutes les conditions suivantes sont remplies :

  • Le disque est Degraded depuis plus de cinq minutes.
  • Vous avez exclu une erreur ou une mauvaise configuration de la charge de travail (comme des problèmes de réseau).
  • Aucune autre optimisation ne peut être effectuée au niveau de l'application, de la charge de travail ou du disque.
  • Vous avez examiné toutes les métriques du disque.
  • Vous avez examiné les journaux de votre charge de travail et de votre machine virtuelle (VM).

Étapes suivantes