Lorsque le nombre de requêtes envoyées à un modèle dépasse la capacité de traitement disponible, Vertex AI renvoie un code d'erreur 429
, indiquant que la ressource est épuisée. Le message d'erreur spécifique et le chemin de résolution dépendent de l'utilisation du service de paiement à l'usage ou de l'achat du débit provisionné.
Comprendre l'erreur 429
Le tableau suivant compare la façon dont l'erreur 429
est gérée dans les frameworks de quota de paiement à l'usage et de débit provisionné.
Paiement à l'usage | Débit provisionné | |
---|---|---|
Message d'erreur | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
Cause | Le nombre de requêtes dépasse la capacité disponible dans le pool de ressources partagées. | Le nombre de requêtes dépasse votre capacité de débit réservée. |
Impact sur le contrat de niveau de service | Les requêtes qui reçoivent une erreur 429 ne sont pas comptabilisées dans votre taux d'erreur, comme indiqué dans le contrat de niveau de service (SLA). |
Les erreurs pour une utilisation inférieure au débit acheté sont renvoyées en tant qu'erreurs 5XX . Pour le débit provisionné standard, les erreurs 5XX sont comptabilisées dans le contrat de niveau de service. Le débit provisionné à zone unique n'est pas couvert par le contrat de niveau de service. Les erreurs liées à une utilisation supérieure au débit acheté sont traitées comme un paiement à l'usage et ne sont pas comptabilisées dans l'accord de niveau de service. |
Si vous disposez d'un abonnement de débit provisionné, vous réservez un certain débit pour vos modèles. Si vous ne disposez pas d'un abonnement et que les ressources partagées ne sont pas disponibles, vous recevrez une erreur 429
. Bien que vous ne disposiez pas de capacité réservée, vous pouvez relancer votre requête.
Pour les projets avec débit provisionné, Vertex AI réserve le débit acheté pour l'utilisation de votre projet. Lorsque vous utilisez moins que le montant acheté, les erreurs qui pourraient être 429
sont renvoyées en tant qu'erreurs 5XX
et sont comptabilisées dans le taux d'erreur de l'accord de niveau de service. Lorsque vous dépassez le montant acheté, les demandes supplémentaires sont traitées à la demande selon le modèle de paiement à l'usage.
Résoudre les erreurs 429
La procédure à suivre pour résoudre une erreur 429
varie en fonction de votre framework de quotas.
Paiement à l'usage
Dans le framework de quota de paiement à l'usage, vous disposez des options suivantes pour résoudre les erreurs 429
:
- Utilisez le point de terminaison mondial : dans la mesure du possible, utilisez le point de terminaison mondial au lieu d'un point de terminaison régional.
- Implémentez une stratégie de nouvelle tentative : utilisez un intervalle exponentiel tronqué entre les tentatives pour relancer les requêtes.
- Demander une augmentation de quota : si votre modèle utilise des quotas, vous pouvez envoyer une demande d'augmentation de quota.
- Lisser le trafic : si votre modèle utilise le quota partagé dynamique, il peut être utile de lisser le trafic et de réduire les pics importants. Pour en savoir plus, consultez Quota partagé dynamique.
- Abonnez-vous au débit provisionné : pour un niveau de service plus cohérent, abonnez-vous au débit provisionné. Pour en savoir plus, consultez Débit provisionné.
Débit provisionné
Pour résoudre une erreur 429
lorsque vous disposez d'un abonnement au débit provisionné, vous pouvez procéder comme suit :
- Autoriser le traitement à la demande : utilisez le comportement par défaut en ne définissant pas d'en-tête dans vos requêtes de prédiction. Tous les dépassements sont traités à la demande et facturés selon le paiement à l'usage.
- Augmenter la capacité réservée : augmentez le nombre de GSU dans votre abonnement de débit provisionné.
Étapes suivantes
- Pour en savoir plus sur le quota partagé dynamique, consultez Quota partagé dynamique.
- Pour en savoir plus sur le débit provisionné, consultez Débit provisionné.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez Quotas et limites de Vertex AI.
- Pour en savoir plus sur les quotas et les limites de Google Cloud, consultez Comprendre les valeurs de quota et les limites du système.
- Pour en savoir plus sur les erreurs d'API, consultez Erreurs d'API.