Quando il numero di richieste inviate a un modello supera la capacità di elaborazione disponibile, Vertex AI restituisce un codice di errore 429
, a indicare che la risorsa è esaurita. Il messaggio di errore specifico e il percorso di risoluzione dipendono dal fatto che tu stia utilizzando il servizio di pagamento a consumo o che tu abbia acquistato il throughput pianificato.
Informazioni sull'errore 429
La tabella seguente mette a confronto il modo in cui viene gestito l'errore 429
nei framework di quote di pagamento a consumo e di velocità effettiva pianificata.
Funzionalità | Pagamento a consumo | Throughput riservato |
---|---|---|
Messaggio di errore | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
Causa | Il numero di richieste supera la capacità disponibile nel pool di risorse condivise. | Il numero di richieste supera la capacità di throughput riservata. |
Impatto dello SLA | Le richieste che ricevono un errore 429 non vengono conteggiate ai fini del tasso di errore, come descritto nell'accordo sul livello del servizio (SLA). |
Gli errori relativi a un utilizzo inferiore al throughput acquistato vengono restituiti come 5XX e vengono conteggiati ai fini dello SLA. Gli errori relativi a un utilizzo superiore al throughput acquistato vengono trattati come pagamento a consumo e non vengono conteggiati ai fini dello SLA. |
Con un abbonamento con throughput riservato, puoi prenotare una quantità specifica di throughput per i tuoi modelli. Se non hai un abbonamento e le risorse condivise non sono disponibili, riceverai un errore 429
. Anche se non hai una capacità prenotata, puoi riprovare a inviare la richiesta.
Per i progetti con throughput riservato, Vertex AI riserva il throughput acquistato per l'utilizzo del progetto. Quando utilizzi meno dell'importo acquistato, gli errori che altrimenti potrebbero essere 429
vengono restituiti come 5XX
e conteggiati ai fini del calcolo del tasso di errore dello SLA. Quando superi l'importo acquistato, le richieste aggiuntive vengono elaborate on demand con pagamento a consumo.
Come risolvere gli errori 429
I passaggi per risolvere un errore 429
variano a seconda del framework di quota.
Pagamento a consumo
Nel framework delle quote di pagamento a consumo, hai le seguenti opzioni per risolvere gli errori 429
:
- Utilizza l'endpoint globale: se possibile, utilizza l'endpoint globale anziché un endpoint regionale.
- Implementa una strategia di ripetizione: utilizza il backoff esponenziale troncato per ripetere le richieste.
- Richiedi un aumento della quota: se il tuo modello utilizza le quote, puoi inviare una richiesta di aumento della quota (QIR).
- Evita picchi di traffico: se il tuo modello utilizza la quota condivisa dinamica (DSQ), puoi attenuare il traffico e ridurre i picchi elevati. Per ulteriori informazioni, consulta Quota condivisa dinamica.
- Abbonati a Throughput riservato: per un livello di servizio più coerente, abbonati a Throughput riservato. Per ulteriori informazioni, consulta la sezione Throughput riservato.
Throughput riservato
Per risolvere un errore 429
quando hai un abbonamento con throughput pianificato, puoi procedere nel seguente modo:
- Consenti l'elaborazione on demand: utilizza il comportamento predefinito non impostando un'intestazione nelle richieste di previsione. Eventuali eccedenze vengono elaborate on demand e fatturate con pagamento a consumo.
- Aumenta la capacità riservata: aumenta il numero di GSU nell'abbonamento con velocità effettiva assegnata.
Passaggi successivi
- Per scoprire di più sulla quota condivisa dinamica, consulta Quota condivisa dinamica.
- Per scoprire di più sul throughput riservato, consulta Throughput riservato.
- Per informazioni su quote e limiti per Vertex AI, consulta Quote e limiti di Vertex AI.
- Per scoprire di più sulle quote e sui limiti di Google Cloud, consulta Informazioni sui valori delle quote e sui limiti di sistema.
- Per scoprire di più sugli errori dell'API, consulta la sezione Errori dell'API.