モデルに送信されたリクエスト数が使用可能な処理容量を超えると、Vertex AI はリソースが使い果たされたことを示す 429
エラーコードを返します。具体的なエラー メッセージと解決パスは、従量制サービスを使用しているか、プロビジョニングされたスループットを購入したかによって異なります。
429 エラーの概要
次の表に、従量制とプロビジョニングされたスループットの割り当てフレームワークで 429
エラーが処理される方法の比較を示します。
機能 | 従量課金制 | プロビジョニングされたスループット |
---|---|---|
エラー メッセージ | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
原因 | リクエスト数が、共有リソースプールで使用可能な容量を超えている。 | リクエスト数が予約済みスループット容量を超えている。 |
SLA への影響 | 429 エラーを受け取ったリクエストは、サービスレベル契約(SLA)に記載されているエラー率にカウントされません。 |
購入したスループットの下回る使用量のエラーは 5XX として返され、SLA にカウントされます。購入したスループットを超える使用量のエラーは従量課金制として扱われ、SLA の対象にはなりません。 |
プロビジョニングされたスループットのサブスクリプションを使用すると、モデルに特定の量のスループットを予約できます。サブスクリプションがなく、共有リソースを使用できない場合は、429
エラーが返されます。予約済みの容量がない状況でも、リクエストを再試行できます。
プロビジョニングされたスループットを使用するプロジェクトの場合、Vertex AI はプロジェクトの使用量に対して購入したスループットを予約します。購入した量を使い切っていない場合、通常なら 429
として返されるエラーが 5XX
として返され、SLA エラー率にカウントされます。購入した量を超えると、追加のリクエストはオンデマンドで従量課金制として処理されます。
429 エラーの解決方法
429
エラーを解決する手順は、割り当てフレームワークによって異なります。
従量課金制
従量課金制の割り当てフレームワークでは、429
エラーを解決するために次のオプションがあります。
- グローバル エンドポイントを使用する: 可能であれば、リージョン エンドポイントではなくグローバル エンドポイントを使用します。
- 再試行戦略を実装する: 切り捨て型指数バックオフを使用してリクエストを再試行します。
- 割り当ての増加をリクエストする: モデルで割り当てを使用している場合は、割り当て増加リクエスト(QIR)を送信できます。
- トラフィックをスムーズにする: モデルで動的共有割り当て(DSQ)を使用している場合は、トラフィックをスムーズにし、急増を抑えることができます。詳細については、動的共有割り当てをご覧ください。
- プロビジョニングされたスループットに登録する: より一貫したサービスレベルを実現するために、プロビジョニングされたスループットに登録します。詳細については、プロビジョニングされたスループットをご覧ください。
プロビジョニングされたスループット
プロビジョニングされたスループット サブスクリプションがある場合に 429
エラーを解決するには、次の操作を行います。
- オンデマンド処理を許可する: 予測リクエストでヘッダーを設定しないことで、デフォルトの動作を使用します。超過分はオンデマンドで処理され、従量課金制で請求されます。
- 予約容量を増やす: プロビジョニングされたスループットのサブスクリプションの GSU 数を増やします。
次のステップ
- 動的共有割り当ての詳細については、動的共有割り当てをご覧ください。
- プロビジョニングされたスループットの詳細については、プロビジョニングされたスループットをご覧ください。
- Vertex AI の割り当てと上限の詳細については、Vertex AI の割り当てと上限をご覧ください。
- Google Cloud の割り当てと上限の詳細について、割り当ての値とシステムの上限についてを確認する。
- API エラーの詳細については、API エラーをご覧ください。