La cuota compartida dinámica (DSQ) se introdujo para entregar tus solicitudes de pago por uso (PayGo) con mayor flexibilidad para adaptarse a las necesidades de tu carga de trabajo sin tener que administrar cuotas ni solicitudes de aumento de cuota (QIR). Con DSQ, no hay límites de cuota predefinidos para tu uso. En cambio, DSQ proporciona acceso a un gran grupo compartido de recursos, asignado de forma dinámica en función de la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Cuando hay más clientes activos, cada uno obtiene una cantidad menor de rendimiento. Del mismo modo, si hay menos clientes, cada uno podría obtener una mayor capacidad de procesamiento.
Modelos compatibles
Los siguientes modelos de Gemini y sus modelos supervisados y ajustados admiten DSQ:
- Gemini 2.5 Flash-Lite
Versión preliminar - Gemini 2.0 Flash con API en vivo
Versión preliminar - Gemini 2.0 Flash con generación de imágenes
Versión preliminar - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Los siguientes modelos heredados de Gemini admiten DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Cómo funciona DSQ
La cuota compartida dinámica (DSQ) se adapta a tus patrones de tráfico y necesidades, y minimiza los problemas de uso. El acceso de tu proyecto a los recursos de DSQ no está limitado por un número arbitrario que establezcamos. En cambio, se determina según la capacidad general del grupo compartido y la demanda colectiva actual de todos los clientes. Este modelo está diseñado para ofrecer una flexibilidad significativa, lo que permite que tus cargas de trabajo se expandan y consuman más recursos cuando estén disponibles. Por el contrario, también permite que todos los clientes del grupo compartido tengan la oportunidad de acceder a los recursos cuando estén disponibles sin tener que configurar una cuota por cliente.
Para garantizar una experiencia justa y estable para todos los usuarios en el entorno de recursos compartidos, la cuota compartida dinámica administra de forma inteligente la forma en que se manejan las solicitudes, especialmente durante los períodos de demanda muy alta de fuentes aisladas. En lugar de una limitación fija, DSQ emplea un enfoque de priorización dinámico. Esto significa que, si bien el sistema está diseñado para admitir ráfagas, los aumentos inusualmente grandes y rápidos del tráfico de una sola fuente se pueden controlar con una prioridad diferente a la del tráfico más coherente y constante. Esta administración sofisticada garantiza que la actividad general del usuario y las cargas de trabajo normales estén protegidas de los aumentos transitorios y extremos, lo que promueve la estabilidad general del sistema y el acceso equitativo.
Las solicitudes de Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, que incluyen imágenes, audio, video y documentos.
Para garantizar la alta disponibilidad de tu aplicación y obtener niveles de servicio predecibles para tus cargas de trabajo de producción, consulta Capacidad de procesamiento aprovisionada.
Información sobre los errores 429 de agotamiento de recursos en DSQ
Entendemos que encontrar un error 429 de “recurso agotado” puede ser frustrante y puede llevarte a sospechar que estás alcanzando algún tipo de límite de cuota. Sin embargo, con DSQ, no es así. Estos errores indican que el conjunto general de recursos compartidos para ese tipo específico (p.ej., un modelo en particular en una región específica) en un momento específico experimenta una demanda extremadamente alta de muchos usuarios de forma simultánea. Piensa en ello como intentar subir a un tren muy popular durante la hora pico. No hay un “límite de boletos” específico para ti, pero es posible que el tren esté lleno por el momento. Es un estado temporal de contención de recursos, no un límite fijo impuesto a tu proyecto.
El DSQ trabaja constantemente para administrar y distribuir la capacidad disponible de forma justa y eficiente. Cuando recibes un error de este tipo, significa que la demanda instantánea superó la oferta disponible en ese grupo compartido. A diferencia de una cuota estricta en la que se te bloquearía incluso si los recursos estuvieran inactivos en otro lugar, el objetivo de la DSQ es brindarte acceso cuando los recursos estén disponibles. El error de agotamiento es un reflejo de la carga actual de todo el sistema, no un límite en tu cuenta.
Te recomendamos que implementes mecanismos de reintento, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Para obtener más tácticas para controlar los errores de agotamiento de recursos, consulta Una guía para controlar los errores 429 o Código de error 429.
¿Qué sigue?
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites, consulta Comprende los valores de cuota y los límites del sistema.