Text‑to‑Speech se cobra según la cantidad de caracteres que se envíen al servicio para sintetizarse como audio cada mes. Debes habilitar la facturación para usar Text-to-Speech, y se cobrará de forma automática si tu uso excede la cantidad de caracteres gratuitos permitidos por mes. Para obtener información sobre cómo realizar un seguimiento de los totales de caracteres, consulta comentariosSupervisar el uso de la API. El precio se calcula por carácter.
Para fines de facturación, se cuenta la cantidad total de caracteres en la cadena de entrada, incluidos los espacios y los caracteres de nueva línea. Todas las etiquetas de Lenguaje de marcado de síntesis de voz (SSML) (excepto la etiqueta <mark>) también se incluyen en el recuento de caracteres.
La evolución más reciente de nuestra tecnología de Text-to-Speech, que ofrece un control detallado sobre el audio generado a partir de instrucciones basadas en texto.
Modelo | Límite de uso gratuito | Precio una vez alcanzado el límite de uso gratuito |
---|---|---|
TTS de Gemini 2.5 Flash | No disponible | Tokens de entrada: $0.50 por 1 millón de tokens de texto (sku: 242A-EA16-C1EC) Tokens de salida: $10.00 por 1 millón de tokens de audio* (sku: 9228-79EF-B162) |
Gemini 2.5 Pro TTS | No disponible | Tokens de entrada: $1.00 por 1 millón de tokens de texto (sku: 8FF1-7E5B-5BB7) Tokens de salida: $20.00 por 1 millón de tokens de audio* (sku: DCF3-CB17-8262) |
* Los tokens de audio corresponden a 25 tokens por segundo de audio.
Con la tecnología de nuestros LLM de vanguardia, nuestros modelos de TTS más recientes ofrecen un nivel de realismo y resonancia emocional sin igual para cada caso de uso.
Modelo | Límite de uso gratuito | Precio una vez alcanzado el límite de uso gratuito |
---|---|---|
Voces en HD de Chirp 3 (sku:F977-2280-6F1B) | De 0 a 1 millón de caracteres | USD 0.00003 por carácter (USD 30 por 1 millón de caracteres) |
(sku:A247-37D7-C094) | No disponible | USD 0.00006 por carácter (USD 60 por 1 millón de caracteres) |
Modelo | Límite de uso gratuito | Precio una vez alcanzado el límite de uso gratuito |
---|---|---|
Voces generadas por WaveNet (sku:9D01-5995-B545) | De 0 a 4 millones de caracteres | USD 0.000004 por carácter (USD 4 por 1 millón de caracteres) |
Voces de Studio (sku:84AB-48C0-F9C3) | De 0 a 1 millón de caracteres | USD 0.00016 por carácter (USD 160 por 1 millón de caracteres) |
Voces estándar (sku:9D01-5995-B545) | De 0 a 4 millones de caracteres | USD 0.000004 por carácter (USD 4 por 1 millón de caracteres) |
Voces de Neural2 (sku:FEBD-04B6-769B) | De 0 a 1 millón de caracteres | USD 0.000016 por carácter (USD 16 por 1 millón de caracteres) |
Voces de Polyglot (versión preliminar) (sku:FEBD-04B6-769B) | De 0 a 1 millón de caracteres | USD 0.000016 por carácter (USD 16 por 1 millón de caracteres) |
Nota: En el caso de las voces WaveNet y Standard, la cantidad de caracteres será igual o menor que la cantidad de bytes que representa el texto. Esto incluye caracteres alfanuméricos, puntuación y espacios en blanco. Algunos grupos de caracteres utilizan más de un byte por carácter. Por ejemplo, en UTF-8, los caracteres en japonés (ja-JP) suelen requerir más de un byte cada uno. En este caso, solo se te cobrará por un carácter, no por varios bytes.
Si usas otros recursos de Google Cloud en conjunto con Cloud Text‑to‑Speech, como instancias de Google App Engine, también se te facturará el uso de esos servicios. Consulta la calculadora de precios de Google Cloud para determinar otros costos según las tarifas actuales.