支持的模型

下表显示了支持预配吞吐量的模型、每个生成式 AI 扩缩单元 (GSU) 的吞吐量,以及每个模型的消耗率

Google 模型

预配吞吐量仅支持您使用特定模型 ID(而非模型别名)直接从项目中调用的模型。如需使用预配的吞吐量向模型发出 API 调用,您必须使用特定的模型版本 ID(例如 gemini-2.0-flash-001),而不是模型版本别名

此外,预配吞吐量不支持由其他 Vertex AI 产品(例如 Vertex AI Agent 和 Vertex AI Search)调用的模型。例如,如果您在使用 Vertex AI Search 时向 Gemini 2.0 Flash 发出 API 调用,则 Gemini 2.0 Flash 的预配吞吐量订单无法保证 Vertex AI Search 发出的调用。

下表显示了支持预配吞吐量的 Google 模型的吞吐量、购买增量和消耗率。每秒吞吐量定义为所有请求中每秒的提示输入和生成的输出总数。

如需了解您的工作负载需要多少 token,请参阅 SDK 词元化器countTokens API

型号 每个 GSU 的每秒吞吐量 单位 最小 GSU 购买增量 消耗率

内含 Live API 的 Gemini 2.5 Flash

最新的受支持版本:gemini-live-2.5-flash

1620 令牌 1 1 个输入文本 token = 1 个输入文本 token
1 个输入音频 token = 6 个输入文本 token
1 个输入视频 token = 6 个输入文本 token
1 个输入会话内存 token = 1 个输入文本 token
1 个输出文本 token = 4 个输入文本 token
1 个输出音频 token = 24 个输入文本 token

Gemini 2.5 Flash-Lite

最新的受支持版本:gemini-2.5-flash-lite-preview-06-17预览版

8070 令牌 1 1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 5 个 token
1 个输出响应文本 token = 4 个 token

Gemini 2.5 Pro

最新的受支持版本:gemini-2.5-pro

650 令牌 1 输入词元数小于或等于 200,000 个
1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 1 个 token
1 个输出响应文本 token = 8 个 token
1 个输出推理文本 token = 8 个 token

输入词元数超过 200,000 个
1 个输入文本 token = 2 个 token
1 个输入图片 token = 2 个 token
1 个输入视频 token = 2 个 token
1 个输入音频 token = 2 个 token
1 个输出响应文本 token = 12 个 token
1 个输出推理文本 token = 12 个 token

Gemini 2.5 Flash

最新的受支持版本:gemini-2.5-flash

2690 令牌 1 1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 4 个 token
1 个输出响应文本 token = 9 个 token
1 个输出推理文本 token = 9 个 token

Gemini 2.0 Flash

最新的受支持版本:gemini-2.0-flash-001

3360 令牌 1 1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 7 个 token
1 个输出文本 token = 4 个 token

Gemini 2.0 Flash-Lite

最新的受支持版本:gemini-2.0-flash-lite-001

6720 令牌 1 1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 1 个 token
1 个输出文本 token = 4 个 token
Imagen 3 0.025 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 3 Fast 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 2 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 2 修改 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
MedLM 中等 2000 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 2 个字符
MedLM 大型 200 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符
MedLM large 1.5 200 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符

您可以随时升级到新模型。如需了解模型可用性和停用日期,请参阅 Google 模型

如需详细了解受支持的位置,请参阅可用位置

全球端点模型支持

预配吞吐量支持以下模型的全局端点

型号 最新的受支持模型版本
Gemini 2.5 Flash-Lite(预览版 gemini-2.5-flash-lite-preview-06-17
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

默认情况下,超出预配吞吐量配额的流量会使用全球端点。

如需向模型的全球端点分配预配置吞吐量,请在下单购买预配置吞吐量时选择 global 作为区域。

支持监督式微调的模型

支持监督式微调的 Google 模型支持以下操作:

  • 预配吞吐量既可应用于基本模型,也可应用于这些基本模型的监督式微调版本。

  • 监督式微调模型端点及其对应的基础模型会计入同一预配吞吐量配额。

    例如,为特定项目的 gemini-2.0-flash-lite-001 购买的预配吞吐量会优先处理使用该项目中创建的监督式微调版本的 gemini-2.0-flash-lite-001 发出的请求。使用适当的标头来控制流量行为。

合作伙伴模型

下表显示了支持预配吞吐量的合作伙伴模型的吞吐量、购买增量和消耗率。Claude 模型以每秒词元数为单位进行衡量,每秒词元数定义为所有请求中每秒的输入和输出词元的总数。

模型 每个 GSU 的吞吐量(词元数/秒) 最小 GSU 购买量 GSU 购买增量 消耗率
Anthropic 的 Claude Opus 4 70 35 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude Sonnet 4 350 25 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3.7 Sonnet 350 25 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3.5 Sonnet v2 350 25 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3.5 Haiku 2,000 10 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3 Opus 70 35 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3 Haiku 4,200 5 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌
Anthropic 的 Claude 3.5 Sonnet 350 25 1 1 个输入令牌 = 1 个令牌
1 个输出令牌 = 5 个令牌
1 个缓存写入令牌 = 1.25 个令牌
1 个缓存命中令牌 = 0.1 个令牌

如需了解受支持的位置,请参阅 Anthropic Claude 区域可用性。如需为 Anthropic 模型订购预配吞吐量,请与您的 Google Cloud 客户代表联系。

后续步骤