適用対象: すべての API Management レベル
azure-openai-semantic-cache-store ポリシーは、構成された外部キャッシュに対する Azure OpenAI チャット完了 API 要求への応答をキャッシュします。 応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。
注
- このポリシーには、対応する "Azure OpenAI API 要求に対するキャッシュされた応答を取得する" ポリシーが必要です。
- セマンティック キャッシュを有効にする前提条件と手順については、Azure API Management で Azure OpenAI API のセマンティック キャッシュを有効にする方法に関する記事を参照してください。
注
ポリシーの要素と子要素を、ポリシー ステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。
Azure AI Foundry モデルでサポートされている Azure OpenAI
このポリシーは、次の種類の AI Foundry モデルで Azure OpenAI から API Management に追加された API と共に使用されます。
| [API の種類] | サポートされているモデル |
|---|---|
| チャット入力候補 | gpt-3.5gpt-4gpt-4ogpt-4o-minio1o3 |
| 埋め込み | text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002 |
| 応答 (プレビュー) |
gpt-4o (バージョン: 2024-11-20、 2024-08-06、 2024-05-13)gpt-4o-mini (バージョン: 2024-07-18)gpt-4.1 (バージョン: 2025-04-14)gpt-4.1-nano (バージョン: 2025-04-14)gpt-4.1-mini (バージョン: 2025-04-14)gpt-image-1 (バージョン: 2025-04-15)o3 (バージョン: 2025-04-16)o4-mini (バージョン: '2025-04-16) |
注
従来の完了 API は、従来のモデル バージョンでのみ使用でき、サポートは制限されています。
モデルとその機能の最新の情報については、「 Foundry モデルの Azure OpenAI」を参照してください。
ポリシー ステートメント
<azure-openai-semantic-cache-store duration="seconds"/>
属性
| 属性 | 説明 | 必要 | 既定値 |
|---|---|---|---|
| 期間 | キャッシュに格納されたエントリの有効期間 (秒単位)。 ポリシー式を使用できます。 | はい | 該当なし |
使用法
- ポリシー セクション: outbound
- ポリシー スコープ: グローバル、製品、API、操作
- ゲートウェイ: クラシック、v2、従量課金、セルフホステッド
使用上の注意
- このポリシーは、ポリシー セクションで 1 回だけ使用できます。
- キャッシュ参照が失敗した場合、キャッシュ関連の操作を使用する API 呼び出しでエラーは発生せず、キャッシュ操作が正常に完了します。
- キャッシュ検索の直後に レート制限 ポリシー (または キーごとのレート制限 ポリシー) を構成することをお勧めします。 これにより、キャッシュが使用できない場合にバックエンド サービスが過負荷にならないようにすることができます。
例
対応する azure-openai-semantic-cache-lookup ポリシーの例
次の例では、 azure-openai-semantic-cache-lookup ポリシーと azure-openai-semantic-cache-store ポリシーを使用して、類似性スコアのしきい値が 0.05 のセマンティックに類似したキャッシュされた応答を取得する方法を示します。 キャッシュされた値は、呼び出し元のサブスクリプション ID によってパーティション分割されます。
注
キャッシュ参照の後に追加される レート制限 ポリシーは、キャッシュが使用できない場合にバックエンド サービスでのオーバーロードを防ぐために呼び出しの数を制限するのに役立ちます。
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
関連ポリシー
関連するコンテンツ
ポリシーに対する処理の詳細については、次のトピックを参照してください。