次の方法で共有


Azure OpenAI API 要求への応答をキャッシュする

適用対象: すべての API Management レベル

azure-openai-semantic-cache-store ポリシーは、構成された外部キャッシュに対する Azure OpenAI チャット完了 API 要求への応答をキャッシュします。 応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。

ポリシーの要素と子要素を、ポリシー ステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。

Azure AI Foundry モデルでサポートされている Azure OpenAI

このポリシーは、次の種類の AI Foundry モデルで Azure OpenAI から API Management に追加された API と共に使用されます。

[API の種類] サポートされているモデル
チャット入力候補 gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
埋め込み text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
応答 (プレビュー) gpt-4o (バージョン: 2024-11-202024-08-062024-05-13)

gpt-4o-mini (バージョン: 2024-07-18)

gpt-4.1 (バージョン: 2025-04-14)

gpt-4.1-nano (バージョン: 2025-04-14)

gpt-4.1-mini (バージョン: 2025-04-14)

gpt-image-1 (バージョン: 2025-04-15)

o3 (バージョン: 2025-04-16)

o4-mini (バージョン: '2025-04-16)

従来の完了 API は、従来のモデル バージョンでのみ使用でき、サポートは制限されています。

モデルとその機能の最新の情報については、「 Foundry モデルの Azure OpenAI」を参照してください。

ポリシー ステートメント

<azure-openai-semantic-cache-store duration="seconds"/>

属性

属性 説明 必要 既定値
期間 キャッシュに格納されたエントリの有効期間 (秒単位)。 ポリシー式を使用できます。 はい 該当なし

使用法

使用上の注意

  • このポリシーは、ポリシー セクションで 1 回だけ使用できます。
  • キャッシュ参照が失敗した場合、キャッシュ関連の操作を使用する API 呼び出しでエラーは発生せず、キャッシュ操作が正常に完了します。
  • キャッシュ検索の直後に レート制限 ポリシー (または キーごとのレート制限 ポリシー) を構成することをお勧めします。 これにより、キャッシュが使用できない場合にバックエンド サービスが過負荷にならないようにすることができます。

対応する azure-openai-semantic-cache-lookup ポリシーの例

次の例では、 azure-openai-semantic-cache-lookup ポリシーと azure-openai-semantic-cache-store ポリシーを使用して、類似性スコアのしきい値が 0.05 のセマンティックに類似したキャッシュされた応答を取得する方法を示します。 キャッシュされた値は、呼び出し元のサブスクリプション ID によってパーティション分割されます。

キャッシュ参照の後に追加される レート制限 ポリシーは、キャッシュが使用できない場合にバックエンド サービスでのオーバーロードを防ぐために呼び出しの数を制限するのに役立ちます。

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

ポリシーに対する処理の詳細については、次のトピックを参照してください。