Azure API Management の AI ゲートウェイ

適用対象: すべての API Management レベル

Azure API Management の AI ゲートウェイ は、AI バックエンドを効果的に管理するのに役立つ一連の機能です。これらの機能は、インテリジェントなアプリとエージェントをサポートする大規模言語モデル (LLM) デプロイ、AI API、モデルコンテキストプロトコル (MCP) サーバーの管理、セキュリティ保護、スケーリング、監視、および管理に役立ちます。

AI ゲートウェイを使用して、次のようなさまざまな AI エンドポイントを管理します。

Azure AI Foundry と Azure AI Foundry Models 内での Azure OpenAI のデプロイメント
Azure AI モデル推論 API のデプロイ
リモート MCP サーバー
Microsoft 以外のプロバイダーによってホストされる OpenAI と互換性のあるモデルとエンドポイント
セルフホステッドモデルとエンドポイント

Azure API Management の AI ゲートウェイ機能を要約した図。

注記

MCP サーバー機能を含む AI ゲートウェイは、API Management の既存の API ゲートウェイを拡張します。これは個別のオファリングではありません。関連するガバナンスと開発者の機能は、Azure API Center にあります。

AI ゲートウェイを使用する理由

組織での AI の導入には、いくつかのフェーズが含まれます。

要件の定義と AI モデルの評価
AI モデルとサービスへのアクセスを必要とする AI アプリとエージェントの構築
AIアプリとバックエンドを運用化し、運用環境にデプロイする

AI の導入が成熟するにつれて、特に大企業では、AI ゲートウェイは主要な課題に対処するのに役立ち、次のことに役立ちます。

AI サービスへのアクセスを認証および承認する
複数の AI エンドポイント間での負荷分散
AI の対話を監視およびログに記録する
複数のアプリケーション間でトークンの使用状況とクォータを管理する
開発者チームのセルフサービスを有効にする

トラフィックの仲介と制御

AI ゲートウェイを使用すると、次のことができます。

OpenAI 互換またはパススルー LLM エンドポイントを API として迅速にインポートして構成する
Azure AI Foundry または Amazon Bedrock などのプロバイダーにデプロイされたモデルを管理する
チャットの完了、応答、およびリアルタイム API を管理する
既存の REST API を MCP サーバーとして公開し、MCP サーバーへのパススルーをサポートする

たとえば、AI Foundry または別のプロバイダーにデプロイされたモデルをオンボードするために、API Management には、マネージド ID を使用してスキーマをインポートし、AI エンドポイントへの認証を設定するための合理化されたウィザードが用意されており、手動で構成する必要はありません。同じユーザーフレンドリなエクスペリエンス内で、API のスケーラビリティ、セキュリティ、および可観測性に関するポリシーを事前に構成できます。

詳細情報:

スケーラビリティとパフォーマンス

生成 AI サービスの主なリソースの 1 つは トークンです。 Azure AI Foundry やその他のプロバイダーは、モデルデプロイのクォータを 1 分あたりのトークン (TPM) として割り当てます。これらのトークンは、社内のさまざまなアプリケーション、開発者チーム、部門など、モデルコンシューマー全体に配布します。

AI サービスバックエンドに接続するアプリが 1 つある場合は、モデルデプロイで直接設定した TPM 制限を使用してトークンの使用量を管理できます。ただし、アプリケーションポートフォリオが拡大すると、1 つまたは複数の AI サービスエンドポイントを呼び出す複数のアプリがある可能性があります。これらのエンドポイントは、従量課金制またはプロビジョニング済みスループットユニット (PTU) インスタンスにすることができます。 1 つのアプリで TPM クォータ全体が使用されていないことを確認し、必要なバックエンドに他のアプリがアクセスできないようにする必要があります。

トークンレートの制限とクォータ

AI サービストークンの使用に基づいて API コンシューマーごとに制限を管理および適用するように、LLM API のトークン制限ポリシーを構成します。このポリシーを使用すると、時間単位、日単位、週単位、月単位、年単位など、指定した期間の TPM 制限またはトークンクォータを設定できます。

API Management での Azure OpenAI Service トークンの制限を示す図。

このポリシーにより、サブスクリプションキー、送信元 IP アドレス、ポリシー式で定義された任意のキーなど、任意のカウンターキーにトークンベースの制限を柔軟に割り当てることができます。また、このポリシーにより、Azure API Management 側でプロンプトトークンを事前に計算できるため、プロンプトが既に制限を超えている場合に AI サービスバックエンドへの不要な要求が最小限に抑えられます。

次の基本的な例は、TPM 制限をサブスクリプションキーあたり 500 に設定する方法を示しています。

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

詳細情報:

LLM トークン制限ポリシー

セマンティックキャッシュ

セマンティックキャッシュは、前のプロンプトの結果 (完了) をキャッシュし、プロンプトのベクトル近接性を以前の要求と比較して再利用することで、LLM API のパフォーマンスを向上させる手法です。この手法により、AI サービスバックエンドに対する呼び出しの数が減り、エンドユーザーの応答時間が向上し、コストの削減に役立ちます。

API Management で、RediSearch と互換性のある Azure Managed Redis または別の外部キャッシュを使用してセマンティックキャッシュを有効にし、Azure API Management にオンボードします。 Embeddings API を使用すると、 llm-semantic-cache-store ポリシーと llm-semantic-cache-lookup ポリシーによって、セマンティックに似たプロンプト入力候補がキャッシュから格納および取得されます。このアプローチにより、入力候補を確実に再利用できるため、トークンの消費量が削減され、応答パフォーマンスが向上します。

API Management のセマンティックキャッシュの図。

詳細情報:

API Management のネイティブスケーリング機能

API Management には、ゲートウェイが AI API への大量の要求を処理するのに役立つ、組み込みのスケーリング機能も用意されています。これらの機能には、ゲートウェイ スケールユニット の自動または手動の追加、マルチリージョンデプロイ用のリージョンゲートウェイの追加が含まれます。特定の機能は、API Management サービスレベルによって異なります。

詳細情報:

注記

API Management ではゲートウェイ容量をスケーリングできますが、負荷の増加に対応するために、トラフィックをスケーリングして AI バックエンドに分散する必要もあります ( 回復性に関するセクションを参照)。たとえば、システムの地理的分散をマルチリージョン構成で利用するには、API Management ゲートウェイと同じリージョンにバックエンド AI サービスをデプロイする必要があります。

セキュリティと安全性

AI ゲートウェイは、AI API へのアクセスをセキュリティで保護および制御します。 AI ゲートウェイを使用すると、次のことができます。

マネージド ID を使用して Azure AI サービスに対する認証を行うので、認証に API キーは必要ありません
API Management の資格情報マネージャーを使用して API または MCP サーバーにアクセスするように AI アプリとエージェントの OAuth 承認を構成する
ポリシーを適用して、Azure AI Content Safety を使用して LLM プロンプトを自動的にモデレートする

API Management のコンテンツの安全性ポリシーの図。

詳細情報:

Resiliency

インテリジェントアプリケーションを構築する際の課題の 1 つは、アプリケーションがバックエンドの障害に対する回復性を確保し、高負荷を処理できることです。 Azure API Management でバックエンドを使用して LLM エンドポイントを構成することで、それらの間で負荷を分散できます。また、要求が応答しない場合に、AI サービスバックエンドへの要求の転送を停止するサーキットブレーカールールを定義することもできます。

ロードバランサー

バックエンドロードバランサーでは、ラウンドロビン、重み付け、優先度ベース、セッション対応の負荷分散がサポートされます。特定の要件を満たす負荷分散戦略を定義できます。たとえば、ロードバランサー構成内の優先順位を定義して、特定の Azure AI Foundry エンドポイント (特に PTU インスタンスとして購入されたもの) を最適に使用できるようにします。

API Management でのバックエンド負荷分散の使用を示す図。

サーキットブレーカー

バックエンドサーキットブレーカーは、動的なトリップ期間を備え、バックエンドによって提供される Retry-After ヘッダーからの値を適用します。この機能により、バックエンドの正確でタイムリーな復旧が保証され、優先度の高いバックエンドの使用率が最大化されます。

API Management でのバックエンドサーキットブレーカーの使用を示す図。

詳細情報:

API Management バックエンド

可観測性とガバナンス

API Management には、トークンの使用パターンの追跡、コストの最適化、AI ガバナンスポリシーへの準拠の確保、AI API に関する問題のトラブルシューティングを行う包括的な監視および分析機能が用意されています。この機能を使用してください。

Azure Monitor へのログプロンプトと結果出力
Application Insights でコンシューマーごとのトークンメトリックを追跡する
組み込みの監視ダッシュボードを表示する
カスタム式を使用してポリシーを構成する
アプリケーション間でトークンクォータを管理する

たとえば、 llm-emit-token-metric ポリシーを使用してトークンメトリックを出力し、Azure Monitor でメトリックをフィルター処理するために使用できるカスタムディメンションを追加できます。次の例では、(カスタムヘッダーから) クライアント IP アドレス、API ID、およびユーザー ID のディメンションを持つトークンメトリックを出力します。

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

API Management を使用してトークンメトリックを出力する図。

また、Azure API Management で LLM API のログ記録を有効にして、トークンの使用状況、プロンプト、課金と監査の完了を追跡します。ログ記録を有効にした後、Application Insights のログを分析し、API Management の組み込みのダッシュボードを使用して、AI API 全体のトークン消費パターンを表示できます。

詳細情報:

開発者エクスペリエンス

AI ゲートウェイと Azure API Center を使用して、AI API と MCP サーバーの開発とデプロイを効率化します。 API Management の一般的な AI シナリオ向けのわかりやすいインポートおよびポリシー構成エクスペリエンスに加えて、次の機能を利用できます。

Azure API Center の組織カタログに API と MCP サーバーを簡単に登録する
API Management および API Center の開発者ポータルを使用したセルフサービス API および MCP サーバーアクセス
カスタマイズのための API Management ポリシーツールキット
AI エージェントの機能を拡張するための API Center Copilot Studio コネクタ

ポータルの API センターの MCP サーバーのスクリーンショット。

詳細情報:

AI ゲートウェイ機能への早期アクセス

API Management のお客様は、 AI Gateway リリースチャネルを通じて新機能に早期にアクセスできます。このアクセスにより、一般公開前に最新の AI ゲートウェイのイノベーションを試し、製品の形成に役立つフィードバックを提供できます。

詳細情報:

API Management インスタンスのサービス更新設定を構成する

ラボとコードサンプル

アーキテクチャと設計

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-10-06

次の方法で共有

Azure API Management の AI ゲートウェイ

AI ゲートウェイを使用する理由

トラフィックの仲介と制御

スケーラビリティとパフォーマンス

トークン レートの制限とクォータ

セマンティック キャッシュ

API Management のネイティブ スケーリング機能

セキュリティと安全性

Resiliency

ロードバランサー

サーキットブレーカー

可観測性とガバナンス

開発者エクスペリエンス

AI ゲートウェイ機能への早期アクセス

ラボとコード サンプル

アーキテクチャと設計

関連するコンテンツ

フィードバック

その他のリソース

トークンレートの制限とクォータ

セマンティックキャッシュ

API Management のネイティブスケーリング機能

ラボとコードサンプル