適用対象: すべての API Management レベル
Azure API Management の AI ゲートウェイ は、AI バックエンドを効果的に管理するのに役立つ一連の機能です。 これらの機能は、インテリジェントなアプリとエージェントをサポートする大規模言語モデル (LLM) デプロイ、AI API、モデル コンテキスト プロトコル (MCP) サーバーの管理、セキュリティ保護、スケーリング、監視、および管理に役立ちます。
AI ゲートウェイを使用して、次のようなさまざまな AI エンドポイントを管理します。
- Azure AI Foundry と Azure AI Foundry Models 内での Azure OpenAI のデプロイメント
- Azure AI モデル推論 API のデプロイ
- リモート MCP サーバー
- Microsoft 以外のプロバイダーによってホストされる OpenAI と互換性のあるモデルとエンドポイント
- セルフホステッド モデルとエンドポイント
注記
MCP サーバー機能を含む AI ゲートウェイは、API Management の既存の API ゲートウェイを拡張します。これは個別のオファリングではありません。 関連するガバナンスと開発者の機能は 、Azure API Center にあります。
AI ゲートウェイを使用する理由
組織での AI の導入には、いくつかのフェーズが含まれます。
- 要件の定義と AI モデルの評価
- AI モデルとサービスへのアクセスを必要とする AI アプリとエージェントの構築
- AIアプリとバックエンドを運用化し、運用環境にデプロイする
AI の導入が成熟するにつれて、特に大企業では、AI ゲートウェイは主要な課題に対処するのに役立ち、次のことに役立ちます。
- AI サービスへのアクセスを認証および承認する
- 複数の AI エンドポイント間での負荷分散
- AI の対話を監視およびログに記録する
- 複数のアプリケーション間でトークンの使用状況とクォータを管理する
- 開発者チームのセルフサービスを有効にする
トラフィックの仲介と制御
AI ゲートウェイを使用すると、次のことができます。
- OpenAI 互換またはパススルー LLM エンドポイントを API として迅速にインポートして構成する
- Azure AI Foundry または Amazon Bedrock などのプロバイダーにデプロイされたモデルを管理する
- チャットの完了、応答、およびリアルタイム API を管理する
- 既存の REST API を MCP サーバーとして公開し、MCP サーバーへのパススルーをサポートする
たとえば、AI Foundry または別のプロバイダーにデプロイされたモデルをオンボードするために、API Management には、マネージド ID を使用してスキーマをインポートし、AI エンドポイントへの認証を設定するための合理化されたウィザードが用意されており、手動で構成する必要はありません。 同じユーザー フレンドリなエクスペリエンス内で、API のスケーラビリティ、セキュリティ、および可観測性に関するポリシーを事前に構成できます。
詳細情報:
スケーラビリティとパフォーマンス
生成 AI サービスの主なリソースの 1 つは トークンです。 Azure AI Foundry やその他のプロバイダーは、モデル デプロイのクォータを 1 分あたりのトークン (TPM) として割り当てます。 これらのトークンは、社内のさまざまなアプリケーション、開発者チーム、部門など、モデル コンシューマー全体に配布します。
AI サービス バックエンドに接続するアプリが 1 つある場合は、モデルデプロイで直接設定した TPM 制限を使用してトークンの使用量を管理できます。 ただし、アプリケーション ポートフォリオが拡大すると、1 つまたは複数の AI サービス エンドポイントを呼び出す複数のアプリがある可能性があります。 これらのエンドポイントは、従量課金制または プロビジョニング済みスループット ユニット (PTU) インスタンスにすることができます。 1 つのアプリで TPM クォータ全体が使用されていないことを確認し、必要なバックエンドに他のアプリがアクセスできないようにする必要があります。
トークン レートの制限とクォータ
AI サービス トークンの使用に基づいて API コンシューマーごとに制限を管理および適用するように、LLM API のトークン制限ポリシーを構成します。 このポリシーを使用すると、時間単位、日単位、週単位、月単位、年単位など、指定した期間の TPM 制限またはトークン クォータを設定できます。
このポリシーにより、サブスクリプション キー、送信元 IP アドレス、ポリシー式で定義された任意のキーなど、任意のカウンター キーにトークン ベースの制限を柔軟に割り当てることができます。 また、このポリシーにより、Azure API Management 側でプロンプト トークンを事前に計算できるため、プロンプトが既に制限を超えている場合に AI サービス バックエンドへの不要な要求が最小限に抑えられます。
次の基本的な例は、TPM 制限をサブスクリプション キーあたり 500 に設定する方法を示しています。
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
詳細情報:
セマンティック キャッシュ
セマンティック キャッシュは、前のプロンプトの結果 (完了) をキャッシュし、プロンプトのベクトル近接性を以前の要求と比較して再利用することで、LLM API のパフォーマンスを向上させる手法です。 この手法により、AI サービス バックエンドに対する呼び出しの数が減り、エンド ユーザーの応答時間が向上し、コストの削減に役立ちます。
API Management で、RediSearch と互換性のある Azure Managed Redis または別の外部キャッシュを使用してセマンティック キャッシュを有効にし、Azure API Management にオンボードします。 Embeddings API を使用すると、 llm-semantic-cache-store ポリシーと llm-semantic-cache-lookup ポリシーによって、セマンティックに似たプロンプト入力候補がキャッシュから格納および取得されます。 このアプローチにより、入力候補を確実に再利用できるため、トークンの消費量が削減され、応答パフォーマンスが向上します。
詳細情報:
API Management のネイティブ スケーリング機能
API Management には、ゲートウェイが AI API への大量の要求を処理するのに役立つ、組み込みのスケーリング機能も用意されています。 これらの機能には、ゲートウェイ スケール ユニット の自動または手動の追加、マルチリージョンデプロイ用のリージョン ゲートウェイの追加が含まれます。 特定の機能は、API Management サービス レベルによって異なります。
詳細情報:
注記
API Management ではゲートウェイ容量をスケーリングできますが、負荷の増加に対応するために、トラフィックをスケーリングして AI バックエンドに分散する必要もあります ( 回復性 に関するセクションを参照)。 たとえば、システムの地理的分散をマルチリージョン構成で利用するには、API Management ゲートウェイと同じリージョンにバックエンド AI サービスをデプロイする必要があります。
セキュリティと安全性
AI ゲートウェイは、AI API へのアクセスをセキュリティで保護および制御します。 AI ゲートウェイを使用すると、次のことができます。
- マネージド ID を使用して Azure AI サービスに対する認証を行うので、認証に API キーは必要ありません
- API Management の資格情報マネージャーを使用して API または MCP サーバーにアクセスするように AI アプリとエージェントの OAuth 承認を構成する
- ポリシーを適用して、Azure AI Content Safety を使用して LLM プロンプトを自動的にモデレートする
詳細情報:
Resiliency
インテリジェント アプリケーションを構築する際の課題の 1 つは、アプリケーションがバックエンドの障害に対する回復性を確保し、高負荷を処理できることです。 Azure API Management で バックエンド を使用して LLM エンドポイントを構成することで、それらの間で負荷を分散できます。 また、要求が応答しない場合に、AI サービス バックエンドへの要求の転送を停止するサーキット ブレーカー ルールを定義することもできます。
ロードバランサー
バックエンド ロード バランサー では、ラウンド ロビン、重み付け、優先度ベース、セッション対応の負荷分散がサポートされます。 特定の要件を満たす負荷分散戦略を定義できます。 たとえば、ロード バランサー構成内の優先順位を定義して、特定の Azure AI Foundry エンドポイント (特に PTU インスタンスとして購入されたもの) を最適に使用できるようにします。
サーキットブレーカー
バックエンド サーキットブレーカー は、動的なトリップ期間を備え、バックエンドによって提供される Retry-After ヘッダーからの値を適用します。 この機能により、バックエンドの正確でタイムリーな復旧が保証され、優先度の高いバックエンドの使用率が最大化されます。
詳細情報:
可観測性とガバナンス
API Management には、トークンの使用パターンの追跡、コストの最適化、AI ガバナンス ポリシーへの準拠の確保、AI API に関する問題のトラブルシューティングを行う包括的な監視および分析機能が用意されています。 この機能を使用してください。
- Azure Monitor へのログ プロンプトと結果出力
- Application Insights でコンシューマーごとのトークン メトリックを追跡する
- 組み込みの監視ダッシュボードを表示する
- カスタム式を使用してポリシーを構成する
- アプリケーション間でトークン クォータを管理する
たとえば、 llm-emit-token-metric ポリシーを使用してトークン メトリックを出力し、Azure Monitor でメトリックをフィルター処理するために使用できるカスタム ディメンションを追加できます。 次の例では、(カスタム ヘッダーから) クライアント IP アドレス、API ID、およびユーザー ID のディメンションを持つトークン メトリックを出力します。
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
また、Azure API Management で LLM API のログ記録を有効にして、トークンの使用状況、プロンプト、課金と監査の完了を追跡します。 ログ記録を有効にした後、Application Insights のログを分析し、API Management の組み込みのダッシュボードを使用して、AI API 全体のトークン消費パターンを表示できます。
詳細情報:
開発者エクスペリエンス
AI ゲートウェイと Azure API Center を使用して、AI API と MCP サーバーの開発とデプロイを効率化します。 API Management の一般的な AI シナリオ向けのわかりやすいインポートおよびポリシー構成エクスペリエンスに加えて、次の機能を利用できます。
- Azure API Center の組織カタログに API と MCP サーバーを簡単に登録する
- API Management および API Center の開発者ポータルを使用したセルフサービス API および MCP サーバー アクセス
- カスタマイズのための API Management ポリシー ツールキット
- AI エージェントの機能を拡張するための API Center Copilot Studio コネクタ
詳細情報:
- API Center で MCP サーバーを登録して検出する
- API Management と API Center の間で API と MCP サーバーを同期する
- API Management 開発者ポータル
- API センター ポータル
- Azure API Management ポリシー ツールキット
- API Center Copilot Studio コネクタ
AI ゲートウェイ機能への早期アクセス
API Management のお客様は、 AI Gateway リリース チャネルを通じて新機能に早期にアクセスできます。 このアクセスにより、一般公開前に最新の AI ゲートウェイのイノベーションを試し、製品の形成に役立つフィードバックを提供できます。
詳細情報:
ラボとコード サンプル
アーキテクチャと設計
- API Management を使用した AI ゲートウェイ参照アーキテクチャ
- AI ハブ ゲートウェイ ランディング ゾーン アクセラレータ
- Azure OpenAI リソースを使用したゲートウェイ ソリューションの設計と実装
- 複数の Azure OpenAI デプロイの前でゲートウェイを使用する