エンドポイントを提供するための AI ゲートウェイ
新しいAIゲートウェイベータ版をお試しください
新しい AI ゲートウェイ エクスペリエンスがベータ版で利用可能になりました。新しい AI ゲートウェイは、強化された機能を備えた LLM エンドポイントとコーディング エージェントを管理するためのエンタープライズ コントロール プレーンです。AI ゲートウェイ (ベータ版)を参照してください。
このページでは、サポートされている生成AIモデルとそれに関連するモデルサービング エンドポイントへのアクセスを管理および監視する、エンドポイントを提供するためのAIゲートウェイについて説明します。
エンドポイントを提供するための AI ゲートウェイとは何ですか?
AIゲートウェイは、組織内の生成AIモデルとエージェントの使用と管理を効率化するように設計されています。 これは、モデルサービング エンドポイントにガバナンス、モニタリング、本番運用の準備をもたらす一元化されたサービスです。 また、AI トラフィックを実行、保護、管理して、組織での AI 導入を民主化し、加速させることもできます。
すべてのデータはUnity Catalogの Delta テーブルに記録されます。
AI Gatewayのデータから知見を可視化するには、GitHubからAI Gatewayダッシュボードの例 をダウンロードしてください。このダッシュボードは、使用状況追跡およびペイロード ログ推論テーブルのデータを活用します。
JSON ファイルをダウンロードしたら、ダッシュボードをワークスペースにインポートします。ダッシュボードをインポートする手順については、 「ダッシュボード ファイルのインポート」を参照してください。
サポートされている機能
AIゲートウェイ(ベータ版)
新しいAIゲートウェイ (ベータ版)は、豊富な UI、可観測性の向上、および外部モデルや仮想単位の従量課金基盤APIs API を含む LLM のAPIカバレッジの拡張を特徴としています。 これらの新しい機能を利用するには、AI Gateway (ベータ版) を使用することをお勧めします。
次の表では、利用可能なAIゲートウェイ機能と、それらをサポートするモデルサービング エンドポイント タイプを定義します。
機能 | 定義 | |||||
|---|---|---|---|---|---|---|
AIゲートウェイ(ベータ版)で利用可能 | 拡張された AI ゲートウェイ機能を使用します。AI ゲートウェイ (ベータ版)を参照してください。 | サポートされている | サポートされている | サポートされていない | サポートされていない | サポートされていない |
権限とレート制限 | 誰がどの程度アクセスできるかを制御します。 | サポートされている | サポートされている | サポートされている | サポートされていない | サポートされている |
ペイロードログ | 推論テーブル を使用して、モデルAPI に送信されるデータを監視および監査します。 | サポートされている | サポートされている | サポートされている | サポートされている | サポートされている |
使用状況の追跡 | システムテーブルを使用して、エンドポイントの運用使用状況と関連コストを監視します。 | サポートされている | サポートされている | サポートされている | サポートされていない | サポートされている |
AIガードレール | リクエストとレスポンス内の不要で安全でないデータを防止します。AIガードレールを参照してください。 | サポートされている | サポートされている | サポートされている | サポートされていない | サポートされていない |
フォールバック | 導入中および導入後の本番運用の停止を最小限に抑えます。 | サポートされている | サポートされていない | サポートされていない | サポートされていない | サポートされていない |
トラフィック分割 | モデル間でトラフィックを負荷分散します。 | サポートされている | サポートされていない | サポートされている | サポートされていない | サポートされている |
AI ゲートウェイでは、有効化された機能ごとに料金が発生します。有料機能には、ペイロードのログ記録と使用状況の追跡が含まれます。クエリ権限、レート制限、フォールバック、トラフィック分割などの機能は無料です。新しい機能には料金がかかります。
AIガードレール
プレビュー
この機能は パブリック プレビュー段階です。
AIガードレールを使用すると、ユーザーはモデルサービング エンドポイント レベルでデータ コンプライアンスを構成および強制し、基礎となるモデルに送信されるリクエストの有害なコンテンツを削減できます。 不正なリクエストと応答はブロックされ、デフォルトのメッセージがユーザーに返されます。モデルサービング エンドポイントでガードレールを構成する方法を参照してください。
AI Guardrails モデレーション サービスは、トークン単位の従量課金モデルAPI基盤モデルに依存しています。この依存関係により、AI GuardrailsAPIモデレーションサービスの可用性は、 トークン単位の従量課金をサポートする地域に 限られます 。
次の表は、構成可能なガードレールをまとめたものです。制限事項を参照してください。
ガードレール | 定義 |
|---|---|
安全フィルタリング | セーフティフィルタリングでは、お使いのモデルが暴力犯罪、自傷行為、ヘイトスピーチなど、安全でない有害なコンテンツと接触するのを防ぎます。 AI Gateway の安全フィルターは Meta Llama 3 で構築されています。Databricks は安全フィルターとして Llama Guard 2-8b を使用します。Llama Guard 安全フィルターの詳細と、安全フィルターに適用されるトピックについては、 Meta Llama Guard 2 8B モデル カードを参照してください。 Meta Llama 3 は、 LLAMA 3 コミュニティ ライセンス、著作権© Meta Platforms, Inc. に基づいてライセンスされています。 無断転載を禁じます。顧客は、該当するモデル ライセンスによるコンプライアンスを確保する責任があります。 |
個人識別情報(PII)の検出 | 顧客はユーザーのクレジットカード番号などの機密情報を検出できます。 この機能では、 AI Gateway はPresidioを使用して、クレジット カード番号、電子メール アドレス、電話番号、銀行口座番号、社会保障番号といった米国の PII カテゴリを検出します。 PII 分類子は、構造化データと非構造化データ内の機密情報または PII を識別するのに役立ちます。ただし、自動検出メカニズムを使用しているため、サービスがすべての機密情報を検出するという保証はありません。したがって、追加のシステムと保護を採用する必要があります。 これらの分類方法は主に、米国の電話番号や社会保障番号など、米国の PII カテゴリを対象としています。 |
AIゲートウェイを使用する
Serving UI を使用して、モデルサービング エンドポイントでAIゲートウェイ機能を構成できます。 「モデルサービング エンドポイントでのAIゲートウェイの構成」を参照してください。
制限事項
AI ゲートウェイ対応エンドポイントの制限は次のとおりです。
- AIガードレールを使用する場合、リクエスト バッチ サイズ、つまり埋め込みバッチ サイズ、完了バッチ サイズ、またはチャット リクエストの
n問題は 16 を超えることはできません。 - 関数呼び出しを使用し、AI ガードレールを指定した場合、それらのガードレールは関数の要求と中間応答には適用されません。ただし、最終的な出力応答にはガードレールが適用されます。
- テキストから画像へのワークロードはサポートされていません。
- AIゲートウェイ機能が有効化されているマラソン単位の従量課金エンドポイント上のバッチ推論ワークロードでは、使用状況追跡のみがサポートされます。
endpoint_usageシステムテーブルでは、バッチ推論リクエストに対応する行のみが表示されます。 - AIガードレールとフォールバックは、カスタム モデルサービング エンドポイントではサポートされていません。
- カスタム モデルサービング エンドポイントの場合、ルート最適化されていないワークロードのみがレート制限と使用状況の追跡をサポートします。
- ルート最適化モデルサービング エンドポイントの推論テーブルはパブリック プレビュー段階にあります。
- 推論テーブルの制限の詳細については、 「AI Gateway 対応の推論テーブルの制限」を参照してください。