AIゲートウェイエンドポイントを構成する
ベータ版
この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。
このページでは、AI Gateway (ベータ版)エンドポイントを構成する方法について説明します。
要件
- お使いのアカウントで AI ゲートウェイ (ベータ版) プレビューが有効になっています。「Databricks プレビューの管理」を参照してください。
- AI Gateway (ベータ) がサポートされているリージョン内の Databricks ワークスペース。
- ワークスペースで Unity Catalog が有効になりました。「Unity Catalog のワークスペースを有効にする」を参照してください。
AIゲートウェイエンドポイントを作成する
AI ゲートウェイ エンドポイントを作成するには:
- サイドバーで、 AI ゲートウェイ をクリックします。
- AI ゲートウェイエンドポイントの作成を クリックします。
- エンドポイント名とプライマリ モデルを構成します。
- 作成 をクリックします。
エンドポイントの機能を構成する
AI ゲートウェイ エンドポイントを更新して、機能を有効または無効にすることができます。AI ゲートウェイ構成の更新が有効になるまでに最大 1 分かかります。
既存のエンドポイントで AI ゲートウェイ機能を更新するには:
- AI ゲートウェイ ページからエンドポイントをクリックします。
- ゲートウェイ エンドポイントの詳細サイドバーで、更新する機能の横にある編集アイコンをクリックします。
- 変更を加えて、 「保存」 をクリックします。

次の表は、利用可能な AI ゲートウェイ機能とその構成方法をまとめたものです。
機能 | 設定方法 | 詳細 |
|---|---|---|
デフォルトで有効になっています。 |
| |
推論テーブルを有効にする を選択して、リクエストと応答をログに記録します。 |
| |
レート制限 | 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を構成するには、 レート制限 を選択します。 |
|
フォールバック | フォールバック モデルを構成するには、 「フォールバック モデルの追加」 を選択します。 |
|
次の図は、3 つのモデルが AI ゲートウェイ エンドポイントの宛先として登録されているフォールバックの例を示しています。
- リクエストは最初にモデル 1 にルーティングされます。
- リクエストが 200 応答を返す場合、リクエストはモデル 1 で成功し、リクエストとその応答は使用状況追跡テーブルと推論テーブルに記録されます。
- リクエストがモデル 1 で
429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 2 にフォールバックします。 - リクエストがモデル 2 で
429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 3 にフォールバックします。 - リクエストがモデル 3 で
429または5XXエラーを返す場合、すべてのフォールバック モデルが試行されているため、リクエストは失敗します。失敗した要求と応答エラーは、使用状況追跡テーブルと推論テーブルに記録されます。
