メインコンテンツまでスキップ

Unity AI Gatewayエンドポイントの設定

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。

このページでは、Unity AI Gatewayのエンドポイントを設定する方法について説明します。

要件

Unity AI Gatewayエンドポイントを作成する

Unity AI Gatewayエンドポイントを作成するには:

  1. サイドバーで、 AI ゲートウェイ をクリックします。
  2. Unity AI Gatewayエンドポイントの作成を クリックします。
  3. エンドポイント名とプライマリ モデルを構成します。
  4. 作成 をクリックします。

エンドポイントの機能を構成する

Unity AI Gatewayのエンドポイントを更新することで、機能を有効化または無効化できます。Unity AI Gatewayの設定更新が反映されるまでには、最大1分かかる場合があります。

既存のエンドポイントでUnity AI Gatewayの機能を更新するには:

  1. AI ゲートウェイ ページからエンドポイントをクリックします。
  2. ゲートウェイ エンドポイントの詳細サイドバーで、更新する機能の横にある編集アイコンをクリックします。
  3. 変更を加えて、 「保存」 をクリックします。

AIゲートウェイUI

以下の表は、利用可能なUnity AI Gatewayの機能と、それらの設定方法をまとめたものです。

機能

設定方法

詳細

使用状況の追跡

デフォルトで有効になっています。

  • 使用状況データをsystem.ai_gateway.usageシステムテーブルに記録します。
  • アカウント管理者は、システム テーブルを使用する前に、 ai_gatewayシステム テーブル スキーマを有効にする必要があります。 「システムテーブルへのアクセスの許可」を参照してください。
  • system.ai_gateway.usageテーブルを表示またはクエリする権限を持つのはアカウント管理者のみです。
  • モデルによってトークン数が返されない場合、入力トークン数と出力トークン数は(text_length+1)/4と推定されます。

推論テーブル

推論テーブルを有効にする を選択して、リクエストと応答をログに記録します。

  • Unity Catalog Deltaテーブルにログを記録します。
  • 指定されたカタログ スキーマにはCREATE TABLE権限が必要です。
  • 10 MiB を超えるペイロードはログに記録されません。
  • 応答ペイロードは、返されたすべてのチャンクの応答を集約します。

レート制限

1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を構成するには、 レート制限 を選択します。

  • エンドポイント、ユーザー、またはグループ レベルで制限を構成します。
    • エンドポイント フィールドを使用してグローバル制限を設定します。エンドポイントのレート制限はグローバル最大値です。超過した場合、すべてのリクエストがブロックされます。
    • ユーザー (デフォルト) フィールドを使用して、ユーザーごとの制限を設定します。
      • 個々のユーザー、サービスプリンパルシ、またはグループのカスタムレート制限を定義します。

ガードレール

コンテンツポリシーを設定するには、 「ガードレール」 を選択してください。

  • リクエストとレスポンスに、個人識別情報(PII)の検出、コンテンツモデレーション、およびその他の事前に構築されたLLMベースのポリシーを適用します。
  • ブロックされたリクエストはHTTP 400を返し、使用状況追跡テーブルと推論テーブルに記録されます。
  • ドライ実行を有効にして、本番運用のトラフィックに影響を与えずにガードレール構成をテストします。 ドライ実行モードでは、ガードレールは評価されますが、リクエストやレスポンスがブロックされたり変更されたりすることはありません。

フォールバック

フォールバック モデルを構成するには、 「フォールバック モデルの追加」 を選択します。

  • プライマリ モデルが429または5XXエラーを返す場合、リクエストは他のモデルにフォールバックします。
  • 要求が成功するまで、各フォールバック モデルが順番に 1 回ずつ試行されます。
  • 最初の成功した、または最後に失敗した要求の試行と応答は、使用状況追跡テーブルと推論テーブルの両方に記録されます。
  • すべてのフォールバック試行は、使用状況追跡テーブルrouting_informationフィールドに記録されます。

交通分離

「トラフィック分割を追加」 を選択すると、リクエストが複数のモデルバックエンドに分散されます。

  • 各宛先モデルにトラフィックの割合を割り当てます。パーセンテージの合計は100でなければなりません。
  • トラフィック分割を利用して、新しいモデルを段階的に展開したり、A/Bテストを実行したり、複数のプロバイダーに負荷を分散させたりすることができます。
  • すべてのルーティング決定は、使用状況追跡テーブルrouting_informationフィールドに記録されます。

カスタムAPIs

外部APIに接続するためのエンドポイントを作成する際は、 「カスタムAPI」 を選択してください。

  • 外部APIエンドポイントに対しても、同様のアクセス制御、レート制限、およびログ記録を適用してください。
  • カスタムAPIのトラフィックは、使用状況追跡テーブルと推論テーブルにログ記録されますが、いくつかの制限があります。使用状況追跡ではトークンカウントが利用できない場合があり、推論テーブルではストリーミングリクエストのレスポンスチャンク集計が利用できない場合があります。

次の図は、Unity AI Gatewayエンドポイントの宛先として3つのモデルが登録されているフォールバックの例を示しています。

  1. リクエストは最初にモデル 1 にルーティングされます。
  2. リクエストが 200 応答を返す場合、リクエストはモデル 1 で成功し、リクエストとその応答は使用状況追跡テーブルと推論テーブルに記録されます。
  3. リクエストがモデル 1 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 2 にフォールバックします。
  4. リクエストがモデル 2 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 3 にフォールバックします。
  5. リクエストがモデル 3 で429または5XXエラーを返す場合、すべてのフォールバック モデルが試行されているため、リクエストは失敗します。失敗した要求と応答エラーは、使用状況追跡テーブルと推論テーブルに記録されます。

フォールバックの例

次のステップ