Unity AI Gatewayエンドポイントの設定

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウントコンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページでは、Unity AI Gatewayのエンドポイントを設定する方法について説明します。

要件

お客様のアカウントでUnity AI Gatewayのプレビュー版が有効になりました。Databricksのプレビューを管理するを参照してください。
Unity AI Gateway がサポートされるリージョン内のDatabricksワークスペース。
ワークスペースで Unity Catalog が有効になりました。「Unity Catalog のワークスペースを有効にする」を参照してください。
エンドポイントの管理者操作には、そのエンドポイントに対するCAN MANAGEが必要です。「アクセス制御リスト」を参照してください。
作成時、作成者には新しいエンドポイントに対してCAN MANAGEが付与されます。
ガードレールやスループット制限のバイパスを防ぐため、エンドポイントの作成とCAN MANAGEを管理者に限定し、他のユーザーには承認済みエンドポイントに対するクエリ権限のみを付与してください。

Unity AI Gatewayエンドポイントを作成する

Unity AI Gatewayエンドポイントを作成するには：

サイドバーで、 AI ゲートウェイ をクリックします。
Unity AI Gatewayエンドポイントの作成を クリックします。
エンドポイント名とプライマリモデルを構成します。
作成をクリックします。

エンドポイントの機能を構成する

Unity AI Gatewayのエンドポイントを更新することで、機能を有効化または無効化できます。Unity AI Gatewayの設定更新が反映されるまでには、最大1分かかる場合があります。

既存のエンドポイントでUnity AI Gatewayの機能を更新するには：

AI ゲートウェイページからエンドポイントをクリックします。
ゲートウェイエンドポイントの詳細サイドバーで、更新する機能の横にある編集アイコンをクリックします。
変更を加えて、 「保存」 をクリックします。

AIゲートウェイUI

以下の表は、利用可能なUnity AI Gatewayの機能と、それらの設定方法をまとめたものです。

機能	設定方法	詳細
使用状況の追跡	デフォルトで有効になっています。	使用状況データを`system.ai_gateway.usage`システムテーブルに記録します。アカウント管理者は、システムテーブルを使用する前に、 `ai_gateway`システムテーブルスキーマを有効にする必要があります。「システムテーブルへのアクセスの許可」を参照してください。 `system.ai_gateway.usage`テーブルを表示またはクエリする権限を持つのはアカウント管理者のみです。モデルによってトークン数が返されない場合、入力トークン数と出力トークン数は`(text_length+1)/4`と推定されます。
推論テーブル	推論テーブルを有効にするを選択して、リクエストと応答をログに記録します。	Unity Catalog Deltaテーブルにログを記録します。指定されたカタログスキーマには`CREATE TABLE`権限が必要です。 10 MiB を超えるペイロードはログに記録されません。応答ペイロードは、返されたすべてのチャンクの応答を集約します。
レート制限	1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を構成するには、レート制限を選択します。	エンドポイント、ユーザー、またはグループレベルで制限を構成します。エンドポイントフィールドを使用してグローバル制限を設定します。エンドポイントのレート制限はグローバル最大値です。超過した場合、すべてのリクエストがブロックされます。ユーザー (デフォルト) フィールドを使用して、ユーザーごとの制限を設定します。個々のユーザー、サービスプリンパルシ、またはグループのカスタムレート制限を定義します。
ガードレール	コンテンツポリシーを設定するには、「ガードレール」を選択してください。	リクエストとレスポンスに、個人識別情報（PII）の検出、コンテンツモデレーション、およびその他の事前に構築されたLLMベースのポリシーを適用します。ブロックされたリクエストはHTTP 400を返し、使用状況追跡テーブルと推論テーブルに記録されます。ドライ実行を有効にして、本番運用のトラフィックに影響を与えずにガードレール構成をテストします。ドライ実行モードでは、ガードレールは評価されますが、リクエストやレスポンスがブロックされたり変更されたりすることはありません。
フォールバック	フォールバックモデルを構成するには、「フォールバックモデルの追加」を選択します。	プライマリモデルが`429`または`5XX`エラーを返す場合、リクエストは他のモデルにフォールバックします。要求が成功するまで、各フォールバックモデルが順番に 1 回ずつ試行されます。最初の成功した、または最後に失敗した要求の試行と応答は、使用状況追跡テーブルと推論テーブルの両方に記録されます。すべてのフォールバック試行は、使用状況追跡テーブルの`routing_information`フィールドに記録されます。
交通分離	「トラフィック分割を追加」を選択すると、リクエストが複数のモデルバックエンドに分散されます。	各宛先モデルにトラフィックの割合を割り当てます。パーセンテージの合計は100でなければなりません。トラフィック分割を利用して、新しいモデルを段階的に展開したり、A/Bテストを実行したり、複数のプロバイダーに負荷を分散させたりすることができます。すべてのルーティング決定は、使用状況追跡テーブルの`routing_information`フィールドに記録されます。
カスタムAPIs	外部APIに接続するためのエンドポイントを作成する際は、「カスタムAPI」を選択してください。	外部APIエンドポイントに対しても、同様のアクセス制御、レート制限、およびログ記録を適用してください。カスタムAPIのトラフィックは、使用状況追跡テーブルと推論テーブルにログ記録されますが、いくつかの制限があります。使用状況追跡ではトークンカウントが利用できない場合があり、推論テーブルではストリーミングリクエストのレスポンスチャンク集計が利用できない場合があります。

次の図は、Unity AI Gatewayエンドポイントの宛先として3つのモデルが登録されているフォールバックの例を示しています。

リクエストは最初にモデル 1 にルーティングされます。
リクエストが 200 応答を返す場合、リクエストはモデル 1 で成功し、リクエストとその応答は使用状況追跡テーブルと推論テーブルに記録されます。
リクエストがモデル 1 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 2 にフォールバックします。
リクエストがモデル 2 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 3 にフォールバックします。
リクエストがモデル 3 で429または5XXエラーを返す場合、すべてのフォールバックモデルが試行されているため、リクエストは失敗します。失敗した要求と応答エラーは、使用状況追跡テーブルと推論テーブルに記録されます。

フォールバックの例

要件​

Unity AI Gatewayエンドポイントを作成する​

エンドポイントの機能を構成する​

その他のリソース​

要件

Unity AI Gatewayエンドポイントを作成する

エンドポイントの機能を構成する

その他のリソース