Unity AIゲートウェイのエンドポイントを構成します。

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウントコンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 Databricksのプレビューを管理するを参照してください。

このページでは、Unity AI Gateway エンドポイントを構成する方法について説明します。

要件

お客様のアカウントでUnity AI Gatewayのプレビュー版が有効になりました。Databricksのプレビューを管理するを参照してください。
Unity AI GatewayでサポートされているリージョンにあるDatabricksワークスペース。
ワークスペースでUnity Catalog有効化されていること。 Unity Catalog のワークスペースを有効にする方法をご覧ください。
エンドポイントの管理者操作には、そのエンドポイントで CAN MANAGE が必要です。「アクセス制御リスト」を参照してください。
作成時に、作成者には新しいエンドポイントに対して CAN MANAGE が付与されます。
ガードレールまたはスループット制限の回避を防ぐため、エンドポイントの作成とCAN MANAGEは管理者に制限し、他のユーザーには承認済みエンドポイントでのクエリ権限のみを付与してください。

Unity AI Gatewayエンドポイントを作成

Unity AI Gateway エンドポイントを作成するには:

サイドバーで、**AI Gateway**をクリックします。
Unity AI Gateway Endpoint を作成 をクリックします。
エンドポイント名とプライマリモデルを構成します。
作成をクリックします。

エンドポイントの機能を構成します。

Unity AI Gateway エンドポイントを更新して、機能を有効または無効にできます。Unity AI Gateway の構成への更新は、有効になるまでに最大1分かかります。

既存のエンドポイントで Unity AI Gateway の機能を更新するには：

AI Gateway ページからエンドポイントをクリックしてください。
「Gateway Endpoint Details」サイドバーで、更新する機能の横にある編集アイコンをクリックします。
変更を行い、「保存」をクリックします。

AIゲートウェイ UI

次の表は、利用可能なUnity AIゲートウェイの機能と、それらの構成方法をまとめたものです。

機能	設定方法	詳細
使用状況の追跡	デフォルトで有効です。	`system.ai_gateway.usage`システムテーブルに利用状況データをログに記録します。アカウント管理者は、システムテーブルを使用する前に、`ai_gateway`システムテーブルスキーマを有効にする必要があります。システムテーブルへのアクセス権の付与を参照してください。 `system.ai_gateway.usage`テーブルを表示またはクエリできるのは、アカウント adminのみです。トークン数がモデルによって返されない場合、入力および出力トークン数は`(text_length+1)/4`と推定されます。
推論テーブル	リクエストとレスポンスをログに記録するには、推論テーブルを有効にするを選択します。	Unity Catalog Delta テーブルにログを記録します。指定されたカタログスキーマには、`CREATE TABLE`権限が必要です。 10 MiBを超えるペイロードはログに記録されません。応答ペイロードは、返されたすべてのチャンクの応答を集約します。
レート制限	レート制限を選択して、1分あたりのクエリー数（QPM）または1分あたりのトークン数（TPM）を構成します。	エンドポイント、ユーザー、またはグループレベルで制限を構成します。グローバル制限を設定するには、 Endpoint フィールドを使用します。エンドポイントのレート制限はグローバル最大値です。超過した場合、すべてのリクエストはブロックされます。「ユーザー (デフォルト) 」フィールドを使用して、ユーザーごとの制限を設定します。個々のユーザー、サービスプリンシパル、またはグループに対してカスタムレート制限を定義します。
ガードレール	コンテンツポリシーを構成するには、ガードレールを選択します。	個人を特定できる情報 (PII) 検出、コンテンツモデレーション、およびその他の事前構築済みのLLMベースのポリシーをリクエストと応答に適用します。ブロックされたリクエストは HTTP 400 を返し、使用状況追跡テーブルと推論テーブルに記録されます。ドライランを有効にして、本番運用トラフィックに影響を与えることなくガードレール構成をテストします。ドライ実行モードでは、ガードレールは評価されますが、要求または応答がブロックまたは変更されることはありません。
フォールバック	フォールバックモデルの追加を選択して、フォールバックモデルを構成します。	プライマリモデルが`429`または`5XX`エラーを返した場合、リクエストは他のモデルにフォールバックします。各フォールバックモデルは、リクエストが成功するまで順序どおりに1回試行されます。最初の成功した、または最後の失敗したリクエスト試行と応答は、使用状況トラッキングテーブルと推論テーブルの両方にログに記録されます。すべてのフォールバック試行は、使用状況追跡テーブルの `routing_information` フィールドに記録されます。
トラフィック分割	「トラフィック分割の追加」を選択して、複数のモデルバックエンドにリクエストを分散させます。	各宛先モデルにトラフィックの割合を割り当てます。割合の合計は100%である必要があります。新しいモデルの段階的なロールアウト、A/B テストの実行、またはプロバイダー全体への負荷分散には、トラフィック分割を使用します。すべてのルーティング決定は、使用状況追跡テーブルの`routing_information`フィールドに記録されます。
カスタム APIs	外部APIに接続するエンドポイントを作成する際には、Custom API を選択します。	同じアクセス制御、レート制限、およびログ記録を任意の外部APIエンドポイントに適用します。カスタムAPIトラフィックは、使用状況追跡テーブルと推論テーブルにログ記録されますが、いくつかの制限があります。使用状況追跡ではトークンカウントが利用できない場合があり、ストリーミングリクエストのレスポンスチャンク集約は推論テーブルで利用できない場合があります。

次の図は、3つのモデルがUnity AI Gatewayエンドポイントの宛先として登録されているフォールバックの例を示しています：

リクエストは最初にModel 1にルーティングされます。
リクエストが200レスポンスを返した場合、リクエストはモデル1で成功し、リクエストとそのレスポンスは使用状況追跡テーブルと推論テーブルに記録されます。
リクエストがモデル1で429または5XXエラーを返した場合、リクエストはエンドポイントの次のモデルであるモデル2にフォールバックします。
リクエストがモデル2で429または5XXエラーを返した場合、リクエストはエンドポイント上の次のモデルであるモデル3にフォールバックします。
リクエストがモデル3で429または5XXエラーを返す場合、すべてのフォールバックモデルが試行されているため、リクエストは失敗します。失敗したリクエストとレスポンスエラーは、使用状況追跡および推論テーブルに記録されます。

フォールバックの例

要件​

Unity AI Gatewayエンドポイントを作成​

エンドポイントの機能を構成します。​

次のステップ​

要件

Unity AI Gatewayエンドポイントを作成

エンドポイントの機能を構成します。

次のステップ