メインコンテンツまでスキップ

AI ゲートウェイエンドポイントの使用状況を監視する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。

このページでは、使用状況追跡システム テーブルを使用してAI Gateway (ベータ)エンドポイントの使用状況を監視する方法について説明します。

使用状況追跡テーブルは、エンドポイントのリクエストと応答の詳細を自動的にキャプチャし、使用状況や遅延などの重要なメトリクスを記録します。 この表のデータを使用して、使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと消費量を把握することができます。

要件

使用状況テーブルを照会する

AI Gateway は、使用状況データをsystem.ai_gateway.usageシステムテーブルに記録します。 UI でテーブルを表示したり、Databricks SQL またはノートブックからテーブルをクエリしたりできます。

注記

system.ai_gateway.usageテーブルを表示またはクエリする権限を持つのはアカウント管理者のみです。

UI でテーブルを表示するには、エンドポイント ページの使用状況追跡テーブル リンクをクリックして、カタログ エクスプローラーでテーブルを開きます。

Databricks SQL またはノートブックからテーブルをクエリするには:

SQL
SELECT * FROM system.ai_gateway.usage;

組み込みの使用状況ダッシュボード

組み込みの使用状況ダッシュボードをインポートする

アカウント管理者は、 AI Gateway ページの [ダッシュボード の作成] をクリックして、組み込み AI Gateway の使用状況ダッシュボード AIインポートし、使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと使用量についての知識を得ることができます。 ダッシュボードはアカウント管理者の権限で公開されるため、閲覧者は公開者の権限を使用してクエリを実行できます。詳細については、 「ダッシュボードの公開」を参照してください。アカウント管理者は、ダッシュボード クエリの実行に使用されるウェアハウスを更新することもできます。これは、後続のすべてのクエリに適用されます。

ダッシュボードボタンを作成

注記

ダッシュボードのインポートは、 system.ai_gateway.usageテーブルに対するSELECT権限が必要なため、アカウント管理者に制限されています。ダッシュボードのデータは、 usageテーブルの保持ポリシーの対象となります。「どのシステムテーブルが利用可能ですか?」を参照してください。 。

最新のテンプレートからダッシュボードを再ロードするには、アカウント管理者は AI ゲートウェイ ページで [ダッシュボードの再インポート] をクリックします。これにより、ウェアハウスの構成を維持しながら、テンプレートからの新しい視覚化や改善でダッシュボードが更新されます。

使用状況ダッシュボードを表示

ダッシュボードを表示するには、AI ゲートウェイ ページから [ダッシュボードの表示] をクリックします。組み込みダッシュボードでは、AI ゲートウェイ エンドポイントの使用状況とパフォーマンスを包括的に把握できます。これには、複数のページの追跡リクエスト、社内消費、レイテンシ メトリクス、エラー率、およびコーディング エージェント アクティビティが含まれます。

ダッシュボードを表示ボタン

AIゲートウェイ使用状況ダッシュボード

ダッシュボードは、ワークスペース間のアナリティクスを実現します。 すべてのダッシュボード ページは、日付範囲とワークスペース ID でフィルターできます。

  • [概要] タブ : 毎日のリクエスト量、長期にわたる 長期間の使用傾向、使用量別の上位ユーザー、合計ユニーク ユーザー数など、高レベルの使用状況メトリクスが表示されます。 このタブを使用して、AI ゲートウェイの全体的なアクティビティのスナップショットを簡単に取得し、最もアクティブなユーザーとモデルを特定します。
  • 「パフォーマンス」タブ : レイテンシのパーセンタイル (P50、P90、P95、P99)、最初のバイトまでの時間、エラー率、HTTP ステータス コードの分布などの主要なパフォーマンス メトリクスを追跡します。 このタブを使用してエンドポイントの健全性を監視し、パフォーマンスのボトルネックや信頼性の問題を特定します。
  • 使用状況タブ : エンドポイント、ワークスペース、リクエスター別の詳細な消費量の内訳を表示します。このタブには、トークンの使用パターン、リクエストの分布、キャッシュヒット率が表示され、コストの分析と最適化に役立ちます。
  • コーディング エージェント タブ : Cursor、Claude Code、Gemini CLI、Codex CLI などの統合コーディング エージェントからのアクティビティを追跡します。このタブには、アクティブな日、コーディング セッション、コミット、開発者ツールの使用状況を監視するために追加または削除されたコード行などのメトリクスが表示されます。 詳細については、コーディング エージェント ダッシュボードを参照してください。

使用状況テーブルスキーマ

system.ai_gateway.usageテーブルのスキーマは次のとおりです:

列名

Type

説明

account_id

STRING

アカウントID。

11d77e21-5e05-4196-af72-423257f74974

workspace_id

STRING

ワークスペース ID。

1653573648247579

request_id

STRING

リクエストの一意の識別子。

b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00

schema_version

Integer

使用状況レコードのスキーマ バージョン。

1

endpoint_id

STRING

AI ゲートウェイ エンドポイントの一意の ID。

43addf89-d802-3ca2-bd54-fe4d2a60d58a

endpoint_name

STRING

AI ゲートウェイ エンドポイントの名前。

databricks-gpt-5-2

endpoint_tags

マップ

エンドポイントに関連付けられたタグ。

{"team": "engineering"}

endpoint_metadata

構造体

エンドポイント メタデータには、 creatorcreation_timelast_updated_timedestinationsinference_tablefallbacksが含まれます。

{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}

event_time

TIMESTAMP

リクエストを受信した時のタイムスタンプ。

2026-01-20T19:48:08.000+00:00

latency_ms

LONG

合計遅延時間(ミリ秒)。

300

time_to_first_byte_ms

LONG

最初のバイトまでの時間(ミリ秒)。

300

destination_type

STRING

宛先のタイプ (外部モデルや基盤モデルなど)。

PAY_PER_TOKEN_FOUNDATION_MODEL

destination_name

STRING

宛先モデルまたはプロバイダーの名前。

databricks-gpt-5-2

destination_id

STRING

宛先の一意の ID。

507e7456151b3cc89e05ff48161efb87

destination_model

STRING

リクエストに使用される特定のモデル。

GPT-5.2

requester

STRING

リクエストを行ったユーザーまたはサービスプリンシパルのID。

user.name@email.com

requester_type

STRING

リクエスタのタイプ (ユーザー、サービスプリンシパル、またはユーザー グループ)。

USER

ip_address

STRING

要求者の IP アドレス。

1.2.3.4

url

STRING

リクエストの URL。

https://<ai-gateway-url>/mlflow/v1/chat/completions

user_agent

STRING

要求者のユーザー エージェント。

OpenAI/Python 2.13.0

api_type

STRING

API 呼び出しのタイプ (例: チャット、補完、埋め込み)。

mlflow/v1/chat/completions

request_tags

マップ

リクエストに関連付けられたタグ。

{"team": "engineering"}

input_tokens

LONG

入力トークンの数。

100

output_tokens

LONG

出力トークンの数。

100

total_tokens

LONG

トークンの合計数(入力 + 出力)。

200

token_details

構造体

cache_read_input_tokenscache_creation_input_tokensoutput_reasoning_tokensを含む詳細なトークンの内訳。

{"cache_read_input_tokens": 100, ...}

response_content_type

STRING

応答のコンテンツ タイプ。

application/json

status_code

INT

応答の HTTP ステータス コード。

200

routing_information

構造体

フォールバック試行のルーティングの詳細。リクエスト中に試行された各モデルのpriorityactiondestinationdestination_idstatus_code、 、 error_codelatency_ms start_timeおよびend_timeを含むattempts配列が含まれます。

{"attempts": [{"priority": "1", ...}]}

次のステップ