コンピュートシステムテーブルリファレンス

この記事では、コンピュートテーブルシステムのリファレンスガイドを提供します。これらのテーブルを使用して、アカウント内の従来の汎用コンピュート、ジョブコンピュート、およびLakeFlow Spark宣言型パイプラインコンピュートのアクティビティとメトリクスを監視できます。これらの古典的なコンピュートテーブルには次のものがあります。

clusters: コンピュートの設定をアカウントに記録します。
node_types: 現在使用可能なノード・タイプごとに 1 つのレコード (ハードウェア情報を含む) が含まれます。
node_timeline: コンピュートの利用メトリクスの分単位の記録が含まれます。
instance_events: クラシックコンピュートインスタンスの状態遷移をキャプチャします。
instance_poolsアカウント内のインスタンスプール構成を記録します。

クラスターテーブルスキーマ

クラスターテーブルは、汎用コンピュート、ジョブコンピュート、Lakeflow Spark 宣言型パイプラインコンピュート、およびLakeflowメンテナンスコンピュートの長期にわたるSpark構成の完全な履歴を含む、ゆっくりと変化するディメンションテーブルです。

テーブルパス : このシステムテーブルは system.compute.clusters

列名	データ型	説明	例
`account_id`	string	このクラスターが作成されたアカウントの ID。	`23e22ba4-87b9-` `4cc2-9770-d10b894b7118`
`workspace_id`	string	このクラスターが作成されたワークスペースの ID。	`1234567890123456`
`cluster_id`	string	このレコードが関連付けられているクラスターの ID。	`0000-123456-xxxxxxxx`
`cluster_name`	string	クラスターのユーザー定義名。	`My cluster`
`owned_by`	string	クラスター所有者のユーザー名。デフォルトはクラスター作成者に与えられますが、Clusters APIを通じて変更可能です。	`sample_user@email.com`
`create_time`	タイムスタンプ	このコンピュート定義に対する変更のタイムスタンプ。	`2023-01-09 11:00:00.000`
`delete_time`	タイムスタンプ	クラスターが削除された時点のタイムスタンプ。クラスターが削除されていない場合、値は `null` されます。	`2023-01-09 11:00:00.000`
`driver_node_type`	string	ドライバーノードの種類の名前。これは、クラウドプロバイダーのインスタンスタイプ名と一致します。	`i3.xlarge`
`worker_node_type`	string	ワーカーノードの種類の名前。これは、クラウドプロバイダーのインスタンスタイプ名と一致します。	`i3.xlarge`
`worker_count`	bigint	ワーカーの数。固定サイズのクラスターに対してのみ定義されます。	`4`
`min_autoscale_workers`	bigint	設定されたワーカーの最小数。このフィールドは、オートスケールクラスターの場合にのみ有効です。	`1`
`max_autoscale_workers`	bigint	設定された最大ワーカー数。このフィールドは、オートスケールクラスターの場合にのみ有効です。	`1`
`auto_termination_minutes`	bigint	設定された自動終了期間。	`120`
`enable_elastic_disk`	ブーリアン	オートスケールディスクの有効化ステータス。	`true`
`tags`	マップ	クラスターのユーザー定義タグ (デフォルトタグは含まれません)。	`{"ResourceClass":"SingleNode"}`
`cluster_source`	string	クラスターのソース。 `UI`または`API`の値は、汎用コンピュートにのみ適用されます。すべてのジョブコンピュートは `JOB`としてログに記録されます。パイプラインは `PIPELINE` または `PIPELINE_MAINTENANCE`です。	`UI`
`init_scripts`	配列	initスクリプトのパスのセットです。	`"/Users/example@email.com` `/files/scripts/install-python-pacakges.sh"`
`aws_attributes`	構造体	AWS 固有の設定。	`{` `"ebs_volume_count": null,` `"availability": "SPOT_WITH_FALLBACK",` `"first_on_demand": "0",` `"spot_bid_price_percent": "100"` `}`
`azure_attributes`	構造体	Azure 固有の設定。	`null`
`gcp_attributes`	構造体	GCP 固有の設定。このフィールドは空になります。	`null`
`driver_instance_pool_id`	string	インスタンスプール ID: ドライバーがインスタンスプールの上に構成されている場合。	`1107-555555-crhod16-pool-DIdnjazB`
`worker_instance_pool_id`	string	ワーカーがインスタンスプールの上に設定されている場合、インスタンスプールID。	`1107-555555-crhod16-pool-DIdnjazB`
`dbr_version`	string	クラスターの Databricks Runtime 。	`14.x-snapshot-scala2.12`
`change_time`	タイムスタンプ	コンピュート定義の変更のタイムスタンプ。	`2023-01-09 11:00:00.000`
`change_date`	日付	日付を変更します。保持に使用されます。	`2023-01-09`
`data_security_mode`	string	コンピュートリソースのアクセスモードです。アクセス・モード・リファレンスを参照してください。	`USER_ISOLATION`
`policy_id`	string	クラスターのコンピュートポリシーの ID(該当する場合)。	`1234F35636110A5B`

アクセス・モード・リファレンス

次の表は、 data_security_mode 列に含まれる可能性のある値を変換したものです。この列は、特定のパイプラインおよびシステム作成のクラスターに対して null することもできます。

Value	アクセスモード
`USER_ISOLATION`	Standard
`SINGLE_USER`	専用

従来のアクセスモードは、次の値で記録されます。

Value	アクセスモード
`LEGACY_PASSTHROUGH`	パススルー認証 (共有)
`LEGACY_SINGLE_USER`	パススルー認証 (シングルユーザー)
`LEGACY_TABLE_ACL`	カスタム
`NONE`	分離なし共有

ノードタイプテーブルスキーマ

ノードタイプテーブルは、現在使用可能なノードタイプとその基本的なハードウェア情報をキャプチャします。

テーブルパス :このシステムテーブルは system.compute.node_typesにあります。

列名	データ型	説明	例
`account_id`	string	このクラスターが作成されたアカウントの ID。	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`node_type`	string	ノードタイプの一意の識別子。	`i3.xlarge`
`core_count`	double	インスタンスの vCPU の数。	`48.0`
`memory_mb`	ロング	インスタンスの合計メモリ。	`393216`
`gpu_count`	ロング	インスタンスの GPU の数。	`0`

ノードタイムラインテーブルスキーマ

ノードタイムラインテーブルは、ノードレベルのリソース使用率データを分単位の粒度で取得します。各レコードには、インスタンスごとに指定された 1 分間のデータが含まれます。このテーブルは、アカウント内の汎用コンピュート、ジョブコンピュート、 Lakeflow Spark宣言型パイプラインコンピュート、およびパイプラインメンテナンスコンピュートリソースのノードタイムラインをキャプチャします。

テーブルパス :このシステムテーブルは system.compute.node_timelineにあります。

列名	データ型	説明	例
`account_id`	string	このコンピュートリソースが実行されているアカウントの ID。	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`workspace_id`	string	このコンピュートリソースが実行されているワークスペースの ID。	`1234567890123456`
`cluster_id`	string	コンピュートリソースの ID。	`0000-123456-crmpt124`
`instance_id`	string	特定のインスタンスの ID。	`i-1234a6c12a2681234`
`start_time`	タイムスタンプ	レコードの開始時刻 (UTC)。	`2024-07-16T12:00:00Z`
`end_time`	タイムスタンプ	レコードの終了時刻 (UTC)。	`2024-07-16T13:00:00Z`
`driver`	ブーリアン	インスタンスがドライバーノードかワーカーノードか。	`true`
`cpu_user_percent`	double	CPU がユーザーランドで費やした時間の割合。	`34.76163817234407`
`cpu_system_percent`	double	CPU がカーネルに費やした時間の割合。	`1.0895310279488264`
`cpu_wait_percent`	double	CPU が I/O の待機に費やした時間の割合。	`0.03445157400629276`
`mem_used_percent`	double	期間中に使用されたコンピュートのメモリの割合 (コンピュートで実行されているバックグラウンドプロセスによって使用されたメモリを含む)。	`45.34858216779041`
`mem_swap_percent`	double	メモリスワップに起因するメモリ使用量の割合。	`0.014648443087939`
`network_sent_bytes`	bigint	ネットワークトラフィックで送信されたバイト数。	`517376`
`network_received_bytes`	bigint	ネットワークトラフィックから受信したバイト数。	`179234`
`disk_free_bytes_per_mount_point`	マップ	マウント・ポイント別にグループ化されたディスク使用率。これは、コンピュートが実行されている間のみの一時的なストレージプロビジョニングです。	`{"/var/lib/lxc":123455551234,"/":` `123456789123,"/local_disk0":123412341234}`
`node_type`	string	ノードの種類の名前。これは、クラウドプロバイダーのインスタンスタイプ名と一致します。	`i3.xlarge`
`private_ip`	string	ノードに割り当てられたプライベートIPアドレス。	`10.0.0.42`

インスタンスイベントテーブルのスキーマ

備考

プレビュー

このシステムテーブルはパブリックプレビュー段階です。

インスタンスイベントテーブルは、クラシックコンピュートインスタンスの状態遷移をキャプチャします。各行は、単一インスタンスの状態変化を表します。このテーブルには、同じクラウドリージョン内に展開されたアカウント内のすべてのワークスペースからの汎用コンピュート、ジョブコンピュート、およびLakeFlow Spark宣言型パイプラインコンピュートのレコードが含まれています。

テーブルパス :このシステムテーブルは system.compute.instance_eventsにあります。

列名	データ型	説明	例
`account_id`	string	このインスタンスが起動されたアカウントのID。	`23e22ba4-87b9-` `4cc2-9770-d10b894b7118`
`workspace_id`	string	このインスタンスが起動されたワークスペースのID。	`1234567890123456`
`instance_id`	string	インスタンスのID。	`i-0a1b2c3d4e5f67890`
`event_time`	タイムスタンプ	イベントのタイムスタンプ。	`2024-01-15 10:30:00.000`
`event_type`	string	イベントの種類。可能な値は`INSTANCE_LAUNCHING`と`STATE_TRANSITION`です。	`STATE_TRANSITION`
`instance_pool_id`	string	インスタンスがプールに属している場合のインスタンスプール ID。	`1107-555555-pool-abcd1234`
`cluster_id`	string	このインスタンスが配置されているクラスターのID。`state`が`INSTANCE_PLACED`の場合にのみ値が設定されます。cluster_id の詳細を参照してください。	`0000-123456-xxxxxxxx`
`node_type`	string	ノードタイプの名前。これはクラウドプロバイダーのインスタンスタイプ名と一致します。	`i3.xlarge`
`state`	string	インスタンスの状態。インスタンスの状態を参照してください。	`INSTANCE_PLACED`
`availability_type`	string	インスタンスの可用性タイプ。指定可能な値は、 `ON_DEMAND`と`SPOT` （AWS、Azure）または`ON_DEMAND`と`PREEMPTIBLE` （GCP）です。	`ON_DEMAND`

インスタンスの状態

INSTANCE_LAUNCHINGインスタンスを初期化しています。
INSTANCE_READYインスタンスは完全に初期化され、使用できる状態ですが、現在は使用されていません。
INSTANCE_PLACEDインスタンスは現在使用中です（クラスターに参加しています）。
INSTANCE_TERMINATEDインスタンスが終了しました。

cluster_idはいつ設定されますか？

cluster_idフィールドは、インスタンスがINSTANCE_PLACED状態にある場合にのみ入力されます。他のすべての状態（ INSTANCE_LAUNCHING 、 INSTANCE_READY 、 INSTANCE_TERMINATED ）では、 cluster_idはnullです。この動作は、プールされたインスタンスとプールされていないインスタンスの両方で一貫しています。

instance_eventsテーブルには、汎用、ジョブ、およびLakeFlow Spark宣言型パイプラインコンピュートの配置イベントのみが含まれています。 SQLウェアハウスなどの他のワークロードの配置イベントは、この表には含まれていません。

インスタンスプールのテーブルスキーマ

備考

プレビュー

このシステムテーブルはパブリックプレビュー段階です。

インスタンスプールテーブルは、長期にわたるインスタンスプール構成の完全な履歴を含む、ゆっくりと変化するディメンションテーブルです。設定が変更されると、新しい行が発行され、論理的に以前の行と置き換えられます。

テーブルパス :このシステムテーブルは system.compute.instance_poolsにあります。

列名	データ型	説明	例
`account_id`	string	このインスタンスプールが作成されたアカウントのID。	`23e22ba4-87b9-` `4cc2-9770-d10b894b7118`
`workspace_id`	string	このインスタンスプールが作成されたワークスペースのID。	`1234567890123456`
`instance_pool_id`	string	インスタンスプールのID。	`1107-555555-pool-abcd1234`
`change_time`	タイムスタンプ	インスタンスプール構成の変更日時。	`2024-01-15 10:30:00.000`
`create_time`	タイムスタンプ	インスタンスプール作成時のタイムスタンプ。	`2024-01-10 08:00:00.000`
`delete_time`	タイムスタンプ	インスタンスプール削除のタイムスタンプ。インスタンスプールが削除されていない場合、値は`null`となります。	`null`
`instance_pool_name`	string	インスタンスプールのユーザー定義名。	`My instance pool`
`tags`	マップ	インスタンスプール用のユーザー定義タグ（デフォルトタグは含まれません）。	`{"team":"data-engineering"}`
`node_type`	string	プール内のインスタンスに使用されるノードタイプ。これはクラウドプロバイダーのインスタンスタイプ名と一致します。	`i3.xlarge`
`idle_instance_autotermination_minutes`	bigint	プールキャッシュ内のアイドル状態のインスタンスが、非アクティブ状態になってから自動的に終了されるまでの時間（分）。	`120`
`min_idle_instances`	bigint	インスタンスプールに保持するアイドル状態のインスタンスの最小数。	`2`
`max_capacity`	bigint	クラスターで使用されているインスタンスとアイドル状態のインスタンスの両方を含め、プールに保持する未処理インスタンスの最大数。	`10`
`enable_elastic_disk`	ブーリアン	オートスケール Local Storage: 有効にすると、 Sparkワーカーのディスク容量が不足しているときに、このプール内のインスタンスが追加のディスク容量を動的に取得します。	`true`
`disk_spec`	構造体	すべてのSparkコンテナに接続されるディスクの仕様。	`{` `"disk_type": "GENERAL_PURPOSE_SSD",` `"disk_count": 2,` `"disk_size": 100` `}`
`preloaded_docker_images`	配列	プール上にカスタムDockerイメージがプリロードされています。	`[]`
`preloaded_spark_version`	string	プール用に事前にロードされた Spark イメージのバージョン（定義されている場合）。	`14.3.x-scala2.12`
`aws_attributes`	構造体	AWS上で稼働するインスタンスプールに関連する属性。	`{` `"availability": "ON_DEMAND",` `"zone_id": "us-west-2a",` `"spot_bid_price_percent": 100` `}`
`azure_attributes`	構造体	Azure上で実行されているインスタンスプールに関連する属性。	`null`
`gcp_attributes`	構造体	GCP上で稼働するインスタンスプールに関連する属性。	`null`

既知の制限事項

2023 年 10 月 23 日より前に削除済みとしてマークされたコンピュートリソースは、クラスターテーブルに表示されません。これにより、 system.billing.usage テーブルからのジョインがクラスターテーブルのレコードと一致しなくなる可能性があります。すべてのアクティブなコンピュートリソースがバックフィルされました。
これらのテーブルには、汎用およびジョブコンピュートのレコードのみが含まれます。サーバレスコンピュートやSQLウェアハウスのレコードは含まれません。
実行時間が 10 分未満のノードは、 node_timeline テーブルに表示されない場合があります。

サンプルクエリ

次のサンプルクエリを使用して、一般的な質問に答えることができます。

クラスターレコードを最新の請求レコードと結合する
平均使用率とピーク使用率が最も高いコンピュートリソースを特定します
各インスタンスプールの最新バージョンを取得します
インスタンスのアイドル時間とアクティブ時間を計算します

注記

これらの例の一部は、クラスターテーブルと system.billing.usage テーブルを結合します。請求レコードはクロスリージョンであり、クラスターレコードはリージョン指定であるため、請求レコードはクエリを実行するリージョンのクラスターレコードのみと一致します。別の地域のレコードを表示するには、その地域でクエリを実行してください。

クラスターレコードを最新の請求レコードと結合する

このクエリは、時間の経過に伴う支出を理解するのに役立ちます。 usage_start_timeを最新の請求期間に更新すると、請求レコードに対する最新の更新が取得され、クラスターデータに結合されます。

各レコードは、その特定の実行中にクラスター所有者に関連付けられます。そのため、クラスターの所有者が変更された場合、コストはクラスターが使用された時期に基づいて正しい所有者にロールアップされます。

SQL
SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

平均使用率とピーク使用率が最も高いコンピュートリソースを特定します

平均 CPU 使用率とピーク CPU 使用率が最も高い汎用コンピュートとジョブコンピュートを特定します。

SQL
SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;

各インスタンスプールの最新バージョンを取得します

instance_poolsテーブルは SCD2 タイプであり、既存のレコードを更新するのではなく、変更が行われるたびに新しいレコードが作成されます。最新バージョンを取得するには、 change_timeが最も大きいエントリを選択します。

SQL
SELECT *
FROM system.compute.instance_pools
QUALIFY row_number() OVER (
  PARTITION BY workspace_id, instance_pool_id
  ORDER BY change_time DESC
) = 1;

インスタンスのアイドル時間とアクティブ時間を計算します

このクエリは、 instance_eventsテーブルの状態遷移を使用して、各インスタンスの合計アイドル時間とアクティブ時間を計算します。

SQL
WITH instance_states AS (
  SELECT
    *,
    event_time AS start_time,
    lead(event_time) OVER (
      PARTITION BY workspace_id, instance_id
      ORDER BY event_time
    ) AS end_time
  FROM system.compute.instance_events
  WHERE event_type IN ('INSTANCE_LAUNCHING', 'STATE_TRANSITION')
)
SELECT
  workspace_id,
  instance_id,
  instance_pool_id,
  sum(if(state = 'INSTANCE_READY',
    TIMESTAMPDIFF(SECOND, start_time, end_time), 0)) / 60 AS idle_minutes,
  sum(if(state = 'INSTANCE_PLACED',
    TIMESTAMPDIFF(SECOND, start_time, end_time), 0)) / 60 AS active_minutes
FROM instance_states
GROUP BY workspace_id, instance_id, instance_pool_id;

クラスター テーブル スキーマ​

アクセス・モード・リファレンス​

ノード タイプ テーブル スキーマ​

ノード タイムライン テーブル スキーマ​

インスタンスイベントテーブルのスキーマ​

インスタンスの状態​

cluster_idはいつ設定されますか？​

インスタンスプールのテーブルスキーマ​

既知の制限事項​

サンプル クエリ​

クラスターレコードを最新の請求レコードと結合する​

平均使用率とピーク使用率が最も高いコンピュート リソースを特定します​

各インスタンスプールの最新バージョンを取得します​

インスタンスのアイドル時間とアクティブ時間を計算します​