古典的なコンピュート終了エラーコード

この記事では、一般的なクラスター終了エラーコードのトラブルシューティングガイダンスを提供します。クラスターイベントログのエラーコードを使用して、関連する原因と推奨される修正方法を見つけます。

設定ミスによるブートストラップタイムアウト

ネットワーク接続の問題、アーティファクトのダウンロードが遅い、またはクラウドプロバイダーの問題により、VM ブートストラッププロセスがタイムアウトしました。ブートストラップのタイムアウトは 700 秒です。

エラーメッセージの例

[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason

トラブルシューティングステップ

Databricks アーティファクトストレージへの接続を確認します。
Databricks コントロールプレーンへの接続を確認します。
Databricks エンドポイントの DNS 解決を確認します。
ファイアウォールとセキュリティグループのルールを確認します。
問題が一貫しているか断続的であるかをテストします。

推奨される修正

Databricks ストレージおよびコントロールプレーンへのネットワーク接続を確認します。ネットワークパフォーマンスを向上させるために、サービスエンドポイントまたは VPC エンドポイントを構成します。ファイアウォール、DNS、ルーティング構成を確認します。ネットワーク構成が検証されているにもかかわらずタイムアウトが続く場合は、Databricks サポートにお問い合わせください。

クラウド操作がキャンセルされました

インスタンスの起動が完了する前に基になるクラウドプロバイダーの操作がキャンセルされたため、クラスターが終了しました。

エラーメッセージの例

Cluster terminated because an underlying cloud operation was cancelled. GCP Error: GCE Operation failed: Operation was canceled by user ''.

トラブルシューティングステップ

クラスターイベントLogsでクラウドプロバイダーのエラーコードとメッセージを確認します。
並列操作または自動化によってクラウドリソースがキャンセルされたかどうかを確認してください。
キャンセルされた操作については、クラウドプロバイダーのアクティビティLogsを確認してください。
問題が一時的か再現可能かを検証します。

推奨される修正

クラスターの起動を再試行します。キャンセルが外部の自動化または手動介入によって発生した場合は、競合する操作を解決してから再試行してください。特定可能な原因がないまま問題が解決しない場合は、まずクラウドプロバイダーのサポートに連絡してください。クラウドプロバイダーが原因を特定できない場合は、Databricksサポートにお問い合わせください。

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG

クラウドプロバイダーは、インスタンスタイプ、アベイラビリティーゾーン、または配置設定などのクラスター構成の制約により、要求されたVMリソースを割り当てることができませんでした。

エラーメッセージの例

The VM launch failed due to restrictive constraint. To reduce future stockout errors, enable flexible node types if not already enabled so Databricks can automatically fall back to alternative instance types.

トラブルシューティングステップ

クラスターインスタンスタイプと可用性ゾーンの構成を確認してください。
柔軟なノードタイプまたは自動fallbackが有効になっているかを確認します。
要求されたインスタンスタイプが選択されたゾーンで利用可能であることを確認してください。
制約または配置の詳細について、クラスターイベントLogsを確認してください。

推奨される修正

柔軟なノードタイプを有効にするか、別の可用性ゾーンを試すか、代替インスタンスタイプを選択してください。fallbackオプションを含めるように、コンピュートポリシーまたはインスタンスタイプの許可リストを更新してください。構成変更で在庫切れが解決しない場合、Databricks サポートに連絡してください。

クラウドプロバイダーの起動失敗

クラウドプロバイダーが要求されたVMインスタンスの起動に失敗しました。これは通常、クラウドプロバイダー側の問題です。

エラーメッセージの例

Reason: CLOUD_PROVIDER_LAUNCH_FAILURE (CLOUD_FAILURE). Parameters: databricks_error_message:The VM launch failed due to transient cloud provider error, please try again later. [details] VM_MIN_COUNT_NOT_REACHED|INTERNAL_ERROR: Requested minimum count of 1 VMs could not be created.|Internal error. Please try again or contact Google Support. (Code: 'REDACTED')(Spot)

トラブルシューティングステップ

特定のクラウドプロバイダーの障害については、エラー内のgcp_error_messageを確認してください。
お住まいの地域で発生している障害については、クラウドプロバイダーのステータスページをご確認ください。
エラーメッセージにクォータ制限とサブネット容量に関する記述がある場合は、これらを確認してください。

推奨される修正

ほとんどのクラウドプロバイダーの起動失敗は一時的なものなので、後でもう一度お試しください。それでも問題が解決しない場合は、詳細情報に記載されている具体的なエラー内容を添えて、クラウドプロバイダーのサポートにお問い合わせください。

通信途絶

コントロールプレーンがインスタンスとの通信を失ったため、クラスターが終了しました。これは、予期しないインスタンスの状態、インスタンスの終了、または制御プレーンが長期間インスタンスにpingできないネットワークレベルの問題が原因である可能性があります。

エラーメッセージの例

Cluster '[REDACTED]' was terminated. Reason: COMMUNICATION_LOST (CLOUD_FAILURE). Parameters: instance_id:[REDACTED], databricks_error_message:Node health check failed.

トラブルシューティングステップ

Databricksコンピュートプレーンと SCC リレーエンドポイントの間のネットワーク構成を確認します。両者の間にファイアウォールやプロキシが存在する場合、ヘルスチェック通信が遮断される可能性があります。ネットワーク管理者にご相談ください。
クラスターメトリクスでノードの CPU とメモリの使用状況を確認します。リソースが枯渇した場合、インスタンスはヘルスチェックに応答しない可能性があります。より大きなインスタンスタイプを使用することを検討してください。
インスタンスが外部要因（例えば、AWSインスタンスの廃止、Azureホストのメンテナンスなど）によって終了または障害が発生したかどうかは、クラウドプロバイダーに確認してください。
Sparkドライバーとエグゼキューターのログを確認して、インスタンスが応答しなくなる原因となった可能性のあるエラー (OOM や長い GC 停止するなど) を確認します。

推奨される修正

ファイアウォールとプロキシの設定については、ネットワーク管理者と確認してください。エラーの原因がクラウドプロバイダーによるインスタンスの終了である場合は、後でもう一度お試しください。リソース不足が原因の場合は、より大きなインスタンスタイプへのアップグレードを検討してください。問題が解決しない場合は、Databricksのサポートにお問い合わせください。

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG

インスタンスがブートストラップステップを取得するためにDatabricksコントロールプレーンに到達できなかったため、VMブートストラッププロセスが失敗しました。どちらのエラーコードも、同じ根本的な障害とトラブルシューティングのガイダンスを共有しています。ワークスペースに同様のコントロールプレーン接続障害の履歴がある場合、CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIGは通常報告されます。

エラーメッセージの例

Failed to get instance bootstrap steps from the Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane.

Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed

トラブルシューティングステップ

クラスターイベントログ内の Base64 でエンコードされたエラーメッセージをデコードします。
ネットワーク構成の DNS 設定を確認してください。
ファイアウォールルールとネットワークセキュリティ設定を確認します。
同じネットワーク内の VM からコントロールプレーンの接続をテストします。
カスタム DNS サーバーが機能し、アクセス可能であることを確認します。

推奨される修正

DNS サーバーの構成と到達可能性を確認します。ファイアウォールルールで Databricks コントロールプレーンへの送信トラフィックが許可されていることを確認します。

ネットワーク構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。

DOCKER_CONTAINER_CREATION_EXCEPTION

コンテナのセットアップエラーが原因で、クラスターがインスタンス上でDockerコンテナの作成に失敗しました。

エラーメッセージの例

Failed to launch container due to an error while creating the container. Please revisit your container setup

トラブルシューティングステップ

カスタムDockerイメージ構成とエントリポイント設定を確認してください。
コンテナーがルート権限またはサポートされていない機能を必要とするかどうかを確認します。
詳細なコンテナ作成エラーについては、クラスターイベントLogsを確認してください。

推奨される修正

エラーメッセージに基づいてDockerコンテナーの構成を修正します。イメージがカスタムコンテナーのDatabricks要件に従っていることを確認してください。

カスタムコンテナーイメージの構築に関するガイダンスについては、専用コンピュート向けDatabricks Container Services、または標準コンピュート向けDatabricks Container Servicesを参照してください。

イメージまたは構成を更新した後、クラスターの起動を再試行してください。コンテナ設定が正しいと思われる場合は、Databricksサポートにお問い合わせください。

DOCKER_IMAGE_PULL_FAILURE

ネットワーク、認証、または構成の問題により、クラスターはコンテナーレジストリからDockerイメージをダウンロードできませんでした。

エラーメッセージの例

Failed to pull docker image: authentication required

トラブルシューティングステップ

クラスター構成内のDockerイメージ名とタグが正しいことを確認してください。
ワークスペースからコンテナレジストリへのネットワーク接続を確認します。
同じネットワーク内の VM からのレジストリアクセスをテストします。
プライベートレジストリの認証資格情報を確認します。
詳細なエラーメッセージについては、ノードデーモンログを確認してください。

推奨される修正

Dockerイメージ構成を修正し、認証資格情報を確認します。ネットワークルールがコンテナレジストリへのアクセスを許可していることを確認します。

構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION

Dockerイメージのサイズが、選択したインスタンスタイプで使用可能なディスク容量を超えています。

エラーメッセージの例

Failed to launch container as the docker image is too large for the instance.

トラブルシューティングステップ

Dockerイメージのサイズを確認してください。
インスタンスタイプのディスク容量を確認します。
Dockerイメージ内の不要なレイヤーやファイルを特定します。
複数の大きな画像が使用されているかどうかを確認します。

推奨される修正

ディスク容量の大きいインスタンスタイプを使用したり、不要なファイルやレイヤーを削除してDockerイメージを最適化したり、マルチステージビルドを使用してイメージサイズを縮小したり、機能を複数の小さなイメージに分割したりします。画像の最適化については、Databricks サポートにお問い合わせください。

Docker 無効なOS例外

カスタムのDockerコンテナは、Databricks コンピュートでサポートされていないオペレーティングシステムを使用しています。

エラーメッセージの例

Failed to launch container due to an invalid Docker OS. Please revisit your OS configuration.

トラブルシューティングステップ

カスタムDockerイメージのベースオペレーティングシステムを確認してください。
サポートされているコンテナオペレーティングシステムについては、Databricksドキュメントをご覧ください。
クラスターのDockerイメージ構成で正しいイメージ参照を確認します。

推奨される修正

サポートされているオペレーティングシステムベースイメージを使用して、Dockerイメージを再構築します。DatabricksはDatabricksベースイメージの使用を推奨します。UbuntuおよびAlpine Linuxもサポートされています。

修正されたイメージでクラスター構成を更新し、起動を再試行してください。OS がサポート対象であるべきである場合は、Databricks サポートにお問い合わせください。

EOS_SPARK_IMAGE

クラスター用に構成された Databricks Runtime (DBR) バージョンのサポート終了 (EOS) に達しました。

エラーメッセージの例

Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2

トラブルシューティングステップ

クラスター構成で DBR バージョンを確認します。
EOS の日付については、 Databricks Runtimeリリースノートを確認してください。
現在サポートされている DBR バージョンを識別します。
ノートブックまたはジョブに DBR バージョンの依存関係があるかどうかを確認します。

推奨される修正

サポートされている Databricks Runtime バージョンを使用するようにクラスター構成を更新します。本番運用にデプロイする前に、ライブラリとコードの互換性要件を確認してください。 DBR の移行に関するサポートが必要な場合は、Databricks サポートにお問い合わせください。

GCP_容量不足

Google クラウドには、選択したゾーンで要求されたマシンタイプに対応できる十分な容量がありません。

エラーメッセージの例

The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. (resource type: compute)

Requested minimum count of 1 VMs could not be created. | The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. Try a different zone, or try again later.

トラブルシューティングステップ

既知の容量の問題については、 Google クラウドサービスの健全性ページを確認してください。
さまざまなゾーンでのマシンタイプの可用性を確認します。
プリエンプティブインスタンスの可用性が異なるかどうかを確認します。
マシンタイプの最近の容量傾向を確認します。

推奨される修正

別のゾーンで起動してみるか、同様の仕様の別のマシンタイプを使用するか、プリエンプティブを使用している場合は標準インスタンスに切り替えるか、オフピーク時に起動をスケジュールしてください。利用可能な容量に関する情報については、Google クラウドサポートにお問い合わせください。

将来的な在庫切れエラーを減らすため、優先タイプが利用できない場合にDatabricksが自動的に互換性のあるインスタンスタイプにフォールバックするように、ワークスペース管理者に柔軟なノードタイプを有効にするよう依頼してください。柔軟なノードタイプはGPUインスタンスタイプでは利用できません。

GCP_IP_SPACE_EXHAUSTED

GCPサブネットには、VM 割り当てに使用できる IP アドレスが不足しています。

エラーメッセージの例

IP space of 'projects/[REDACTED]/regions/us-west1/subnetworks/[REDACTED]' is exhausted. Insufficient free IP addresses in the IP range '[REDACTED]/23'. Consider expanding the current IP range or selecting an alternative IP range.

トラブルシューティングステップ

GCP コンソールでサブネットの IP 範囲と使用状況を確認します。
IP を消費しているインスタンスやその他のリソースの数を確認します。
IP アドレスの予約を確認します。
セカンダリ IP 範囲が構成されているかどうかを確認します。

推奨される修正

サブネットの IP 範囲を拡張し、より広い IP 範囲を持つ新しいサブネットを作成し、ワークスペースを移行し、未使用のリソースをクリーンアップし、より少数のより大きなインスタンスを使用し、またはセカンダリ IP 範囲を構成します。必要に応じて、ワークスペースの移行に関するサポートについては Databricks サポートにお問い合わせください。

GCP_NOT_FOUND

要求された GCP リソース (ネットワーク、サブネット、サービスアカウントなど) が見つかりませんでした。

エラーメッセージの例

The resource 'projects/databricks-[REDACTED]' was not found

トラブルシューティングステップ

クラスター構成内のリソース名または ID を確認します。
GCP コンソールにリソースが存在するかどうかを確認します。
プロジェクト ID が正しいことを確認します。
リソースが削除されたかどうかを確認します。
リソースにアクセスするための権限を確認します。

推奨される修正

構成内のリソース識別子を修正し、削除されたリソースを再作成し、プロジェクト名とリソース名を確認するか、サービスアカウントの権限を確認してください。構成が正しいと思われる場合は、Databricks サポートにお問い合わせください。

GCP_リソース割り当て超過

クラスターの起動は、CPU、IP アドレス、またはディスクリソースのGCPプロジェクトクォータ制限を超える可能性があります。

エラーメッセージの例

Quota 'LOCAL_SSD_TOTAL_GB_PER_VM_FAMILY' exceeded. Limit: 30000.0 in region us-central1.

Quota 'SSD_TOTAL_GB' exceeded. Limit: 400.0 in region us-east1.

トラブルシューティングステップ

GCP コンソール > IAM と管理 > 割り当て で割り当ての使用状況を確認します。
どの特定のクォータが超過しているかを特定します (CPU、IP、ディスク)。
すべてのリージョンにわたるリソースの使用状況を確認します。
スタックしたリソースや孤立したリソースがないか確認します。

推奨される修正

GCP コンソールから割り当ての増加をリクエストしたり、未使用のリソースをクリーンアップして割り当てを解放したり、ワークロードを複数のリージョンまたはプロジェクトに分散したり、異なるマシンタイプを使用したりできます。割り当ての増加リクエストについては、Google クラウドサポートにお問い合わせください。

インスタンスプールの最大容量に達しました

インスタンスプールは構成された最大容量制限に達したため、追加のインスタンスを提供できません。

エラーメッセージの例

Instance pool is full, please consider increasing the pool size

トラブルシューティングステップ

最大容量設定についてはインスタンスプールの構成を確認してください。
プールから現在使用されているインスタンスの数を確認します。
プールを使用しているクラスターを識別します。
解放できるアイドル状態のインスタンスがあるかどうかを確認します。

推奨される修正

インスタンスプールの最大容量を増やす、追加のインスタンスプールを作成して負荷を分散する、プールを使用してアイドル状態のクラスターを終了する、または別のプールを使用するようにクラスターを構成します。内部ワークロード要件に基づいてプールのサイジングを検討します。

INSTANCE_POOL_NOT_FOUND

クラスターは、存在しないか、アクティブではないインスタンスプールを参照しています。

エラーメッセージの例

Instances could not be provisioned for the cluster since the instance pool is no longer active

トラブルシューティングステップ

クラスター構成でインスタンスプールIDを確認します。
インスタンスプールが削除または非アクティブ化されているかを確認してください。
古いインスタンスプールの参照について、クラスターとジョブの設定を確認してください。
インスタンスプールがクラスターと同じワークスペースに存在することを確認します。

推奨される修正

クラスター構成を更新して既存のインスタンスプールを使用するか、インスタンスプールの参照を削除してインスタンスを直接起動してください。必要に応じてインスタンスプールを再作成します。インスタンスプールが存在するはずなのに見つからない場合は、Databricksサポートにお問い合わせください。

INSTANCE_UNREACHABLE / INSTANCE_UNREACHABLE_DUE_TO_MISCONFIG

ネットワーク設定の誤り、ファイアウォールルール、または接続の問題が原因でインスタンスに到達できません。両方のエラーコードは、同じ根本的な障害とトラブルシューティングガイダンスを共有しています。INSTANCE_UNREACHABLE_DUE_TO_MISCONFIG は通常、ワークスペースに同様の接続失敗の履歴がある場合に報告されます。

エラーメッセージの例

Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.

トラブルシューティングステップ

必要な受信ポートのファイアウォールルールとネットワークセキュリティ設定を確認します。
コントロールプレーンからインスタンスネットワークへの接続をテストします。
非対称ルーティングの問題がないか確認します。
切断された接続がないかファイアウォールログを確認します。
インスタンスに正しいセキュリティグループが割り当てられていることを確認します。

推奨される修正

セキュリティグループまたは NSG が、Databricks コントロールプレーンからの必要な受信トラフィックを許可していることを確認します。ルートテーブルが双方向通信を可能にしていることを確認します。ネットワーク接続のトラブルシューティングについては、Databricks サポートにお問い合わせください。

無効な引数

無効な構成、シークレットの欠落、不正なアクセス許可、またはクラスター設定の誤りにより、クラスターの起動が妨げられました。

エラーメッセージの例

com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]

トラブルシューティングステップ

エラーメッセージを確認して、特定の無効な問題を特定します。
シークレットエラーの場合は、 Databricks Secrets APIを使用してシークレットスコープとキーが存在することを確認します。
シークレットにアクセスするためのユーザーまたはサービスプリンシパルの権限を確認してください。
クラスター構成に構文エラーがないか確認してください。
init スクリプトの構成エラーを確認してください。

推奨される修正

エラーメッセージに基づいて無効な問題を修正してください。シークレットについては、スコープとキーの存在を確認し、権限をチェックし、シークレットプロバイダーへのネットワーク接続を確保します。すべてのクラスター構成をドキュメントと照らし合わせて検証します。構成が正しいと思われる場合は、Databricks サポートにお問い合わせください。

無効なワーカー環境

ワーカー環境が存在しないため、クラスターを起動できませんでした。

このエラーは、ワークスペース作成直後、ワーカー環境がまだプロビジョニングされている間に発生する可能性があります。

エラーメッセージの例

[details] NO_SUCH_WORKER_ENVIRONMENT_EXCEPTION: Delegate unexpected exception during asynchronous instance launch com.databricks.backend.manager.util.WorkerEnvironmentNotFoundException: Worker environment

トラブルシューティングステップ

ワークスペースがいつ作成されたか確認してください。最近作成された場合、ワーカー環境はまだプロビジョニング中である可能性があります。
クラスターイベントLogsでワーカー環境のエラー詳細を確認してください。

推奨される修正

ワークスペース作成後、数分お待ちください。その後、クラスターの起動を再試行してください。

最近作成または復元されたものではないアクティブなワークスペースでエラーが続く場合は、Databricksサポートにお問い合わせください。

ネットワークチェックコントロールプレーン障害 / ネットワークチェックコントロールプレーン障害 (設定ミスによる)

Databricksコントロールプレーンに到達しようとしたときに、ブートストラップ前のネットワークヘルスチェックに失敗しました。どちらのエラーコードも、同じ根本的な障害とトラブルシューティングのガイダンスを共有しています。ワークスペースに同様のネットワークヘルスチェックの失敗履歴がある場合、NETWORK_CHECK_CONTROL_PLANE_FAILURE_DUE_TO_MISCONFIGが報告されることがよくあります。

エラーメッセージの例

Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true

トラブルシューティングステップ

特定の接続失敗の詳細については、クラスターイベントログを確認します。
同じネットワーク内の VM からコントロールプレーンの接続をテストします。
DatabricksコントロールプレーンEndpointのDNS解決を確認してください。
ファイアウォールがトラフィックを傍受またはブロックしていないかどうかを確認します。
ファイアウォールルールとルートテーブルがアウトバウンドHTTPSトラフィックを許可していることを確認します。

推奨される修正

セキュリティグループまたはNSGルールがDatabricks コントロールプレーンへのアウトバウンドトラフィックを許可していることを確認してください。必要に応じて、DNS、ファイアウォール、およびルーティング構成を修正してください。ファイアウォールでUDRを使用している場合、Databricks サービスタグがインターネットにルーティングされるようにしてください。ネットワーク構成が正しいことを確認してもヘルスチェックがまだ失敗する場合は、Databricks サポートに連絡してください。

ネットワークチェックDNSサーバー障害 / ネットワークチェックDNSサーバー障害 (設定ミスによる)

VMが構成されたDNSサーバーに到達できないため、事前ブートストラップネットワークヘルスチェックに失敗しました。どちらのエラーコードも、同じ根本的な障害とトラブルシューティングのガイダンスを共有しています。ワークスペースに同様のネットワークヘルスチェックの失敗履歴がある場合、NETWORK_CHECK_DNS_SERVER_FAILURE_DUE_TO_MISCONFIGが報告されることがよくあります。

エラーメッセージの例

[details] X_NHC_DNS_SERVER_UNREACHABLE: Instance failed network health check before bootstrapping with fatal error: X_NHC_DNS_SERVER_UNREACHABLE
4 failed component(s): control_plane dns_server internet storage
Retryable: true

トラブルシューティングステップ

サブネットまたはVNet用に構成されたDNSサーバーのIPアドレスを確認します。
同じネットワーク内のVMからDNSサーバーの到達可能性をテストします。
ポート53でDNSトラフィックをブロックする可能性のあるファイアウォールルールを確認してください。
カスタムDNSサーバー構成、フォワーダー、および条件付き転送ルールを確認してください。
同じネットワーク内のVMから、DatabricksコントロールプレーンとストレージEndpointのDNS解決をテストします。
ネットワーク構成で、入力ミスまたは到達不能なDNSサーバーのIPアドレスがないか確認してください。

推奨される修正

コンピュートプレーンネットワークからDNSサーバーが到達可能で機能していることを確認してください。ファイアウォールまたはNSGルールを更新して、DNSトラフィックを許可してください。カスタムDNSサーバーに到達できないか、誤って構成されている場合、クラウドプロバイダーのdefault DNSへの切り替えを検討してください。DNSサーバー構成を修正し、コンピュートインスタンスがDatabricks Endpointを解決できることを確認してください。DNS構成が検証されてもルックアップが依然として失敗する場合、Databricksサポートにお問い合わせください。

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG

コントロールプレーン、ストレージ、DNS、またはインターネット接続など、複数のネットワークコンポーネント全体でブートストラップ前のネットワークヘルスチェックが失敗しました。両方のエラーコードは、同じ根本的な障害とトラブルシューティングガイダンスを共有しています。ワークスペースに同様のネットワークヘルスチェックの失敗履歴がある場合、NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIGが報告されることがよくあります。

エラーメッセージの例

Instance failed network health check before bootstrapping with fatal error: X_NHC_MULTIPLE_COMPONENTS_FAILURE
3 failed component(s): control_plane internet storage
Retryable: false

トラブルシューティングステップ

クラスターイベントLogsを確認して、どのコンポーネントがヘルスチェックに失敗したかを特定してください。
同じネットワーク内のVMから、コントロールプレーン、ストレージ、およびDNS Endpointへの接続をテストします。
広範なネットワーク障害またはファイアウォール変更を確認してください。
問題が一時的か永続的かを確認します。
ファイアウォール、DNS、プロキシ、またはルーティング構成への最近の変更を確認します。
顧客管理VPCまたはVNet注入構成が必要なトラフィックをブロックしているかどうかを確認してください。

推奨される修正

すべての失敗したコンポーネントの根本的なネットワーク接続の問題に対処してください。ファイアウォール、DNS、およびルーティング構成を全体的に確認してください。複数のEndpointに影響を与えているネットワークの構成ミスを修正し、設定がDatabricksコントロールプレーンとアーティファクトストレージへのアクセスを許可していることを確認してください。ネットワークの問題が解決された後で、クラスターの起動を再試行してください。検証済みのネットワーク構成にもかかわらず複数のコンポーネントが失敗した場合は、Databricks サポートにお問い合わせください。

NETWORK_CHECK_NIC_FAILURE

ブートストラップ前のネットワークヘルスチェックにより、インターフェースのダウンや必要なルートの欠落などのネットワークインターフェースカード (NIC) の問題が検出されました。

エラーメッセージの例

Instance failed network health check before bootstrapping with fatal error: X_NHC_NIC_STATE_DOWN
1 failed component(s): nic
Retryable: true

トラブルシューティングステップ

クラスターイベントLogsでNICの状態またはルーティングエラーを確認します。
サブネットとルートテーブルの構成を確認します。
クラウドプロバイダーコンソールで、NICまたはホストレベルのネットワークの問題についてVM OS Logsとメトリクスを確認します。
クラウドプロバイダーコンソールでVMがエラーなしでプロビジョニングされたことを確認します。
そのリージョンにおけるクラウドプロバイダーのネットワークインシデントを確認してください。

推奨される修正

NICの問題は一時的なものであることが多いため、クラスターの起動を再試行してください。問題が解決しない場合は、クラウドプロバイダーまたはネットワーク管理者とネットワーク構成を確認してください。複数回の再試行後も障害が続く場合、Databricks サポートに連絡してください。

NETWORK_CHECK_STORAGE_FAILURE

VMがDatabricksアーティファクトストレージに到達できないため、ブートストラップ前のネットワークヘルスチェックが失敗しました。

エラーメッセージの例

[details] X_NHC_STORAGE_UNREACHABLE: Instance failed network health check before bootstrapping with fatal error: X_NHC_STORAGE_UNREACHABLE
2 failed component(s): internet storage
Retryable: true

トラブルシューティングステップ

同じネットワーク内のVMからDatabricksストレージEndpointへの接続をテストします。
ストレージ URL の DNS 解決を確認します。
ファイアウォール、プロキシ、セキュリティグループ、またはNSGルールを確認します。
TLS検査デバイスがストレージ接続を妨害していないか確認してください。

推奨される修正

ファイアウォールルールがDatabricksストレージEndpointへのアクセスを許可していることを確認してください。該当する場合は、VPCまたはサービスEndpointを構成してください。カスタムDNSサーバーがストレージURLの解決遅延や失敗を引き起こす場合は、クラウドプロバイダーのdefault DNSに切り替えるか、DNS設定を修正してください。ストレージ接続が検証されてもヘルスチェックが依然として失敗する場合は、Databricksサポートにお問い合わせください。

ネットワーク設定エラー

ネットワーク構成エラーにより、VM またはクラスターネットワークが適切にセットアップされません。

トラブルシューティングステップ

ファイアウォールとセキュリティグループまたは NSG ルールを確認します。
ルートテーブルとルーティング構成を確認します。
サブネット構成を確認します。
IP アドレスの競合がないか確認します。
DNS設定を確認します。

推奨される修正

特定のエラーに基づいてネットワーク構成を修正します。セキュリティグループまたは NSG ルールが必要なトラフィックを許可していることを確認し、サブネット CIDR 範囲が重複していないことを確認し、ルートテーブルが適切に構成されていることを確認し、DNS が機能していることを確認します。ネットワーク構成の確認については、Databricks サポートにお問い合わせください。

NPIP_TUNNEL_SETUP_FAILURE

ブートストラップスクリプトがタイムアウト時間内にNPIPトンネル接続を確立できませんでした。これは、クラウドプロバイダーがインスタンスを起動し、ブートストラップスクリプトがSCCリレートンネルの確立を試みた後に発生します。

エラーメッセージの例

Cluster '[REDACTED]' was terminated. Reason: NPIP_TUNNEL_SETUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:VM setup failed due to Ngrok setup timeout. [details] NPIP_TUNNEL_SETUP_FAILURE: Instance bootstrap failed command: WaitForNgrokTunnel Failure message: Timed out waiting for ngrok tunnel to be up(OnDemand), instance_id:[REDACTED]

トラブルシューティングステップ

SCC リレーとDatabricksコンピュートプレーンのサブネット間のネットワーク構成を確認します。
ポート443または6666でのトンネル設定をブロックする可能性のあるファイアウォールとプロキシの設定を確認してください。

推奨される修正

コンピュートプレーンから SCC リレーエンドポイントへのネットワーク接続を確認します。 DatabricksコンピュートプレーンVPC /VNet でインスタンスを起動し、SCC リレーへの接続を確認します。

nslookup <SCC relay fqdn>
nc -vz <SCC relay fqdn> 443

ファイアウォールまたはプロキシが存在する場合は、必要なポートでリレーへのトラフィックが許可されていることを確認してください。公開ネットワーク構成に関するドキュメントを参照し、適切な送信ルールが設定されていること、およびVPC/VNetからSCCエンドポイントに接続できることを確認してください。ネットワーク構成に問題がないにもかかわらず問題が発生する場合は、Databricksサポートにお問い合わせください。

RATE_LIMITED

ワークスペースの容量またはリクエスト制限を超過したため、クラスターの起動がレート制限されました。

エラーメッセージの例

Your workspace upsize request timed out because it exceeded the workspace-level capacity limit.

トラブルシューティングステップ

複数のクラスターまたはジョブが同時に起動しているか確認してください。
ワークスペースで並列クラスターとジョブのアクティビティを確認します。
障害がピーク使用期間中に発生するかどうかを特定します。
クラスターイベントLogsでワークスペースレベルのスロットリングメッセージを確認します。

推奨される修正

クラスターの並列起動を減らし、ジョブのスケジュールをずらすか、再試行するまで待機してください。ワークロードが継続的にhigh concurrencyを必要とする場合は、Databricksサポートを通じてワークスペースの容量制限の引き上げをリクエストしてください。スロットリングが解消されてから、クラスターの起動を再試行してください。

リクエストが制限されました

レート制限により、クラウドプロバイダーへの API リクエストが調整されています。

エラーメッセージの例

TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]

トラブルシューティングステップ

複数のクラスターが同時に起動しているかどうかを確認します。
アカウントの API リクエストレート制限を確認します。
他のサービスがアーキテクチャAPI呼び出しを行っているかどうかを特定します。
頻繁にリクエストを行う自動システムがないか確認します。

推奨される修正

ライナークラスターの起動を減らし、クラウドプロバイダーにAPIレート制限の増加をリクエストし、自動化スクリプトで指数バックオフを実装するか、クラスターの起動時間をずらします。

スポットインスタンス終了

スポットインスタンスまたはプリエンプティブインスタンスは、容量のニーズまたは価格の変更により、クラウドプロバイダーによって終了されました。

エラーメッセージの例

Server.SpotInstanceTermination: Spot instance termination

トラブルシューティングステップ

終了タイムスタンプについては、クラスターイベントログを確認してください。
お住まいの地域のスポット価格履歴を確認します。
特定の時間に終了が発生するかどうかを識別します。
複数のインスタンスが同時に終了したかどうかを確認します。

推奨される修正

本番運用ワークロードのオンデマンドインスタンスに切り替えたり、ジョブの再試行ロジックを実装して中断を処理したり、オンデマンドインスタンスとスポットインスタンスを組み合わせて使用したりできます。スポットインスタンスは、フォールトトレラントなワークロードに最適です。

SPARK_IMAGE_DOWNLOAD_FAILURE

クラスターは、ブートストラップ中にDatabricksアーティファクトストレージからSparkコンテナーイメージをdownloadできませんでした。

エラーメッセージの例

Failed to set up spark container due to an image download failure: Exception when downloading spark image:

トラブルシューティングステップ

コンピュートプレーンネットワークからDatabricksアーティファクトストレージへの接続を確認してください。
ストレージのEndpointのDNS解決を検証してください。
ファイアウォール、プロキシ、セキュリティグループまたはNSGルールを確認します。
問題が複数のクラスターに影響しているか、単一のクラスターに影響しているかを確認します。

推奨される修正

DatabricksストレージEndpointへのネットワーク接続を確認してください。downloadの信頼性を向上させるため、該当する場合はVPCまたはサービスEndpointを構成してください。クラスターの起動を再試行してください。接続が検証されてもdownloadが依然として失敗する場合、Databricksサポートにお問い合わせください。

SPARK_IMAGE_NOT_FOUND

指定されたSparkイメージはDatabricksアーティファクトストレージに存在しません。

エラーメッセージの例

Failed to set up the Spark container on instance [REDACTED] could not find internal Spark image snapshot__17.x-snapshot-scala2.13__databricks__17.4.0_

トラブルシューティングステップ

クラスターに構成されているDatabricks Runtimeのバージョンを確認してください。
カスタムのSparkイメージ名またはタグが指定されているか確認してください。
ワークスペースのリージョンでランタイムのバージョンがサポートされていることを確認してください。
クラスターまたはジョブの構成に対する最近の変更を確認してください。

推奨される修正

サポートされているDatabricks Runtimeバージョンを選択するか、カスタムSparkイメージが存在することを確認します。有効なランタイムバージョンを使用するようにクラスター構成を更新し、起動を再試行してください。ランタイムバージョンが利用可能であるはずなのにイメージが見つからない場合は、Databricksサポートにお問い合わせください。

スパーク起動失敗

Sparkドライバが設定されたタイムアウト時間内に起動しませんでした。これは、ドライバインスタンスでドライバデーモンの起動がタイムアウト（通常200秒）内に完了しなかった場合に発生する可能性があります。

エラーメッセージの例

Cluster '[REDACTED]' was terminated. Reason: SPARK_STARTUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:Spark failed to start: DEADLINE_EXCEEDED.

Cluster '[REDACTED]' was terminated. Reason: SPARK_STARTUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:Spark failed to start: Timed out after 200 seconds.

トラブルシューティングステップ

Sparkの設定を確認し、設定ミス（例えば、無効なメタストアURIや設定の競合など）がないか確認してください。
ドライバーの起動を遅らせたり妨げたりする可能性のある潜在的なエラーがないか、init スクリプトを確認してください。

推奨される修正

カスタムSpark構成を削除し、スクリプトを初期化して問題を切り分けます。別のインスタンスタイプを試してみてください。小規模なインスタンスではハードウェアの処理速度が遅いため、ドライバの起動タイムアウトが発生する可能性があります。問題が解決しない場合は、クラスター ID とエラーの詳細を添えてDatabricksサポートにお問い合わせください。

ストレージ_ダウンロード失敗_低速

ネットワーク接続、ファイアウォール、または DNS の問題により、 Databricksストレージからのアーティファクトのダウンロードが失敗するか、遅すぎます。

エラーメッセージの例

Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...

トラブルシューティングステップ

Databricks ストレージエンドポイントのファイアウォールルールを確認します。
ストレージ URL の DNS 解決を確認します。
同じネットワーク内の VM からのダウンロード速度をテストします。
ネットワーク帯域幅の使用率を確認します。
プロキシまたはネットワーク検査デバイスを確認します。
ストレージエンドポイントへのルートを確認します。

推奨される修正

ファイアウォールルールが Databricks ストレージエンドポイントへのアクセスを許可していることを確認します。

ネットワーク検査デバイスが存在する場合は確認して最適化します。ストレージエンドポイントへの接続が検証されているにもかかわらずダウンロードが失敗する場合は、Databricks サポートにお問い合わせください。

ストレージのダウンロード失敗: スロットリング

ブートストラップ中のアーティファクトのdownloadは、負荷の増加またはエグレス制限により、クラウドストレージプロバイダーによってスロットリングされています。

エラーメッセージの例

Worker artifact download servers are seeing elevated load and throttling requests.

トラブルシューティングステップ

ストレージ固有のスロットリングエラー (例: HTTP 503 または ServerBusy) についてクラスターイベントLogsを確認します。

推奨される修正

短い遅延の後、クラスターの起動を再試行します。複数回の再試行後も問題が続く場合は、Databricksサポートにお問い合わせください。

WORKSPACE_CANCELLED_ERROR

クラスターのプロビジョニング中にワークスペースがキャンセルされたため、クラスターの起動に失敗しました。

エラーメッセージの例

Workspace Cancelled Error

トラブルシューティングステップ

クラスター起動中にワークスペースがキャンセルまたは削除されたかどうかを確認してください。
アカウントコンソールでワークスペースステータスを確認します。
ワークスペースがキャンセルされたときに、クラスターのサイズ拡張リクエストが進行中であったかどうかを特定します。

推奨される修正

新しいワークスペースを作成します。ワークスペースがアクティブに見えるにもかかわらず、クラスターがこのエラーで終了し続ける場合は、Databricksサポートにお問い合わせください。

ワークスペース構成エラー

IAMロールまたはサービスプリンシパル権限の問題など、ワークスペースレベルの構成ミスによりクラスターの起動が妨げられています。

トラブルシューティングステップ

ワークスペース構成の最近の変更を確認します。
クラウドプロバイダーコンソールでポリシーまたは権限の変更を確認します。

推奨される修正

ワークスペースサービスアカウントの権限とプロジェクト構成を確認します。

ワークスペースの構成が正しいと思われる場合、またはクロスアカウントロールの設定を検証する必要がある場合は、Databricks サポートにお問い合わせください。

設定ミスによるブートストラップタイムアウト​

クラウド操作がキャンセルされました​

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG​

クラウドプロバイダーの起動失敗​

通信途絶​

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG​

DOCKER_CONTAINER_CREATION_EXCEPTION​

DOCKER_IMAGE_PULL_FAILURE​

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION​

Docker 無効なOS例外​

EOS_SPARK_IMAGE​

GCP_容量不足​

GCP_IP_SPACE_EXHAUSTED​

GCP_NOT_FOUND​

GCP_リソース割り当て超過​

インスタンスプールの最大容量に達しました​

INSTANCE_POOL_NOT_FOUND​

INSTANCE_UNREACHABLE / INSTANCE_UNREACHABLE_DUE_TO_MISCONFIG​

無効な引数​

無効なワーカー環境​

ネットワークチェック コントロールプレーン障害 / ネットワークチェック コントロールプレーン障害 (設定ミスによる)​

ネットワークチェックDNSサーバー障害 / ネットワークチェックDNSサーバー障害 (設定ミスによる)​

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG​

NETWORK_CHECK_NIC_FAILURE​

NETWORK_CHECK_STORAGE_FAILURE​

ネットワーク設定エラー​

NPIP_TUNNEL_SETUP_FAILURE​

RATE_LIMITED​

リクエストが制限されました​

スポットインスタンス終了​

SPARK_IMAGE_DOWNLOAD_FAILURE​

SPARK_IMAGE_NOT_FOUND​

スパーク起動失敗​

ストレージ_ダウンロード失敗_低速​

ストレージのダウンロード失敗: スロットリング​

WORKSPACE_CANCELLED_ERROR​

ワークスペース構成エラー​

設定ミスによるブートストラップタイムアウト

クラウド操作がキャンセルされました

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG

クラウドプロバイダーの起動失敗

通信途絶

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG

DOCKER_CONTAINER_CREATION_EXCEPTION

DOCKER_IMAGE_PULL_FAILURE

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION

Docker 無効なOS例外

EOS_SPARK_IMAGE

GCP_容量不足

GCP_IP_SPACE_EXHAUSTED

GCP_NOT_FOUND

GCP_リソース割り当て超過

インスタンスプールの最大容量に達しました

INSTANCE_POOL_NOT_FOUND

INSTANCE_UNREACHABLE / INSTANCE_UNREACHABLE_DUE_TO_MISCONFIG

無効な引数

無効なワーカー環境

ネットワークチェックコントロールプレーン障害 / ネットワークチェックコントロールプレーン障害 (設定ミスによる)

ネットワークチェックDNSサーバー障害 / ネットワークチェックDNSサーバー障害 (設定ミスによる)

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG

NETWORK_CHECK_NIC_FAILURE

NETWORK_CHECK_STORAGE_FAILURE

ネットワーク設定エラー

NPIP_TUNNEL_SETUP_FAILURE

RATE_LIMITED

リクエストが制限されました

スポットインスタンス終了

SPARK_IMAGE_DOWNLOAD_FAILURE

SPARK_IMAGE_NOT_FOUND

スパーク起動失敗

ストレージ_ダウンロード失敗_低速

ストレージのダウンロード失敗: スロットリング

WORKSPACE_CANCELLED_ERROR

ワークスペース構成エラー