古典的なコンピュート終了エラー コード
この記事では、一般的なクラスター終了エラー コードのトラブルシューティング ガイダンスを提供します。クラスター イベント ログのエラー コードを使用して、関連する原因と推奨される修正方法を見つけます。
ブートストラップタイムアウト_DUE_TO_MISCONFIG
ネットワーク接続の問題、アーティファクトのダウンロードが遅い、またはクラウド プロバイダーの問題により、VM ブートストラップ プロセスがタイムアウトしました。ブートストラップのタイムアウトは 700 秒です。
エラーメッセージの例
[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason
トラブルシューティングステップ
- Databricks アーティファクト ストレージへの接続を確認します。
- Databricks コントロール プレーンへの接続を確認します。
- Databricks エンドポイントの DNS 解決を確認します。
- ファイアウォールとセキュリティ グループのルールを確認します。
- 問題が一貫しているか断続的であるかをテストします。
推奨される修正
Databricks ストレージおよびコントロール プレーンへのネットワーク接続を確認します。ネットワーク パフォーマンスを向上させるために、サービス エンドポイントまたは VPC エンドポイントを構成します。ファイアウォール、DNS、ルーティング構成を確認します。ネットワーク構成が検証されているにもかかわらずタイムアウトが続く場合は、Databricks サポートにお問い合わせください。
誤った設定による操縦飛行機要求の失敗
DNS 解決の失敗、ファイアウォール ルール、またはネットワークの誤った構成により、VM は Databricks コントロール プレーンに到達できません。
エラーメッセージの例
Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed
トラブルシューティングステップ
- クラスター イベント ログ内の Base64 でエンコードされたエラー メッセージをデコードします。
- ネットワーク構成の DNS 設定を確認してください。
- ファイアウォール ルールとネットワーク セキュリティ設定を確認します。
- 同じネットワーク内の VM からコントロール プレーンの接続をテストします。
- カスタム DNS サーバーが機能し、アクセス可能であることを確認します。
推奨される修正
DNS サーバーの構成と到達可能性を確認します。ファイアウォール ルールで Databricks コントロール プレーンへの送信トラフィックが許可されていることを確認します。
ネットワーク構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。
DOCKER_IMAGE_PULL_FAILURE
ネットワーク、認証、または構成の問題により、クラスターはコンテナー レジストリからDockerイメージ をダウンロードできませんでした。
エラーメッセージの例
Failed to pull docker image: authentication required
トラブルシューティングステップ
- クラスター構成内のDockerイメージ 名とタグが正しいことを確認してください。
- ワークスペースからコンテナ レジストリへのネットワーク接続を確認します。
- 同じネットワーク内の VM からのレジストリ アクセスをテストします。
- プライベート レジストリの認証資格情報を確認します。
- 詳細なエラー メッセージについては、ノード デーモン ログを確認してください。
推奨される修正
Dockerイメージ構成を修正し、認証資格情報を確認します。 ネットワーク ルールがコンテナ レジストリへのアクセスを許可していることを確認します。
構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。
DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXPEPTION
Dockerイメージのサイズが、選択したインスタンスタイプで使用可能なディスク容量を超えています。
エラーメッセージの例
Failed to launch container as the docker image is too large for the instance.
トラブルシューティングステップ
- Dockerイメージのサイズを確認してください。
- インスタンスタイプのディスク容量を確認します。
- Dockerイメージ内の不要なレイヤーやファイルを特定します。
- 複数の大きな画像が使用されているかどうかを確認します。
推奨される修正
ディスク容量の大きいインスタンス タイプを使用したり、不要なファイルやレイヤーを削除してDockerイメージを最適化したり、マルチステージ ビルドを使用してイメージ サイズを縮小したり、機能を複数の小さなイメージに分割したりします。 画像の最適化については、Databricks サポートにお問い合わせください。
EOS_SPARK_イメージ
クラスター用に構成された Databricks Runtime (DBR) バージョンのサポート終了 (EOS) に達しました。
エラーメッセージの例
Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2
トラブルシューティングステップ
- クラスター構成で DBR バージョンを確認します。
- EOS の日付については、 Databricks Runtimeリリース ノートを確認してください。
- 現在サポートされている DBR バージョンを識別します。
- ノートブックまたはジョブに DBR バージョンの依存関係があるかどうかを確認します。
推奨される修正
サポートされている Databricks Runtime バージョンを使用するようにクラスター構成を更新します。本番運用にデプロイする前に、ライブラリとコードの互換性要件を確認してください。 DBR の移行に関するサポートが必要な場合は、Databricks サポートにお問い合わせください。
GCP_容量不足
Google クラウドには、選択したゾーンで要求されたマシンタイプに対応できる十分な容量がありません。
エラーメッセージの例
The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. (resource type: compute)
Requested minimum count of 1 VMs could not be created. | The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. Try a different zone, or try again later.
トラブルシューティングステップ
- 既知の容量の問題については、 Google クラウド サービスの健全性ページを確認してください。
- さまざまなゾーンでのマシンタイプの可用性を確認します。
- プリエンプティブインスタンスの可用性が異なるかどうかを確認します。
- マシン タイプの最近の容量傾向を確認します。
推奨される修正
別のゾーンで起動してみるか、同様の仕様の別のマシンタイプを使用するか、プリエンプティブを使用している場合は標準インスタンスに切り替えるか、オフピーク時に起動をスケジュールしてください。利用可能な容量に関する情報については、Google クラウド サポートにお問い合わせください。
GCP_IP_SPACE_使い果たされました
GCPサブネットには、VM 割り当てに使用できる IP アドレスが不足しています。
エラーメッセージの例
IP space of 'projects/[REDACTED]/regions/us-west1/subnetworks/[REDACTED]' is exhausted. Insufficient free IP addresses in the IP range '[REDACTED]/23'. Consider expanding the current IP range or selecting an alternative IP range.
トラブルシューティングステップ
- GCP コンソールでサブネットの IP 範囲と使用状況を確認します。
- IP を消費しているインスタンスやその他のリソースの数を確認します。
- IP アドレスの予約を確認します。
- セカンダリ IP 範囲が構成されているかどうかを確認します。
推奨される修正
サブネットの IP 範囲を拡張し、より広い IP 範囲を持つ新しいサブネットを作成し、ワークスペースを移行し、未使用のリソースをクリーンアップし、より少数のより大きなインスタンスを使用し、またはセカンダリ IP 範囲を構成します。必要に応じて、ワークスペースの移行に関するサポートについては Databricks サポートにお問い合わせください。
GCP_見つかりません
要求された GCP リソース (ネットワーク、サブネット、サービス アカウントなど) が見つかりませんでした。
エラーメッセージの例
The resource 'projects/databricks-[REDACTED]' was not found
トラブルシューティングステップ
- クラスター構成内のリソース名または ID を確認します。
- GCP コンソールにリソースが存在するかどうかを確認します。
- プロジェクト ID が正しいことを確認します。
- リソースが削除されたかどうかを確認します。
- リソースにアクセスするための権限を確認します。
推奨される修正
構成内のリソース識別子を修正し、削除されたリソースを再作成し、プロジェクト名とリソース名を確認するか、サービス アカウントの権限を確認してください。構成が正しいと思われる場合は、Databricks サポートにお問い合わせください。
GCP_RESOURCE_QUOTA_EXCEEDED
クラスターの起動は、CPU、IP アドレス、またはディスク リソースのGCPプロジェクト クォータ制限を超える可能性があります。
エラーメッセージの例
Quota 'LOCAL_SSD_TOTAL_GB_PER_VM_FAMILY' exceeded. Limit: 30000.0 in region us-central1.
Quota 'SSD_TOTAL_GB' exceeded. Limit: 400.0 in region us-east1.
トラブルシューティングステップ
- GCP コンソール > IAM と管理 > 割り当て で割り当ての使用状況を確認します。
- どの特定のクォータが超過しているかを特定します (CPU、IP、ディスク)。
- すべてのリージョンにわたるリソースの使用状況を確認します。
- スタックしたリソースや孤立したリソースがないか確認します。
推奨される修正
GCP コンソールから割り当ての増加をリクエストしたり、未使用のリソースをクリーンアップして割り当てを解放したり、ワークロードを複数のリージョンまたはプロジェクトに分散したり、異なるマシンタイプを使用したりできます。割り当ての増加リクエストについては、Google クラウド サポートにお問い合わせください。
インスタンスプールの最大容量に達しました
インスタンス プールは構成された最大容量制限に達したため、追加のインスタンスを提供できません。
エラーメッセージの例
Instance pool is full, please consider increasing the pool size
トラブルシューティングステップ
- 最大容量設定についてはインスタンス プールの構成を確認してください。
- プールから現在使用されているインスタンスの数を確認します。
- プールを使用しているクラスターを識別します。
- 解放できるアイドル状態のインスタンスがあるかどうかを確認します。
推奨される修正
インスタンス プールの最大容量を増やす、追加のインスタンス プールを作成して負荷を分散する、プールを使用してアイドル状態のクラスターを終了する、または別のプールを使用するようにクラスターを構成します。 内部ワークロード要件に基づいてプールのサイジングを検討します。
設定ミスによりインスタンスに到達できません
ネットワークの誤った構成、ファイアウォール ルール、または接続の問題により、インスタンスにアクセスできません。
エラーメッセージの例
Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.
トラブルシューティングステップ
- 必要な受信ポートのファイアウォール ルールとネットワーク セキュリティ設定を確認します。
- コントロール プレーンからインスタンス ネットワークへの接続をテストします。
- 非対称ルーティングの問題がないか確認します。
- 切断された接続がないかファイアウォール ログを確認します。
- インスタンスに正しいセキュリティ グループが割り当てられていることを確認します。
推奨される修正
セキュリティ グループまたは NSG が、Databricks コントロール プレーンからの必要な受信トラフィックを許可していることを確認します。ルート テーブルが双方向通信を可能にしていることを確認します。ネットワーク接続のトラブルシューティングについては、Databricks サポートにお問い合わせください。
無効な引数
無効な構成、シークレットの欠落、不正なアクセス許可、またはクラスター設定の誤りにより、クラスターの起動が妨げられました。
エラーメッセージの例
com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]
トラブルシューティングステップ
- エラー メッセージを確認して、特定の無効な問題を特定します。
- シークレット エラーの場合は、 Databricks Secrets APIを使用してシークレットスコープとキーが存在することを確認します。
- シークレットにアクセスするためのユーザーまたはサービスプリンシパルの権限を確認してください。
- クラスター構成に構文エラーがないか確認してください。
- init スクリプトの構成エラーを確認してください。
推奨される修正
エラーメッセージに基づいて無効な問題を修正してください。 シークレットについては、スコープとキーの存在を確認し、権限をチェックし、シークレット プロバイダーへのネットワーク接続を確保します。すべてのクラスター構成をドキュメントと照らし合わせて検証します。構成が正しいと思われる場合は、Databricks サポートにお問い合わせください。
ネットワークチェック制御プレーン障害
Databricks コントロール プレーンに到達しようとしたときに、ブートストラップ前のネットワーク ヘルス チェックが失敗しました。
エラーメッセージの例
Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true
トラブルシューティングステップ
- 特定の接続失敗の詳細については、クラスター イベント ログを確認します。
- 同じネットワーク内の VM からコントロール プレーンの接続をテストします。
- ファイアウォールがトラフィックを傍受またはブロックしていないかどうかを確認します。
推奨される修正
セキュリティ グループまたは NSG ルールによって、Databricks コントロール プレーンへの送信トラフィックが許可されていることを確認します。ファイアウォールで UDR を使用する場合は、Databricks サービス タグがインターネットにルーティングされることを確認します。ネットワーク構成が正しいことが確認された場合は、Databricks サポートにお問い合わせください。
ネットワーク構成の失敗
ネットワーク構成エラーにより、VM またはクラスター ネットワークが適切にセットアップされません。
トラブルシューティングステップ
- ファイアウォールとセキュリティ グループまたは NSG ルールを確認します。
- ルート テーブルとルーティング構成を確認します。
- サブネット構成を確認します。
- IP アドレスの競合がないか確認します。
- DNS設定を確認します。
推奨される修正
特定のエラーに基づいてネットワーク構成を修正します。セキュリティ グループまたは NSG ルールが必要なトラフィックを許可していることを確認し、サブネット CIDR 範囲が重複していないことを確認し、ルート テーブルが適切に構成されていることを確認し、DNS が機能していることを確認します。ネットワーク構成の確認については、Databricks サポートにお問い合わせください。
リクエストが抑制されました
レート制限により、クラウド プロバイダーへの API リクエストが調整されています。
エラーメッセージの例
TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]
トラブルシューティングステップ
- 複数のクラスターが同時に起動しているかどうかを確認します。
- アカウントの API リクエスト レート制限を確認します。
- 他のサービスがアーキテクチャAPI呼び出しを行っているかどうかを特定します。
- 頻繁にリクエストを行う自動システムがないか確認します。
推奨される修正
ライナー クラスターの起動を減らし、クラウド プロバイダーにAPIレート制限の増加をリクエストし、自動化スクリプトで指数バックオフを実装するか、クラスターの起動時間をずらします。
スポットインスタンス終了
スポットインスタンスまたはプリエンプティブインスタンスは、容量のニーズまたは価格の変更により、クラウドプロバイダーによって終了されました。
エラーメッセージの例
Server.SpotInstanceTermination: Spot instance termination
トラブルシューティングステップ
- 終了タイムスタンプについては、クラスター イベント ログを確認してください。
- お住まいの地域のスポット価格履歴を確認します。
- 特定の時間に終了が発生するかどうかを識別します。
- 複数のインスタンスが同時に終了したかどうかを確認します。
推奨される修正
本番運用ワークロードのオンデマンド インスタンスに切り替えたり、ジョブの再試行ロジックを実装して中断を処理したり、オンデマンド インスタンスとスポット インスタンスを組み合わせて使用したりできます。 スポットインスタンスは、フォールト トレラントなワークロードに最適です。
ストレージダウンロード失敗
ネットワーク接続、ファイアウォール、または DNS の問題により、 Databricksストレージからのアーティファクトのダウンロードが失敗するか、遅すぎます。
エラーメッセージの例
Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...
トラブルシューティングステップ
- Databricks ストレージ エンドポイントのファイアウォール ルールを確認します。
- ストレージ URL の DNS 解決を確認します。
- 同じネットワーク内の VM からのダウンロード速度をテストします。
- ネットワーク帯域幅の使用率を確認します。
- プロキシまたはネットワーク検査デバイスを確認します。
- ストレージ エンドポイントへのルートを確認します。
推奨される修正
ファイアウォール ルールが Databricks ストレージ エンドポイントへのアクセスを許可していることを確認します。
ネットワーク検査デバイスが存在する場合は確認して最適化します。ストレージ エンドポイントへの接続が検証されているにもかかわらずダウンロードが失敗する場合は、Databricks サポートにお問い合わせください。
ワークスペース構成エラー
IAMロールまたはサービスプリンシパル権限の問題など、ワークスペースレベルの構成ミスによりクラスターの起動が妨げられています。
トラブルシューティングステップ
- ワークスペース構成の最近の変更を確認します。
- クラウド プロバイダー コンソールでポリシーまたは権限の変更を確認します。
推奨される修正
ワークスペース サービス アカウントの権限とプロジェクト構成を確認します。
ワークスペースの構成が正しいと思われる場合、またはクロスアカウント ロールの設定を検証する必要がある場合は、Databricks サポートにお問い合わせください。