メインコンテンツまでスキップ

古典的なコンピュート終了エラー コード

この記事では、一般的なクラスター終了エラー コードのトラブルシューティング ガイダンスを提供します。クラスター イベント ログのエラー コードを使用して、関連する原因と推奨される修正方法を見つけます。

AWS_INSUFFICIENT_FREE_ADDRESSES_IN_SUBNET_FAILURE

AWS サブネットには、要求されたインスタンスを起動するのに十分な空き IP アドレスがありません。

エラーメッセージの例

Not enough free addresses in subnet subnet-[REDACTED] (Service: AmazonEC2; Status Code: 400; Error Code: InvalidParameterValue; Request ID: [REDACTED]; Proxy: null)

トラブルシューティングステップ

  1. AWS コンソールでサブネットの CIDR 範囲と使用可能な IP アドレスを確認します。
  2. サブネット内で現在実行されているインスタンスの数を確認します。
  3. IP アドレスを消費している可能性のある未使用の Elastic Network Interface がないか確認します。
  4. サブネット内に IP アドレスの予約があるかどうかを確認します。

推奨される修正

十分な IP アドレスを持つ別のアベイラビリティーゾーンを使用するようにクラスターを更新するか、 autoアベイラビリティーゾーン設定を使用するか、サブネット CIDR 範囲を拡張するか、使用されていないネットワーク リソースをクリーンアップしてください。問題が解決しない場合は、Databricks サポートにお問い合わせください。

AWS_インスタンス容量不足_障害

AWS には、選択されたアベイラビリティーゾーンに、要求されたインスタンスタイプに対応する十分な容量がありません。

エラーメッセージの例

We currently do not have sufficient c4.8xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get c4.8xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
There is no Spot capacity available that matches your request. (Service: AmazonEC2; Status Code: 500; Error Code: InsufficientInstanceCapacity; Request ID: [REDACTED]; Proxy: null)

トラブルシューティングステップ

  1. クラスター構成内のインスタンス タイプとアベイラビリティー ゾーンを確認します。
  2. 問題がスポット インスタンスにのみ影響するのか、それともオンデマンド インスタンスにも影響するのかを確認します。
  3. 既知の容量の問題については、 AWS サービスヘルスダッシュボードを確認してください。
  4. 同じファミリー内の異なるインスタンス タイプでテストします。

推奨される修正

別のアベイラビリティゾーンで起動するか、 autoアベイラビリティゾーン設定を使用するか、別のインスタンスタイプに切り替えるか、スポットインスタンスではなくオンデマンドインスタンスを使用してください。永続的な容量の問題については、AWS サポートにお問い合わせください。

AWS_RESOURCE_QUOTA_EXCEEDED

クラスターの起動により、要求されたリソースタイプに対する AWS アカウントのクォータを超えてしまいます。

トラブルシューティングステップ

  1. 現在の制限と使用量については、 AWSサービスのクォータ コンソールを確認してください。
  2. どの特定のクォータが超過しているかを特定します (インスタンス、ボリューム、IP など)。
  3. すべてのリージョンにわたるリソースの使用状況を確認します。
  4. クリーンアップできるリソースを確認します。

推奨される修正

AWSサービスのクォータコンソールを通じてクォータの増加をリクエストしたり、未使用のリソースをクリーンアップしたり、リージョン間でワークロードを分散したり、さまざまなインスタンスタイプを使用したりできます。 クォータ増加リクエストについては、AWS サポートにお問い合わせください。

ブートストラップタイムアウト_DUE_TO_MISCONFIG

ネットワーク接続の問題、アーティファクトのダウンロードが遅い、またはクラウド プロバイダーの問題により、VM ブートストラップ プロセスがタイムアウトしました。ブートストラップのタイムアウトは 700 秒です。

エラーメッセージの例

[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason

トラブルシューティングステップ

  1. Databricks アーティファクト ストレージへの接続を確認します。
  2. Databricks コントロール プレーンへの接続を確認します。
  3. Databricks エンドポイントの DNS 解決を確認します。
  4. ファイアウォールとセキュリティ グループのルールを確認します。
  5. 問題が一貫しているか断続的であるかをテストします。

推奨される修正

Databricks ストレージおよびコントロール プレーンへのネットワーク接続を確認します。ネットワーク パフォーマンスを向上させるために、サービス エンドポイントまたは VPC エンドポイントを構成します。ファイアウォール、DNS、ルーティング構成を確認します。ネットワーク構成が検証されているにもかかわらずタイムアウトが続く場合は、Databricks サポートにお問い合わせください。

誤った設定による操縦飛行機要求の失敗

DNS 解決の失敗、ファイアウォール ルール、またはネットワークの誤った構成により、VM は Databricks コントロール プレーンに到達できません。

エラーメッセージの例

Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed

トラブルシューティングステップ

  1. クラスター イベント ログ内の Base64 でエンコードされたエラー メッセージをデコードします。
  2. ネットワーク構成の DNS 設定を確認してください。
  3. ファイアウォール ルールとネットワーク セキュリティ設定を確認します。
  4. 同じネットワーク内の VM からコントロール プレーンの接続をテストします。
  5. カスタム DNS サーバーが機能し、アクセス可能であることを確認します。

推奨される修正

DNS サーバーの構成と到達可能性を確認します。ファイアウォール ルールで Databricks コントロール プレーンへの送信トラフィックが許可されていることを確認します。

ネットワーク構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。

DOCKER_IMAGE_PULL_FAILURE

ネットワーク、認証、または構成の問題により、クラスターはコンテナー レジストリからDockerイメージ をダウンロードできませんでした。

エラーメッセージの例

Failed to pull docker image: authentication required

トラブルシューティングステップ

  1. クラスター構成内のDockerイメージ 名とタグが正しいことを確認してください。
  2. ワークスペースからコンテナ レジストリへのネットワーク接続を確認します。
  3. 同じネットワーク内の VM からのレジストリ アクセスをテストします。
  4. プライベート レジストリの認証資格情報を確認します。
  5. 詳細なエラー メッセージについては、ノード デーモン ログを確認してください。

推奨される修正

Dockerイメージ構成を修正し、認証資格情報を確認します。 ネットワーク ルールがコンテナ レジストリへのアクセスを許可していることを確認します。

AWS ECR の場合、パブリックインターネット経由でアーティファクトのダウンロードがルーティングされないように VPC エンドポイントを構成します。

構成は正しいように見えても問題が解決しない場合は、Databricks サポートにお問い合わせください。

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXPEPTION

Dockerイメージのサイズが、選択したインスタンスタイプで使用可能なディスク容量を超えています。

エラーメッセージの例

Failed to launch container as the docker image is too large for the instance.

トラブルシューティングステップ

  1. Dockerイメージのサイズを確認してください。
  2. インスタンスタイプのディスク容量を確認します。
  3. Dockerイメージ内の不要なレイヤーやファイルを特定します。
  4. 複数の大きな画像が使用されているかどうかを確認します。

推奨される修正

ディスク容量の大きいインスタンス タイプを使用したり、不要なファイルやレイヤーを削除してDockerイメージを最適化したり、マルチステージ ビルドを使用してイメージ サイズを縮小したり、機能を複数の小さなイメージに分割したりします。 画像の最適化については、Databricks サポートにお問い合わせください。

EOS_SPARK_イメージ

クラスター用に構成された Databricks Runtime (DBR) バージョンのサポート終了 (EOS) に達しました。

エラーメッセージの例

Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2

トラブルシューティングステップ

  1. クラスター構成で DBR バージョンを確認します。
  2. EOS の日付については、 Databricks Runtimeリリース ノートを確認してください。
  3. 現在サポートされている DBR バージョンを識別します。
  4. ノートブックまたはジョブに DBR バージョンの依存関係があるかどうかを確認します。

推奨される修正

サポートされている Databricks Runtime バージョンを使用するようにクラスター構成を更新します。本番運用にデプロイする前に、ライブラリとコードの互換性要件を確認してください。 DBR の移行に関するサポートが必要な場合は、Databricks サポートにお問い合わせください。

インスタンスプールの最大容量に達しました

インスタンス プールは構成された最大容量制限に達したため、追加のインスタンスを提供できません。

エラーメッセージの例

Instance pool is full, please consider increasing the pool size

トラブルシューティングステップ

  1. 最大容量設定についてはインスタンス プールの構成を確認してください。
  2. プールから現在使用されているインスタンスの数を確認します。
  3. プールを使用しているクラスターを識別します。
  4. 解放できるアイドル状態のインスタンスがあるかどうかを確認します。

推奨される修正

インスタンス プールの最大容量を増やす、追加のインスタンス プールを作成して負荷を分散する、プールを使用してアイドル状態のクラスターを終了する、または別のプールを使用するようにクラスターを構成します。 内部ワークロード要件に基づいてプールのサイジングを検討します。

設定ミスによりインスタンスに到達できません

ネットワークの誤った構成、ファイアウォール ルール、または接続の問題により、インスタンスにアクセスできません。

エラーメッセージの例

Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.

トラブルシューティングステップ

  1. 必要な受信ポートのファイアウォール ルールとネットワーク セキュリティ設定を確認します。
  2. コントロール プレーンからインスタンス ネットワークへの接続をテストします。
  3. 非対称ルーティングの問題がないか確認します。
  4. 切断された接続がないかファイアウォール ログを確認します。
  5. インスタンスに正しいセキュリティ グループが割り当てられていることを確認します。

推奨される修正

セキュリティ グループまたは NSG が、Databricks コントロール プレーンからの必要な受信トラフィックを許可していることを確認します。ルート テーブルが双方向通信を可能にしていることを確認します。ネットワーク接続のトラブルシューティングについては、Databricks サポートにお問い合わせください。

無効な引数

無効な構成、シークレットの欠落、不正なアクセス許可、またはクラスター設定の誤りにより、クラスターの起動が妨げられました。

エラーメッセージの例

com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]

トラブルシューティングステップ

  1. エラー メッセージを確認して、特定の無効な問題を特定します。
  2. シークレット エラーの場合は、 Databricks Secrets APIを使用してシークレットスコープとキーが存在することを確認します。
  3. シークレットにアクセスするためのユーザーまたはサービスプリンシパルの権限を確認してください。
  4. クラスター構成に構文エラーがないか確認してください。
  5. init スクリプトの構成エラーを確認してください。

推奨される修正

エラーメッセージに基づいて無効な問題を修正してください。 シークレットについては、スコープとキーの存在を確認し、権限をチェックし、シークレット プロバイダーへのネットワーク接続を確保します。すべてのクラスター構成をドキュメントと照らし合わせて検証します。構成が正しいと思われる場合は、Databricks サポートにお問い合わせください。

ネットワークチェック制御プレーン障害

Databricks コントロール プレーンに到達しようとしたときに、ブートストラップ前のネットワーク ヘルス チェックが失敗しました。

エラーメッセージの例

Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true

トラブルシューティングステップ

  1. 特定の接続失敗の詳細については、クラスター イベント ログを確認します。
  2. 同じネットワーク内の VM からコントロール プレーンの接続をテストします。
  3. ファイアウォールがトラフィックを傍受またはブロックしていないかどうかを確認します。

推奨される修正

セキュリティ グループまたは NSG ルールによって、Databricks コントロール プレーンへの送信トラフィックが許可されていることを確認します。ファイアウォールで UDR を使用する場合は、Databricks サービス タグがインターネットにルーティングされることを確認します。ネットワーク構成が正しいことが確認された場合は、Databricks サポートにお問い合わせください。

ネットワーク構成の失敗

ネットワーク構成エラーにより、VM またはクラスター ネットワークが適切にセットアップされません。

トラブルシューティングステップ

  1. ファイアウォールとセキュリティ グループまたは NSG ルールを確認します。
  2. ルート テーブルとルーティング構成を確認します。
  3. サブネット構成を確認します。
  4. IP アドレスの競合がないか確認します。
  5. DNS設定を確認します。

推奨される修正

特定のエラーに基づいてネットワーク構成を修正します。セキュリティ グループまたは NSG ルールが必要なトラフィックを許可していることを確認し、サブネット CIDR 範囲が重複していないことを確認し、ルート テーブルが適切に構成されていることを確認し、DNS が機能していることを確認します。ネットワーク構成の確認については、Databricks サポートにお問い合わせください。

リクエストが抑制されました

レート制限により、クラウド プロバイダーへの API リクエストが調整されています。

エラーメッセージの例

TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]

トラブルシューティングステップ

  1. 複数のクラスターが同時に起動しているかどうかを確認します。
  2. アカウントの API リクエスト レート制限を確認します。
  3. 他のサービスがアーキテクチャAPI呼び出しを行っているかどうかを特定します。
  4. 頻繁にリクエストを行う自動システムがないか確認します。

推奨される修正

ライナー クラスターの起動を減らし、クラウド プロバイダーにAPIレート制限の増加をリクエストし、自動化スクリプトで指数バックオフを実装するか、クラスターの起動時間をずらします。

スポットインスタンス終了

スポットインスタンスまたはプリエンプティブインスタンスは、容量のニーズまたは価格の変更により、クラウドプロバイダーによって終了されました。

エラーメッセージの例

Server.SpotInstanceTermination: Spot instance termination

トラブルシューティングステップ

  1. 終了タイムスタンプについては、クラスター イベント ログを確認してください。
  2. お住まいの地域のスポット価格履歴を確認します。
  3. 特定の時間に終了が発生するかどうかを識別します。
  4. 複数のインスタンスが同時に終了したかどうかを確認します。

推奨される修正

本番運用ワークロードのオンデマンド インスタンスに切り替えたり、ジョブの再試行ロジックを実装して中断を処理したり、オンデマンド インスタンスとスポット インスタンスを組み合わせて使用したりできます。 スポットインスタンスは、フォールト トレラントなワークロードに最適です。

ストレージダウンロード失敗

ネットワーク接続、ファイアウォール、または DNS の問題により、 Databricksストレージからのアーティファクトのダウンロードが失敗するか、遅すぎます。

エラーメッセージの例

Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...

トラブルシューティングステップ

  1. Databricks ストレージ エンドポイントのファイアウォール ルールを確認します。
  2. ストレージ URL の DNS 解決を確認します。
  3. 同じネットワーク内の VM からのダウンロード速度をテストします。
  4. ネットワーク帯域幅の使用率を確認します。
  5. プロキシまたはネットワーク検査デバイスを確認します。
  6. ストレージ エンドポイントへのルートを確認します。

推奨される修正

ファイアウォール ルールが Databricks ストレージ エンドポイントへのアクセスを許可していることを確認します。

パブリック インターネット経由でアーティファクトのダウンロードがルーティングされるのを回避するために、S3 の VPC エンドポイントを構成します。

ネットワーク検査デバイスが存在する場合は確認して最適化します。ストレージ エンドポイントへの接続が検証されているにもかかわらずダウンロードが失敗する場合は、Databricks サポートにお問い合わせください。

ワークスペース構成エラー

IAMロールまたはサービスプリンシパル権限の問題など、ワークスペースレベルの構成ミスによりクラスターの起動が妨げられています。

エラーメッセージの例

User: arn:aws:iam::[REDACTED]:user/ConsolidatedManagerIAMUser is not authorized to perform: sts:AssumeRole on resource: arn:aws:iam::[REDACTED]:role/databricks-workspace-stack-role

トラブルシューティングステップ

  1. ワークスペース構成の最近の変更を確認します。

  2. クラウド プロバイダー コンソールでポリシーまたは権限の変更を確認します。

  3. 必要なロールを引き受けるためのクロスアカウントIAM信頼関係構成とインスタンス権限を確認します。

推奨される修正

IAMロールの信頼関係とインスタンス権限を確認します。 ワークスペースのセキュリティ構成を確認します。

ワークスペースの構成が正しいと思われる場合、またはクロスアカウント ロールの設定を検証する必要がある場合は、Databricks サポートにお問い合わせください。