メインコンテンツまでスキップ

ワークスペースの作成に関するトラブルシューティング

概要

次のセクションでは、ワークスペース作成時の構成エラーと、そのエラーの修正方法について説明します。 ほとんどの問題は、アカウント コンソールまたはアカウント APIの両方を使用したワークスペースの作成に適用されますが、特に例外があります。

一般的なエラー

VPC の最大数

VPCの最大数について言及したエラーメッセージが表示された場合は、リージョン内で許可されるVPCの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。

VPC エンドポイントの最大数

VPCエンドポイントの最大数について言及したエラーメッセージが表示された場合は、リージョンで許可されるゲートウェイVPC エンドポイントの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。

アドレスの最大数

アドレスの最大数について言及したエラーメッセージが表示された場合は、リージョンで許可されるVPC Elastic IPアドレスの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。

この操作を実行する権限がありません

この操作を実行する権限がないというエラーが表示された場合は、IAMIAM ロールに、 ロールの記事 で定義されている必要なポリシーがすべて揃っていることを確認してください。

ストレージ構成のエラー メッセージ

形式が正しくない要求: ストレージ構成の検証チェックに失敗しました

ストレージ設定の検証チェックが失敗したことを示すエラーメッセージが表示された場合は、S3 バケットのアクセス許可が正しく設定されていません。 「ワークスペースのデプロイ用に S3 バケットを作成する」の記事の手順に従って、S3 バケットのアクセス許可が正しいことを確認します。

資格情報設定のエラーメッセージ

形式が正しくない要求: 資格情報構成の検証チェックに失敗しました

エラーメッセージに含まれるアクセス権限のチェックのリストは、問題についての考えられる原因を示します。

  • 認証情報設定の検証で失敗したアクセス許可チェックが 10 回未満の場合、IAM ポリシーにそれらの特定のアクセス許可が欠落している可能性があります。 「ワークスペース デプロイ用のIAMロールを作成する」の記事から正しいポリシーをコピーします。
  • 資格情報構成の検証が 10 回以上のチェックに失敗した場合は、 IAMロールの信頼関係が正しく設定されていない可能性が高くなります。 顧客ロールの信頼関係が、「 ワークスペース展開用の IAMロールを作成する」の記事の指示に従って適切に設定されていることを確認します。

ポリシーと信頼関係の両方が正しいと思われる場合は、次も確認してください。

  • 資格情報オブジェクトに正しいロールARNが含まれていることを確認します。
  • 組織レベルの サービスコントロールポリシー (SCP) が AssumeRole アクションを拒否するか、EC2/VPC アクセスを拒否するかを確認します。 不明な場合は、SCP について AWS 管理者に問い合わせてください。

ネットワーク構成

サブネットは既に別のネットワークによって使用されています

サブネットが使用されている場合のエラーは、通常、次のように表示されます。

MALFORMED_REQUEST: Malformed parameters: subnet_id subnet-xxxxxxxx1 is already used by another Network, subnet_id subnet-xxxxxxxx2 is already used by another Network.

これは、これらの同じサブネットを使用するDatabricksネットワーク設定があることを意味します。解決するには、次のいずれかの操作を行います。

  • 以前の設定を削除します。 アカウント APIを使用している場合は、 ネットワーク設定の削除 APIを使用します。 アカウントコンソールを使用して、設定を削除することもできます。
  • 以前の設定が使用されていない場合は、その以前の設定を新しいワークスペースに使用できます。
  • そのネットワーク設定が実行中のワークスペースですでに使用されている場合は、新しいワークスペース用にサブネットとネットワーク設定をそれぞれ新しく作成します。

前回のワークスペース作成の試行が失敗した場合、関連する設定コンポーネントは自動的に削除されない点に注意してください。

セットアップ中にネットワーク構成エラーはありませんが、ワークスペースの作成中にエラーが表示されます

ワークスペースのセットアップ時にはエラーは表示されなかったにも関わらず、ワークスペースのデプロイを試行した後にネットワーク設定でエラーが表示される場合があります。これは、Databricksがネットワークオブジェクトの作成時に基本的な検証のみを実行するためです。たとえば、一意のサブネット、一意のセキュリティグループ、欠落しているフィールドがチェックの対象です。

最も意味のあるネットワーク設定の検証は、新しいネットワーク構成で新しいワークスペースを作成しようとした後にのみ行われます。ワークスペースのデプロイ中にエラーが発生した場合は、ネットワーク検証に関するエラーメッセージの詳細を確認してください。

ワークスペースは機能しているように見えますが、ネットワーク構成のステータスがあります WARNED

クラスターの開始、データ ジョブの実行、およびコンピュート イベント ログDBFS_DOWNMETASTORE_DOWNが表示されていないことを確認します。クラスター イベント ログにこのようなエラーがない場合、 WARNED の状態は必ずしも問題ではありません。

新しいワークスペースの場合、Databricksがチェックを試みる項目は多数あります。ワークスペースのサブネット → NATゲートウェイ → インターネットゲートウェイといった単純なルーティングを実行しない場合、Databricksはネットワークが正しいことを検証できません。このような場合、Databricksではネットワーク設定に関する警告が表示されます。

サブネット ルート テーブルのエラーを確認する

クラスターのイベントログに、次のようなエラーが表示される場合があります。

subnet: Route Table with ID rtb-xxxxxxxx used for subnet with ID subnet-yyyyyyyyy is missing default route to direct all traffic to the NAT gateway nat-zzzzzzzzzzz.

単純なDatabricksワークスペース設定をデプロイしようとしている場合、このエラーが表示されるということは問題が生じている可能性があります。

ファイアウォール経由のルーティング(任意でハブスポーク方式のトランジットゲートウェイ経由)など独自の出力設定を行う場合、このエラーは必ずしも意味のあるものではありません。

このエラーのもう1つの理由として、NATサブネットをクラスターのDatabricksサブネットとして登録している可能性が考えられます。DatabricksワークスペースのサブネットのリストからNATサブネットを削除し、ワークスペースをもう一度作成します。

ネットワーク構成のサブネットの一覧に NAT サブネットを追加しないでください

NAT サブネットを Databricks ワークスペースのサブネットのリストに追加しないでください。NATサブネットはNATゲートウェイのためのもので、Databricksクラスターノードをデプロイするためのサブネットではありません。ネットワーク設定を作成するときは、Databricksノードに使用する2つのサブネットのみをリストします。

セキュリティグループを最新のルールで更新できませんでした

以下のようなクラスターログエラーが表示される場合があります。

Security Group with ID sg-xxxx could not be updated with latest Security Group Rules

IAMロールを更新して、IAMロールの記事の内容に準拠します。場合によっては、 AuthorizeSecurityGroupEgress アクションや同様のアクションのリソースにカンマ区切りの値を含めることができます。 これらを 1 つのリソースではなく、別々のリソースに更新します。

正しい例

JSON
"Action": [
"ec2:AuthorizeSecurityGroupEgress",
"ec2:AuthorizeSecurityGroupIngress",
"ec2:RevokeSecurityGroupEgress",
"ec2:RevokeSecurityGroupIngress"
],
"Resource": [
"arn:aws:ec2:us-east-1:444:security-group/sg-xxxx",
"arn:aws:ec2:us-east-1:444:security-group/sg-yyyy",
"arn:aws:ec2:us-east-1:444:security-group/sg-zzzz"
],

間違った例

JSON
"Resource": ["arn:aws:ec2:us-east-1:444:security-group/sg-xxxx,sg-yyyy,sg-zzzz"],

ネットワーク設定に問題がある場合は、Databricks マネージド VPC の使用を検討してください

ネットワーク設定に問題がある場合は、顧客管理VPCではなくDatabricks管理のVPCを使用してワークスペースを作成することを選択できます。

important

ワークスペースの作成時に、顧客管理VPCを提供するかどうかを選択する必要があります。ワークスペースを正常に作成した後は、この設定を変更することはできません。

障害が発生したワークスペースをDatabricks管理のVPCを使用するように切り替えるには、別のクロスアカウントIAM ロールも併せて使用する必要があります。

  1. クロスアカウント IAMロールの記事に移動します。

  2. Databricks VPC というラベルの付いたポリシーを選択してコピーします。

  3. そのポリシーは、アカウント コンソールを使用したワークスペースの作成、またはアカウント APIを使用したワークスペースの作成に使用します

    • アカウント コンソールのネットワーク構成ピッカーで、 [ Databricks マネージド ] を選択します。

    • Account APIの場合は、network_id 要素を含めないように注意してください。以下に例を挙げます。

      JSON
      {
      "workspace_name": "<workspace-name>",
      "deployment_name": "<deployment-name>",
      "aws_region": "<aws-region>",
      "credentials_id": "<credentials-id>",
      "storage_configuration_id": "<storage-configuration-id>"
      }

AWS Reachability Analyzer で VPC ネットワークの問題を診断する

AWSのReachability Analyzerは、VPC内のソースリソースと宛先リソースをテストするために使用できる構成分析ツールです。これは、AWSコンソールに VPC Reachability Analyzer として表示されます。

Reachability Analyzerを使用すると、ログインすることなくDatabricksプライベートサブネットでテストマシンをスピンアップできます。ソースをEC2インスタンスとして追加し、宛先をDatabricksコントロールプレーンのIPアドレスおよびポートとして追加する必要があります。その後、障害となっているコンポーネントを特定するために接続をテストできます。詳細については、「Reachability Analyzerとは」を参照してください。

アカウント API 固有のエラー メッセージ

次のエラーは、ワークスペースを作成するためのアカウントAPIリクエストから返される可能性があります。

要求の形式が正しくありません: HTTP 要求本文の <config> が無効です

リクエスト本文のJSONの形式が正しくありません。このエラーメッセージでは、 <config> は資格情報、ストレージ設定、またはネットワークのいずれかを指します。URLですべての特殊文字が正しくエスケープされていることを確認するか、PostmanなどのREST APIクライアントアプリケーションを使用してください。

要求の形式が正しくありません: 本文の <config> が無効です

リクエスト本文のJSONの形式が正しくありません。このエラーメッセージでは、 <config> は資格情報、ストレージ設定、またはネットワークのいずれかを指します。URLですべての特殊文字が正しくエスケープされていることを確認するか、PostmanなどのREST APIクライアントアプリケーションを使用してください。