ワークスペースの作成に関するトラブルシューティング
概要
次のセクションでは、ワークスペース作成時の構成エラーと、そのエラーの修正方法について説明します。 ほとんどの問題は、アカウント コンソールまたはアカウント APIの両方を使用したワークスペースの作成に適用されますが、特に例外があります。
一般的なエラー
VPC の最大数
VPCの最大数について言及したエラーメッセージが表示された場合は、リージョン内で許可されるVPCの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。
VPC エンドポイントの最大数
VPCエンドポイントの最大数について言及したエラーメッセージが表示された場合は、リージョンで許可されるゲートウェイVPC エンドポイントの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。
アドレスの最大数
アドレスの最大数について言及したエラーメッセージが表示された場合は、リージョンで許可されるVPC Elastic IPアドレスの数のサービス上限引き上げリクエストを送信してください。このエラーは通常、顧客管理VPCではなく、Databricks管理VPCを使用している場合にのみ発生します。
この操作を実行する権限がありません
この操作を実行する権限がないというエラーが表示された場合は、IAMIAM ロールに、 ロールの記事 で定義されている必要なポリシーがすべて揃っていることを確認してください。
ストレージ構成のエラー メッセージ
形式が正しくない要求: ストレージ構成の検証チェックに失敗しました
ストレージ設定の検証チェックが失敗したことを示すエラーメッセージが表示された場合は、S3 バケットのアクセス許可が正しく設定されていません。 「ワークスペースのデプロイ用に S3 バケットを作成する」の記事の手順に従って、S3 バケットのアクセス許可が正しいことを確認します。
資格情報設定のエラーメッセージ
形式が正しくない要求: 資格情報構成の検証チェックに失敗しました
エラーメッセージに含まれるアクセス権限のチェックのリストは、問題についての考えられる原因を示します。
- 認証情報設定の検証で失敗したアクセス許可チェックが 10 回未満の場合、IAM ポリシーにそれらの特定のアクセス許可が欠落している可能性があります。 「ワークスペース デプロイ用のIAMロールを作成する」の記事から正しいポリシーをコピーします。
- 資格情報構成の検証が 10 回以上のチェックに失敗した場合は、 IAMロールの信頼関係が正しく設定されていない可能性が高くなります。 顧客ロールの信頼関係が、「 ワークスペース展開用の IAMロールを作成する」の記事の指示に従って適切に設定されていることを確認します。
ポリシーと信頼関係の両方が正しいと思われる場合は、次も確認してください。
- 資格情報オブジェクトに正しいロールARNが含まれていることを確認します。
- 組織レベルの サービスコントロールポリシー (SCP) が
AssumeRole
アクションを拒否するか、EC2/VPC アクセスを拒否するかを確認します。 不明な場合は、SCP について AWS 管理者に問い合わせてください。
ネットワーク構成
サブネットは既に別のネットワークによって使用されています
サブネットが使用されている場合のエラーは、通常、次のように表示されます。
MALFORMED_REQUEST: Malformed parameters: subnet_id subnet-xxxxxxxx1 is already used by another Network, subnet_id subnet-xxxxxxxx2 is already used by another Network.
これは、これらの同じサブネットを使用するDatabricksネットワーク設定があることを意味します。解決するには、次のいずれかの操作を行います。
- 以前の設定を削除します。 アカウント APIを使用している場合は、 ネットワーク設定の削除 APIを使用します。 アカウントコンソールを使用して、設定を削除することもできます。
- 以前の設定が使用されていない場合は、その以前の設定を新しいワークスペースに使用できます。
- そのネットワーク設定が実行中のワークスペースですでに使用されている場合は、新しいワークスペース用にサブネットとネットワーク設定をそれぞれ新しく作成します。
前回のワークスペース作成の試行が失敗した場合、関連する設定コンポーネントは自動的に削除されない点に注意してください。
セットアップ中にネットワーク構成エラーはありませんが、ワークスペースの作成中にエラーが表示されます
ワークスペースのセットアップ時にはエラーは表示されなかったにも関わらず、ワークスペースのデプロイを試行した後にネットワーク設定でエラーが表示される場合があります。これは、Databricksがネットワークオブジェクトの作成時に基本的な検証のみを実行するためです。たとえば、一意のサブネット、一意のセキュリティグループ、欠落しているフィールドがチェックの対象です。
最も意味のあるネットワーク設定の検証は、新しいネットワーク構成で新しいワークスペースを作成しようとした後にのみ行われます。ワークスペースのデプロイ中にエラーが発生した場合は、ネットワーク検証に関するエラーメッセージの詳細を確認してください。
ワークスペースは機能しているように見えますが、ネットワーク構成のステータスがあります WARNED
クラスターの開始、データ ジョブの実行、およびコンピュート イベント ログにDBFS_DOWN
やMETASTORE_DOWN
が表示されていないことを確認します。クラスター イベント ログにこのようなエラーがない場合、 WARNED
の状態は必ずしも問題ではありません。
新しいワークスペースの場合、Databricksがチェックを試みる項目は多数あります。ワークスペースのサブネット → NATゲートウェイ → インターネットゲートウェイといった単純なルーティングを実行しない場合、Databricksはネットワークが正しいことを検証できません。このような場合、Databricksではネットワーク設定に関する警告が表示されます。
サブネット ルート テーブルのエラーを確認する
クラスターのイベントログに、次のようなエラーが表示される場合があります。
subnet: Route Table with ID rtb-xxxxxxxx used for subnet with ID subnet-yyyyyyyyy is missing default route to direct all traffic to the NAT gateway nat-zzzzzzzzzzz.
単純なDatabricksワークスペース設定をデプロイしようとしている場合、このエラーが表示されるということは問題が生じている可能性があります。
ファイアウォール経由のルーティング(任意でハブスポーク方式のトランジットゲートウェイ経由)など独自の出力設定を行う場合、このエラーは必ずしも意味のあるものではありません。
このエラーのもう1つの理由として、NATサブネットをクラスターのDatabricksサブネットとして登録している可能性が考えられます。DatabricksワークスペースのサブネットのリストからNATサブネットを削除し、ワークスペースをもう一度作成します。
ネットワーク構成のサブネットの一覧に NAT サブネットを追加しないでください
NAT サブネットを Databricks ワークスペースのサブネットのリストに追加しないでください。NATサブネットはNATゲートウェイのためのもので、Databricksクラスターノードをデプロイするためのサブネットではありません。ネットワーク設定を作成するときは、Databricksノードに使用する2つのサブネットのみをリストします。
セキュリティグループを最新のルールで更新できませんでした
以下のようなクラスターログエラーが表示される場合があります。
Security Group with ID sg-xxxx could not be updated with latest Security Group Rules
IAMロールを更新して、IAMロールの記事の内容に準拠します。場合によっては、 AuthorizeSecurityGroupEgress
アクションや同様のアクションのリソースにカンマ区切りの値を含めることができます。 これらを 1 つのリソースではなく、別々のリソースに更新します。
正しい例
"Action": [
"ec2:AuthorizeSecurityGroupEgress",
"ec2:AuthorizeSecurityGroupIngress",
"ec2:RevokeSecurityGroupEgress",
"ec2:RevokeSecurityGroupIngress"
],
"Resource": [
"arn:aws:ec2:us-east-1:444:security-group/sg-xxxx",
"arn:aws:ec2:us-east-1:444:security-group/sg-yyyy",
"arn:aws:ec2:us-east-1:444:security-group/sg-zzzz"
],
間違った例
"Resource": ["arn:aws:ec2:us-east-1:444:security-group/sg-xxxx,sg-yyyy,sg-zzzz"],
ネットワーク設定に問題がある場合は、Databricks マネージド VPC の使用を検討してください
ネットワーク設定に問題がある場合は、顧客管理VPCではなくDatabricks管理のVPCを使用してワークスペースを作成することを選択できます。
ワークスペースの作成時に、顧客管理VPCを提供するかどうかを選択する必要があります。ワークスペースを正常に作成した後は、この設定を変更することはできません。
障害が発生したワークスペースをDatabricks管理のVPCを使用するように切り替えるには、別のクロスアカウントIAM ロールも併せて使用する必要があります。
-
クロスアカウント IAMロールの記事に移動します。
-
Databricks VPC というラベルの付いたポリシーを選択してコピーします。
-
そのポリシーは、アカウント コンソールを使用したワークスペースの作成、またはアカウント APIを使用したワークスペースの作成に使用します
-
アカウント コンソールのネットワーク構成ピッカーで、 [ Databricks マネージド ] を選択します。
-
Account APIの場合は、
network_id
要素を含めないように注意してください。以下に例を挙げます。JSON{
"workspace_name": "<workspace-name>",
"deployment_name": "<deployment-name>",
"aws_region": "<aws-region>",
"credentials_id": "<credentials-id>",
"storage_configuration_id": "<storage-configuration-id>"
}
-
AWS Reachability Analyzer で VPC ネットワークの問題を診断する
AWSのReachability Analyzerは、VPC内のソースリソースと宛先リソースをテストするために使用できる構成分析ツールです。これは、AWSコンソールに VPC Reachability Analyzer として表示されます。
Reachability Analyzerを使用すると、ログインすることなくDatabricksプライベートサブネットでテストマシンをスピンアップできます。ソースをEC2インスタンスとして追加し、宛先をDatabricksコントロールプレーンのIPアドレスおよびポートとして追加する必要があります。その後、障害となっているコンポーネントを特定するために接続をテストできます。詳細については、「Reachability Analyzerとは」を参照してください。
アカウント API 固有のエラー メッセージ
次のエラーは、ワークスペースを作成するためのアカウントAPIリクエストから返される可能性があります。
要求の形式が正しくありません: HTTP 要求本文の <config>
が無効です
リクエスト本文のJSONの形式が正しくありません。このエラーメッセージでは、 <config>
は資格情報、ストレージ設定、またはネットワークのいずれかを指します。URLですべての特殊文字が正しくエスケープされていることを確認するか、PostmanなどのREST APIクライアントアプリケーションを使用してください。
要求の形式が正しくありません: 本文の <config>
が無効です
リクエスト本文のJSONの形式が正しくありません。このエラーメッセージでは、 <config>
は資格情報、ストレージ設定、またはネットワークのいずれかを指します。URLですべての特殊文字が正しくエスケープされていることを確認するか、PostmanなどのREST APIクライアントアプリケーションを使用してください。