アカウントコンソールを使用してワークスペースを作成する
この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、アカウント API または Terraformを使用してワークスペースを作成することもできます。
始める前に
- 新しいワークスペースを作成する前に、すべての構成設定を理解していることを確認してください。ワークスペースの作成後にワークスペース構成を変更することはできません。
- アカウントに対しては、 Googleアカウント または サービスアカウントなどの必要なGoogle権限が必要です。 必要な権限を参照してください。
- ワークスペースに必要な Google Cloud リソース割り当てが十分にあることを確認します。必要に応じて、クォータの引き上げをリクエストします。
ネットワークの種類を選択する
ワークスペースを作成する前に、ワークスペースをデプロイする場所を選択する必要があります。
- Databricks マネージド VPC (デフォルト): Databricks は VPC のライフサイクルを作成および管理します。 このネットワークタイプを選択した場合、ここで追加の手順を実行する必要はありません。
- 顧客管理:VPC VPC新しいDatabricks ワークスペースで使用する独自の 顧客管理 を作成して指定します。このネットワークタイプを選択した場合は、ここで次の手順を実行します。
ワークスペースを作成する
ワークスペースを作成するには:
-
Databricks アカウント管理者として、 アカウント コンソール にログインし、[ ワークスペース ] アイコンをクリックします。
-
「ワークスペースの作成」 をクリックします。
-
[ ワークスペース名 ]フィールドに、人間にとってわかりやすい名称で、このワークスペースの名前を入力します。名前には英数字、アンダースコア、ハイフンのみが使用可能で、長さは3~30文字にする必要があります。
-
[ リージョン ] フィールドで、ワークスペースのネットワークとクラスターのリージョンを選択します。 サポートされているリージョンの一覧については、Databricks のクラウドとリージョンを参照してください。
-
Google Cloud プロジェクト ID フィールドに、Google Cloud プロジェクト ID を入力します。顧客管理VPCにデプロイしている場合、ID はスタンドアロン API を使用しているか共有 VPCを使用しているかによって異なります。
- スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。
- 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。
-
ネットワークのセットアップ。この手順は、ワークスペースのネットワークの種類によって異なります。顧客管理VPCの場合は、 顧客管理VPC タブをクリックします。
タブ :::タブ-item[Databricks-managed VPC] 必要に応じて、[ 詳細設定 ] をクリックして、GCE サブネットのカスタム IP 範囲を指定します。 これらのフィールドを空白のままにすると、Databricks はデフォルトを使用します。サイジングのガイダンスについては、「新しいワークスペースのサブネットサイジング」を参照してください
サイズは CIDR 形式を使用する必要があります。IP アドレスは、完全に
10.0.0.0/8
、100.64.0.0/10
、172.16.0.0/12
、192.168.0.0/16
、および240.0.0.0/4
の範囲内にある必要があります。:::タブ-item[顧客管理VPC]
- VPC とそのサブネットを表す ネットワーク設定 を指定します。
- ネットワークモード : これを顧客管理ネットワーク に設定します。
- ネットワーク設定 : ネットワーク設定の名前を選択します。::: ::::
- VPC とそのサブネットを表す ネットワーク設定 を指定します。
-
(オプション)ワークスペースで Google Private サービス Connect(PSC)を有効にすると、プライベート接続でワークスペースを保護し、データ流出のリスクを軽減します。 これを設定するには、[ 詳細設定 ] をクリックし、プライベートアクセス設定オブジェクトを選択します。PSC 構成を追加する前に、 Databricks は、要件とコンテキストについて 、ワークスペースの Private サービス Connect を有効にする を読むことをお勧めします。
-
(オプション)マネージドサービス、ワークスペースストレージ、またはその両方の 顧客管理キー設定 を追加します。 マネージドサービスとワークスペースストレージの両方のユースケースをサポートしている場合は、両方の構成を選択できます。
-
[ 保存 ]をクリックします。
-
ワークスペースを初めて作成する場合は、Google ポップアップ ウィンドウが表示され、Google アカウントを選択し、追加のスコープの要求に同意するように求められます。ポップアップウィンドウが表示されず、ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。
-
ワークスペースが正常に作成されたことを確認します。ワークスペースのリストで、ワークスペースの横にある [開く ] をクリックします。
-
ワークスペースの GCS バケットをセキュリティで保護します。プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。
ワークスペースのプロジェクトで Google API を有効にする
ワークスペースの作成中に、 Databricks 、Google Cloud プロジェクトで次の必要な Google API自動的に有効にします (まだ有効になっていない場合)。
これらの API は、ワークスペースの削除中に自動的には無効になりません。
ワークスペースの作成制限
同じ Google Cloud プロジェクトで週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「プロジェクト \ でのカスタム クラウドIAM ロール <your-role> <your-project>の作成が拒否されました」というエラー メッセージが表示されます。
ワークスペースの状態を表示する
ワークスペースを作成した後、 「ワークスペース」 ページでそのステータスを確認できます。
- プロビジョニング :進行中です。数分待ってからページを更新してください。
- 実行中 :ワークスペースの展開が成功しました。
- 失敗 :デプロイに失敗しました。
- 禁止: Databricks アカウント チームにお問い合わせください。
- キャンセル中 :キャンセル中です。
新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。
失敗したワークスペースの構成は更新できません。 それを削除して、新しいワークスペースを作成する必要があります。
ワークスペースにログインします
- アカウントコンソールに移動し、[ ワークスペース ]アイコンをクリックします。
- ワークスペースのある行で、「 開く 」をクリックします。
プロジェクト内のワークスペースの GCS バケットをセキュリティで保護する
ワークスペースを作成すると、Databricks on Google CloudはGCPプロジェクトに 2 つの Google Cloud Storage (GCS) バケットを作成します。
- 1 つの GCS バケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログなどのシステムデータが格納されます。
- 1 つの GCS バケットは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。DBFSルート バケットは、本番運用 顧客データの保存を目的としたものではありません。本番運用 顧客データの他のデータソースとストレージを、追加の GCS バケットに作成します。 必要に応じて、Databricks File System (DBFS) のマウント時に追加の GCS バケットをマウントできます。Google Cloud Storage への接続をご覧ください。
Databricksでは、Databricks on Google Cloudの外部からアクセスできないようにこれらのGCSバケットを保護することを強くおすすめします。
これらの GCS バケットを保護するには、次のようにします。
-
ブラウザで GCP Cloud Console に移動します。
-
Databricksワークスペースをホストする Google Cloud プロジェクトを選択します。
-
そのプロジェクトの Storage サービス ページに移動します。
-
新しいワークスペースのバケットを探します。 彼らの名前は次のとおりです。
databricks-<workspace id>
databricks-<workspace id>-system
-
バケットごとに、次の操作を行います。
-
バケットをクリックして詳細を表示します。
-
「 権限 」タブをクリックします。
-
「メンバー」リストのすべてのエントリーを確認し、各メンバーにアクセスが必要かどうかを判別します。
-
IAM 条件 列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google Cloud コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。
IAM 条件のないロールの場合は、次の制限を追加することを検討してください。
-
プロジェクトレベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。
-
必要な最小限の権限セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。
-
-
基本ロールは広すぎるため、使用しないでください。
- Google Cloud データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。
これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。
次のステップ
ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では、次の記事をお勧めします。
- ユーザー、グループ、サービスプリンシパルをワークスペースに追加します。 ユーザー、サービスプリンシパル、およびグループを管理します。
- Databricksのデータガバナンスと権限についてご確認ください。「Unity Catalog とは」を参照してください。
- Databricksワークスペースを外部データソースに接続します。データソースと外部サービスへの接続を参照してください。
- ワークスペースにデータを取り込みます。Lakeflowコネクトの標準コネクタを参照してください。
- ノートブック、コンピュート、ダッシュボード、クエリなどのワークスペース オブジェクトへのアクセスの管理について学習します。 アクセス制御リストを参照してください。