アカウントコンソールを使用してワークスペースを作成する
この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、アカウント API または Terraformを使用してワークスペースを作成することもできます。
始める前に
- 新しいワークスペースを作成する前に、すべての構成設定を理解していることを確認してください。 ワークスペースを作成した後で、ワークスペース設定を変更することはできません。
- アカウントに対しては、 Googleアカウント または サービスアカウントなどの必要なGoogle権限が必要です。 「必要な権限」を参照してください。
- ワークスペースに必要な Google Cloud リソース割り当てが十分にあることを確認します。必要に応じて、クォータの引き上げをリクエストします。
- Databricks によってワークスペース用に起動される Google Kubernetes Engine(GKE)クラスターを変更またはカスタマイズしないでください。クラスターをカスタマイズする必要がある場合は、 Databricks アカウント チームに連絡して、そのような変更の安全性と長期的な保守性を確認してください。
ワークスペースを作成する
ワークスペースを作成するには:
-
新しいワークスペースのネットワークの種類を選択します。
- Databricks マネージド VPC (デフォルト): Databricks は VPC のライフサイクルを作成および管理します。 このネットワークタイプを選択した場合、ここで追加の手順を実行する必要はありません。
- 顧客管理:VPC VPC新しいDatabricks ワークスペースで使用する独自の 顧客管理 を作成して指定します。このネットワークタイプを選択した場合は、ここで次の手順を実行します。
-
Databricks アカウント管理者として、 アカウント コンソール にログインし、[ ワークスペース ] アイコンをクリックします。
-
「ワークスペースの作成」 をクリックします。
-
[ ワークスペース名 ]フィールドに、人間にとってわかりやすい名称で、このワークスペースの名前を入力します。名前には英数字、アンダースコア、ハイフンのみが使用可能で、長さは3~30文字にする必要があります。
-
[ リージョン ] フィールドで、ワークスペースのネットワークとクラスターのリージョンを選択します。 サポートされているリージョンの一覧については、「 Databricks のクラウドとリージョン」を参照してください。
-
[Google Cloud プロジェクト ID ] フィールドに、Google Cloud プロジェクト ID を入力します。
このワークスペースで 顧客管理VPC を使用する予定の場合:
- スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。
- 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。
-
ネットワークのセットアップ。 この手順は、ワークスペースのネットワークの種類によって異なります。 顧客管理VPCの場合は、 顧客管理VPC タブをクリックします。
- Databricks-managed VPC
- Customer-managed VPC
- Optionally specify custom subnet sizes. If you leave these fields blank, Databricks uses defaults.
Configure the GKE subnets used by your Databricks workspace accurately. You cannot change them after your workspace is deployed. If the address ranges for your Databricks subnets are too small, then the workspace exhausts its IP space, which in turn causes your Databricks jobs to fail. To determine the address range sizes that you need, Databricks provides a subnet calculator as a Microsoft Excel spreadsheet.
Click Advanced configurations to specify custom IP ranges in CIDR format. The IP ranges for these fields must not overlap. All IP addresses must be entirely within the following ranges: 10.0.0.0/8
, 100.64.0.0/10
, 172.16.0.0/12
, 192.168.0.0/16
, and 240.0.0.0/4
.
The sizes of these IP ranges affect the maximum number of nodes for the workspace.
-
In the Subnet CIDR field, type the IP range in CIDR format to use for the subnet. Nodes of the GKE cluster come from this IP range. This is also the IP range of the subnet where the GKE cluster lives. Range must be no bigger than
/9
and no smaller than/29
. -
In the Pod address range field, type the IP range in CIDR format to use as the secondary IP range for GKE pods. Range must be no bigger than
/9
and no smaller than/21
. -
In the Service address range field, type the IP range in CIDR format to use as the secondary IP range for GKE services. Range must be no bigger than
/16
and no smaller than/27
.
- Specify a network configuration that represents your VPC and its subnets:
-
Network Mode: Set this to Customer-managed network.
-
Network configuration: Select your network configuration’s name.
-
-
(オプション)限定公開 GKE クラスターの詳細を設定します。
- デフォルトでは、Databricks はパブリック GKE クラスターではなくプライベート GKE クラスターを作成します。 プライベート クラスターの GKE ノードには、パブリック インターネットでルーティング可能なパブリック IP がありません。 このオプションでは、 Databricks追加の Google Cloud クラウド NAT を作成する必要があります。 プライベート クラスターの場合、オプションで GKE マスターリソースの IP 範囲にカスタム値を設定できます。 [詳細設定] をクリックし、 GKE マスター リソース フィールドの IP 範囲 を設定します。 すべての IP アドレスは、
10.0.0.0/8
、100.64.0.0/10
、172.16.0.0/12
、192.168.0.0/16
、および240.0.0.0/4
の範囲内にある必要があります。 範囲のサイズは/28
である必要があります。 - 代わりに公開 GKE クラスターを使用するには、[ Advanced configurations ] をクリックし、[ Enable private クラスター ] の選択を解除します。
- デフォルトでは、Databricks はパブリック GKE クラスターではなくプライベート GKE クラスターを作成します。 プライベート クラスターの GKE ノードには、パブリック インターネットでルーティング可能なパブリック IP がありません。 このオプションでは、 Databricks追加の Google Cloud クラウド NAT を作成する必要があります。 プライベート クラスターの場合、オプションで GKE マスターリソースの IP 範囲にカスタム値を設定できます。 [詳細設定] をクリックし、 GKE マスター リソース フィールドの IP 範囲 を設定します。 すべての IP アドレスは、
-
(オプション)プライベート接続でワークスペースを保護し、データ流出のリスクを軽減するには、ワークスペースで Google Private サービス Connect(PSC)を有効にします。 これを設定するには、[ 詳細設定 ] をクリックし、プライベートアクセス設定オブジェクトを選択します。 PSC 構成を追加する前に、要件とコンテキストについて Databricks 、 ワークスペースの Private Service Connect を有効にする の記事を読むことを強くお勧めします。
-
(オプション) 顧客管理のキー は、次の 2 つの異なるユースケースで追加できます。
- Databricksコントロールプレーン内のマネージドサービスデータ (ノートブック、シークレット、Databricks SQLクエリデータ)。
- ワークスペース ストレージ (2 つのワークスペース GCS バケット、およびクラスターまたは SQLウェアハウスの GCE 永続ディスク ボリューム)。
ワークスペースの作成時にこれを構成するには、2 つのピッカーを使用して、各ユース ケースに対して既に作成されている暗号化キー構成を選択できます。 両方のユースケースをサポートしている場合は、同じ構成を選択できます。 アカウントコンソールを使用した詳細な手順については、「 暗号化用の顧客管理キーの設定」を参照してください。
または、このワークスペース作成フローで、ユースケースのピッカーをクリックし、[ 新しい暗号化キー設定を追加 ] をクリックして、キー設定を作成することもできます。
-
[ 保存 ]をクリックします。
-
ワークスペースを初めて作成する場合は、Googleのポップアップウィンドウが表示され、Googleアカウントを選択するように求められます。 次の手順を実行します。
Google アカウントのポップアップが表示されない場合は、次の操作を行います。
-
ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。 ポップアップウィンドウのブロックに関する通知を探します。 ポップアップブロッカーを設定して、ドメイン
accounts.gcp.databricks.com
からのポップアップウィンドウを許可します。 -
Google ダイアログが表示されず、ブラウザにワークスペースのリストが表示されるようになった場合は、次の手順に進みます。
-
[Google] ダイアログで、アカウント コンソールにサインインした Google アカウントを選択します。
-
次の画面で、追加のスコープを求める同意リクエストに返信します。 [許可] をクリックします。
同意画面は、ワークスペースを初めて作成しようとしたときに表示されます。 新しいワークスペースが連続している場合、同意画面は表示されません。 Google アカウント ツールを使用して Databricks に付与された同意を取り消すと、Google は同意画面を再度表示します。
-
ワークスペースが正常に作成されたことを確認します。 ワークスペースのリストで、ワークスペースの横にある [開く ] をクリックします。 ワークスペースの状態を表示し、ワークスペースをテストするには、「 ワークスペースの状態を表示する」を参照してください。
-
ワークスペースの GCS バケットをセキュリティで保護します。 プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。
ワークスペースを作成すると、 Databricks on Google Cloud 、Google Cloud プロジェクトに 2 つのGoogle Cloud Storage ( GCS ) バケットが作成されます。 DatabricksGCS外部からアクセスできないようにこれらのDatabricks on Google Cloud バケットを保護することを強くおすすめします。
ワークスペースの作成中に、プロジェクトで必要なDatabricks GoogleAPIs がまだ有効になっていない場合は、 で有効にします。「ワークスペースのプロジェクトで Google APIs を有効にする」を参照してください。
ワークスペースのプロジェクトで Google APIs を有効にする
ワークスペースの作成中に、 Databricks 、Google Cloud プロジェクトで次の必要な Google APIs自動的に有効にします (まだ有効になっていない場合)。
これらの APIs は、ワークスペースの削除中に自動的には無効になりません。
ワークスペースの作成制限
同じ Google Cloud プロジェクトで週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「プロジェクト \ でのカスタム クラウドIAM ロール <your-role> <your-project>の作成が拒否されました」というエラー メッセージが表示されます。
ワークスペースの状態を表示する
ワークスペースを作成した後、 「ワークスペース」 ページでそのステータスを確認できます。
- プロビジョニング :進行中です。数分待ってからページを更新してください。
- 実行中 :ワークスペースの展開が成功しました。
- 失敗 :デプロイに失敗しました。
- 禁止: Databricks アカウント チームにお問い合わせください。
- キャンセル中 :キャンセル中です。
新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。
失敗したワークスペースの構成は更新できません。 それを削除して、新しいワークスペースを作成する必要があります。
ワークスペースにログインします
- アカウントコンソールに移動し、[ ワークスペース ]アイコンをクリックします。
- ワークスペースのある行で、「 開く 」をクリックします。
- ワークスペース管理者としてログインするには、アカウントオーナーまたはアカウント管理者のEメールアドレスでログインしてください。
プロジェクト内のワークスペースの GCS バケットをセキュリティで保護する
ワークスペースを作成すると、Databricks on Google Cloud Google Cloud StorageGCSGCPプロジェクトに 2 つの バケットが作成されます。
- 1 つの GCS バケットには、ノートブックの作成など、さまざまな Databricks 機能を使用するときに生成されるシステムデータが格納されます。 このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログが含まれます。
- 別の GCS バケット ストアは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。 DBFSルート バケットは、本番運用 顧客データの保存を目的としたものではありません。本番運用 顧客データの他のデータソースとストレージを、追加の GCS バケットに作成します。 必要に応じて、Databricks File System (DBFS) のマウント時に追加の GCS バケットをマウントできます。 Google Cloud Storage への接続をご覧ください。
DatabricksGCS外部からアクセスできないようにこれらのDatabricks on Google Cloud バケットを保護することを強くおすすめします。
これらの GCS バケットを保護するには、次のようにします。
-
ブラウザで GCP Cloud Console に移動します。
-
Databricksワークスペースをホストする Google Cloud プロジェクトを選択します。
-
そのプロジェクトの Storage サービス ページに移動します。
-
新しいワークスペースのバケットを探します。 彼らの名前は次のとおりです。
databricks-<workspace id>
databricks-<workspace id>-system
-
バケットごとに、次の操作を行います。
-
バケットをクリックして詳細を表示します。
-
「 権限 」タブをクリックします。
-
「メンバー」リストのすべてのエントリーを確認し、各メンバーにアクセスが必要かどうかを判別します。
-
IAM 条件 列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google Cloud コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。
IAM条件のないロールには特に注意してください。 次の制限を追加することを検討してください。
-
プロジェクトレベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。
-
必要な最小限の権限セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。
-
-
基本ロールは広すぎるため、使用しないでください。
- Google Cloud データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。
これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。
次のステップ
ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では、次の記事をお勧めします。
- ユーザー、グループ、サービスプリンシパルをワークスペースに追加します。 ユーザー、サービスプリンシパル、およびグループを管理します。
- Databricksのデータガバナンスと権限についてご確認ください。「Unity Catalog とは」を参照してください。
- Databricksワークスペースを外部データソースに接続します。「データソースへの接続」を参照してください。
- ワークスペースにデータを取り込みます。 「Databricks レイクハウスへのデータの取り込み」を参照してください。
- ノートブック、コンピュート、ダッシュボード、クエリなどのワークスペース オブジェクトへのアクセスの管理について学習します。 アクセス制御リストを参照してください。