アカウントコンソールを使用してワークスペースを作成する
この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、アカウント API または Terraformを使用してワークスペースを作成することもできます。
始める前に
- 新しいワークスペースを作成する前に、すべての構成設定を理解していることを確認してください。ワークスペースの作成後にワークスペース構成を変更することはできません。
- アカウントに対しては、 Googleアカウント または サービスアカウントなどの必要なGoogle権限が必要です。 「必要な権限」を参照してください。
- ワークスペースに必要な Google Cloud リソース割り当てが十分にあることを確認します。必要に応じて、クォータの引き上げをリクエストします。
ネットワークの種類を選択する
ワークスペースを作成する前に、ワークスペースをデプロイする場所を選択する必要があります。
- Databricks マネージド VPC (デフォルト): Databricks は VPC のライフサイクルを作成および管理します。 このネットワークタイプを選択した場合、ここで追加の手順を実行する必要はありません。
- 顧客管理:VPC VPC新しいDatabricks ワークスペースで使用する独自の 顧客管理 を作成して指定します。このネットワークタイプを選択した場合は、ここで次の手順を実行します。
ワークスペースを作成する
ワークスペースを作成するには:
-
Databricks アカウント管理者として、 アカウント コンソール にログインし、[ ワークスペース ] アイコンをクリックします。
-
「ワークスペースの作成」 をクリックします。
-
[ ワークスペース名 ]フィールドに、人間にとってわかりやすい名称で、このワークスペースの名前を入力します。名前には英数字、アンダースコア、ハイフンのみが使用可能で、長さは3~30文字にする必要があります。
-
[ リージョン ] フィールドで、ワークスペースのネットワークとクラスターのリージョンを選択します。 サポートされているリージョンの一覧については、「 Databricks のクラウドとリージョン」を参照してください。
-
[Google Cloud プロジェクト ID ] フィールドに、Google Cloud プロジェクト ID を入力します。顧客管理VPCにデプロイしている場合、ID はスタンドアロン API を使用しているか共有 VPCを使用しているかによって異なります。
- スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。
- 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。
-
ネットワークのセットアップ。この手順は、ワークスペースのネットワークの種類によって異なります。顧客管理VPCの場合は、 顧客管理VPC タブをクリックします。
タブ :::タブ-item[Databricks-managed VPC] 必要に応じて、[ 詳細設定 ] をクリックして、GCE サブネットのカスタム IP 範囲を指定します。 これらのフィールドを空白のままにすると、Databricks はデフォルトを使用します。サイジングのガイダンスについては、「新しいワークスペースのサブネットサイジング」を参照してください
サイズは CIDR 形式を使用する必要があります。IP アドレスは、完全に
10.0.0.0/8
、100.64.0.0/10
、172.16.0.0/12
、192.168.0.0/16
、および240.0.0.0/4
の範囲内にある必要があります。:::タブ-item[顧客管理VPC]
- VPC とそのサブネットを表す ネットワーク設定 を指定します。
- ネットワークMode : これを顧客管理ネットワーク に設定します。
- ネットワーク設定 : ネットワーク設定の名前を選択します。::: ::::
- VPC とそのサブネットを表す ネットワーク設定 を指定します。
-
(オプション)ワークスペースで Google Private サービス Connect(PSC)を有効にすると、プライベート接続でワークスペースを保護し、データ流出のリスクを軽減します。 これを設定するには、[ 詳細設定 ] をクリックし、プライベートアクセス設定オブジェクトを選択します。PSC 構成を追加する前に、 Databricks は、要件とコンテキストについて 、ワークスペースの Private サービス Connect を有効にする を読むことをお勧めします。
-
(オプション)マネージドサービス、ワークスペースストレージ、またはその両方の 顧客管理キー設定 を追加します。 マネージドサービスとワークスペースストレージの両方のユースケースをサポートしている場合は、両方の構成を選択できます。
-
[ 保存 ]をクリックします。
-
ワークスペースを初めて作成する場合は、Google ポップアップ ウィンドウが表示され、Google アカウントを選択し、追加のスコープの要求に同意するように求められます。ポップアップウィンドウが表示されず、ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。
-
ワークスペースが正常に作成されたことを確認します。ワークスペースのリストで、ワークスペースの横にある [開く ] をクリックします。
-
ワークスペースの GCS バケットをセキュリティで保護します。プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。
ワークスペースのプロジェクトで Google APIs を有効にする
ワークスペースの作成中に、 Databricks 、Google Cloud プロジェクトで次の必要な Google APIs自動的に有効にします (まだ有効になっていない場合)。
これらの APIs は、ワークスペースの削除中に自動的には無効になりません。
ワークスペースの作成制限
同じ Google Cloud プロジェクトで週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「プロジェクト \ でのカスタム クラウドIAM ロール <your-role> <your-project>の作成が拒否されました」というエラー メッセージが表示されます。
ワークスペースの状態を表示する
ワークスペースを作成した後、 「ワークスペース」 ページでそのステータスを確認できます。
- プロビジョニング :進行中です。数分待ってからページを更新してください。
- 実行中 :ワークスペースの展開が成功しました。
- 失敗 :デプロイに失敗しました。
- 禁止: Databricks アカウント チームにお問い合わせください。
- キャンセル中 :キャンセル中です。
新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。
失敗したワークスペースの構成は更新できません。 それを削除して、新しいワークスペースを作成する必要があります。
ワークスペースにログインします
- アカウントコンソールに移動し、[ ワークスペース ]アイコンをクリックします。
- ワークスペースのある行で、「 開く 」をクリックします。
プロジェクト内のワークスペースの GCS バケットをセキュリティで保護する
ワークスペースを作成すると、Databricks on Google Cloud Google Cloud StorageGCSGCPプロジェクトに 2 つの バケットが作成されます。
- 1 つの GCS バケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログなどのシステムデータが格納されます。
- 1 つの GCS バケットは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。DBFSルート バケットは、本番運用 顧客データの保存を目的としたものではありません。本番運用 顧客データの他のデータソースとストレージを、追加の GCS バケットに作成します。 必要に応じて、Databricks File System (DBFS) のマウント時に追加の GCS バケットをマウントできます。Google Cloud Storage への接続をご覧ください。
DatabricksGCS外部からアクセスできないようにこれらのDatabricks on Google Cloud バケットを保護することを強くおすすめします。
これらの GCS バケットを保護するには、次のようにします。
-
ブラウザで GCP Cloud Console に移動します。
-
Databricksワークスペースをホストする Google Cloud プロジェクトを選択します。
-
そのプロジェクトの Storage サービス ページに移動します。
-
新しいワークスペースのバケットを探します。 彼らの名前は次のとおりです。
databricks-<workspace id>
databricks-<workspace id>-system
-
バケットごとに、次の操作を行います。
-
バケットをクリックして詳細を表示します。
-
「 権限 」タブをクリックします。
-
「メンバー」リストのすべてのエントリーを確認し、各メンバーにアクセスが必要かどうかを判別します。
-
IAM 条件 列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google Cloud コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。
IAM 条件のないロールの場合は、次の制限を追加することを検討してください。
-
プロジェクトレベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。
-
必要な最小限の権限セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。
-
-
基本ロールは広すぎるため、使用しないでください。
- Google Cloud データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。
これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。
次のステップ
ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では、次の記事をお勧めします。
- ユーザー、グループ、サービスプリンシパルをワークスペースに追加します。 ユーザー、サービスプリンシパル、およびグループを管理します。
- Databricksのデータガバナンスと権限についてご確認ください。「Unity Catalog とは」を参照してください。
- Databricksワークスペースを外部データソースに接続します。「データソースへの接続」を参照してください。
- ワークスペースにデータを取り込みます。LakeFlow Connectの標準コネクタを参照してください。
- ノートブック、コンピュート、ダッシュボード、クエリなどのワークスペース オブジェクトへのアクセスの管理について学習します。 アクセス制御リストを参照してください。