クラシックワークスペースを作成する
この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、アカウント API または Terraformを使用してワークスペースを作成することもできます。
始める前に
- 新しいワークスペースを作成する前に、すべての構成設定を理解していることを確認してください。ワークスペースの作成後にワークスペース構成を変更することはできません。
- アカウント(Google アカウントまたはサービス アカウント)に対して必要な Google 権限がいくつか必要です。 ワークスペース作成に必要な権限を参照してください。
- ワークスペースに必要な Google Cloud リソース割り当てが十分にあることを確認します。必要に応じて、クォータの引き上げをリクエストします。
ネットワーク構成を準備する(オプション)
ワークスペースを顧客管理VPCにデプロイする場合は、ワークスペースを作成する前にネットワーク構成を登録します。
ワークスペースを作成する
ワークスペースを作成するには:
-
Databricks アカウント管理者として、 アカウント コンソール にログインし、[ ワークスペース ] アイコンをクリックします。
-
「ワークスペースの作成」 をクリックします。
-
基本事項の セクションでは:
- 「ワークスペース名」 フィールドに、このワークスペースの名前を入力します。 使用できる文字は英数字、アンダースコア、ハイフンのみで、名前の長さは3~30文字です。
- 「 地域」 ドロップダウンメニューで、ワークスペースのネットワークとクラスターの地域を選択します。サポートされているリージョンについては、 Databricksのクラウドとリージョンを参照してください。
- GCPプロジェクト ID] フィールドに、Google クラウド プロジェクト ID を入力します。 プロジェクトはあるが、その ID がわからない場合は、 Google クラウド プラットフォームのリソース管理ページに移動し、プロジェクトを見つけて、その ID をコピーします。 顧客管理VPCにデプロイする場合、IDはスタンドアロンVPCを使用しているか共有VPCを使用しているかによって異なります。
- スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。
- 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。
-
ネットワーク構成の ドロップダウンメニューで、ワークスペースのネットワーク構成を選択または作成します。デフォルトでは、これはDatabricksが管理するVPCに設定されています。
-
(オプション) ネットワーク セクションで、ネットワーク設定を構成します。
- サブネットCIDR(IP範囲) フィールドに、必要に応じてカスタムサブネットIP範囲を入力します。IP アドレスはCIDR形式で、
10.0.0.0/8、100.64.0.0/10、172.16.0.0/12、192.168.0.0/16、240.0.0.0/4の範囲内である必要があります。サイジングに関するガイダンスについては、 「新しいワークスペースのサブネットサイジング」を参照してください。 - [ネットワーク接続構成] ドロップダウンで、ネットワーク接続構成を選択して Google Private サービス Connect (PSC) を有効にするか、インラインでネットワーク接続構成を作成します。 PSC を設定する前に、要件については「ワークスペースでプライベート サービス コネクトを有効にする」を参照してください。
- プライベートアクセス設定の ドロップダウンメニューで、Googleプライベートサービスコネクト(PSC)を有効にするためのプライベートアクセス設定構成を選択するか、またはインラインで作成します。PSC を設定する前に、要件については「ワークスペースでプライベート サービス コネクトを有効にする」を参照してください。
- サブネットCIDR(IP範囲) フィールドに、必要に応じてカスタムサブネットIP範囲を入力します。IP アドレスはCIDR形式で、
-
(オプション) 「詳細設定」 セクションでは、ワークスペースに関する詳細な設定を構成できます。詳細設定を参照してください。
-
「ワークスペースを作成」を クリックします。ワークスペースの詳細ページに自動的にリダイレクトされます。
-
ワークスペースを初めて作成する場合は、Google ポップアップ ウィンドウが表示され、Google アカウントを選択し、追加のスコープの要求に同意するように求められます。ポップアップウィンドウが表示されず、ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。Databricksへのサインインに使用しているのと同じ Google メール でサインインします。
-
Databricksはワークスペースの詳細ページにリダイレクトします。ワークスペースの状態が 「実行中」 であることを確認してください。
-
ワークスペースの GCS バケットをセキュリティで保護します。プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。
高度な設定
新しいワークスペースを作成する際、以下の設定は任意です。これらの設定を表示するには、ワークスペース作成ページの 「詳細設定」 ドロップダウンをクリックしてください。
- 暗号化 :マネージドサービスとワークスペースストレージのワークスペース展開に暗号化キーを追加できます。マネージドサービス用のキーは、コントロールプレーン内のノートブック、シークレット、およびDatabricks SQLクエリデータを暗号化します。ワークスペース ストレージのキーは、ワークスペース ストレージ バケットと、クラシック コンピュート プレーンのコンピュート リソースのGCSバケットを暗号化します。 詳しい手順については、 「暗号化用の顧客管理キーの設定」を参照してください。
- セキュリティとコンプライアンス : これらのチェックボックスを使用すると、ワークスペースのコンプライアンス セキュリティ プロファイルを有効にし、コンプライアンス標準を追加し、強化されたセキュリティ モニタリングを有効にすることができます。 詳細については、 「強化されたセキュリティとコンプライアンスの設定を構成する」を参照してください。
ワークスペースのプロジェクトで Google API を有効にする
ワークスペースの作成中に、 Databricks 、Google Cloud プロジェクトで次の必要な Google API自動的に有効にします (まだ有効になっていない場合)。
これらの API は、ワークスペースの削除中に自動的には無効になりません。
ワークスペースの作成制限
同じ Google Cloud プロジェクトで週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「プロジェクト \ でのカスタム クラウドIAM ロール <your-role> <your-project>の作成が拒否されました」というエラー メッセージが表示されます。
ワークスペースの状態を表示する
ワークスペースを作成した後、 「ワークスペース」 ページでそのステータスを確認できます。
- プロビジョニング :進行中です。数分待ってからページを更新してください。
- 実行中 :ワークスペースの展開が成功しました。
- 失敗 :デプロイに失敗しました。
- 禁止: Databricks アカウント チームにお問い合わせください。
- キャンセル中 :キャンセル中です。
新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。
失敗したワークスペースの構成は更新できません。 それを削除して、新しいワークスペースを作成する必要があります。
ワークスペースにログインする
- アカウントコンソールに移動し、[ ワークスペース ]アイコンをクリックします。
- ワークスペースのある行で、「 開く 」をクリックします。
プロジェクト内のワークスペースの GCS バケットをセキュリティで保護する
ワークスペースを作成すると、Databricks on Google CloudはGCPプロジェクトに 2 つの Google Cloud Storage (GCS) バケットを作成します。
- 1 つの GCS バケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログなどのシステムデータが格納されます。
- 1 つの GCS バケットは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。DBFSルート バケットは、本番運用 顧客データの保存を目的としたものではありません。本番運用 顧客データの他のデータソースとストレージを、追加の GCS バケットに作成します。 必要に応じて、Databricks File System (DBFS) のマウント時に追加の GCS バケットをマウントできます。Google Cloud Storage への接続をご覧ください。
Databricksでは、Databricks on Google Cloudの外部からアクセスできないようにこれらのGCSバケットを保護することを強くおすすめします。
これらの GCS バケットを保護するには、次のようにします。
-
ブラウザで GCP Cloud Console に移動します。
-
Databricksワークスペースをホストする Google Cloud プロジェクトを選択します。
-
そのプロジェクトの Storage サービス ページに移動します。
-
新しいワークスペースのバケットを探します。 彼らの名前は次のとおりです。
databricks-<workspace id>databricks-<workspace id>-system
-
バケットごとに、次の操作を行います。
-
バケットをクリックして詳細を表示します。
-
「 権限 」タブをクリックします。
-
「メンバー」リストのすべてのエントリーを確認し、各メンバーにアクセスが必要かどうかを判別します。
-
IAM 条件 列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google Cloud コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。
IAM 条件のないロールの場合は、次の制限を追加することを検討してください。
-
プロジェクトレベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。
-
必要な最小限の権限セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。
-
-
基本ロールは広すぎるため、使用しないでください。
- Google Cloud データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。
これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。
次のステップ
ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では、次の記事をお勧めします。
- ユーザー、グループ、サービスプリンシパルをワークスペースに追加します。 ユーザー、サービスプリンシパル、およびグループを管理します。
- Databricksのデータガバナンスと権限についてご確認ください。「Unity Catalog とは」を参照してください。
- Databricksワークスペースを外部データソースに接続します。データソースと外部サービスへの接続を参照してください。
- ワークスペースにデータを取り込みます。Lakeflowコネクトの標準コネクタを参照してください。
- ノートブック、コンピュート、ダッシュボード、クエリなどのワークスペース オブジェクトへのアクセスの管理について学習します。 アクセス制御リストを参照してください。