メインコンテンツまでスキップ

クラシックワークスペースを作成する

この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、アカウント API または Terraformを使用してワークスペースを作成することもできます。

始める前に

ネットワーク構成を準備する(オプション)

ワークスペースを顧客管理VPCにデプロイする場合は、ワークスペースを作成する前にネットワーク構成を登録します。

  1. すべての顧客管理VPC 要件を確認します
  2. VPC を作成します
  3. VPCとそのサブネットを表す ネットワーク構成を登録する。

ワークスペースを作成する

ワークスペースを作成するには:

  1. Databricks アカウント管理者として、 アカウント コンソール にログインし、[ ワークスペース ] アイコンをクリックします。

  2. 「ワークスペースの作成」 をクリックします。

  3. 基本事項の セクションでは:

    • 「ワークスペース名」 フィールドに、このワークスペースの名前を入力します。 使用できる文字は英数字、アンダースコア、ハイフンのみで、名前の長さは3~30文字です。
    • 地域」 ドロップダウンメニューで、ワークスペースのネットワークとクラスターの地域を選択します。サポートされているリージョンについては、 Databricksのクラウドとリージョンを参照してください。
    • GCPプロジェクト ID] フィールドに、Google クラウド プロジェクト ID を入力します。 プロジェクトはあるが、その ID がわからない場合は、 Google クラウド プラットフォームのリソース管理ページに移動し、プロジェクトを見つけて、その ID をコピーします。 顧客管理VPCにデプロイする場合、IDはスタンドアロンVPCを使用しているか共有VPCを使用しているかによって異なります。
      • スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。
      • 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。
  4. ネットワーク構成の ドロップダウンメニューで、ワークスペースのネットワーク構成を選択または作成します。デフォルトでは、これはDatabricksが管理するVPCに設定されています。

  5. (オプション) ネットワーク セクションで、ネットワーク設定を構成します。

    • サブネットCIDR(IP範囲) フィールドに、必要に応じてカスタムサブネットIP範囲を入力します。IP アドレスはCIDR形式で、 10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16240.0.0.0/4の範囲内である必要があります。サイジングに関するガイダンスについては、 「新しいワークスペースのサブネットサイジング」を参照してください。
    • [ネットワーク接続構成] ドロップダウンで、ネットワーク接続構成を選択して Google Private サービス Connect (PSC) を有効にするか、インラインでネットワーク接続構成を作成します。 PSC を設定する前に、要件については「ワークスペースでプライベート サービス コネクトを有効にする」を参照してください。
    • プライベートアクセス設定の ドロップダウンメニューで、Googleプライベートサービスコネクト(PSC)を有効にするためのプライベートアクセス設定構成を選択するか、またはインラインで作成します。PSC を設定する前に、要件については「ワークスペースでプライベート サービス コネクトを有効にする」を参照してください。
  6. (オプション) 「詳細設定」 セクションでは、ワークスペースに関する詳細な設定を構成できます。詳細設定を参照してください。

  7. 「ワークスペースを作成」を クリックします。ワークスペースの詳細ページに自動的にリダイレクトされます。

  8. ワークスペースを初めて作成する場合は、Google ポップアップ ウィンドウが表示され、Google アカウントを選択し、追加のスコープの要求に同意するように求められます。ポップアップウィンドウが表示されず、ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。Databricksへのサインインに使用しているのと同じ Google メール でサインインします。

  9. Databricksはワークスペースの詳細ページにリダイレクトします。ワークスペースの状態が 「実行中」 であることを確認してください。

  10. ワークスペースの GCS バケットをセキュリティで保護します。プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。

高度な設定

新しいワークスペースを作成する際、以下の設定は任意です。これらの設定を表示するには、ワークスペース作成ページの 「詳細設定」 ドロップダウンをクリックしてください。

  • 暗号化 :マネージドサービスとワークスペースストレージのワークスペース展開に暗号化キーを追加できます。マネージドサービス用のキーは、コントロールプレーン内のノートブック、シークレット、およびDatabricks SQLクエリデータを暗号化します。ワークスペース ストレージのキーは、ワークスペース ストレージ バケットと、クラシック コンピュート プレーンのコンピュート リソースのGCSバケットを暗号化します。 詳しい手順については、 「暗号化用の顧客管理キーの設定」を参照してください。
  • セキュリティとコンプライアンス : これらのチェックボックスを使用すると、ワークスペースのコンプライアンス セキュリティ プロファイルを有効にし、コンプライアンス標準を追加し、強化されたセキュリティ モニタリングを有効にすることができます。 詳細については、 「強化されたセキュリティとコンプライアンスの設定を構成する」を参照してください。

ワークスペースのプロジェクトで Google API を有効にする

ワークスペースの作成中に、 Databricks 、Google Cloud プロジェクトで次の必要な Google API自動的に有効にします (まだ有効になっていない場合)。

これらの API は、ワークスペースの削除中に自動的には無効になりません。

ワークスペースの作成制限

同じ Google Cloud プロジェクトで週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「プロジェクト \ でのカスタム クラウドIAM ロール <your-role> <your-project>の作成が拒否されました」というエラー メッセージが表示されます。

ワークスペースの状態を表示する

ワークスペースを作成した後、 「ワークスペース」 ページでそのステータスを確認できます。

  • プロビジョニング :進行中です。数分待ってからページを更新してください。
  • 実行中 :ワークスペースの展開が成功しました。
  • 失敗 :デプロイに失敗しました。
  • 禁止: Databricks アカウント チームにお問い合わせください。
  • キャンセル中 :キャンセル中です。

新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。

失敗したワークスペースの構成は更新できません。 それを削除して、新しいワークスペースを作成する必要があります。

ワークスペースにログインする

  1. アカウントコンソールに移動し、[ ワークスペース ]アイコンをクリックします。
  2. ワークスペースのある行で、「 開く 」をクリックします。

プロジェクト内のワークスペースの GCS バケットをセキュリティで保護する

ワークスペースを作成すると、Databricks on Google CloudはGCPプロジェクトに 2 つの Google Cloud Storage (GCS) バケットを作成します。

  • 1 つの GCS バケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログなどのシステムデータが格納されます。
  • 1 つの GCS バケットは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。DBFSルート バケットは、本番運用 顧客データの保存を目的としたものではありません。本番運用 顧客データの他のデータソースとストレージを、追加の GCS バケットに作成します。 必要に応じて、Databricks File System (DBFS) のマウント時に追加の GCS バケットをマウントできます。Google Cloud Storage への接続をご覧ください。

Databricksでは、Databricks on Google Cloudの外部からアクセスできないようにこれらのGCSバケットを保護することを強くおすすめします。

これらの GCS バケットを保護するには、次のようにします。

  1. ブラウザで GCP Cloud Console に移動します。

  2. Databricksワークスペースをホストする Google Cloud プロジェクトを選択します。

  3. そのプロジェクトの Storage サービス ページに移動します。

  4. 新しいワークスペースのバケットを探します。 彼らの名前は次のとおりです。

    • databricks-<workspace id>
    • databricks-<workspace id>-system
  5. バケットごとに、次の操作を行います。

    1. バケットをクリックして詳細を表示します。

    2. 権限 」タブをクリックします。

    3. 「メンバー」リストのすべてのエントリーを確認し、各メンバーにアクセスが必要かどうかを判別します。

    4. IAM 条件 列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google Cloud コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。

      IAM 条件のないロールの場合は、次の制限を追加することを検討してください。

      • プロジェクトレベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。

      • 必要な最小限の権限セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。

警告

基本ロールは広すぎるため、使用しないでください。

  1. Google Cloud データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。

これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。

次のステップ

ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では、次の記事をお勧めします。