開始方法: Databricks ワークスペースのオンボーディング

この記事では、最初の Databricks ワークスペースの 30 分間のセットアップ ガイドを提供します。 この記事のステップでは、次の操作を行う方法を説明します。

  • 最初の Databricks ワークスペースを作成します。

  • 最初のコンピュートリソースを作成します。

  • クラウド ストレージから Databricks にデータをロードします。

  • ワークスペースにユーザーを追加します。

  • ユーザーが作業を開始できるように、データへのアクセス権をユーザーに付与します。

要件

この記事の手順を完了するには、次のものが必要です。

  • IAM ロールと S3 バケットをプロビジョニングするための AWS アカウントの権限。

  • Databricks デプロイの AWS リージョンで利用可能なサービス クォータ。 利用可能な VPC と NAT ゲートウェイが必要です。 AWS サービス クォータ コンソールを使用して、利用可能なクォータを表示し、増加をリクエストできます。

  • クラウドオブジェクトストレージに保存されているデータへのアクセス。 この記事では、S3 バケットの手順について説明します。

注:

いつでも Databricks サブスクリプションをキャンセルすることにした場合は、継続的なコストを防ぐために、AWS コンソールから関連するすべてのリソースを削除してください。 手順については、 「Databricks サブスクリプションをキャンセルする」を参照してください。

ステップ 1: 最初のワークスペースを作成する

フリートライアルにサインアップし、Eメールアドレスを確認すると、 Databricksアカウントにアクセスできるようになります。

初めてアカウントにログインしたら、指示に従ってワークスペースを設定します。 これらの手順では、クイックスタートを使用してワークスペースを作成し、クラウド リソースを迅速にプロビジョニングします。

  1. 人間が判読できるワークスペースの名前を入力します。 これは後で変更できません。

  2. ワークスペースをデプロイする AWS リージョンを選択します。 クラウド リージョンに利用可能な VPC および NAT ゲートウェイがあることを必ず確認してください。

  3. [ クイック スタートの開始] をクリックします。 これにより、AWS コンソールが開き、事前設定された CloudFormation テンプレートがリソースとワークスペースをデプロイします。

  4. [AWS CloudFormation がカスタム名で IAM リソースを作成する可能性があることを承認します] チェックボックスをオンにします。

    警告

    テンプレート内の追加のフィールドを編集すると、デプロイが失敗する可能性があります。

  5. [スタックの作成]をクリックします。

  6. Databricksアカウント コンソールに戻り、ワークスペースのデプロイが完了するまで待ちます。 数分しかかかりません。

導入プロセスでエラーが発生した場合は、電子メールonboarding-help @ databricks に送信してくださいトラブルシューティングのヘルプについては、comを参照してください。

注:

組織のクラウド管理者であるが、 Databricks展開の日常的な管理者ではない場合は、オンボーディング ステップの残りの部分を引き継ぐワークスペース管理者をアカウントに追加します。 アカウント内のユーザーの管理を参照してください。

ステップ2: コンピュートリソースを作成する

データとやり取りするには、ワークスペースのユーザーがコンピュートリソースを実行している必要があります。 Databricksでは、いくつかの異なるタイプのコンピュート リソースが利用できます。 これらの手順では、すべてのワークスペース ユーザーがSQLクエリを実行できるサーバーレス SQL ウェアハウスを作成します。

注:

フリートライアル中はDatabricksから料金は発生しませんが、リンクされたAWSアカウントにデプロイされたコンピュートDatabricksに対してはAWSから料金が発生します。

  1. 新しいワークスペースを開きます。

  2. サイドバーで、 SQLウェアハウスをクリックします。

  3. 「SQLウェアハウスの作成」ボタンをクリックします。

  4. SQLウェアハウスに名前を付けます。

  5. [作成]をクリックします。

  6. 権限モーダルで、「 All Users」と入力して選択し、「 追加 」をクリックします。

サーバーレス SQL ウェアハウスはすぐに起動して、 SQLクエリを実行できるようになります。

ステップ 3: ワークスペースを情報ソースに接続する

Databricks ワークスペースをクラウド ストレージに接続するには、外部ロケーションを作成する必要があります。 外部ロケーションは、クラウド ストレージ パスと、ストレージ パスへのアクセスを許可する資格情報を組み合わせたオブジェクトです。

  1. Databricks ワークスペースで、サイドバーの[カタログ]をクリックします。

  2. ページ上部の [+ 追加] をクリックします。

  3. 「外部ロケーションを追加」をクリックします。

  4. Databricks では、ワークスペースにバケットに対する適切なアクセス許可が確実に与えられるようにするAWS クイックスタートを使用することをお勧めします。

  5. [ Bucket Name (バケット名)] に、データのインポート元のバケットの名前を入力します。

  6. [新しいトークンの生成]をクリックして、トークンをコピーします。

  7. [クイックスタート] の [起動] をクリックします。

  8. AWS コンソールで、コピーしたトークンをDatabricks Personal アクセス許可フィールドに入力します。

  9. [AWS CloudFormation がカスタム名で IAM リソースを作成する可能性があることを承認します] チェックボックスをオンにします。

  10. [スタックの作成]をクリックします。

ワークスペースの外部ロケーションを確認するには、サイドバーの[カタログ]をクリックし、左側のナビゲーション ウィンドウの下部にある[外部データ]をクリックして、 [外部ロケーション]をクリックします。 新しい外部ロケーションには、構文db_s3_external_databricks-S3-ingest-<id>を使用した名前が付けられます。

接続をテストする

外部ロケーションの接続が機能しているかどうかをテストするには、次の手順を実行します。

  1. テストしたい外部場所をクリックします。

  2. [ 接続のテスト] をクリックします。

ステップ4: Databricksにデータを追加する

ワークスペースが S3 バケットに接続されたので、データを追加できます。

このステップでは、データを保存する場所を選択します。 Databricks には、データを整理する 3 レベルの名前空間があります ( catalog.schema.table )。 この演習では、ワークスペースにちなんで名付けられたデフォルトのカタログにデータをインポートします。

  1. Databricks ワークスペースのサイドバーで、 [新規] > [データの追加]をクリックします。

  2. [Amazon S3]をクリックします。

  3. ドロップダウン メニューから外部の場所を選択します。

  4. Databricks カタログに追加するファイルをすべて選択します。

  5. [ テーブルのプレビュー] をクリックします。

  6. デフォルトのカタログ (ワークスペースにちなんだ名前が付けられています) とデフォルトのスキーマを選択し、テーブルの名前を入力します。

  7. 表の作成」をクリックします。

ワークスペースでカタログ エクスプローラーを使用して、Databricks のデータを確認できるようになりました。

ステップ5: ワークスペースにユーザーを追加する

これで、実行中のコンピュート リソース、データへの接続、およびプラットフォーム内のデータが完成したので、アカウントへのユーザーの追加を開始できます。

これらの手順では、アカウントとワークスペースに個々のユーザーを追加する方法を示します。

  1. Databricks ワークスペースの上部バーで、ユーザー名をクリックし、 [設定]をクリックします。

  2. サイドバーで [ ID とアクセス] をクリックします。

  3. 「ユーザー」の横にある「管理」をクリックします。

  4. [ ユーザーの追加] をクリックし、[ 新規追加] をクリックします。

  5. ユーザーの電子メール アドレスを入力し、 [追加]をクリックします。

引き続き、必要な数のユーザーをアカウントに追加します。 新しいユーザーは、アカウントのセットアップを促す電子メールを受け取ります。

ステップ6: ユーザーに権限を付与する

アカウントにユーザーが追加されたので、必要なデータとリソースへのアクセスをユーザーに許可する必要があります。 これを行うには多くの方法がありますが、好みの方法はおそらくデータガバナンスの戦略によって異なります。

以下は、ユーザーの権限を設定する際の一般的な考慮事項です。

  • Databricks のセキュリティ保護可能なオブジェクトは階層構造になっており、権限は下位に継承されます。 例えば、カタログまたはスキーマに対する SELECT 特権を付与すると、カタログまたはスキーマ内の現在および将来のすべてのオブジェクトに特権が自動的に付与されます。

  • スキーマまたはテーブルに対する SELECT 権限をユーザーに付与する場合、そのユーザーには、スキーマまたはテーブルの上位のオブジェクトに対する USE 権限も必要です。

  • 他のユーザーに外部データ ソースに接続する権限を付与したい場合は、 CREATE EXTERNAL LOCATION権限とCREATE STORAGE CREDENTIAL権限を付与できます。

Databricks でのアクセス許可の管理手順については、 Unity Catalog権限とセキュリティ保護可能なオブジェクト」を参照してください。

次のステップ

これで、アカウント内のユーザーが Databricks ワークスペース内のデータにアクセスしてクエリを実行できるようになります。

ここから、Databricks を引き続き探索し、データ戦略を構築できます。 人気のあるトピックは次のとおりです。