既存の AWS アカウントを使用して Databricks にサインアップします
Databricks サーバレス コンピュート for ノートブック, ジョブ, Delta Live Tables は、このフリートライアルタイプではサポートされていません。 これらの機能を使用したい場合は、 エクスプレスセットアップ を使用するか、トライアルをアップグレードすると、14日間のトライアル期間後に利用可能になります。 Databricks サーバレス コンピュートの詳細については、サーバレス コンピュートへの接続を参照してください。
この記事では、 Databricks フリートライアルにサインアップし、最初のワークスペースを設定する方法について説明します。 これらのステップは、AWS Marketplace を通じて作成されたアカウントに適用されます。
この記事では、次の操作を行う方法について説明します。
- Databricks フリートライアルにサインアップしてください。
- 最初のDatabricksワークスペースを作成します。
- 最初のコンピュートリソースを作成します。
- クラウドストレージからDatabricksにデータを読み込みます。
- ワークスペースにユーザーを追加します。
- 作業を開始できるようにユーザーにデータへのアクセスを与えます。
必要条件
この記事の手順を完了するには、次が必要となります。
- IAMロールとS3バケットをプロビジョニングするためのAWSアカウントの権限。
- Databricksのデプロイ向けにAWSリージョンで利用可能なサービスクォータ。使用可能なVPCとNATゲートウェイが必要です。[AWSのサービスクォータ] コンソールを使用して、利用可能なクォータを確認したり、クォータの追加をリクエストしたりできます。
- クラウドオブジェクトストレージに保存されているデータへのアクセス。この記事では、S3 バケットの手順について説明します。
Databricks サブスクリプションをキャンセルすることにした場合は、AWS コンソールから関連するすべてのリソースを削除して、継続的なコストが発生しないようにしてください。 手順については、「 Databricks サブスクリプションのキャンセル」を参照してください。
ステップ1:フリートライアルにサインアップして、最初のワークスペースを作成する
Databricksはフリートライアル中には課金しませんが、フリートライアル中およびフリートライアル後に使用したAWSリソースに対してはAWS料金を請求します。
AWS Marketplace から Databricks にサインアップすると、AWS がアカウントを作成し、最初のワークスペースをデプロイします。
- AWS Marketplace の Databricks ページに移動します。
- AWSの手順に従って、Databricks フリートライアルにサインアップし、最初のワークスペースをデプロイします。
- アカウントコンソールから新しいワークスペースにログインします。
デプロイメント・プロセスでエラーが発生した場合は、Eメール onboarding-help@databricks.com トラブルシューティングのヘルプを参照してください。
ステップ 2: コンピュート リソースを作成する
データとやり取りするには、ワークスペース内のユーザーがコンピュートリソースを実行している必要があります。Databricksで利用可能なコンピュートリソースにはいくつかの種類があります。これらの手順により、すべてのワークスペースユーザーがSQLクエリを実行できるサーバーレスSQLウェアハウスが作成されます。
- 新しいワークスペースを開きます。
- サイドバーで、[ SQL ウェアハウス ] をクリックします。
- [ SQLウェアハウスを作成 ] ボタンをクリックします。
- SQLウェアハウスに名前をつけます。
- 作成 をクリックします。
- 権限モーダルで、
All Users
と入力して選択し、[ 追加 ] をクリックします。
サーバーレスSQLウェアハウスは、SQLクエリを実行するためにすぐに稼働する必要があります。
ステップ3:ワークスペースをデータソースに接続する
Databricksワークスペースをクラウドストレージに接続するには、外部ロケーションを作成する必要があります。外部ロケーションとは、クラウドストレージパスと、ストレージパスへのアクセスを許可する資格情報を組み合わせたオブジェクトです。
- Databricksワークスペースで、サイドバーの [ カタログ ] をクリックします。
- ページ上部にある [ + 追加 ] をクリックします。
- [ 外部ロケーションを追加 ] をクリックします。
- Databricksは AWSクイックスタート の使用を推奨しています。クイックスタートを通じ、ワークスペースがバケット上で正しい権限を与えられていることを確認できます。
- [ バケット名 ] に、データのインポート元となるバケットの名前を入力します。
- [ 新規トークンの作成 ] をクリックして、トークンをコピーします。
- [ クイックスタートで開始 ] をクリックします。
- AWSコンソールで、コピーしたトークンを [ Databricks個人用アクセストークン ] フィールドに入力します。
- 「 AWS CloudFormationがIAMリソースをカスタム名で作成する可能性があることを理解しました。 」のチェックボックスを選択します。
- スタックを作成 をクリックします。
ワークスペース内の外部ロケーションを表示するには、サイドバーの [ カタログ ] をクリックし、左側のナビゲーション ウィンドウの下部にある [ 外部データ ]、そして [ 外部ロケーション ] の順にクリックします。新しい外部ロケーションには、db_s3_external_databricks-S3-ingest-<id>
という構文を使用した名前が付けられます。
表示される他の外部ロケーションは、ワークスペースをワークスペースと一緒にデフォルト S3 バケット プロビジョニングに接続します。 この外部ロケーションは、ワークスペースと名前を共有します。
接続をテストする
外部ロケーションの接続が機能していることを確認するには、次を実行してください。
- テストする外部ロケーションをクリックします。
- [ テスト接続 ] をクリックします。
ステップ 4: Databricks にデータを追加する
ワークスペースがS3バケットに接続されたので、データを追加できます。
このステップでは、データを配置する場所を選択します。Databricksには、データを整理するための3つの階層から成る名前空間(catalog.schema.table
)があります。この演習では、ワークスペースにちなんで名付けられたデフォルトのカタログにデータをインポートします。
- Databricksワークスペースのサイドバーで、[ 新規 ]、[ データを追加 ] の順にクリックします。
- [ Amazon S3 ] をクリックします。
- ドロップダウンメニューから外部ロケーションを選択します。
- Databricksカタログに追加するすべてのファイルを選択します。
- [ テーブルをプレビュー ] をクリックします。
- デフォルトのカタログ(ワークスペースにちなんだ名前を適用)とデフォルトのスキーマを選択し、テーブルの名前を入力します。
- [ テーブルを作成 ] をクリックします。
これで、ワークスペースのカタログエクスプローラを使用してDatabricks内のデータを確認できるようになりました。
ステップ 5: ワークスペースにユーザーを追加する
実行中のコンピュートリソース、データへの接続、およびプラットフォーム内のデータが準備できたので、アカウントにさらにユーザーを追加することができます。
これらの手順では、アカウントとワークスペースに個々のユーザーを追加する方法を説明します。
- Databricksワークスペースの上部のバーでユーザー名をクリックし、[ 設定 ] をクリックします。
- サイドバーで [ IDとアクセス ] をクリックします。
- [ ユーザー ] の横にある [ 管理 ] をクリックします。
- [ ユーザーを追加 ] をクリックし、[ 新規追加 ] をクリックします。
- ユーザーのメールアドレスを入力し、[ 追加 ] をクリックします。
引き続き、ユーザーをアカウントに追加します。人数に制限はありません。新規ユーザーには、アカウントの設定を促すEメールが送信されます。
ステップ 6: ユーザーに権限を付与する
アカウントにユーザーを加えたので、それのユーザーが必要とするデータやリソースへのアクセス権限を付与する必要があります。これを実行する方法は多数ありますが、どの方法が望ましいかは、お客様がお持ちのデータガバナンス戦略によって異なります。
ユーザーの権限を設定する際に考慮すべき一般的な事項は次のとおりです。
- Databricksのセキュリティ保護可能なオブジェクトは階層構造で、権限は上位から下位に継承されます。例えば、カタログまたはスキーマに対する
SELECT
権限を付与すると、カタログまたはスキーマ内の現在および将来のすべてのオブジェクトにその権限が自動的に付与されます。 - スキーマまたはテーブルに対する
SELECT
権限をユーザーに付与すると、そのユーザーにはスキーマまたはテーブルの上にあるオブジェクトに対するUSE
権限も必要になります。 - 外部データソースに接続する権限を他のユーザーに付与する場合は、
CREATE EXTERNAL LOCATION
権限とCREATE STORAGE CREDENTIAL
権限を付与できます。
Databricks でのアクセス許可の管理手順については、「 Unity Catalog の特権とセキュリティ保護可能なオブジェクト」を参照してください。
次のステップ
これで、アカウント内のユーザーがDatabricksワークスペースのデータにアクセスしてクエリーを実行できるようになります。
これで、引き続きDatabricksを探索し、データ戦略を構築することができます。人気のあるトピックは以下のとおりです。