インジェスト用のデータ アクセスを構成する
この記事では、Databricks ユーザーが GCS から Databricks のテーブルにデータを読み込むことができるように、管理者ユーザーが Google Cloud Storage (GCS) のバケット内のデータへのアクセスを構成する方法について説明します。
この記事では、ソース データへの安全なアクセスを構成する次の方法について説明します。
- (推奨)Unity Catalog ボリュームを作成します。
- ストレージ資格情報を使用して Unity Catalog 外部ロケーションを作成します。
始める前に
GCS でデータへのアクセスを設定する前に、次のものがあることを確認してください。
-
Google Cloud サービス アカウントの GCS バケット内のデータ。
-
Unity Catalog ボリューム (推奨) を使用してデータにアクセスするには、ボリュームに対する
READ VOLUME
特権が必要です。 詳細については、「Unity Catalog ボリュームとは」および「Unity Catalog特権とセキュリティ保護可能なオブジェクト」を参照してください。 -
Unity Catalog外部ロケーションを使用してデータにアクセスするには、外部ロケーションに対する
READ FILES
権限が必要です。詳細については、「クラウド ストレージを Databricksに接続するための外部ロケーションを作成する」を参照してください。 -
Databricks SQL ウェアハウス。 SQLウェアハウスを作成するには、「SQLウェアハウスの作成」を参照してください。
-
Databricks SQL ユーザー インターフェイスに精通している。
クラウドストレージへのアクセスを構成する
次のいずれかの方法を使用して、GCS へのアクセスを設定します。
- (推奨)Unity Catalog ボリュームを作成します。 詳細については、「Unity Catalog ボリュームとは」を参照してください。
- ストレージ認証情報を使用して Unity Catalog 外部ロケーションを設定します。 外部ロケーションの詳細については、「クラウド ストレージを Databricksに接続するための外部ロケーションを作成する」を参照してください。
片付ける
クラウドアカウントとDatabricksの関連リソースを保持しなくなった場合は、それらをクリーンアップできます。
SQLウェアハウスを停止する
SQLウェアハウスを他のタスクに使用していない場合は、追加コストを避けるために SQLウェアハウスを停止する必要があります。
- SQL ペルソナのサイドバーで、[ SQLウェアハウス ] をクリックします。
- SQLウェアハウスの名前の横にある [ 停止] をクリックします。
- プロンプトが表示されたら、もう一度 [停止 ] をクリックします。
次のステップ
この記事の手順を完了すると、ユーザーは COPY INTO
コマンドを実行して、GCS バケットから Databricks ワークスペースにデータを読み込むことができます。
- Unity Catalogボリュームまたは外部ロケーションを使用してデータをロードするには、COPY INTOUnity Catalogボリュームまたは外部ロケーションを使用した を使用したデータのロード を参照してください。