インジェスト 用のデータ アクセスを構成する
この記事では、Databricks ユーザーが S3 から Databricks のテーブルにデータをロードできるように、管理者ユーザーが Amazon S3 (S3) のバケット内のデータへのアクセスを設定する方法について説明します。
この記事では、ソース データへのセキュリティで保護されたアクセスを構成する次の方法について説明します。
(推奨) Unity Catalog ボリュームを作成します。
ストレージ資格情報を使用して Unity Catalog 外部ロケーションを作成します。
AWS インスタンスプロファイルを使用するコンピュートリソースを起動します。
一時的な認証情報 (AWS アクセスキー ID、シークレットキー、セッショントークン) を生成します。
始める前に
S3 でデータへのアクセスを設定する前に、次のものがあることを確認してください。
AWS アカウントの S3 バケット内のデータ。 バケットを作成するには、AWS ドキュメントの「 バケットの作成 」を参照してください。
Unity Catalog ボリュームを使用してデータにアクセスするには (推奨)、ボリュームに対する
READ VOLUME
特権。 詳細については、「 ボリュームとUnity Catalog の特権とセキュリティ保護可能なオブジェクト の作成と操作 」を参照してください。Unity Catalog外部ロケーションを使用してデータにアクセスするには、外部ロケーションに対する
READ FILES
権限が必要です。 詳細については、 「クラウド ストレージを Databricks に接続するための外部ロケーションを作成する」を参照してください。
AWS インスタンスプロファイルでコンピュートリソースを使用してデータにアクセスするには、Databricks ワークスペースの管理者権限。
Databricks SQLウェアハウス。 SQLウェアハウスを作成するには、 「SQLウェアハウスの作成」を参照してください。
Databricks SQL ユーザーインターフェイスに精通している。
クラウドストレージへのアクセスを構成する
次のいずれかの方法を使用して、S3 へのアクセスを設定します。
(推奨)Unity Catalog ボリュームを作成します。 詳細については、「 ボリュームの作成と操作」を参照してください。
ストレージ認証情報を使用してUnity Catalog外部ロケーションを構成します。 外部ロケーションの詳細については、 「クラウド ストレージを Databricks に接続するための外部ロケーションを作成する」を参照してください。
AWS インスタンスを使用するようにコンピュート リソースを構成します。 詳細については、 「インスタンスを使用するように SQL ウェアハウスを構成する」を参照してください。
一時的な認証情報 (AWS アクセスキー ID、シークレットキー、セッショントークン) を生成して、他の Databricks ユーザーと共有します。 詳細については、「 インジェスト用の一時的な認証情報を生成する」を参照してください。
クリーンアップ
クラウド アカウントと Databricks 内の関連リソースを保持する必要がなくなった場合は、それらをクリーンアップできます。
AWS CLI 名前付きプロファイル を削除する
Unix、Linux、および macOS の場合は ~/.aws/credentials
ファイル、または Windows の場合は %USERPROFILE%\.aws\credentials
ファイルで、ファイルの次の部分を削除し、ファイルを保存します。
[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>
IAM ユーザーを削除する
AWS アカウントで IAM コンソールを開きます (通常は https://console.aws.amazon.com/iam)。
サイドバーで、[ ユーザー] をクリックします。
ユーザーの横にあるボックスを選択し、[ 削除] をクリックします。
ユーザーの名前を入力し、[ 削除] をクリックします。
IAM ポリシーを削除する
AWS アカウントで IAM コンソールを開きます (まだ開いていない場合は、通常は https://console.aws.amazon.com/iam)。
サイドバーで、[ ポリシー]をクリックします。
ポリシーの横にあるオプションを選択し、[ アクション] > [削除] をクリックします。
ポリシーの名前を入力し、[ 削除] をクリックします。
S3 バケット を削除する
AWS アカウントで Amazon S3 コンソールを開きます (通常は https://console.aws.amazon.com/s3)。
バケットの横にあるオプションを選択し、[ 空] をクリックします。
「
permanently delete
」と入力し、[ 空にする] をクリックします。サイドバーで、[ バケット] をクリックします。
バケットの横にあるオプションを選択し、[ 削除] をクリックします。
バケットの名前を入力し、[ バケットの削除] をクリックします。
次のステップ
この記事の ステップ を完了すると、ユーザーは COPY INTO
コマンドを実行して、S3 バケットから Databricks ワークスペースにデータを読み込むことができます。
Unity Catalogボリュームまたは外部ロケーションを使用してデータをロードするには、「Unity Catalogボリュームまたは外部ロケーションで COPY INTO を使用してデータをロードする」を参照してください。
AWS インスタンスプロファイルで SQLウェアハウスを使用してデータをロードするには、「 インスタンスプロファイルで COPY INTO を使用してデータをロードする」を参照してください。
一時的な認証情報 (AWS アクセスキー ID、シークレットキー、セッショントークン) を使用してデータをロードするには、「 一時的な認証情報で COPY INTO を使用してデータをロードする」を参照してください。