Amazon S3 からのデータのオンボード

この記事では、Amazon S3 から新しい Databricks ワークスペースにデータをオンボードする方法について説明します。Unity Catalogボリューム (推奨) またはUnity Catalog外部ロケーションに対応するクラウドオブジェクトストレージの場所にあるソースデータに安全にアクセスする方法を学習します。Unity CatalogAuto Loader次に、とLakeflow 宣言型パイプラインを使用して、データをマネージドテーブルに段階的に取り込む方法を学習。

注記

ノートブックではなく Databricks SQL でデータをオンボードするには、「Databricks SQLでストリーミングテーブルを使用する」を参照してください。

始める前に

管理者でない場合、この記事では、管理者から次の情報が提供されていることを前提としています。

Unity Catalog が有効になっている Databricks ワークスペースへのアクセス。詳しくは、Unity Catalogの基本操作を参照してください。
Unity Catalog 外部ボリュームに対するREAD VOLUME権限、またはソースデータを含むクラウドストレージの場所に対応するUnity Catalog外部ロケーションに対するREAD FILES権限。詳細については、外部ロケーションに対する権限の付与を参照してください。
ソースデータへのパス。

ボリュームパスの例: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

外部ロケーションパスの例: s3://<bucket>/<folder>/
データをロードしたいスキーマの USE SCHEMA と CREATE TABLE の権限。
クラスタリングの作成アクセス許可、またはパイプラインクラスタリングを定義するクラスターポリシーへのアクセス (cluster_type フィールドを dltに設定)。

ソースデータへのパスがボリュームパスの場合、クラスターはDatabricks Runtime 13.3LTS 以上実行する必要があります。

important

これらの前提条件について質問がある場合は、アカウント管理者にお問い合わせください。

ステップ 1: クラスターを作成する

クラスターを作成するには、次の手順を実行します。

Databricks ワークスペースにサインインします。
サイドバーで、「新規 > クラスター 」をクリックします。
クラスター UI で、クラスターの一意の名前を指定します。
ソースデータへのパスがボリュームパスの場合、 Databricksランタイムバージョン で13.2 以上を選択します。
[クラスターの作成] をクリックします。

ステップ 2: データ探索ノートブックを作成する

このセクションでは、データパイプラインを作成する前にデータを理解できるように、データ探索ノートブックを作成する方法について説明します。

サイドバーで、[ +新規 ]、[ ノートブック ] の順にクリックします。

ノートブックは、最後に使用したクラスター (この場合は、「 ステップ 1: クラスターを作成する 」で作成したクラスター) に自動的にアタッチされます。
ノートブックの名前を入力します。
言語ボタンをクリックし、ドロップダウンメニューから Python または SQL を選択します。デフォルトではPythonが選択されています。
S3でソースデータへのデータアクセスを確認するには、次のコードをノートブックセルに貼り付け、[] をクリックして、[ 実行セル ] をクリックします。

SQL
Python

SQL
LIST '<path-to-source-data>'

Python
%fs ls '<path-to-source-data>'

<path-to-source-data> は、データを含むディレクトリへのパスに置き換えます。

これにより、データセットを含むディレクトリの内容が表示されます。

レコードのサンプルを表示して各レコードの内容と形式をよりよく理解するには、以下をノートブックのセルに貼り付け、をクリックし、 [セルの実行] をクリックします。

SQL
Python

SQL
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10

Python
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()

次の値を置き換えます。

<file-format>: サポートされているファイル形式。「ファイル形式のオプション」を参照してください。
<path to source data>: データを含むディレクトリ内のファイルへのパス。

指定したファイルの最初の 10 個のレコードが表示されます。

ステップ 3: 生データを取り込む

生データを取り込むには、次の操作を行います。

サイドバーで、「新規ノートブック」> をクリックします。

ノートブックは、最後に使用したクラスター (この場合は、この記事で前に作成したクラスター) に自動的にアタッチされます。
ノートブックの名前を入力します。
言語ボタンをクリックし、ドロップダウンメニューから Python または SQL を選択します。デフォルトではPythonが選択されています。
次のコードをノートブックのセルに貼り付けます。

SQL
Python

SQL
CREATE OR REFRESH STREAMING TABLE
  <table-name>
AS SELECT
  *
FROM
  STREAM read_files(
    '<path-to-source-data>',
    format => '<file-format>'
  )

Python
@dp.table(table_properties={'quality': 'bronze'})
def <table-name>():
  return (
     spark.readStream.format('cloudFiles')
     .option('cloudFiles.format', '<file-format>')
     .load(f'{<path-to-source-data>}')
 )

次の値を置き換えます。

<table-name>: 取り込まれたレコードを格納するテーブルの名前。
<path-to-source-data>: ソースデータへのパス。
<file-format>: サポートされているファイル形式。「ファイル形式のオプション」を参照してください。

注記

Lakeflow 宣言型パイプラインは、ノートブックセルで対話的に実行するようには設計されていません。 Lakeflow 宣言型パイプライン構文を含むセルをノートブックで実行すると、クエリが構文的に有効かどうかを示すメッセージが返されますが、クエリロジックは実行されません。次の手順では、作成したインジェストノートブックからパイプラインを作成する方法について説明します。

手順 4: パイプラインを作成して発行する

パイプラインを作成して Unity Catalog に発行するには、次の操作を行います。

ワークスペースで、サイドバーの Jobs & パイプライン をクリックします。
[新規 ] で、[ ETL パイプライン ] をクリックします。
パイプラインの名前を入力します。
パイプラインモード の場合は、 トリガー済み を選択します。
ソースコード の場合は、パイプラインソースコードが含まれているノートブックを選択します。
[宛先] で [ Unity Catalog ] を選択します。
テーブルが Unity Catalog によって管理され、親スキーマにアクセスできるすべてのユーザーがクエリを実行できるようにするには、ドロップダウンリストから [カタログ ] と [ターゲットスキーマ ] を選択します。
クラスタリング作成アクセス許可がない場合は、ドロップダウンリストから宣言型パイプラインをサポートする クラスターポリシー Lakeflow 選択します。
[Advanced] で、 チャンネル を [Preview ] に設定します。
他のすべてのデフォルト値をそのまま使用し、[ 作成 ] をクリックします。

ステップ 5: パイプラインをスケジュールする

パイプラインをスケジュールするには、次の操作を行います。

ワークスペースで、サイドバーの Jobs & パイプライン をクリックします。
スケジュールするパイプラインの名前をクリックします。
[スケジュール ] をクリックして> スケジュールを追加します 。
[ジョブ名 ] に、ジョブの名前を入力します。
スケジュール を スケジュール に設定します。
期間、開始時刻、およびタイムゾーンを指定します。
パイプラインの開始、成功、または失敗時にアラートを受信するように、1つ以上のEメールアドレスを設定します。
作成をクリックします。

次のステップ

新しいテーブルへのアクセス権をユーザーに付与します。詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
新しいテーブルへのアクセス権を持つユーザーは、ノートブックでテーブルに対してクエリを実行したり、 Databricks SQL エディターを使用したりできるようになりました。

始める前に​

ステップ 1: クラスターを作成する​

ステップ 2: データ探索ノートブックを作成する​

ステップ 3: 生データを取り込む​

手順 4: パイプラインを作成して発行する​

ステップ 5: パイプラインをスケジュールする​

次のステップ​