LakeFlow Pipelines コードを SQL で開発する

LakeFlow Pipelines では、パイプラインでマテリアライズドビューとストリーミングテーブルを定義するためのいくつかの新しい SQL キーワードと関数が導入されています。パイプラインを開発するための SQL サポートは、Spark SQL の基礎に基づいて構築され、Structured Streaming 機能のサポートが追加されています。

PySpark DataFrames に精通しているユーザーは、Python を使用してパイプラインコードを開発することを好むかもしれません。Pythonは、メタプログラミング操作など、SQLでの実装が難しいより広範なテストおよび操作をサポートしています。「Python を使用したパイプラインコードの開発」を参照してください。2つのインターフェイスのどちらを選択するかを判断するのに役立つ情報については、SQLとPythonの選択を参照してください。

パイプラインSQL構文の完全なリファレンスについては、「パイプラインSQL言語リファレンス」を参照してください。

パイプライン開発のためのSQLの基礎

パイプラインデータセットを作成するSQLコードは、 CREATE OR REFRESH構文を使用して、クエリ結果に対してマテリアライズドビューとストリーミングテーブルを定義します。

STREAMキーワードは、 SELECT句で参照されるデータソースをストリーミングセマンティクスで読み取る必要があるかどうかを示します。

読み取りと書き込みは、パイプライン構成時に指定されたカタログとスキーマにデフォルト設定されます。「ターゲットカタログとスキーマを設定する」を参照してください。

パイプラインのソースコードは SQL スクリプトとは大きく異なります。LakeFlow Pipelines は、パイプラインで構成されているすべてのソースコードファイルにあるすべてのデータセット定義を評価し、すべてのクエリーが実行される前にデータフローグラフを構築します。ソースファイルに表示されるクエリーの順序は、コード評価の順序を定義しますが、クエリー実行の順序は定義しません。

SQLでマテリアライズドビューを作成する

次のコード例は、 SQLを使用してマテリアライズドビューを作成するための基本的な構文を示しています。

SQL
CREATE OR REFRESH MATERIALIZED VIEW basic_mv
AS SELECT * FROM samples.nyctaxi.trips;

SQLでストリーミングテーブルを作成する

次のコード例は、 SQLを使用してストリーミングテーブルを作成するための基本的な構文を示しています。ストリーミングテーブルのソースを読み取るとき、 STREAMキーワードは、ソースにストリーミングセマンティクスを使用することを示します。マテリアライズドビューを作成するときは、 STREAMキーワードを使用しないでください。

SQL
CREATE OR REFRESH STREAMING TABLE basic_st
AS SELECT * FROM STREAM samples.nyctaxi.trips;

注記

ストリームキーワードを使用して、ストリーミングセマンティクスを使用してソースから読み取ります。読み取り中に既存のレコードの変更または削除が検出されると、エラーがスローされます。静的ソースまたは追加専用のソースから読み取るのが最も安全です。変更コミットを含むデータを取り込むには、 skipChangeCommitsオプションを使用してエラーを処理できます。

例：

SQL
CREATE OR REFRESH STREAMING TABLE basic_st
AS SELECT * FROM STREAM samples.nyctaxi.trips WITH (SKIPCHANGECOMMITS);

オブジェクトストレージからデータをロードする

パイプラインは、Databricks でサポートされているすべての形式からのデータの読み込みをサポートします。データ形式オプションを参照してください。

注記

これらの例では、ワークスペースに自動的にマウントされる /databricks-datasets で使用可能なデータを使用します。 Databricks では、ボリュームパスまたはクラウド URI を使用して、クラウドオブジェクトストレージに格納されているデータを参照することをお勧めします。 Unity Catalogボリュームとはを参照してください。

Databricks 、クラウドオブジェクトストレージに保存されているデータに対して増分取り込みワークロードを構成する場合、 Auto Loaderとストリーミングテーブルを使用することをお勧めします。「Auto Loader とは何ですか?」を参照してください。

SQL read_files関数を使用してAuto Loader機能を呼び出します。 read_filesでストリーミング読み取りを構成するには、 STREAMキーワードも使用する必要があります。

以下は SQL のread_filesの構文について説明しています。

CREATE OR REFRESH STREAMING TABLE table_name
AS SELECT *
  FROM STREAM read_files(
    "<file-path>",
    [<option-key> => <option_value>, ...]
  )

Auto Loaderのオプションはキーと値のペアです。サポートされている形式とオプションの詳細については、「オプション」を参照してください。

次の例では、Auto Loaderを使用してJSONファイルからストリーミングテーブルを作成します。

SQL
CREATE OR REFRESH STREAMING TABLE ingestion_st
AS SELECT *
FROM STREAM read_files(
  "/databricks-datasets/retail-org/sales_orders",
  format => "json");

read_files 関数は、マテリアライズドビューを作成するためのバッチセマンティクスもサポートしています。次の例では、バッチセマンティクスを使用して JSON ディレクトリを読み取り、マテリアライズドビューを作成します。

SQL
CREATE OR REFRESH MATERIALIZED VIEW batch_mv
AS SELECT *
FROM read_files(
  "/databricks-datasets/retail-org/sales_orders",
  format => "json");

エクスペクテーションでデータを検証

エクスペクテーションを使用して、データ品質の制約を設定および適用できます。パイプラインのエクスペクテーションを使用してデータ品質を管理するを参照してください。

次のコードは、データ取り込み中に null のレコードを削除するvalid_dataという名前の期待値を定義します。

SQL
CREATE OR REFRESH STREAMING TABLE orders_valid(
  CONSTRAINT valid_date
  EXPECT (order_datetime IS NOT NULL AND length(order_datetime) > 0)
  ON VIOLATION DROP ROW
)
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/sales_orders");

パイプラインで定義されたマテリアライズドビューとストリーミングテーブルをクエリする

次の例では、4 つのデータセットを定義します。

JSONデータをロードするordersという名前のストリーミングテーブル。
CSVデータをロードするcustomersという名前のマテリアライズドビュー。
orders データセットと customers データセットのレコードを結合し、注文タイムスタンプを日付にキャストし、customer_id、order_number、state、order_date の各フィールドを選択する customer_orders という名前のマテリアライズドビュー
各州の日次注文数を集計する daily_orders_by_state という名前のマテリアライズドビュー

注記

パイプライン内のビューまたはテーブルをクエリする場合、カタログとスキーマを直接指定することも、パイプラインで構成されたデフォルトを使用することもできます。この例では、パイプラインに構成されたデフォルトのカタログとスキーマから、 orders 、 customers 、およびcustomer_ordersテーブルが書き込まれ、読み取られます。

レガシー公開モードは、 LIVEスキーマを使用して、パイプラインに定義されている他のマテリアライズドビューとストリーミングテーブルをクエリします。新しいパイプラインでは、 LIVEスキーマ構文は暗黙的に無視されます。LIVE スキーマ (レガシー)を参照してください。

SQL
CREATE OR REFRESH STREAMING TABLE orders(
  CONSTRAINT valid_date
  EXPECT (order_datetime IS NOT NULL AND length(order_datetime) > 0)
  ON VIOLATION DROP ROW
)
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/sales_orders");

CREATE OR REFRESH MATERIALIZED VIEW customers
AS SELECT * FROM read_files("/databricks-datasets/retail-org/customers");

CREATE OR REFRESH MATERIALIZED VIEW customer_orders
AS SELECT
  c.customer_id,
  o.order_number,
  c.state,
  date(timestamp(int(o.order_datetime))) order_date
FROM orders o
INNER JOIN customers c
ON o.customer_id = c.customer_id;

CREATE OR REFRESH MATERIALIZED VIEW daily_orders_by_state
AS SELECT state, order_date, count(*) order_count
FROM customer_orders
GROUP BY state, order_date;

プライベートテーブルを定義する

マテリアライズドビューまたはストリーミングテーブルを作成するときに、PRIVATE句を使用できます。プライベートテーブルを作成するときは、テーブルを作成しますが、そのテーブルのメタデータは作成しません。PRIVATE句は、パイプラインがパイプラインで利用できるテーブルを作成するが、パイプラインの外部からアクセスすべきではないことを指示します。処理時間を短縮するため、プライベートテーブルは、単一の更新だけでなく、それを作成するパイプラインの存続期間中保持されます。

プライベートテーブルは、カタログ内のテーブルと同じ名前を使用できます。パイプライン内でテーブルに対して修飾されていない名前を指定し、その名前のプライベートテーブルとカタログテーブルの両方が存在する場合、プライベートテーブルが使用されます。

プライベートテーブルは、以前は一時テーブルと呼ばれていました。

マテリアライズドビューまたはストリーミングテーブルからレコードを完全に削除する

GDPRコンプライアンスなどの削除を有効にしてストリーミングテーブルからレコードを永久に削除するには、オブジェクトの基礎となるDeltaテーブルに対して追加の操作を実行する必要があります。ストリーミングテーブルからレコードを確実に削除するには、「ストリーミングテーブルからレコードを完全に削除する」を参照してください。

マテリアライズドビューは、基になるテーブルが更新されると常にそのデータを反映します。マテリアライズドビューのデータを削除するには、ソースからデータを削除し、マテリアライズドビューを更新する必要があります。

SQLでテーブルまたはビューを宣言するときに使用する値をパラメータ化する

SETを使用して、Spark 構成を含むテーブルまたはビューを宣言するクエリで構成値を指定します。SETステートメントの後のソースファイルで定義したテーブルまたはビューは、定義された値にアクセスできます。SETステートメントを使用して指定された Spark 構成は、SET ステートメントに続く任意のテーブルまたはビューに対して Spark クエリを実行するときに使用されます。クエリ内の構成値を読み取るには、文字列補間構文${}を使用します。次の例では、 startDateという名前の Spark 構成値を設定し、その値をクエリで使用します。

SET startDate='2025-01-01';

CREATE OR REFRESH MATERIALIZED VIEW filtered
AS SELECT * FROM src
WHERE date > ${startDate}

複数の構成値を指定するには、値ごとに個別のSETステートメントを使用します。

制限事項

PIVOT句はサポートされていません。Sparkのpivot操作では、出力スキーマをコンピュートするために入力データを積極的にロードする必要があります。この機能はパイプラインではサポートされていません。

注記

マテリアライズドビューを作成するための CREATE OR REFRESH LIVE TABLE 構文は非推奨です。代わりに、 CREATE OR REFRESH MATERIALIZED VIEW.

パイプライン開発のためのSQLの基礎​

SQLでマテリアライズドビューを作成する​

SQLでストリーミングテーブルを作成する​

オブジェクトストレージからデータをロードする​

エクスペクテーションでデータを検証​

パイプラインで定義されたマテリアライズドビューとストリーミングテーブルをクエリする​

プライベートテーブルを定義する​

マテリアライズドビューまたはストリーミングテーブルからレコードを完全に削除する​

SQLでテーブルまたはビューを宣言するときに使用する値をパラメータ化する​

制限事項​