Lakeflow 宣言型パイプラインを使用したデータの読み込み

DatabricksのApache Sparkでサポートされている任意のデータソースから、Lakeflow宣言型パイプラインを使用してデータをロードできます。Lakeflow宣言型パイプラインでは、 Sparkデータフレームを返す任意のクエリに対してデータセット (テーブルとビュー) を定義できます。これには、ストリーミングデータフレームやPandas for Sparkデータフレームが含まれます。データ取り込みタスクの場合、 Databricks はほとんどのユースケースでストリーミングテーブルを使用することをお勧めします。ストリーミングテーブルは、 Auto Loader を使用してクラウドオブジェクトストレージからデータを取り込む場合や、 Kafkaなどのメッセージバスからデータを取り込むのに適しています。

注記

すべてのデータソースが SQL をサポートしているわけではありません。Lakeflow宣言型パイプラインでは、SQL ノートブックと Python ノートブックを混在させて取り込みを含むすべての操作に SQL を使用できます。
デフォルトによって宣言型パイプラインにパッケージ化されていないライブラリの操作の詳細についてはLakeflowLakeflow宣言型パイプラインの Python依存関係を管理するを参照してください。
Databricksでのインジェストに関する一般的な情報については、「Lakeflowコネクトの標準コネクタ」を参照してください。

次の例は、いくつかの一般的なパターンを示しています。

既存のテーブルからの読み込み

Databricks の既存のテーブルからデータを読み込みます。クエリを使用してデータを変換したり、パイプラインでさらに処理するためにテーブルをロードしたりできます。

次の例では、既存のテーブルからデータを読み取ります。

Python
SQL

Python
@dlt.table(
  comment="A table summarizing counts of the top baby names for New York for 2021."
)
def top_baby_names_2021():
  return (
    spark.read.table("baby_names_prepared")
      .filter(expr("Year_Of_Birth == 2021"))
      .groupBy("First_Name")
      .agg(sum("Count").alias("Total_Count"))
      .sort(desc("Total_Count"))
  )

SQL
CREATE OR REFRESH MATERIALIZED VIEW top_baby_names_2021
COMMENT "A table summarizing counts of the top baby names for New York for 2021."
AS SELECT
  First_Name,
  SUM(Count) AS Total_Count
FROM baby_names_prepared
WHERE Year_Of_Birth = 2021
GROUP BY First_Name
ORDER BY Total_Count DESC

クラウドオブジェクトストレージからのファイルのロード

DatabricksではクラウドオブジェクトストレージまたはUnity Catalog ボリューム内のファイルからのデータ取り込みタスクのほとんどにおいて、Auto LoaderをLakeflow宣言型パイプラインと共に使用することをお勧めします。Auto Loader と Lakeflow 宣言型パイプラインは、増え続けるデータがクラウドストレージに到着するときに、増分的かつべき等に読み込むように設計されています。

Auto Loaderとはおよびオブジェクトストレージからのデータのロードを参照してください。

次の例では、 Auto Loaderを使用してクラウドストレージからデータを読み取ります。

Python
SQL

Python
@dlt.table
def customers():
  return (
    spark.readStream.format("cloudFiles")
      .option("cloudFiles.format", "json")
      .load("s3://mybucket/analysis/*/*/*.json")
  )

SQL
CREATE OR REFRESH STREAMING TABLE sales
  AS SELECT *
  FROM STREAM read_files(
  's3://mybucket/analysis/*/*/*.json',
    format => "json"
  );

次の例では、Auto Loader を使用して、Unity Catalog ボリューム内の CSVファイルからデータセットを作成します。

Python
SQL

Python
@dlt.table
def customers():
  return (
    spark.readStream.format("cloudFiles")
      .option("cloudFiles.format", "csv")
      .load("/Volumes/my_catalog/retail_org/customers/")
  )

SQL
CREATE OR REFRESH STREAMING TABLE customers
AS SELECT * FROM STREAM read_files(
  "/Volumes/my_catalog/retail_org/customers/",
  format => "csv"
)

注記

ファイル通知で Auto Loader を使用し、パイプラインまたはストリーミングテーブルの完全な更新を実行する場合は、リソースを手動でクリーンアップする必要があります。ノートブックで CloudFilesResourceManager を使用して、クリーンアップを実行できます。
Unity Catalog対応パイプラインでAuto Loaderを用いてファイルをロードするには、外部ロケーションを使用する必要があります。Lakeflow宣言型パイプラインでUnity Catalog を使用する方法の詳細については、「Lakeflow宣言型パイプラインでUnity Catalogを使用する」を参照してください。

メッセージバスからのデータの読み込み

Lakeflow宣言型パイプラインをメッセージバスからデータを取り込むように構成できます。 Databricks では、連続実行と拡張オートスケールを備えたストリーミングテーブルを使用して、メッセージバスからの低レイテンシロードに最も効率的なインジェストを提供することをお勧めします。オートスケールを使用した Lakeflow 宣言型パイプラインのクラスター使用率の最適化を参照してください。

たとえば、次のコードでは、 read_kafka 関数を使用して Kafka からデータを取り込むようにストリーミングテーブルを設定します。

Python
SQL

Python
import dlt

@dlt.table
def kafka_raw():
  return (
    spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "kafka_server:9092")
      .option("subscribe", "topic1")
      .load()
  )

SQL
CREATE OR REFRESH STREAMING TABLE kafka_raw AS
  SELECT *
  FROM STREAM read_kafka(
    bootstrapServers => 'kafka_server:9092',
    subscribe => 'topic1'
  );

他のメッセージ・バス・ソースから取り込むには、以下を参照してください。

Kinesis: read_kinesis
Pub/Sub トピック: read_pubsub
Pulsar: read_pulsar

Azure Event Hubs からデータを読み込む

Azure Event Hubs は、Apache Kafka と互換性のあるインターフェイスを提供するデータストリーミングサービスです。Lakeflow宣言型パイプラインランタイムに含まれる構造化ストリーミングKafka コネクタを使用して、Azure Event Hubs からメッセージを読み込むことができます。Azure Event Hubs からのメッセージの読み込みと処理の詳細については、「Azure Event Hubs を Lakeflow宣言型パイプラインデータソースとして使用する」を参照してください。

外部システムからのデータのロード

Lakeflow 宣言型パイプラインは、 Databricksでサポートされている任意のデータソースからのデータの読み込みをサポートしています。「データソースと外部サービスへの接続」を参照してください。サポートされているデータソースのレイクハウスフェデレーションを使用して外部データをロードすることもできます。レイクハウスフェデレーションには Databricks Runtime 13.3 LTS 以上が必要なため、レイクハウスフェデレーションを使用するには、プレビューチャンネルを使用するようにパイプラインを構成する必要があります。

一部のデータソースは、 SQLで同等のサポートを受けていません。これらのデータソースのいずれかでレイクハウスフェデレーションを使用できない場合は、 Python ノートブックを使用してソースからデータを取り込むことができます。 Python と SQL のソースコードを同じパイプラインに追加できます。次の例では、リモート PostgreSQL テーブル内のデータの現在の状態にアクセスするためのマテリアライズドビューを宣言します。

Python
import dlt

@dlt.table
def postgres_raw():
  return (
    spark.read
      .format("postgresql")
      .option("dbtable", table_name)
      .option("host", database_host_url)
      .option("port", 5432)
      .option("database", database_name)
      .option("user", username)
      .option("password", password)
      .load()
  )

小さなデータセットまたは静的なデータセットをクラウドオブジェクトストレージからロードする

Apache Spark のロード構文を使用して、小さなデータセットまたは静的なデータセットをロードできます。Lakeflow 宣言型パイプラインは、 Apache Spark on の Databricksでサポートされているすべてのファイル形式をサポートしています。完全なリストについては、「データ形式のオプション」を参照してください。

次の例は、Lakeflow宣言型パイプラインテーブルを作成するためのJSONのロードを示しています。

Python
SQL

Python
@dlt.table
def clickstream_raw():
  return (spark.read.format("json").load("/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"))

SQL
CREATE OR REFRESH MATERIALIZED VIEW clickstream_raw
AS SELECT * FROM read_files(
  "/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"
)

注記

read_files SQL 関数は、Databricks 上のすべての SQL 環境に共通です。これは、 SQL と宣言型パイプラインを使用して直接ファイルアクセスする場合 Lakeflow 推奨されるパターンです。詳細については、「オプション」を参照してください。

ソースストリーミングテーブルの変更を無視するようにストリーミングテーブルを構成する

注記

skipChangeCommitsフラグは、option()関数を使用するspark.readStreamでのみ機能します。このフラグは、dlt.read_stream()関数では使用できません。
ソースストリーミングテーブルが create_auto_cdc_flow() 関数のターゲットとして定義されている場合は、skipChangeCommits フラグを使用できません。

デフォルトでは、ストリーミングテーブルには追加専用ソースが必要です。ストリーミングテーブルが別のストリーミングテーブルをソースとして使用し、ソースストリーミングテーブルが更新または削除 ( GDPR 忘れられる権利" 処理など) を必要とする場合、ソースストリーミングテーブルを読み取るときに skipChangeCommits フラグを設定して、それらの変更を無視できます。このフラグの詳細については、「更新と削除を無視する」を参照してください。

Python
@table
def b():
   return spark.readStream.option("skipChangeCommits", "true").table("A")

パイプライン内のシークレットを使用してストレージ資格情報に安全にアクセスする

Databricks シークレットを使用して、アクセスキーやパスワードなどの資格情報を格納できます。パイプラインでシークレットを構成するには、パイプライン設定のクラスター構成で Spark プロパティを使用します。 Lakeflow宣言型パイプラインのコンピュートの構成を参照してください。

次の例では、シークレットを使用して、Azure Data Lake Storage (ADLS)のストレージアカウントから入力データを読み取るために必要なアクセスキー Auto Loaderを使用します。これと同じ方法を使用して、パイプラインで必要なシークレット (S3にアクセスするためのAWSキーやApache Hive metastoreのパスワードなど)を構成できます。

Azure Data Lake Storage の操作の詳細については、「Azure Data Lake Storage と Blob Storage に接続する」を参照してください。

注記

シークレット値を設定する spark_conf 設定キーに spark.hadoop. プレフィックスを追加する必要があります。

JSON
{
  "id": "43246596-a63f-11ec-b909-0242ac120002",
  "clusters": [
    {
      "spark_conf": {
        "spark.hadoop.fs.azure.account.key.<storage-account-name>.dfs.core.windows.net": "{{secrets/<scope-name>/<secret-name>}}"
      },
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "development": true,
  "continuous": false,
  "libraries": [
    {
      "notebook": {
        "path": "/Users/user@databricks.com/:re[LDP] Notebooks/:re[LDP] quickstart"
      }
    }
  ],
  "name": ":re[LDP] quickstart using ADLS2"
}

以下の通り置き換えます。

<storage-account-name> を ADLS ストレージアカウント名に置き換えます。
<scope-name> をDatabricksシークレットスコープ名に置き換えます。
<secret-name> をAzureストレージアカウントのアクセスキーを含むキーの名前に置き換えます。

Python
import dlt

json_path = "abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<path-to-input-dataset>"
@dlt.create_table(
  comment="Data ingested from an ADLS2 storage account."
)
def read_from_ADLS2():
  return (
    spark.readStream.format("cloudFiles")
      .option("cloudFiles.format", "json")
      .load(json_path)
  )

以下の通り置き換えます。

<container-name> は、入力データを格納する Azure ストレージアカウントコンテナーの名前に置き換えます。
<storage-account-name> を ADLS ストレージアカウント名に置き換えます。
<path-to-input-dataset> を入力データセットへのパスに置き換えます。

既存のテーブルからの読み込み​

クラウドオブジェクトストレージからのファイルのロード​

メッセージバスからのデータの読み込み​

Azure Event Hubs からデータを読み込む​

外部システムからのデータのロード​

小さなデータセットまたは静的なデータセットをクラウドオブジェクトストレージからロードする​

ソース ストリーミングテーブルの変更を無視するようにストリーミングテーブルを構成する​

パイプライン内のシークレットを使用してストレージ資格情報に安全にアクセスする​