ストリーミングデータのクエリ

Databricks を使用して、構造化ストリーミングを使用してストリーミングデータソースをクエリーできます。 Databricks は、Python と Scala でのストリーミングワークロードを幅広くサポートし、SQL を使用したほとんどの構造化ストリーミング機能をサポートしています。

次の例は、ノートブックでの対話型開発中にストリーミングデータを手動で検査するためにメモリシンクを使用する方法を示しています。ノートブック UI の行出力制限により、ストリーミングクエリによって読み取られたすべてのデータが観察されない場合があります。本番運用ワークロードでは、ストリーミングクエリをトリガーするには、ターゲットテーブルまたは外部システムに書き込む必要があります。

注記

ストリーミングデータに対する対話型クエリのSQLサポートは、多目的コンピュートに接続されて実行されているノートブックに限定されています。 Lakeflow Spark宣言型パイプラインでストリーミングテーブルを宣言するときにSQL使用することもできます。 Lakeflow Spark宣言型パイプラインを参照してください。

ストリーミングシステムからのデータのクエリ

Databricks には、次のストリーミングシステム用のストリーミングデータリーダーが用意されています。

Kafka
Kinesis
PubSub
Pulsar

これらのシステムに対してクエリを初期化するときは、構成の詳細を指定する必要があります。これは、構成済みの環境と読み取り元のシステムによって異なります。Lakeflowコネクトの標準コネクタを参照してください。

ストリーミングシステムに関連する一般的なワークロードには、レイクハウスへのデータ取り込みと、データを外部システムにシンクするストリーム処理が含まれます。ストリーミングワークロードの詳細については、「構造化ストリーミングの概念」を参照してください。

次の例は、Kafka からの対話型ストリーミング読み取りを示しています。

Python
SQL

Python
display(spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "latest")
  .load()
)

SQL
SELECT * FROM STREAM read_kafka(
  bootstrapServers => '<server:ip>',
  subscribe => '<topic>',
  startingOffsets => 'latest'
);

ストリーミング読み取りとしてテーブルをクエリする

Databricks は、デフォルトで Delta Lake を使用してすべてのテーブルを作成します。Delta テーブルに対してストリーミングクエリを実行すると、テーブルのバージョンがコミットされたときに、クエリによって新しいレコードが自動的に取得されます。デフォルトでは、ストリーミングクエリでは、ソーステーブルに追加されたレコードのみが含まれるものと想定されます。更新と削除を含むストリーミングデータを操作する必要がある場合、 Databricks Lakeflow Spark宣言型パイプラインとAUTO CDC ... INTOを使用することをお勧めします。「AUTO CDC APIs : パイプラインによる変更データキャプチャの簡素化」を参照してください。

次の例は、テーブルからの対話型ストリーミング読み取りの実行を示しています。

Python
SQL

Python
display(spark.readStream.table("table_name"))

SQL
SELECT * FROM STREAM table_name

Auto Loader を使用したクラウドオブジェクトストレージのデータのクエリ

クラウドデータAuto Loader Databricksコネクタであるを使用して、クラウドオブジェクトストレージからデータをストリームできます。コネクタは、Unity Catalog ボリュームまたはその他のクラウドオブジェクトストレージの場所に格納されているファイルで使用できます。Databricks では、ボリュームを使用してクラウドオブジェクトストレージ内のデータへのアクセスを管理することをお勧めします。「データソースと外部サービスへの接続」を参照してください。

Databricks は、一般的な構造化形式、半構造化形式、非構造化形式で格納されているクラウドオブジェクトストレージ内のデータのストリーミングインジェスト用にこのコネクタを最適化します。 Databricks では、スループットを最大化し、レコードの破損やスキーマの変更による潜在的なデータ損失を最小限に抑えるために、取り込まれたデータをほぼ生の形式で保存することをお勧めします。

クラウドオブジェクトストレージからのデータの取り込みに関するその他の推奨事項については、Lakeflowコネクトの標準コネクタを参照してください。

次の例は、ボリューム内の JSON ファイルのディレクトリから読み取られる対話型ストリーミングを示しています。

Python
SQL

Python
display(spark.readStream.format("cloudFiles").option("cloudFiles.format", "json").load("/Volumes/catalog/schema/volumes/path/to/files"))

SQL
SELECT * FROM STREAM read_files('/Volumes/catalog/schema/volumes/path/to/files', format => 'json')

ストリーミングシステムからのデータのクエリ​

ストリーミング読み取りとしてテーブルをクエリする​

Auto Loader を使用したクラウド オブジェクト ストレージのデータのクエリ​

ストリーミングシステムからのデータのクエリ

ストリーミング読み取りとしてテーブルをクエリする

Auto Loader を使用したクラウドオブジェクトストレージのデータのクエリ