メインコンテンツまでスキップ

Lakeflow Spark宣言型パイプライン

Lakeflow Spark宣言型パイプライン (SDP) は、 SQLおよびPythonでバッチおよびストリーミング データ パイプラインを作成するためのフレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 パイプラインの一般的な使用例には、クラウド ストレージ ( Amazon S3 、 Azure ADLS Gen2、 Google Cloud Storageなど) やメッセージ バス ( Apache Kafka 、 Amazon Kinesis 、Google Pub/Sub、 Azure EventHub、 Apache Pulsar など) などのソースからのデータ取り込み、増分バッチおよびストリーミング変換が含まれます。

このセクションでは、パイプラインの使用に関する詳細情報を提供します。次のトピックは、開始する際に役立ちます。

トピック

説明

Lakeflow Spark宣言型パイプラインの概念

パイプライン、フロー、ストリーミングテーブル、マテリアライズドビューなど、SDP の高レベルの概念について学びます。

チュートリアル

チュートリアルに従って、パイプラインの使用を実際に体験してください。

パイプラインの開発

データの取り込みと変換のためのフローを作成するパイプラインを開発およびテストする方法を学びます。

パイプラインの構成

パイプラインをスケジュールおよび構成する方法を学習します。

パイプラインの監視

パイプラインを監視し、パイプライン クエリのトラブルシューティングを行う方法を学びます。

開発者

パイプラインを開発するときに Python と SQL を使用する方法を学びます。

Databricks SQL のパイプライン

Databricks SQLでのストリーミングテーブルとマテリアライズドビューの使用について学習します。

詳細情報