Lakeflow Spark宣言型パイプライン
Lakeflow Spark宣言型パイプライン (SDP) は、 SQLおよびPythonでバッチおよびストリーミング データ パイプラインを作成するためのフレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 パイプラインの一般的な使用例には、クラウド ストレージ ( Amazon S3 、 Azure ADLS Gen2、 Google Cloud Storageなど) やメッセージ バス ( Apache Kafka 、 Amazon Kinesis 、Google Pub/Sub、 Azure EventHub、 Apache Pulsar など) などのソースからのデータ取り込み、増分バッチおよびストリーミング変換が含まれます。
このセクションでは、パイプラインの使用に関する詳細情報を提供します。次のトピックは、開始する際に役立ちます。
トピック | 説明 |
|---|---|
パイプライン、フロー、ストリーミングテーブル、マテリアライズドビューなど、SDP の高レベルの概念について学びます。 | |
チュートリアルに従って、パイプラインの使用を実際に体験してください。 | |
データの取り込みと変換のためのフローを作成するパイプラインを開発およびテストする方法を学びます。 | |
パイプラインをスケジュールおよび構成する方法を学習します。 | |
パイプラインを監視し、パイプライン クエリのトラブルシューティングを行う方法を学びます。 | |
パイプラインを開発するときに Python と SQL を使用する方法を学びます。 | |
Databricks SQLでのストリーミングテーブルとマテリアライズドビューの使用について学習します。 |