Databricks によるデータエンジニアリング

Databricksは、データエンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、およびデータサイエンティストに下流の分析、AI、および運用アプリケーション向けの高品質なデータを提供できるようにするエンドツーエンドのデータエンジニアリングソリューションであるLakeflowを提供します。Lakeflow は、データのインジェスト、変換、オーケストレーションのための統合ソリューションであり、 Lakeflowコネクト、 Lakeflow 宣言型パイプライン、 Lakeflow ジョブが含まれています。

Lakeflowコネクト

Lakeflowコネクト、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。

機能	説明
マネージドコネクタ	マネージドコネクタは、シンプルな UI と構成ベースのインジェストサービスを提供し、運用上のオーバーヘッドを最小限に抑え、基になる Lakeflow 宣言型パイプライン API とインフラストラクチャを使用する必要はありません。
標準コネクタ	標準コネクタを使用すると、 Lakeflow 宣言型パイプラインまたはその他のクエリ内から、さまざまなデータソースからデータにアクセスできます。

Lakeflow 宣言型パイプライン

Lakeflow 宣言型パイプラインは、効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow宣言型パイプラインは、パフォーマンスが最適化されたDatabricksランタイムで実行されます。さらに、 Lakeflow 宣言型パイプラインは、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをパイプラインとしてカプセル化して実行することにより、これらの実行を自動的に調整します。 Lakeflow 宣言型パイプラインを参照してください。

機能	説明
フロー	フローは Lakeflow 宣言型パイプラインでデータを処理します。フロー API は、Apache Spark および構造化ストリーミングと同じ DataFrame API を使用します。フローは、ストリーミングセマンティクスを使用して Kafka トピックなどのストリーミングテーブルやシンクに書き込むことも、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。
ストリーミングテーブル	ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えた Delta テーブルです。これは、宣言型パイプラインの 1 つ以上のフロー Lakeflow ターゲットとして機能します。
マテリアライズドビュー	マテリアライズドビューは、アクセスを高速化するために結果をキャッシュしたビューです。マテリアライズドビューは、宣言型パイプライン Lakeflow ターゲットとして機能します。
シンク	Lakeflow 宣言型パイプラインは、ターゲットとして外部データシンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベントストリーミングサービスや、Unity Catalog によって管理される外部テーブルを含めることができます。

Lakeflow ジョブ

Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用モニタリングを提供します。ジョブは、ノートブック、パイプライン、マネージドコネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フローロジックもサポートしています。Lakeflowジョブを参照してください。

機能	説明
ジョブ	ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。
タスク	ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。
ジョブの制御フロー	制御フロータスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイムは、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイムで実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

機能	説明
DatabricksにおけるApache Spark	Spark は、Databricks Data Intelligence Platform の中核をなすものです。
構造化ストリーミング	構造化ストリーミングは、ストリーミングデータ用の Spark のほぼリアルタイムの処理エンジンです。

Delta Live Tables (DLT) はどうなりましたか?

以前は Delta Live Tables (DLT) と呼ばれていた製品は、現在はLakeflow宣言型パイプラインになっています。 Lakeflow宣言型パイプラインを使用するために移行する必要はありません。

Python コードでは、 import dltへの参照をfrom pyspark import pipelines as dpに置き換えることができますが、次の変更も必要です。

@dlt @dpに置き換えられます。
@table マテリアライズドビューを作成するバッチクエリでは、現在@materialized_viewです。
@view 現在は@temporary_viewです。

注記

Databricks には DLT の名前への参照がまだいくつか残っています。LakeFlow宣言型パイプラインのクラシック SKU は引き続きDLTで始まり、名前にdltが含まれるイベントログスキーマは変更されていません。名前にdltを使用していたPython APIs引き続き使用できますが、 Databricks新しい名前に移行することをお勧めします。

Python API 名の変更の詳細については、「 @dltに何が起こったか?」を参照してください。

追加のリソース

データエンジニアリングの概念では、 Databricksのデータエンジニアリングの概念について説明します。
Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージレイヤーです。
データエンジニアリングのベストプラクティスでは、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
Databricks ノートブックは、コラボレーションと開発のための一般的なツールです。
Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。

Lakeflowコネクト​

Lakeflow 宣言型パイプライン​

Lakeflow ジョブ​

Apache Spark向けDatabricksランタイム​

Delta Live Tables (DLT) はどうなりましたか?​

追加のリソース​