Databricks によるデータエンジニアリング

Databricksは、データエンジニア、ソフトウェア開発者、SQL開発者、アナリスト、データサイエンティストが下流の分析、AI、運用アプリケーション向けに高品質なデータを提供できるようにする、エンドツーエンドのデータエンジニアリングソリューションであるLakeflowを提供しています。Lakeflowは、データの取り込み、変換、オーケストレーションを統合したソリューションであり、Lakeflowコネクト、Lakeflow Spark宣言型パイプライン、Lakeflowジョブが含まれています。

Lakeflowコネクト

Lakeflowコネクト、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。

機能	説明
マネージドコネクタ	マネージドコネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。
標準コネクタ	標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータソースのデータにアクセスする機能を提供します。

Lakeflow Spark宣言型パイプライン (SDP)

Lakeflow Spark宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 SDP は、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをカプセル化してパイプラインとして実行することにより、これらの実行を自動的に調整します。 Lakeflow Spark宣言型パイプラインを参照してください。

機能	説明
フロー	フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。フローは、ストリーミングセマンティクスを使用してストリーミングテーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。
ストリーミングテーブル	ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。パイプライン内の 1 つ以上のフローのターゲットとして機能します。
マテリアライズドビュー	マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。マテリアライズドビューはパイプラインのターゲットとして機能します。
シンク	パイプラインは、ターゲットとして外部データシンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベントストリーミングサービス、Unity Catalog によって管理される外部テーブル、Python で定義されたカスタムシンクなどが含まれます。

Lakeflow ジョブ

Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用モニタリングを提供します。ジョブは、ノートブック、パイプライン、マネージドコネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フローロジックもサポートしています。Lakeflowジョブを参照してください。

機能	説明
ジョブ	ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。
タスク	ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。
ジョブの制御フロー	制御フロータスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイムは、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイムで実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

機能	説明
DatabricksにおけるApache Spark	Spark は、Databricks Data Intelligence Platform の中核をなすものです。
構造化ストリーミング	構造化ストリーミングは、ストリーミングデータ用の Spark のほぼリアルタイムの処理エンジンです。

Delta Live Tables (DLT) はどうなりましたか?

Delta Live Tables (DLT) に精通している場合は、 Delta Live Tables (DLT) はどうなったのですか?を参照してください。

追加のリソース

データエンジニアリングの概念では、 Databricksのデータエンジニアリングの概念について説明します。
Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージレイヤーです。
データエンジニアリングのベストプラクティスでは、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
Databricks ノートブックは、コラボレーションと開発のための一般的なツールです。
Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。

Lakeflowコネクト​

Lakeflow Spark宣言型パイプライン (SDP)​

Lakeflow ジョブ​

Apache Spark向けDatabricksランタイム​

Delta Live Tables (DLT) はどうなりましたか?​

追加のリソース​