メインコンテンツまでスキップ

Databricks によるデータエンジニアリング

Databricks 、データ エンジニア、ソフトウェア開発者、 SQL開発者、アナリスト、 data scientists下流のLakeflow 、AI、および運用アプリケーションに高品質のデータを提供できるようにする、エンドツーエンドのデータエンジニアリング ソリューションである Lakeflow をAIします。 Lakeflow 、データの取り込み、変換、オーケストレーションのための統合ソリューションであり、 Lakeflow Connect 、 Lakeflow Spark宣言型パイプライン、およびLakeflowジョブが含まれています。

Lakeflowコネクト

Lakeflowコネクト 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。

機能

説明

マネージド コネクタ

マネージド コネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。

標準コネクタ

標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータ ソースのデータにアクセスする機能を提供します。

Lakeflow Spark宣言型パイプライン (SDP)

Lakeflow Spark宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミング データ パイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 SDP は、フロー、シンク、ストリーミング テーブル、およびマテリアライズドビューをカプセル化してパイプラインとして実行することにより、これらの実行を自動的に調整します。 Lakeflow Spark宣言型パイプラインを参照してください。

機能

説明

フロー

フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。 フローは、ストリーミング セマンティクスを使用してストリーミング テーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチ セマンティクスを使用してマテリアライズドビューに書き込むこともできます。

ストリーミングテーブル

ストリーミング テーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。 パイプライン内の 1 つ以上のフローのターゲットとして機能します。

マテリアライズドビュー

マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。 マテリアライズドビューはパイプラインのターゲットとして機能します。

シンク

パイプラインは、ターゲットとして外部データ シンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービスや、Unity Catalog によって管理される外部テーブルが含まれます。

Lakeflow ジョブ

Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。Lakeflowジョブを参照してください。

機能

説明

ジョブ

ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。

タスク

ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。

ジョブの制御フロー

制御フロー タスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

機能

説明

DatabricksにおけるApache Spark

Spark は、Databricks Data Intelligence Platform の中核をなすものです。

構造化ストリーミング

構造化ストリーミングは、ストリーミング データ用の Spark のほぼリアルタイムの処理エンジンです。

Delta Live Tables (DLT) はどうなりましたか?

Delta Live Tables (DLT) に精通している場合は、 「Delta Live Tables (DLT) はどうなったのですか?」を参照してください。

追加のリソース