Databricks によるデータエンジニアリング
Databricks 、データ エンジニア、ソフトウェア開発者、 SQL開発者、アナリスト、 data scientists下流のLakeflow 、AI、および運用アプリケーションに高品質のデータを提供できるようにする、エンドツーエンドのデータエンジニアリング ソリューションである Lakeflow をAIします。 Lakeflow 、データの取り込み、変換、オーケストレーションのための統合ソリューションであり、 Lakeflow Connect 、 Lakeflow Spark宣言型パイプライン、およびLakeflowジョブが含まれています。
Lakeflowコネクト
Lakeflowコネクト 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。
機能 | 説明 |
|---|---|
マネージド コネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。 | |
標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータ ソースのデータにアクセスする機能を提供します。 |
Lakeflow Spark宣言型パイプライン (SDP)
Lakeflow Spark宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミング データ パイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 SDP は、フロー、シンク、ストリーミング テーブル、およびマテリアライズドビューをカプセル化してパイプラインとして実行することにより、これらの実行を自動的に調整します。 Lakeflow Spark宣言型パイプラインを参照してください。
機能 | 説明 |
|---|---|
フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。 フローは、ストリーミング セマンティクスを使用してストリーミング テーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチ セマンティクスを使用してマテリアライズドビューに書き込むこともできます。 | |
ストリーミング テーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。 パイプライン内の 1 つ以上のフローのターゲットとして機能します。 | |
マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。 マテリアライズドビューはパイプラインのターゲットとして機能します。 | |
パイプラインは、ターゲットとして外部データ シンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービスや、Unity Catalog によって管理される外部テーブルが含まれます。 |
Lakeflow ジョブ
Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。Lakeflowジョブを参照してください。
機能 | 説明 |
|---|---|
ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。 | |
ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。 | |
制御フロー タスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。 |
Apache Spark向けDatabricksランタイム
Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。
機能 | 説明 |
|---|---|
Spark は、Databricks Data Intelligence Platform の中核をなすものです。 | |
構造化ストリーミングは、ストリーミング データ用の Spark のほぼリアルタイムの処理エンジンです。 |
Delta Live Tables (DLT) はどうなりましたか?
Delta Live Tables (DLT) に精通している場合は、 「Delta Live Tables (DLT) はどうなったのですか?」を参照してください。
追加のリソース
- データエンジニアリングの概念 では、 Databricksのデータエンジニアリングの概念について説明します。
- Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージ レイヤーです。
- データエンジニアリング のベストプラクティス では、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
- Databricks ノートブック は、コラボレーションと開発のための一般的なツールです。
- Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
- Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。