メインコンテンツまでスキップ

Databricks によるデータエンジニアリング

Databricks は、データエンジニア、ソフトウェア開発者、 SQL 開発者、アナリスト、および データサイエンティスト がダウンストリーム アナリティクス、 AI、および運用アプリケーション向けの高品質なデータを提供できるようにするエンドツーエンドのデータエンジニアリング ソリューションを提供します。

Databricks次の図は、Jobs、LakeFlow Connect 、DLT 、 などの データエンジニアリング システムのアーキテクチャを示しています。Databricks Runtime

Databricks データエンジニアリング overview

詳細については、次のセクションを参照してください。

機能

説明

LakeFlow Connect

一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 これらのコネクタのサブセットは、マネージド コネクタとして使用できます。マネージド コネクタは、シンプルな UI と構成ベースのインジェスト サービスを提供し、運用上のオーバーヘッドを最小限に抑え、基になる DLT APIs とインフラストラクチャを使用する必要はありません。

詳細については、以下を参照してください。

DLT

効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを軽減する宣言型フレームワーク。パフォーマンスが最適化された でDLT 実行され、 フローDatabricks Runtime はDLT APIおよび構造化ストリーミングと同じDataFrameAPI を使用します。Apache Sparkフローは、ストリーミングセマンティクスを使用して Kafka トピックなどのストリーミングテーブルやシンクに書き込むことも、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。さらに、 DLT は、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをパイプラインとしてカプセル化して実行することにより、それらの実行を自動的に調整します。

詳細については、以下を参照してください。

ジョブ

あらゆるデータや AI ワークロードに対して、信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。

詳細については、以下を参照してください。

Databricks Runtime for Apache Spark

バッチやストリーミングなどの Spark ワークロードを実行するための、信頼性が高くパフォーマンスが最適化されたコンピュート環境です。 Databricks RuntimePhoton、高性能なDatabricks ネイティブベクトル化クエリエンジンである 、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks Runtime で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。

詳細については、以下を参照してください。

追加のリソース