Databricks によるデータエンジニアリング
Databricks は、データエンジニア、ソフトウェア開発者、 SQL 開発者、アナリスト、および データサイエンティスト がダウンストリーム アナリティクス、 AI、および運用アプリケーション向けの高品質なデータを提供できるようにするエンドツーエンドのデータエンジニアリング ソリューションを提供します。
Databricks次の図は、Jobs、LakeFlow Connect 、DLT 、 などの データエンジニアリング システムのアーキテクチャを示しています。Databricks Runtime
詳細については、次のセクションを参照してください。
機能 | 説明 |
---|---|
一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 これらのコネクタのサブセットは、マネージド コネクタとして使用できます。マネージド コネクタは、シンプルな UI と構成ベースのインジェスト サービスを提供し、運用上のオーバーヘッドを最小限に抑え、基になる DLT APIs とインフラストラクチャを使用する必要はありません。 詳細については、以下を参照してください。 | |
効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを軽減する宣言型フレームワーク。パフォーマンスが最適化された でDLT 実行され、 フローDatabricks Runtime はDLT APIおよび構造化ストリーミングと同じDataFrameAPI を使用します。Apache Sparkフローは、ストリーミングセマンティクスを使用して Kafka トピックなどのストリーミングテーブルやシンクに書き込むことも、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。さらに、 DLT は、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをパイプラインとしてカプセル化して実行することにより、それらの実行を自動的に調整します。 詳細については、以下を参照してください。 | |
あらゆるデータや AI ワークロードに対して、信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。 詳細については、以下を参照してください。 | |
バッチやストリーミングなどの Spark ワークロードを実行するための、信頼性が高くパフォーマンスが最適化されたコンピュート環境です。 Databricks RuntimePhoton、高性能なDatabricks ネイティブベクトル化クエリエンジンである 、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks Runtime で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。 詳細については、以下を参照してください。 |
追加のリソース
- データエンジニアリング concepts では、 Databricksのデータエンジニアリングの概念について説明します。
- Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージ レイヤーです。
- データエンジニアリング のベストプラクティス では、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
- Databricks ノートブック は、コラボレーションと開発のための一般的なツールです。
- Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
- Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。