Databricks によるデータエンジニアリング
Databricks は、 データサイエンティスト、エンジニア、アナリスト間のコラボレーションのための堅牢な環境を含む、豊富なデータ エンジニアリング機能のセットを提供します。 その中心には、データを 取り込み 、 変換 するパイプラインがあります。最も効率的なパイプラインのエンジニアリングを容易にするために、Databricks は構造化ストリーミングと DLT を提供しています。構造化ストリーミングの概念およびDLT とはを参照してください。
構造化ストリーミングと DLT によって提供されるデータの増分ストリーム処理がデータパイプラインに最適なオプションである理由の概要については、 シンプルで効率的で低レイテンシーのデータ パイプラインを構築する方法を参照してください。
その他のデータエンジニアリングリソース
Databricks には、多くの追加シナリオに対応するデータエンジニアリング タスクの機能があります。
- Databricks ノートブック は、コラボレーションのための一般的なツールです。
- Databricks ジョブを使用してワークフローをスケジュールし、調整します。
- 機械学習ソリューションを設計している場合は、 Databricks Mosaic AI を参照してください。
注記
主に SQL クエリと BI ツールを使用する場合は、Databricks SQLを参照してください。
入門チュートリアルと入門情報については、 Databricks の概要 と Databricks とはを参照してください。
名前 | こんな場合に利用できます |
---|---|
ファイル、データベース、SaaS アプリケーションからデータを取り込む方法について説明します。 | |
Databricks DLT を使用して、インジェストと変換のためのデータパイプラインを構築する方法を学びます。 | |
Databricks の構造化ストリーミングを利用したストリーミング、インクリメンタル、リアルタイムのワークロードについて説明します。 | |
Databricks プラットフォームでのタスクのオーケストレーションについて学習します。 |