Databricks によるデータエンジニアリング
Databricks は、 data scientists、エンジニア、アナリスト間のコラボレーションのための堅牢な環境を含む、豊富なデータ エンジニアリング機能のセットを提供します。 その中心には、データを 取り込み 、 変換 するパイプラインがあります。 最も効率的なパイプラインのエンジニアリングを容易にするために、 Databricks は構造化ストリーミングと Delta Live Tablesを提供しています。 「Databricks でのストリーミング」および「Delta Live Tables とは」を参照してください。
構造化ストリーミングと Delta Live Tables によって提供されるデータのインクリメンタル ストリーム処理がデータ パイプラインに最適なオプションである理由の概要については、「 インクリメンタル ストリーム処理を行う理由」を参照してください。
その他のデータエンジニアリングリソース
Databricks には、多くの追加シナリオに対応するデータエンジニアリング タスクの機能があります。
Databricks ノートブック は、コラボレーションのための一般的なツールです。
Databricks ジョブを使用してワークフローをスケジュールし、調整します。
機械学習ソリューションを設計している場合は、 Databricks Mosaic AI を参照してください。
注:
主に SQL クエリと BI ツールを使用する場合は、「 Databricks SQL」を参照してください。
入門チュートリアルと入門情報については、「 Databricks の概要 」と「 Databricks とは」を参照してください。
- Delta Live Tables
Databricks Delta Live Tablesを使用して取り込みと変換のためのデータパイプラインを構築する方法を学びます。
- 構造化ストリーミング
Databricks の構造化ストリーミングを利用したストリーミング、インクリメンタル、リアルタイムのワークロードについて説明します。