ジョブによるデータ処理と分析ワークフローの実装

Databricks ジョブを使用して、Databricks プラットフォーム上のデータ処理、機械学習、またはデータ分析のパイプラインを調整できます。 Databricks ジョブでは、ノートブック、スクリプト、Delta Live Tables パイプライン、Databricks SQL クエリー、 dbt プロジェクトなど、さまざまな種類のワークロードがサポートされています。次の記事では、Databricks ジョブの機能とオプションを使用してデータパイプラインを実装する方法について説明します。

Databricksジョブによるデータ変換、分析、可視化

ジョブを使用して、データの取り込み、変換、分析、可視化を行うデータパイプラインを作成できます。DatabricksジョブでDatabricks SQLを使用する例では、次のようなパイプラインを構築します：

PythonスクリプトでREST APIを使用してデータをフェッチします。
Delta Live Tablesを使用して、フェッチされたデータを取り込み、変換し、変換されたデータをDelta Lakeに保存します。
ジョブとDatabricks SQLの統合を使用して、変換されたデータを分析し、結果を可視化するグラフを作成します。

ジョブでdbt変換を使用する

dbtコアプロジェクトでデータ変換を行っていて、そのプロジェクトをDatabricksジョブに統合する場合や、新しいdbt変換を作成してジョブでそれらの変換を実行する場合は、 dbtタスクタイプを使用します。Databricksジョブでdbt変換を使用するを参照してください。

ジョブでPythonパッケージを使用する

Python wheelファイルは、 Pythonアプリケーションの実行に必要なファイルをパッケージ化して配布する標準的な方法です。タスクタイプのファイルとしてパッケージ化されたコードを使用するジョブを簡単に作成できます。PythonPython wheelPython wheelPython wheelDatabricksジョブでのファイルの使用」を参照してください。

JARにパッケージされたコードを使用する

JavaやScalaなどのJVM言語で実装されたライブラリやアプリケーションは、一般的にJavaアーカイブ（JAR）ファイルにパッケージ化されます。Databricksジョブは、JARタスクタイプのJARにパッケージ化されたコードをサポートします。DatabricksジョブでJARを使用するを参照してください。

ノートブックまたは中央リポジトリで管理されるPythonコードを使用する

本番運用アーティファクトのバージョン管理とコラボレーションを管理する一般的な方法は、GitHub などの中央リポジトリを使用することです。 Databricks ジョブは、GitHub や Databricks Git フォルダーなどのリポジトリからインポートされたノートブックまたは Python コードを使用したジョブの作成と実行をサポートします。「Databricks ジョブでバージョン管理されたソースコードを使用する」を参照してください。

Apache Airflowによるジョブのオーケストレーション

Databricksでは、ワークフローのオーケストレーションにDatabricks Jobsを使用することを推奨しています。ただし、Apache Airflowはワークフローオーケストレーションシステムとして一般的に使用され、Databricksジョブのネイティブサポートを提供します。Databricks Jobsがワークフローを作成するためのビジュアルUIを提供するのに対して、AirflowはPythonファイルを使用してデータパイプラインを定義し、デプロイします。Airflowによるジョブの作成と実行の例については、Apache AirflowでDatabricksジョブをオーケストレーションを参照してください。