ジョブによるデータ処理と分析のワークフローの実装

Databricks ジョブを使用して、Databricks プラットフォーム上のデータ処理、機械学習、またはデータ分析パイプラインを調整できます。Databricks ジョブは、ノートブック、スクリプト、DLT パイプライン、Databricks SQL クエリ、 dbt プロジェクトなど、さまざまなワークロードの種類をサポートしています。次の記事では、 Databricks ジョブの機能とオプションを使用してデータパイプラインを実装する方法について説明します。

ヒント

Databricks Asset Bundle を使用して、ジョブを定義し、プログラムで管理できます。「Databricks アセットバンドルとは」および「Databricks アセットバンドルを使用して Databricks でジョブを開発する」を参照してください。

ジョブでの dbt 変換の使用

dbt コアプロジェクトを使用してデータ変換を行っていて、そのプロジェクトを Databricks ジョブに統合する場合、または新しい dbt 変換を作成してジョブでそれらの変換を実行する場合は、 dbt タスクの種類を使用します。「Databricks ジョブで dbt 変換を使用する」を参照してください。

ジョブで Python パッケージを使用する

Python wheel ファイルは、 Python アプリケーションの実行に必要なファイルをパッケージ化して配布するための標準的な方法です。 Python wheelタスクタイプの Python wheel ファイルとしてパッケージ化された Python コードを使用するジョブを簡単に作成できます。Python wheelDatabricksジョブでのファイルの使用を参照してください。

JAR にパッケージ化されたコードの使用

Java や Scala などの JVM 言語で実装されたライブラリとアプリケーションは、通常、Java アーカイブ (JAR) ファイルにパッケージ化されます。 Databricks ジョブは、タスクの種類が JAR の JAR にパッケージ化されたコードをサポートします。「Databricks ジョブでの JAR の使用」を参照してください。

Apache Airflow でジョブをオーケストレーション

Databricks では、Databricks ジョブを使用してワークフローを調整することをお勧めします。ただし、Apache Airflow はワークフローオーケストレーションシステムとして一般的に使用され、Databricks ジョブのネイティブサポートを提供します。 Databricks Jobsはワークフローを作成するための視覚的なUIを提供しますが、AirflowはPythonファイルを使用してデータパイプラインを定義およびデプロイします。を使用してジョブを作成および実行する例については、「Airflow Databricksを使用してジョブを調整するApacheAirflow 」を参照してください。

ジョブでの dbt 変換の使用​

ジョブで Python パッケージを使用する​

JAR にパッケージ化されたコードの使用​

Apache Airflow でジョブをオーケストレーション​

ジョブでの dbt 変換の使用

ジョブで Python パッケージを使用する

JAR にパッケージ化されたコードの使用

Apache Airflow でジョブをオーケストレーション