ジョブによるデータ処理と分析のワークフローの実装
Databricks ジョブを使用して、Databricks プラットフォーム上のデータ処理、機械学習、またはデータ分析パイプラインを調整できます。Databricks ジョブは、ノートブック、スクリプト、DLT パイプライン、Databricks SQL クエリ、 dbt プロジェクトなど、さまざまなワークロードの種類をサポートしています。次の記事では、 Databricks ジョブの機能とオプションを使用してデータパイプラインを実装する方法について説明します。
Databricks Asset Bundle を使用して、ジョブを定義し、プログラムで管理できます。 「Databricks アセットバンドルとは」および「Databricks アセットバンドルを使用して Databricks でジョブを開発する」を参照してください。
ジョブでの dbt 変換の使用
dbt コア プロジェクトを使用してデータ変換を行っていて、そのプロジェクトを Databricks ジョブに統合する場合、または新しい dbt 変換を作成してジョブでそれらの変換を実行する場合は、 dbt
タスクの種類を使用します。 「Databricks ジョブで dbt 変換を使用する」を参照してください。
ジョブで Python パッケージを使用する
Python wheel ファイルは、 Python アプリケーションの実行に必要なファイルをパッケージ化して配布するための標準的な方法です。 Python wheel
タスクタイプの Python wheel ファイルとしてパッケージ化された Python コードを使用するジョブを簡単に作成できます。Python wheelDatabricksジョブでの ファイルの使用 を参照してください。
JAR にパッケージ化されたコードの使用
Java や Scala などの JVM 言語で実装されたライブラリとアプリケーションは、通常、Java アーカイブ (JAR) ファイルにパッケージ化されます。 Databricks ジョブは、タスクの種類が JAR
の JAR にパッケージ化されたコードをサポートします。 「Databricks ジョブでの JAR の使用」を参照してください。
Apache Airflow でジョブをオーケストレーション
Databricks では、Databricks ジョブを使用してワークフローを調整することをお勧めします。 ただし、Apache Airflow はワークフローオーケストレーションシステムとして一般的に使用され、Databricks ジョブのネイティブサポートを提供します。 Databricks Jobsはワークフローを作成するための視覚的なUIを提供しますが、AirflowはPythonファイルを使用してデータパイプラインを定義およびデプロイします。を使用してジョブを作成および実行する例については、「Airflow Databricksを使用してジョブ を調整するApacheAirflow 」を参照してください。