メインコンテンツまでスキップ

Databricks アセットバンドルを使用した CI/CD

DatabricksDatabricksではCI/CD 、 用の Asset Bundles を使用して、複雑なデータ分析の開発とデプロイを簡素化し、ML Databricksプラットフォーム用のプロジェクト することをお勧めします。バンドルを使用すると、多くのカスタム構成を簡単に管理し、プロジェクトのビルド、テスト、デプロイを自動化して、開発、ステージング、本番運用ワークスペースを Databricks できます。

CI/CDでDatabricks するその他の方法については、「CI/CD でDatabricks 」を参照してください。

Databricks アセットバンドルを Databricks の CI/CD パイプラインの一部として使用するにはどうすればよいですか?

Databricks Asset Bundle を使用して、Databricks CI/CD の実装を定義し、プログラムで管理できます (通常は次のものが含まれます)。

  • ノートブック: Databricks ノートブックは、多くの場合、 データエンジニアリング およびデータサイエンス ワークフローの重要な部分です。 ノートブックのバージョン管理を使用し、CI/CD パイプラインの一部として検証およびテストすることもできます。 ノートブックに対して自動テストを実行して、期待どおりに機能しているかどうかを確認できます。
  • ライブラリ : デプロイされたコードを実行するために必要な ライブラリの依存関係 を管理します。 ライブラリのバージョン管理を使用し、自動テストと検証にライブラリを含めます。
  • ワークフロー : Databricks ジョブ は、ノートブックまたは Spark ジョブを使用して自動化されたタスクをスケジュールおよび実行できるジョブで構成されています。
  • データパイプライン: データパイプラインを宣言するための フレームワークであるCI/CD DLTを使用して、Databricks 自動化にデータパイプラインを含めることもできます。
  • インフラストラクチャ : インフラストラクチャ構成には、ターゲット環境のクラスター、ワークスペース、およびストレージの定義とプロビジョニング情報が含まれます。 インフラストラクチャの変更は、CI/CD パイプラインの一部として検証およびテストできるため、一貫性があり、エラーがないことが保証されます。

DatabricksでのCI/CDの手順

バンドルを含む Databricks CI/CD パイプラインの一般的なフローには、次の手順が含まれます。

  1. ストア : Databricks のコードとノートブックを Git などのバージョン管理システムに保存します。これにより、時間の経過に伴う変更を追跡し、他のチーム メンバーと共同作業を行うことができます。「Git と Databricks の Git フォルダー (Repos) を使用した CI/CD 手法」と「バンドル Git 設定」を参照してください。
  2. コード : ワークスペース内の Databricks ノートブックで、または外部 IDE を使用してローカルでコードと単体テストを開発します。Databricks には、Databricks ワークスペースへの変更の開発とデプロイを容易にする Visual Studio Code 拡張機能 が用意されています。
  3. Build : アセットバンドルの設定を使用して Databricks デプロイ中に特定のアーティファクトを自動的にビルドします。 アーティファクトを参照してください。さらに、DatabricksLabs の pylint プラグイン で拡張された Pylint は、Databricks ノートブックとアプリケーションコードのコーディング標準を適用し、バグを検出するのに役立ちます。
  4. デプロイ : Databricks Asset Bundles と Azure DevOps、Jenkins、GitHub Actions などのツールを組み合わせて、Databricks ワークスペースに変更をデプロイします。「Databricks アセット バンドルのデプロイ モード」を参照してください。GitHub Actions の例については、「 GitHub Actions」を参照してください。
  5. テスト : 自動テストを開発して実行し、 pytest などのツールを使用してコードの変更を検証します。ワークスペース APIsとの統合をテストするには、 Databricks Labs pytest プラグイン を使用してワークスペース オブジェクトを作成し、テストの終了後にクリーンアップできます。
  6. 実行 : Databricks CLI を Databricks Asset Bundle と組み合わせて使用すると、 Databricks ワークスペースでの実行が自動化されます。 「ジョブまたはパイプラインの実行」を参照してください。
  7. 監視 : Azure Monitor や Datadog などのツールを使用して、Databricks のコードとワークフローのパフォーマンスを監視します。これにより、本番運用環境で発生する問題を特定して解決できます。
  8. 反復 : 小規模で頻繁な反復を行い、データエンジニアリングまたはデータサイエンス プロジェクトを改善および更新します。 小さな変更は、大きな変更よりもロールバックが容易です。