Databricks アセットバンドルを使用した CI/CD

DatabricksDatabricksではCI/CD 、用の Asset Bundles を使用して、複雑なデータ分析の開発とデプロイを簡素化し、ML Databricksプラットフォーム用のプロジェクトすることをお勧めします。バンドルを使用すると、多くのカスタム構成を簡単に管理し、プロジェクトのビルド、テスト、デプロイを自動化して、開発、ステージング、本番運用ワークスペースを Databricks できます。

CI/CDでDatabricks するその他の方法については、「CI/CD でDatabricks 」を参照してください。

Databricks アセットバンドルを Databricks の CI/CD パイプラインの一部として使用するにはどうすればよいですか?

Databricks Asset Bundle を使用して、Databricks CI/CD の実装を定義し、プログラムで管理できます (通常は次のものが含まれます)。

ノートブック： Databricks ノートブックは、多くの場合、データエンジニアリングおよびデータサイエンスワークフローの重要な部分です。ノートブックのバージョン管理を使用し、CI/CD パイプラインの一部として検証およびテストすることもできます。ノートブックに対して自動テストを実行して、期待どおりに機能しているかどうかを確認できます。
ライブラリ : デプロイされたコードを実行するために必要なライブラリの依存関係を管理します。ライブラリのバージョン管理を使用し、自動テストと検証にライブラリを含めます。
ワークフロー : Databricks ジョブは、ノートブックまたは Spark ジョブを使用して自動化されたタスクをスケジュールおよび実行できるジョブで構成されています。
データパイプライン: データパイプラインを宣言するためのフレームワークであるCI/CD DLTを使用して、Databricks 自動化にデータパイプラインを含めることもできます。
インフラストラクチャ : インフラストラクチャ構成には、ターゲット環境のクラスター、ワークスペース、およびストレージの定義とプロビジョニング情報が含まれます。インフラストラクチャの変更は、CI/CD パイプラインの一部として検証およびテストできるため、一貫性があり、エラーがないことが保証されます。

DatabricksでのCI/CDの手順

バンドルを含む Databricks CI/CD パイプラインの一般的なフローには、次の手順が含まれます。

ストア : Databricks のコードとノートブックを Git などのバージョン管理システムに保存します。これにより、時間の経過に伴う変更を追跡し、他のチームメンバーと共同作業を行うことができます。「Git と Databricks の Git フォルダー (Repos) を使用した CI/CD 手法」と「バンドル Git 設定」を参照してください。
コード : ワークスペース内の Databricks ノートブックで、または外部 IDE を使用してローカルでコードと単体テストを開発します。Databricks には、Databricks ワークスペースへの変更の開発とデプロイを容易にする Visual Studio Code 拡張機能が用意されています。
Build : アセットバンドルの設定を使用して Databricks デプロイ中に特定のアーティファクトを自動的にビルドします。アーティファクトを参照してください。さらに、Databricks Labs の pylint プラグインで拡張された Pylint は、Databricks ノートブックとアプリケーションコードのコーディング標準を適用し、バグを検出するのに役立ちます。
デプロイ : Databricks Asset Bundles と Azure DevOps、Jenkins、GitHub Actions などのツールを組み合わせて、Databricks ワークスペースに変更をデプロイします。「Databricks アセットバンドルのデプロイモード」を参照してください。GitHub Actions の例については、「 GitHub Actions」を参照してください。
テスト : 自動テストを開発して実行し、 pytest などのツールを使用してコードの変更を検証します。ワークスペース APIsとの統合をテストするには、 Databricks Labs pytest プラグインを使用してワークスペースオブジェクトを作成し、テストの終了後にクリーンアップできます。
実行 : Databricks CLI を Databricks Asset Bundle と組み合わせて使用すると、 Databricks ワークスペースでの実行が自動化されます。「ジョブまたはパイプラインの実行」を参照してください。
監視 : Azure Monitor や Datadog などのツールを使用して、Databricks のコードとワークフローのパフォーマンスを監視します。これにより、本番運用環境で発生する問題を特定して解決できます。
反復 : 小規模で頻繁な反復を行い、データエンジニアリングまたはデータサイエンスプロジェクトを改善および更新します。小さな変更は、大きな変更よりもロールバックが容易です。

Databricks アセットバンドルを Databricks の CI/CD パイプラインの一部として使用するにはどうすればよいですか?​

DatabricksでのCI/CDの手順​

Databricks アセットバンドルを Databricks の CI/CD パイプラインの一部として使用するにはどうすればよいですか?

DatabricksでのCI/CDの手順