Delta Live Tablesパイプラインの構成を管理する
Delta Live Tables は、インフラストラクチャ管理、タスク オーケストレーション、エラー回復、パフォーマンス最適化などの運用上の複雑さを自動化するため、多くのパイプラインを最小限の手動構成で実行できます。 ただし、Delta Live Tables を使用すると、デフォルト以外の構成を必要とするパイプラインの構成を管理したり、パフォーマンスとリソースの使用を最適化したりすることもできます。 Delta Live Tablesこれらの記事では、パイプラインの実行方法を決定する設定、パイプラインを実行するコンピュートのオプション、Python ライブラリなどの外部依存関係の管理など、 パイプラインの構成の管理について詳しく説明します。
サーバレス コンピュートを使用してフル モニタリング パイプラインを実行します
信頼性が高くフルマネージドなコンピュートリソースを使用してパイプラインを実行するには、サーバーレス DLT パイプラインを使用します。 サーバーレス コンピュートを使用すると、パイプラインを実行するコンピュートは、パイプラインの実行に必要なリソースに基づいて自動的に最適化され、スケールアップおよびスケールダウンされます。 サーバレス DLT パイプラインは、マテリアライズド ビューの増分更新、コンピュート リソースの起動時間の高速化、ストリーミング ワークロードの処理の改善など、パフォーマンスを向上させる追加機能をサポートしています。 「サーバーレス コンピュートを使用したDelta Live Tablesを使用してフルマネージド パイプラインを作成する」を参照してください。
パイプライン設定を管理する
Delta Live Tables パイプラインの構成には、パイプラインを実装するソース コードを定義する設定が含まれます。 また、パイプライン インフラストラクチャ、依存関係の管理、更新の処理方法、ワークスペースでのテーブルの保存方法を制御する設定も含まれます。 ほとんどの構成はオプションですが、注意が必要な構成もあります。
パイプラインの構成オプションとその使用方法については、 「 Delta Live Tablesのパイプライン設定を構成する」を参照してください。
Delta Live Tables設定、テーブルの管理方法を制御するプロパティ、および設定できないコンピュート オプションの詳細な仕様については、 Delta Live Tablesプロパティ リファレンス」を参照してください。
Pythonを使用するパイプラインの外部依存関係を管理する
Delta Live Tables は、Python パッケージやライブラリなどのパイプラインでの外部依存関係の使用をサポートしています。 依存関係の使用に関するオプションと推奨事項については、 「Delta Live Tables パイプラインの Python 依存関係の管理」を参照してください。
Pythonに保存されているDatabricks モジュールを使用する
Databricks ノートブックに Python コードを実装するだけでなく、Databricks Git フォルダーまたはワークスペース ファイルを使用して、コードを Python モジュールとして保存することもできます。 コードをPythonモジュールとして保存することは、複数の パイプラインで使用したい共通の機能がある場合や、同じ パイプライン内の DLL がある場合に特に便利です。 パイプラインで Python モジュールを使用する方法については、 「Git フォルダーまたはワークスペース ファイルから Python モジュールをインポートする」を参照してください。
パイプラインコンピュートの使用率を最適化
拡張オートスケールを使用して、パイプラインのクラスター使用率を最適化します。 拡張オートスケールは、システムがそれらのリソースによってパイプライン処理速度が向上すると判断した場合にのみ、リソースを追加します。 リソースは不要になると解放され、すべてのパイプラインの更新が完了するとすぐにクラスターはシャットダウンされます。
構成の詳細を含む拡張オートスケールの詳細については、「拡張オートスケールを使用してDelta Live Tables Pipeline のクラスター使用率を最適化する」を参照してください。