拡張オートスケールをDelta Live Tables Pipeline のクラスター使用率を最適化

Databricks Enhanced オートスケールは、パイプラインのデータ処理待機時間への影響を最小限に抑えながら、ワークロードの量に基づいてクラスター リソースを自動的に割り当てることで、クラスターの使用率を最適化します。

拡張オートスケールでは、Databricks クラスターのオートスケール 機能が次の機能で改善されています。

  • 拡張オートスケールは、ストリーミング・ワークロードの最適化を実装し、バッチ・ワークロードのパフォーマンスを向上させるための機能拡張を追加します。 拡張オートスケールは、ワークロードの変化に応じてマシンを追加または削除することで、コストを最適化します。

  • Enhanced オートスケールは、使用率の低いノードをプロアクティブにシャットダウンすると同時に、シャットダウン中にタスクが失敗しないようにします。 既存のクラスターオートスケール機能は、ノードがアイドル状態の場合にのみノードをスケールダウンします。

拡張オートスケールは、 Delta Live Tables UI で新しいパイプラインを作成するときの既定のオートスケール モードです。 既存のパイプラインに対して拡張オートスケールを有効にするには、UI でパイプライン設定を編集します。 Delta Live Tables API を使用してパイプラインを作成または編集するときに、拡張オートスケールを有効にすることもできます。

拡張オートスケールを有効にする

コンピュート リソースはサーバーレス パイプライン用に自動的に最適化されるため、パイプラインにサーバーレス(パブリック プレビュー) を選択した場合、Databricks Enhanced オートスケールの設定は使用できません。

サーバレス DLT パイプラインの有効化について詳しくは、Databricks アカウント チームにお問い合わせください。

拡張オートスケールを使用するには、次のいずれかの操作を行います。

  • Delta Live Tables UI でパイプラインを作成するか、パイプラインを編集するときに、 クラスターモード拡張オートスケール に設定します。

  • パイプライン クラスター構成にautoscale設定を追加し、 modeフィールドをENHANCEDに設定します。 コンピュートの設定を参照してください。

本番運用パイプラインの拡張オートスケールを構成する場合は、次のガイドラインに従います。

  • Min workers設定はデフォルトのままにしておきます。

  • Max workers設定を、予算とパイプラインの優先度に基づいた値に設定します。

次の例では、最小 5 ワーカー、最大 10 ワーカーの拡張オートスケール クラスターを構成します。 max_workersmin_workers以上である必要があります。

  • 拡張オートスケールは、 updates クラスターでのみ使用できます。 既存のオートスケール機能は、 maintenance クラスターに使用されます。

  • autoscale 構成には、次の 2 つのモードがあります。

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

パイプラインが連続実行用に構成されている場合、オートスケール構成が変更された後、パイプラインは自動的に再起動されます。 再起動後、短時間の待機時間の増加が予想されます。 この短い期間のレイテンシーの増加の後、 autoscale 設定に基づいてクラスターサイズを更新し、パイプラインレイテンシーを以前のレイテンシー特性に戻す必要があります。

モニタリング 拡張オートスケール対応パイプライン

Delta Live テーブルユーザーインターフェイスのイベントログを使用して、拡張オートスケール メトリクスを監視することができます。 拡張オートスケール・イベントには、 autoscale イベント・タイプがあります。 イベントの例を次に示します。

出来事

メッセージ

クラスターのサイズ変更要求が開始されました

Scaling [up or down] to <y> executors from current cluster size of <x>

クラスターのサイズ変更要求に成功しました

Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED

クラスターのサイズ変更要求が部分的に成功しました

Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED

クラスターのサイズ変更要求に失敗しました

Achieved cluster size <x> for cluster <cluster-id> with status FAILED

拡張オートスケール イベントを表示するには、 イベント ログを直接照会することもできます。