本番運用ワークロードの Auto Loader を構成する

Databricksでは、本番運用でAuto Loader を実行するためのストリーミングのベストプラクティスに従うことをお勧めします。

Databricks増分データ取り込みのためにLakeflow Spark宣言型パイプラインのAuto Loader使用することをお勧めします。 Lakeflow Spark宣言型パイプラインは、 Apache Spark構造化ストリーミングの機能を拡張し、わずか数行の宣言型PythonまたはSQL記述して、本番運用品質のデータパイプラインをデプロイできるようにします。

コンピュートインフラストラクチャのオートスケーリングによるコスト削減
エクスペクテーションによるデータ品質チェック
自動スキーマ進化処理
イベントログのメトリクスを通じた監視

Auto Loaderのモニタリング

Auto Loader によって検出されたファイルのクエリ

注記

cloud_files_state 関数は、Databricks Runtime 11.3 LTS 以降で使用できます。

Auto Loader は、ストリームの状態を検査するための SQL API を提供します。 cloud_files_state 関数を使用すると、 Auto Loader ストリームによって検出されたファイルに関するメタデータを検索できます。 cloud_files_stateからクエリを実行するだけで、 Auto Loader ストリームに関連付けられたチェックポイントの場所を指定できます。

SQL
SELECT * FROM cloud_files_state('path/to/checkpoint');

ストリームの更新を聞く

Auto Loaderストリームをさらに監視するには、DatabricksApache Sparkのストリーミング Query Listener インターフェイスを使用することをお勧めします。

Auto Loader は、バッチごとにストリーミング Query Listener にメトリクスを報告します。バックログに存在するファイルの数と、 numFilesOutstanding および numBytesOutstanding メトリクスのバックログの大きさは、ストリーミングクエリ進行状況ダッシュボードの 生データ タブで確認できます。

JSON
{
  "sources": [
    {
      "description": "CloudFilesSource[/path/to/source]",
      "metrics": {
        "numFilesOutstanding": "238",
        "numBytesOutstanding": "163939124006"
      }
    }
  ]
}

Databricks Runtime 10.4 LTS以降では、ファイル通知モードを使用する場合、メトリクスには、 AWSおよびAzureの場合、クラウド上でキューに入れられたファイルイベントのおおよその数もapproximateQueueSizeとして含まれます。

コストに関する考慮事項

Auto Loader実行する場合、主なコストはコンピュートリソースとファイル検出です。

コンピュートコストを削減するために、 Databricks 、低レイテンシ要件がない限り、継続的に実行するのではなく、 LakeFlowジョブを使用してAuto Loader Trigger.AvailableNowを使用するバッチジョブとしてスケジュールすることをお勧めします。「構造化ストリーミングのトリガー間隔を構成する」を参照してください。これらのバッチジョブは、ファイル到着トリガーを使用してトリガーすることで、ファイル到着と処理の間の待ち時間をさらに短縮できます。

ファイル検出コストは、ディレクトリ一覧モードでのストレージアカウントに対するLIST操作、サブスクリプションサービスに対する API 要求、およびファイル通知モードでのキューサービスという形で発生することがあります。ファイル検出コストを削減するために、Databricks では次のことを推奨しています。

ディレクトリリストモードで Auto Loader を継続的に実行しているときに、 ProcessingTimeまたはContinuousトリガーを使用して いません 。代わりに、ファイルイベントで Auto Loader を使用してください。ファイルイベントを使用した Auto Loader の動作の詳細については、「ファイルイベントを使用した Auto Loader の概要」を参照してください。
ファイルイベントで Auto Loader を使用できない場合は、従来のファイル通知モードを使用します。このモードでは、 Auto Loaderによって作成されたリソースにタグを付け、リソースタグを使用してコストを追跡できます。

コストを削減するためにソースディレクトリにファイルをアーカイブする

注記

Databricks Runtime 16.4 LTS 以降で利用できます。

警告

cloudFiles.cleanSourceを設定すると、ソースディレクトリ内のファイルが削除または移動されます。
データ処理にforeachBatch使用する場合、 foreachBatch操作が正常に返されるとすぐに、操作でバッチ内のファイルのサブセットのみが使用された場合でも、ファイルは移動または削除の候補になります。

検出コストを削減するために、ファイルイベントで Auto Loader を使用することをお勧めします。これにより、検出が段階的に行われるため、コンピュートのコストも削減されます。

ファイルイベントを使用できず、ディレクトリリストを使用してファイルを検出する必要がある場合は、 cloudFiles.cleanSourceオプションを使用して、Auto Loader がファイルを処理した後に自動的にアーカイブまたは削除し、検出コストを削減できます。Auto Loader は処理後にソースディレクトリからファイルをクリーンアップするため、検出時にリストする必要があるファイルの数は少なくなります。

cloudFiles.cleanSource MOVEオプションとともに使用する場合、次の要件を考慮してください。

ソースディレクトリと移動先ディレクトリは両方とも、同じ外部ロケーションまたはボリュームに存在する必要があります。
ソースと宛先ディレクトリが同じ外部ロケーションにある場合は、管理ストレージ (管理ボリュームやカタログなど) を含む兄弟ディレクトリを持たないでください。このような場合、Auto Loader は宛先ディレクトリへの書き込みに必要な権限を取得できません。

Databricks では、次の場合にこのオプションを使用することをお勧めします。

ソースディレクトリには、時間の経過とともに大量のファイルが蓄積されます。
コンプライアンスまたは監査のために、処理済みのファイルを保持する必要があります ( cloudFiles.cleanSourceをMOVEに設定)。
取り込み後にファイルを削除することで、ストレージコストを削減します ( cloudFiles.cleanSourceをDELETEに設定)。DELETEモードを使用する場合、 Databricks 、 Auto Loader削除がソフト削除として機能し、構成ミスが発生した場合に使用できるように、バケットのバージョン管理を有効にすることをお勧めします。さらに、Databricks では、回復要件に基づいて、指定された猶予期間 (60 日または 90 日など) の経過後に古いソフト削除バージョンを消去するようにクラウドライフサイクルポリシーを設定することを推奨しています。

トリガーを使用する。今すぐ利用可能、レート制限あり

注記

Databricks Runtime 10.4 LTS 以降で使用できます。

Auto Loader は、Trigger.AvailableNowを使用して、Lakeflowジョブでバッチジョブとして実行するようにスケジュールできます。AvailableNowトリガーは、クエリの開始時刻Auto Loader より前に 到着したすべてのファイルを処理するようにに指示します。ストリームの開始後にアップロードされた新しいファイルは、次のトリガーまで無視されます。

Trigger.AvailableNowを使用すると、ファイル検出はデータ処理と非同期に行われ、レート制限を使用して複数のマイクロバッチ間でデータを処理できます。Auto Loader by デフォルトは、マイクロバッチごとに最大 1000 個のファイルを処理します。 cloudFiles.maxFilesPerTrigger と cloudFiles.maxBytesPerTrigger を構成して、マイクロバッチで処理するファイルの数またはバイト数を構成できます。ファイル制限はハード制限ですが、バイト制限はソフト制限であり、指定された maxBytesPerTriggerよりも多くのバイトを処理できます。両方のオプションが一緒に提供されると、 Auto Loader は制限の 1 つに達するために必要な数のファイルを処理します。

チェックポイントの場所

チェックポイントの場所は、ストリームの状態と進行状況の情報を格納するために使用されます。Databricks では、チェックポイントの場所をクラウドオブジェクトライフサイクルポリシーのない場所に設定することをお勧めします。チェックポイントの場所にあるファイルがポリシーに従ってクリーンアップされた場合、ストリームの状態は破損します。これが発生した場合は、ストリームを最初から再起動する必要があります。

ファイルイベントの追跡

Auto Loader は、RocksDB を使用してチェックポイントの場所で検出されたファイルを追跡し、厳密に 1 回のインジェストを保証します。大量または有効期間の長いインジェストストリームの場合、Databricks では Databricks Runtime 15.4 LTS 以降にアップグレードすることをお勧めします。これらのバージョンでは、 Auto Loader はストリームが開始される前に RocksDB 状態全体がダウンロードされるのを待たないため、ストリームの起動時間を短縮できます。ファイルの状態が無制限に大きくなるのを防ぐ場合は、 cloudFiles.maxFileAge オプションを使用して、特定の経過時間より古いファイルイベントを期限切れにすることも検討できます。cloudFiles.maxFileAgeに設定できる最小値は "14 days"です。RocksDB での削除は、ツームストーンエントリとして表示されます。そのため、イベントの有効期限が切れると、ストレージの使用量が一時的に増加してから、横ばいになることがあります。

警告

cloudFiles.maxFileAge は、大量のデータセットのコスト管理メカニズムとして提供されます。 cloudFiles.maxFileAgeを積極的に調整しすぎると、重複インジェストやファイルの欠落など、データ品質の問題が発生する可能性があります。したがって、 Databricks では、cloudFiles.maxFileAge に対して 90 日間などの保守的な設定を推奨します。これは、同等のデータ取り込みソリューションが推奨する設定と似ています。

cloudFiles.maxFileAgeオプションを調整しようとすると、未処理のファイルが Auto Loader によって無視されたり、既に処理済みのファイルの有効期限が切れて再処理されたりして、データが重複する可能性があります。 cloudFiles.maxFileAgeを選択する際に考慮すべき点は次のとおりです。

ストリームが長時間後に再起動すると、キューからプルされたファイル通知イベントのうち cloudFiles.maxFileAge より古いものは無視されます。同様に、ディレクトリ一覧を使用する場合、ダウンタイム中に表示された可能性のある cloudFiles.maxFileAge より古いファイルは無視されます。
ディレクトリリストモードを使用し、 cloudFiles.maxFileAgeを使用する場合 (たとえば、 "1 month"に設定されている場合は、ストリームを停止し、 cloudFiles.maxFileAge を "2 months"に設定してストリームを再開します。1 か月以上経過し、2 か月以上経過したファイルは再処理されます。

ストリームを初めて開始するときにこのオプションを設定すると、 cloudFiles.maxFileAgeより古いデータは取り込まれなくなるため、古いデータを取り込む場合は、ストリームを初めて開始するときにこのオプションを設定しないでください。ただし、このオプションは後続の実行で設定する必要があります。

cloudFiles.backfillInterval を使用して定期的なバックフィルをトリガーします。

まれに、通知メッセージの保持制限に達した場合など、通知システムのみに依存している場合に、ファイルが見落とされたり遅延したりすることがあります。データの完全性と SLA に厳しい要件がある場合は、指定した間隔で非同期バックフィルをトリガーするように cloudFiles.backfillInterval を設定することを検討してください。たとえば、毎日のバックフィルの場合は 1 日、毎週のバックフィルの場合は 1 週間に設定します。通常のバックフィルをトリガーしても、重複は発生しません。

ファイルイベントを使用する場合は、少なくとも7日に1回はストリームを実行します。

ファイルイベントを使用する場合は、ディレクトリリストがいっぱいになるのを避けるために、Auto Loader ストリームを少なくとも 7 日ごとに 1 回実行してください。Auto Loaderストリームをこのように頻繁に実行すると、ファイルの検出が増分的に行われるようになります。

包括的な管理対象ファイルイベントのベストプラクティスについては、「ファイルイベントを使用した Auto Loader のベストプラクティス」を参照してください。

Auto Loaderのモニタリング​

Auto Loader によって検出されたファイルのクエリ​

ストリームの更新を聞く​

コストに関する考慮事項​

コストを削減するためにソースディレクトリにファイルをアーカイブする​

トリガーを使用する。今すぐ利用可能、レート制限あり​

チェックポイントの場所​

ファイルイベントの追跡​

cloudFiles.backfillInterval を使用して定期的なバックフィルをトリガーします。​

ファイルイベントを使用する場合は、少なくとも7日に1回はストリームを実行します。​