メインコンテンツまでスキップ

Auto Loaderファイル検出モードの比較

Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。

ディレクトリ一覧表示モード

ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。

Databricks Runtime 9.1 以降では、Auto Loader は、ファイルが語彙順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要なAPI呼び出しの量を大幅に削減できます。詳細については Auto Loader ディレクトリリストモードを使用したストリーム を参照してください。

ファイル通知モード (推奨)

ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。 問題のファイルを含む外部ロケーションで ファイル・イベント を有効にする場合、 Auto Loader ストリームを設定するときに追加の許可を指定する必要はありません。

ファイル・イベントを使用したファイル通知モードは、ディレクトリー・リストよりもパフォーマンスと拡張性に優れています。Databricks では、ほとんどのワークロードで、ディレクトリ一覧表示モードではなく、ファイル イベントを使用したファイル通知モードをお勧めします。現在、ディレクトリ・リスト・モードで Auto Loader を使用している場合は、パフォーマンスの大幅な向上を確認するために Databricks 、mfile イベントを使用してファイル通知モードに移行することをお勧めします。 ファイル通知モードでのAuto Loaderストリームの構成を参照してください。

モードでサポートされているクラウドストレージ

次の表に、各ファイル検出モードでサポートされているコンピュートを、クラウドストレージプロバイダー別にリストしています。

外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。

クラウドストレージ

ディレクトリ一覧

ファイルイベントのないファイル通知

ファイルイベントを含むファイル通知

AWS S3の

すべてのバージョン

すべてのバージョン

Databricks Runtime 14.3 LTS 以降

ADLSの

すべてのバージョン

すべてのバージョン

Databricks Runtime 14.3 LTS 以降

GCSの

すべてのバージョン

すべてのバージョン

Databricks Runtime 14.3 LTS 以降

Azure Blobストレージ

すべてのバージョン

すべてのバージョン

サポートされていません

DBFS

すべてのバージョン

マウントポイントのみ

Databricks Runtime 14.3 LTS 以降 (DBFS マウント ポイントに Unity Catalogで定義された外部ロケーションがある場合

Unity Catalog ボリューム

Databricks Runtime 13.3 LTS 以降

サポートされていません

Databricks Runtime 14.3 LTS 以降