Auto Loader ファイル検出モード の比較

Auto Loader では、新しいファイルを検出するために、ディレクトリ一覧とファイル通知の 2 つのモードがサポートされています。 ストリームの再起動間でファイル検出モードを切り替えても、正確に一度のデータ処理が保証されます。

ディレクトリリストモード

ディレクトリー・リスト・モードでは、 Auto Loader は入力ディレクトリーをリストすることによって新規ファイルを識別します。 ディレクトリリストモードでは、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。

Databricks Runtime 9.1 以降では、Auto Loader はファイルが字句順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要な API 呼び出しの量を大幅に削減できます。詳細については、「 Auto Loader ディレクトリリストモードとは」を参照してください。

ファイル通知モード

ファイル通知モードでは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを利用します。 Auto Loader 、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。

ファイル通知モードは、大きな入力ディレクトリや大量のファイルに対してよりパフォーマンスとスケーラビリティがありますが、設定するには追加のクラウド権限が必要です。 詳細については、「 Auto Loader ファイル通知モードとは」を参照してください。

モード でサポートされているクラウドストレージ

これらのモードの可用性を以下に示します。

外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。

クラウドストレージ

ディレクトリ一覧

ファイル通知

AWS S3

すべてのバージョン

すべてのバージョン

ADLS Gen2

すべてのバージョン

すべてのバージョン

GCS

すべてのバージョン

Databricks Runtime 9.1 以降

Azure Blob Storage

すべてのバージョン

すべてのバージョン

ADLS Gen1

すべてのバージョン

サポート

DBFS

すべてのバージョン

マウントポイントのみ

Unity Catalog ボリューム

Databricks Runtime 13.3 LTS 以上

サポート