メインコンテンツまでスキップ

Auto Loaderファイル検出モードの比較

Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。

ディレクトリ一覧表示モード

ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。

Databricks Runtime 9.1 以降では、Auto Loader は、ファイルが語彙順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要なAPI呼び出しの量を大幅に削減できます。詳細についてはAuto Loaderディレクトリリストモードとはを参照してください

ファイル通知モード

ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。 Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。

ファイル通知モードは、大規模な入力ディレクトリや大量のファイルに対してパフォーマンスと拡張性が高くなりますが、設定には追加のクラウド権限が必要です。 詳細については 、「 Auto Loader ファイル通知モードとは」を参照してください。

モードでサポートされているクラウドストレージ

これらのモードで使用できるモードは、以下のとおりです。

外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。

クラウドストレージ

ディレクトリ一覧

ファイル通知

AWS S3の

すべてのバージョン

すべてのバージョン

ADLSの

すべてのバージョン

すべてのバージョン

GCSの

すべてのバージョン

Databricks Runtime 9.1 以降

Azure Blobストレージ

すべてのバージョン

すべてのバージョン

DBFS

すべてのバージョン

マウントポイントのみ

Unity Catalog ボリューム

Databricks Runtime 13.3 LTS 以降

サポートされていません