Auto Loaderファイル検出モードの比較
Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。
Auto Loaderは、ファイル検出モードに関わらず、ファイルの検出または処理の順序を保証しません。ファイルの到着順が前後する場合でも処理できるようにパイプラインを設計してください。手順については、 「順不同データの処理」を参照してください。
ディレクトリ一覧表示モード
ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。
Databricks Runtime 9.1以降では、Auto Loaderがクラウドストレージにファイルが字句順で到着しているかどうかを自動的に検出し、新しいファイルを検出するために必要なAPI呼び出しの数を大幅に削減できます。詳細については、 「ディレクトリ一覧モードでのAuto Loaderストリームの構成」を参照してください。
ファイル通知モード (推奨)
ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。 問題のファイルを含む外部ロケーションで ファイル・イベント を有効にする場合、 Auto Loader ストリームを設定するときに追加の許可を指定する必要はありません。
ファイル イベントを使用したファイル通知モードは、ディレクトリ リストよりもパフォーマンスとスケーラビリティに優れています。Databricks では、ほとんどのワークロードに対して、ディレクトリ一覧モードではなく、ファイル イベントを使用するファイル通知モードを推奨しています。現在、ディレクトリ一覧モードで Auto Loader を使用している場合、Databricks では、パフォーマンスの大幅な向上を確認するために、ファイル イベントを使用してファイル通知モードに移行することをお勧めします。「ファイル通知モードでの Auto Loader ストリームの構成」を参照してください。
モードでサポートされているクラウドストレージ
次の表に、各ファイル検出モードでサポートされているコンピュートを、クラウドストレージプロバイダー別にリストしています。
外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。
クラウドストレージ | ディレクトリ一覧 | ファイルイベントのないファイル通知 | ファイルイベントを含むファイル通知 |
|---|---|---|---|
AWS S3の | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
ADLSの | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
GCSの | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
Azure Blobストレージ | すべてのバージョン | すべてのバージョン | サポートされていません |
DBFS | すべてのバージョン | マウントポイントのみ | Databricks Runtime 14.3 LTS 以降 (DBFS マウント ポイントに Unity Catalogで定義された外部ロケーションがある場合 |
Unity Catalog ボリューム | Databricks Runtime 13.3 LTS 以降 | サポートされていません | Databricks Runtime 14.3 LTS 以降 |