Auto Loader ファイル検出モード の比較
Auto Loader では、新しいファイルを検出するために、ディレクトリ一覧とファイル通知の 2 つのモードがサポートされています。 ストリームの再起動間でファイル検出モードを切り替えても、正確に一度のデータ処理が保証されます。
ディレクトリリストモード
ディレクトリー・リスト・モードでは、 Auto Loader は入力ディレクトリーをリストすることによって新規ファイルを識別します。 ディレクトリリストモードでは、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、Auto Loader はファイルが字句順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要な API 呼び出しの量を大幅に削減できます。詳細については、「 Auto Loader ディレクトリリストモードとは」を参照してください。
ファイル通知モード
ファイル通知モードでは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを利用します。 Auto Loader 、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。
ファイル通知モードは、大きな入力ディレクトリや大量のファイルに対してよりパフォーマンスとスケーラビリティがありますが、設定するには追加のクラウド権限が必要です。 詳細については、「 Auto Loader ファイル通知モードとは」を参照してください。
モード でサポートされているクラウドストレージ
これらのモードの可用性を以下に示します。
外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。
クラウドストレージ |
ディレクトリ一覧 |
ファイル通知 |
---|---|---|
AWS S3 |
すべてのバージョン |
すべてのバージョン |
ADLS Gen2 |
すべてのバージョン |
すべてのバージョン |
GCS |
すべてのバージョン |
Databricks Runtime 9.1 以降 |
Azure Blob Storage |
すべてのバージョン |
すべてのバージョン |
ADLS Gen1 |
すべてのバージョン |
サポート |
DBFS |
すべてのバージョン |
マウントポイントのみ |
Unity Catalog ボリューム |
Databricks Runtime 13.3 LTS 以上 |
サポート |