Auto Loaderファイル検出モードの比較
Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。
ディレクトリ一覧表示モード
ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、Auto Loader は、ファイルが語彙順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要なAPI呼び出しの量を大幅に削減できます。詳細についてはAuto Loaderディレクトリリストモードとはを参照してください。
ファイル通知モード
ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。 Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。
ファイル通知モードは、大規模な入力ディレクトリや大量のファイルに対してパフォーマンスと拡張性が高くなりますが、設定には追加のクラウド権限が必要です。 詳細については 、「 Auto Loader ファイル通知モードとは」を参照してください。
モードでサポートされているクラウドストレージ
これらのモードで使用できるモードは、以下のとおりです。
外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。
クラウドストレージ | ディレクトリ一覧 | ファイル通知 |
---|---|---|
AWS S3の | すべてのバージョン | すべてのバージョン |
ADLSの | すべてのバージョン | すべてのバージョン |
GCSの | すべてのバージョン | Databricks Runtime 9.1 以降 |
Azure Blobストレージ | すべてのバージョン | すべてのバージョン |
DBFS | すべてのバージョン | マウントポイントのみ |
Unity Catalog ボリューム | Databricks Runtime 13.3 LTS 以降 | サポートされていません |