Auto Loaderファイル検出モードの比較
Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。
ディレクトリ一覧表示モード
ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、Auto Loader は、ファイルが語彙順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要なAPI呼び出しの量を大幅に削減できます。詳細については Auto Loader ディレクトリリストモードを使用したストリーム を参照してください。
ファイル通知モード (推奨)
ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。 問題のファイルを含む外部ロケーションで ファイル・イベント を有効にする場合、 Auto Loader ストリームを設定するときに追加の許可を指定する必要はありません。
ファイル・イベントを使用したファイル通知モードは、ディレクトリー・リストよりもパフォーマンスと拡張性に優れています。Databricks では、ほとんどのワークロードで、ディレクトリ一覧表示モードではなく、ファイル イベントを使用したファイル通知モードをお勧めします。現在、ディレクトリ・リスト・モードで Auto Loader を使用している場合は、パフォーマンスの大幅な向上を確認するために Databricks 、mfile イベントを使用してファイル通知モードに移行することをお勧めします。 ファイル通知モードでのAuto Loaderストリームの構成を参照してください。
モードでサポートされているクラウドストレージ
次の表に、各ファイル検出モードでサポートされているコンピュートを、クラウドストレージプロバイダー別にリストしています。
外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。
クラウドストレージ | ディレクトリ一覧 | ファイルイベントのないファイル通知 | ファイルイベントを含むファイル通知 |
---|---|---|---|
AWS S3の | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
ADLSの | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
GCSの | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
Azure Blobストレージ | すべてのバージョン | すべてのバージョン | サポートされていません |
DBFS | すべてのバージョン | マウントポイントのみ | Databricks Runtime 14.3 LTS 以降 (DBFS マウント ポイントに Unity Catalogで定義された外部ロケーションがある場合 |
Unity Catalog ボリューム | Databricks Runtime 13.3 LTS 以降 | サポートされていません | Databricks Runtime 14.3 LTS 以降 |