Auto Loader よくある質問(FAQ)

Databricks Auto Loaderに関するよくある質問 .

ファイルが追加または上書きされた場合、 Auto Loader ファイルを再度処理しますか?

デフォルト設定(cloudFiles.allowOverwrites = false)では、ファイルは一度だけ処理されます。ファイルが追加または上書きされた場合、 Auto Loader はどのファイルバージョンが処理されるかを保証できません。ファイルが追加または上書きされたときに Auto Loader がファイルを再度処理できるようにするには、 cloudFiles.allowOverwrites を trueに設定します。この場合、 Auto Loader はファイルの最新バージョンを処理することが保証されます。ただし、 Auto Loader はどの中間バージョンが処理されるかを保証することはできません。

ファイル通知モードで cloudFiles.allowOverwrites を有効にする場合は注意してください。ファイル通知モードでは、 Auto Loader ファイル通知とディレクトリ・リストの両方を通じて新しいファイルを識別する場合があります。ファイル通知イベントの時刻とファイルの変更時刻は異なる場合があるため、 Auto Loader 2 つの異なるタイムスタンプを受け取り、ファイルが更新されていない場合でも同じファイルを 2 回取り込む可能性があります。

cloudFiles.allowOverwritesを有効にすると、重複するレコードを自分で処理する必要があります。Auto Loader は、ファイルが追加されたり、部分的に更新されたりした場合でも、ファイル全体を再処理します。一般に、 Databricks Auto Loader を使用して不変ファイルのみを取り込むことと、デフォルト設定 cloudFiles.allowOverwrites = falseを使用することをお勧めします。さらに質問がある場合は、Databricks アカウントチームにお問い合わせください。

データファイルが連続して到着するのではなく、定期的に、たとえば1日1回到着する場合でも、このソースを使用する必要がありますか、また何かメリットはありますか?

この場合、 Trigger.AvailableNow (Databricks Runtime 10.4 LTS 以降で使用可能) 構造化ストリーミングジョブを設定し、予想されるファイル到着時刻の後に実行するようにスケジュールできます。Auto Loader 、更新頻度が低い場合も頻繁に更新する場合も適切に機能します。最終的な更新が非常に大きい場合でも、 Auto Loader は入力サイズに適切にスケーリングされます。 Auto Loaderの効率的なファイル検出手法とスキーマ進化機能により、 Auto Loader はインクリメンタルデータ取り込みの推奨方法となっています。

ストリームの再開時にチェックポイントの場所を変更するとどうなりますか?

チェックポイントの場所は、ストリームの重要な識別情報を保持します。チェックポイントの場所を実質的に変更するということは、前のストリームを放棄して新しいストリームを開始したことを意味します。

事前にイベント通知サービスを作成する必要がありますか?

いいえ。ファイル通知モードを選択し、必要なアクセス許可を指定すると、 Auto Loader がファイル通知サービスを作成できます。「各 Auto Loader ストリームのファイル通知キューを個別に管理する (レガシ)」を参照してください。

Unity Catalogの外部ロケーションでファイル・イベントが有効になっている場合、ファイル・イベント・サービスはクラウド・プロバイダーでファイル・イベントを作成できるため、ストリームごとにファイル・イベントを作成するようにAuto Loaderを構成する必要はありません。「ファイルイベントでのファイル通知モードの使用」を参照してください。

Auto Loaderが作成したイベント通知リソースをクリーンアップするにはどうすればいいですか?

クラウドリソースマネージャーを使用して、リソースを一覧表示および破棄できます。これらのリソースは、クラウドプロバイダーの UI または APIを使用して手動で削除することもできます。

同じバケット/コンテナ上の異なる入力ディレクトリから複数のストリーミングクエリを実行できますか?

はい、親子ディレクトリでない限り実行できます。たとえば、 prod-logs/ と prod-logs/usage/ は /usage の子ディレクトリであるため、機能しません /prod-logs。

バケットまたはコンテナに既存のファイル通知がある場合、この機能を使用できますか?

はい、入力ディレクトリが既存の通知プレフィックス (上記の親子ディレクトリなど) と競合しない限り使用できます。

スキーマ Auto Loader 推論する方法

データフレームが最初に定義されると、Auto Loader はソースディレクトリを一覧表示し、最新の (ファイル変更時刻順の) 50 GB のデータまたは 1000 個のファイルを選択し、それらを使用してデータスキーマを推測します。

また、Auto Loader は、ソースディレクトリ構造を調べてパーティション列を推論し、/key=value/ 構造を含むファイルパスを探します。ソースディレクトリの構造に一貫性がない場合 (例:

base/path/partition=1/date=2020-12-31/file1.json
// inconsistent because date and partition directories are in different orders
base/path/date=2020-12-31/partition=2/file2.json
// inconsistent because the date directory is missing
base/path/partition=3/file3.json

Auto Loader パーティション列を空と推論します。 cloudFiles.partitionColumns を使用して、ディレクトリ構造から列を明示的に解析します。

ソースフォルダーが空の場合、 Auto Loader はどのように動作しますか?

ソースディレクトリが空の場合、推論を実行するためのデータがないため、 Auto Loader ではスキーマを指定する必要があります。

Autoloader はいつスキーマを推論しますか? マイクロバッチのたびに自動的に進化するのですか?

スキーマは、DataFrame がコードで最初に定義されたときに推論されます。各マイクロバッチ中に、スキーマの変更はその場で評価されます。したがって、パフォーマンスへの影響について心配する必要はありません。ストリームが再起動すると、スキーマの場所から進化したスキーマを取得し、推論によるオーバーヘッドなしで実行を開始します。

Auto Loaderスキーマ推論を使用する場合、データの取り込みにはどのような影響がありますか?

スキーマ推論は、初期スキーマ推論中に非常に大きなソースディレクトリの場合、数分かかることを想定する必要があります。それ以外の場合、ストリームの実行中に大きなパフォーマンスヒットを観察しないでください。Databricksノートブックでコードを実行すると、データスキーマのサンプリングと推論のためにディレクトリをリストAuto Loaderタイミングを指定するステータス更新を確認できます。

バグのため、不正なファイルによってスキーマが大幅に変更されました。スキーマの変更をロールバックするにはどうすればいいですか？

Databricks サポートにお問い合わせください。

ファイルが追加または上書きされた場合、 Auto Loader ファイルを再度処理しますか?​

データファイルが連続して到着するのではなく、定期的に、たとえば1日1回到着する場合でも、このソースを使用する必要がありますか、また何かメリットはありますか?​

ストリームの再開時にチェックポイントの場所を変更するとどうなりますか?​

事前にイベント通知サービスを作成する必要がありますか?​

Auto Loaderが作成したイベント通知リソースをクリーンアップするにはどうすればいいですか?​

同じバケット/コンテナ上の異なる入力ディレクトリから複数のストリーミングクエリを実行できますか?​

バケットまたはコンテナに既存のファイル通知がある場合、この機能を使用できますか?​

スキーマ Auto Loader 推論する方法​

ソース フォルダーが空の場合、 Auto Loader はどのように動作しますか?​

Autoloader はいつスキーマを推論しますか? マイクロバッチのたびに自動的に進化するのですか?​

Auto Loaderスキーマ推論を使用する場合、データの取り込みにはどのような影響がありますか?​

バグのため、不正なファイルによってスキーマが大幅に変更されました。 スキーマの変更をロールバックするにはどうすればいいですか？​