Databricks で構造化ストリーミングのバッチサイズを構成する

この記事では、アドミッションコントロールを使用して、ストリーミングクエリの一貫したバッチサイズを維持する方法について説明します。

アドミッションコントロールは、構造化ストリーミングクエリの入力レートを制限するため、一貫したバッチサイズを維持し、大規模なバッチによってスピルや連鎖的なマイクロバッチ処理の遅延が発生するのを防ぐことができます。

Databricks には、Delta Lake と Auto Loader の両方に対して、構造化ストリーミングのバッチサイズを制御するための同じオプションが用意されています。

注記

アドミッションコントロールの設定は、ストリーミングクエリのチェックポイントをリセットせずに変更できます。構造化ストリーミングクエリの変更後の回復を参照してください。

アドミッション制御設定を変更してバッチサイズを増減すると、パフォーマンスに影響します。ワークロードを最適化するには、コンピュートの設定を調整する必要がある場合があります。

maxFilesPerTrigger による入力レートの制限

設定maxFilesPerTrigger ( Auto Loaderの場合は cloudFiles.maxFilesPerTrigger ) は、各マイクロバッチで処理されるファイル数の上限を指定します。 Delta Lake と Auto Loader の両方で、デフォルトは 1000 です。(このオプションは、他のファイルソースの Apache Spark にも存在し、デフォルトによる最大値はありません。

maxBytesPerTrigger で入力レートを制限する

設定maxBytesPerTrigger ( Auto Loaderの場合は cloudFiles.maxBytesPerTrigger ) は、各マイクロバッチで処理されるデータ量の "ソフトマックス" を設定します。つまり、バッチはほぼこの量のデータを処理し、最小の入力単位がこの制限より大きい場合にストリーミングクエリを先に進めるために、制限を超えて処理する可能性があります。この設定にはデフォルトはありません。

たとえば、各マイクロバッチを 10 GB のデータに制限するために 10g などのバイト文字列を指定し、各ファイルが 3 GB の場合、Databricks はマイクロバッチで 12 GB を処理します。

複数の入力レートを一緒に設定する

maxBytesPerTrigger を maxFilesPerTriggerと組み合わせて使用すると、マイクロバッチは maxFilesPerTrigger または maxBytesPerTriggerの下限に達するまでデータを処理します。

他の構造化ストリーミングソースの入力レートの制限

Apache Kafka などのストリーミングソースには、それぞれ maxOffsetsPerTriggerなどのカスタム入力制限があります。詳細については、Lakeflowコネクトの標準コネクタを参照してください。

maxFilesPerTrigger による入力レートの制限​

maxBytesPerTrigger で入力レートを制限する​

複数の入力レートを一緒に設定する​

他の構造化ストリーミングソースの入力レートの制限​

maxFilesPerTrigger による入力レートの制限

maxBytesPerTrigger で入力レートを制限する

複数の入力レートを一緒に設定する

他の構造化ストリーミングソースの入力レートの制限