よくある質問

Databricks で Kafka を使用する際によく寄せられる質問。

Kafka オプションがサポートされていないか認識されないというエラーが表示されるのはなぜですか?

Kafka クライアント構成オプションを設定する際に、kafka. プレフィックスの使用を忘れた場合に、このエラーが発生します。Kafka クライアントに直接渡されるすべてのオプションは、kafka. をプレフィックスとして付ける必要があります：

以下のコードは、kafka.プレフィックスが不足している不適切なオプションを示しています。

Python
.option("security.protocol", "SASL_SSL")
.option("sasl.mechanism", "PLAIN")

以下のコードは正しいオプションを示します。

Python
.option("kafka.security.protocol", "SASL_SSL")
.option("kafka.sasl.mechanism", "PLAIN")

Spark Kafka コネクタのオプション（subscribe、startingOffsets、maxOffsetsPerTrigger など）にはプレフィックスは必要ありません。完全なオプションの一覧については、Kafkaを参照してください。

シェーディングされた Kafka クラスに関するエラーが発生するのはなぜですか?

Databricks では、シャドウ化された Kafka クラス（kafkashaded.またはshadedmskiam.で始まる）の使用が必須です。RESTRICTED_STREAMING_OPTION_PERMISSION_ENFORCEDのようなエラーが表示される場合、シェード付きクラス名を使用する必要があります。

org.apache.kafka.* クラスにはkafkashaded.プレフィックスが必要です。例えば： kafkashaded.org.apache.kafka.common.security.plain.PlainLoginModule
software.amazon.msk.* クラスにはshadedmskiam.プレフィックスが必要です。例えば： shadedmskiam.software.amazon.msk.auth.iam.IAMLoginModule

Kafka に接続すると`TimeoutException`が表示されるのはなぜですか?

一般的な原因は次のとおりです:

ネットワーク接続 : コンピュートクラスターがKafkaブローカーに到達できません。ファイアウォールルール、セキュリティグループ、VPC 構成を確認します。
ブートストラップサーバーが間違っています : kafka.bootstrap.serversホスト名とポートが正しいことを確認してください。
DNS解決：Databricks ネットワークから Kafka ブローカーのホスト名が解決できることを確認してください。
SSL/TLS の問題 : SSL を使用している場合は、証明書が正しく構成されていることを確認してください。

Private LinkまたはVPCピアリングの設定については、正しいネットワークルートが設定されていることを確認してください。

Kafka ではバッチモードとストリーミングモードのどちらを使用すればよいですか?

使用ケースによって異なります:

ストリーミングモード ( spark.readStream ): 継続的なデータ処理または低遅延の取り込みが必要な場合に使用します。
バッチモード ( spark.read ): 1 回限りのデータロード、バックフィル、またはデバッグに使用します。startingOffsetsとendingOffsetsの両方が必要です。

、、リアルタイムAvailableNow``ProcessingTimeモードなどのトリガー間隔の構成の詳細については、「構造化ストリーミングトリガー間隔の構成」を参照してください。

単一のストリームで複数の Kafka トピックを読み取ることはできますか?

はい、使用できます:

subscribe : トピックのコンマ区切りリストを指定します (例: .option("subscribe", "topic1,topic2") )。
subscribePattern : トピック名を一致させるには、Java 正規表現パターンを使用します (例: .option("subscribePattern", "topic-.*") )。

Lakeflow pipelines で Kafka を使用するにはどうすればよいですか？

Lakeflowパイプラインは、Kafkaソースを組み込みでサポートしています。

Kafkaから読み取るストリーミングテーブルを、次のコードに示すように定義できます。

Python
SQL

Python
import dlt

@dlt.table
def kafka_bronze():
  return (spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "<server:port>")
    .option("subscribe", "<topic>")
    .load()
  )

SQL
CREATE OR REFRESH STREAMING TABLE kafka_bronze AS
SELECT * FROM STREAM read_kafka(
  bootstrapServers => '<server:port>',
  subscribe => '<topic>'
);

LakeFlow Pipelines におけるストリーミングソースの詳細については、パイプラインでのデータの読み込みを参照してください。

Kafka のキーと値の列をデシリアル化するにはどうすればよいですか?

key と value の列は BINARY タイプとして返されます。DataFrame 操作を使用して、データ形式に基づいてそれらを逆シリアル化します:

文字列データ : cast("string")を使用してバイナリを文字列に変換します。
JSON データ : 文字列にキャストした後、 from_json()を使用します。from_json関数を参照してください。
Avro データ : Avro でエンコードされたデータを逆シリアル化するにはfrom_avro()を使用します。「ストリーミング Avro データの読み取りと書き込み」を参照してください。
プロトコルバッファー : protobuf データを逆シリアル化するにはfrom_protobuf()を使用します。プロトコルバッファーの読み取りと書き込みを参照してください。

べき等書き込みエラーが発生するのはなぜですか?

Databricks Runtime 13.3 LTS 以降には、デフォルトでべき等書き込みを有効にするkafka-clientsライブラリの新しいバージョンが含まれています。Kafka クラスターがバージョン 2.8.0 以下を使用しており、ACL が設定されているもののIDEMPOTENT_WRITEが有効になっていない場合、書き込みはorg.apache.kafka.common.KafkaException: Cannot execute transactional method because we are in an error stateで失敗します。

このエラーを解決するには、 Kafkaバージョン 2.8.0 以降にアップグレードするか、構造化ストリーミングライターの構成時に.option("kafka.enable.idempotence", "false")を設定します。

`KAFKA_DATA_LOSS_ERROR`とは何ですか? また、どうすれば解決できますか?

このエラーは、チェックポイントに保存されたオフセットが Kafka で使用できなくなったことを Kafka ソースが検出した場合に発生します。通常は次の理由によります。

ストリームはKafka保存期間よりも長く停止しました。
Kafka トピックデータが削除されたか、トピックが再作成されました。
Kafka ブローカーでデータ損失が発生しました。

解決するには:

データ損失が許容される場合 : .option("failOnDataLoss", "false")を設定して、ストリームが最も早い利用可能なオフセットから続行できるようにします。
データ損失が許容できない場合 : チェックポイントをリセットしてearliestオフセットから再処理するか、不足している Kafka データを復元します。

詳細については、「KAFKA_DATA_LOSS エラー条件」を参照してください。

Kafka からデータを読み取る速度を制御するにはどうすればよいですか?

maxOffsetsPerTriggerオプションを使用して、マイクロバッチごとに処理されるオフセット数 (おおよそのレコード数) を制限します。これにより、下流の処理に負担をかけたり、バックログを処理するときにメモリの問題を引き起こしたりする可能性のある大規模なバッチを回避できます。

Python
Scala
SQL

Python
df = (spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:port>")
  .option("subscribe", "<topic>")
  .option("maxOffsetsPerTrigger", 10000)
  .load()
)

Scala
val df = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:port>")
  .option("subscribe", "<topic>")
  .option("maxOffsetsPerTrigger", 10000)
  .load()

SQL
SELECT * FROM STREAM read_kafka(
  bootstrapServers => '<server:port>',
  subscribe => '<topic>',
  maxOffsetsPerTrigger => '10000'
);

または、 minPartitionsやmaxRecordsPerPartitionなどのオプションを使用して、バッチごとに作成される Spark パーティションの数を制御します。

ストリームが最新の Kafka オフセットからどれくらい遅れているかを監視するにはどうすればよいですか?

ストリーミングクエリの進行状況で利用可能なavgOffsetsBehindLatest 、 maxOffsetsBehindLatest 、およびminOffsetsBehindLatestメトリクスを使用します。これらは、サブスクライブされているすべてのトピックパーティション全体で、ストリームが最新の利用可能なオフセットからどれだけ遅れているかを報告します。Databricksのモニタリング構造化ストリーミングクエリ」を参照してください。

estimatedTotalBytesBehindLatest使用して、まだ処理されていないデータの合計バイト数を推定することもできます。

Databricks Runtime 17.1にアップグレードした後、Kafkaのオフセットラグメトリクスにゼロ以外の値が継続的に表示されるのはなぜですか？

Databricks Runtime 17.1以降では、各マイクロバッチの完了後に最新のKafkaオフセットが取得されます。データを継続的に受信するトピックでは、バックログメトリクスに小さく永続的なゼロ以外の値が表示される場合があります。これは想定される動作であり、ストリームが遅延していることを示すものではありません。

Databricks Runtime 17.0以前のバージョンでは、最新のKafkaオフセットはマイクロバッチの開始時に取得されます。ストリーミングクエリがマイクロバッチの開始時に利用可能なすべてのレコードを一貫して消費する場合、バックログメトリクスは0返す可能性があります。

値が大きい場合、または継続的に増加している場合は、ストリームが受信データに追いついていない可能性があります。Databricksのモニタリング構造化ストリーミングクエリ」を参照してください。

Kafka ストリームの初期化が遅いのはなぜですか?

Kafka ストリームでは次の処理に時間がかかります。

Kafka クラスターに接続し、メタデータを取得します。
トピックのパーティションを検出します。
初期オフセットを取得します。

オンプレミスまたはリモートの Kafka クラスターの場合、ネットワーク遅延が初期化時間に大きな影響を与える可能性があります。頻繁に再起動するトリガー/スケジュールされたパイプラインを実行している場合は、初期化のオーバーヘッドの繰り返しを回避するために、継続的なストリーミングモードの使用を検討してください。

Spark エグゼキューターを増やしても Kafka のスループットが向上しないのはなぜですか？

Kafka ブローカーが飽和状態になると、Spark エグゼキューターを追加してもスループットは向上せず、コストが増加します。

Kafka がボトルネックになっている兆候:

コアを追加してもスループットが停滞します。
Kafka ブローカーの CPU またはネットワーク使用率が高くなっています。
Spark タスクはすぐに完了しますが、新しいデータを待機します。

これを解決するには、ブローカーを追加するかパーティション数を増やして負荷を分散し、Kafka クラスターを拡張します。

Kafkaストリーミングのコストとコンピュートの使用率を最適化するにはどうすればよいですか?

マイクロバッチおよびAvailableNowモードの場合:

クラスターの適切なサイズを設定する : メトリクスを監視し、ピーク負荷に合わせて適切な固定クラスターサイズを設定します。
maxOffsetsPerTrigger使用 : 負荷の急増時にリソースの使用を制御するためにバッチサイズを制限します。
オートスケールを避けてください : ストリーミングジョブを継続的に実行し、ノードを追加または削除するとタスクの再バランスのオーバーヘッドが発生します。
データスキューの削減 : パーティションの偏りにより、一部のタスクが他のタスクよりも大幅に多くのデータを処理することになり、全体的なバッチの完了が遅くなり、アイドル状態のタスクでコンピュートリソースが浪費される混乱が生じます。よりバランスの取れた処理を実現するために、 minPartitionsオプションを使用して、大きな Kafka パーティションを小さな Spark パーティションに分割します。

リアルタイムモードでは、データ待機中にタスクがアイドル状態になる可能性があるため、コンピュートのサイジングは特に重要です。主要な考慮事項：

各タスクが複数の Kafka パーティションを処理してオーバーヘッドを削減するようにmaxPartitionsを設定します。
シャッフルを多用するジョブの場合はspark.sql.shuffle.partitionsを調整します。

集中モードのクラスターのサイズ設定に関するガイダンスについては、「コンピュートのサイズ設定」を参照してください。

トピックにデータが存在するにもかかわらず、ストリームがレコードを返さないのはなぜですか?

一般的な原因は次のとおりです:

間違ったstartingOffsets設定 : デフォルト値はlatestで、ストリームの開始後に到着した新しいデータのみを読み取ります。既存のデータを読み取るには、 startingOffsetsをearliestに設定します。
トピック名が間違っています : 正しいトピックをサブスクライブしていることを確認してください。
認証の問題 : ストリームは正常に接続されていますが、トピックから読み取る権限がありません。Kafka ACL を確認してください。
オフセットの有効期限 : ストリームが長時間停止され、チェックポイント内のオフセットの有効期限が切れた場合 (Kafka の保持によって削除された場合)、チェックポイントをリセットするか、 failOnDataLossを調整する必要がある場合があります。

Kafka オプションがサポートされていないか認識されないというエラーが表示されるのはなぜですか?​

シェーディングされた Kafka クラスに関するエラーが発生するのはなぜですか?​

Kafka に接続するとTimeoutExceptionが表示されるのはなぜですか?​

Kafka ではバッチ モードとストリーミング モードのどちらを使用すればよいですか?​

単一のストリームで複数の Kafka トピックを読み取ることはできますか?​

Lakeflow pipelines で Kafka を使用するにはどうすればよいですか？​

Kafka のキーと値の列をデシリアル化するにはどうすればよいですか?​

べき等書き込みエラーが発生するのはなぜですか?​

KAFKA_DATA_LOSS_ERRORとは何ですか? また、どうすれば解決できますか?​

Kafka からデータを読み取る速度を制御するにはどうすればよいですか?​

ストリームが最新の Kafka オフセットからどれくらい遅れているかを監視するにはどうすればよいですか?​

Databricks Runtime 17.1にアップグレードした後、Kafkaのオフセットラグメトリクスにゼロ以外の値が継続的に表示されるのはなぜですか？​

Kafka ストリームの初期化が遅いのはなぜですか?​

Spark エグゼキューターを増やしても Kafka のスループットが向上しないのはなぜですか？​

Kafkaストリーミングのコストとコンピュートの使用率を最適化するにはどうすればよいですか?​

トピックにデータが存在するにもかかわらず、ストリームがレコードを返さないのはなぜですか?​