構造化ストリーミングのリアルタイムモード

備考

プレビュー

このページでは、5 ミリ秒というエンドツーエンドの待機時間で超低遅延のデータ処理を可能にする構造化ストリーミングのトリガータイプであるリアルタイムモードについて説明します。このモードは、ストリーミングデータへの即時の応答が必要な運用ワークロード向けに設計されています。

リアルタイムモードは、Databricks Runtime 16.4 LTS 以降で使用できます。

運用ワークロード

ストリーミングワークロードは、分析ワークロードと運用ワークロードに大きく分けることができます。

分析ワークロードでは、通常はメダリオンアーキテクチャに従ってデータ取り込みと変換を使用します (たとえば、ブロンズ、シルバー、ゴールドのテーブルにデータを取り込むなど)。
運用ワークロードは、リアルタイムデータを消費し、ビジネスロジックを適用し、ダウンストリームのアクションや決定をトリガーします。

運用ワークロードの例を次に示します。

不正行為のスコアがしきい値を超えた場合に、異常な場所、大規模な取引サイズ、急速な支出パターンなどの要因に基づいて、クレジットカード取引をリアルタイムでブロックまたはフラグを立てます。
クリックストリームデータでユーザーがジーンズを5分間閲覧していた場合にプロモーションメッセージを配信し、その後15分以内に購入した場合は25%の割引を提供します。

一般に、運用ワークロードは、1秒未満のエンドツーエンドのレイテンシーの必要性によって特徴付けられます。これは、 Apache Spark 構造化ストリーミングのリアルタイムモードで実現できます。

リアルタイムモードが低遅延を実現する方法

リアルタイムモードは、次の方法で実行アーキテクチャを改善します。

実行時間の長いバッチ (デフォルトは 5 分) を実行し、ソースでデータが使用可能になったときに処理されます。
クエリのすべてのステージは同時にスケジュールされます。これには、使用可能なタスクスロットの数が、バッチ内のすべてのステージのタスクの数以上である必要があります。
データは、ストリーミングシャッフルを使用して生成されるとすぐにステージ間で渡されます。

処理が終了すると、バッチ次の開始前に、ストリーミングチェックポイントが進行し、最後のパケットのメトリクス使用可能になります。バッチが長い場合、これらのアクティビティの頻度が低くなり、障害が発生した場合の再生時間が長くなり、メトリクスの可用性が遅れる可能性があります。一方、バッチが小さい場合、これらのアクティビティの頻度が高くなり、レイテンシーに影響を与える可能性があります。Databricks では、ターゲットワークロードと要件に対してリアルタイムモードをベンチマークし、適切なトリガー間隔を見つけることをお勧めします。

クラスター構成

構造化ストリーミングでリアルタイムモードを使用するには、クラシックなLakeflow ジョブを構成する必要があります

Databricks ワークスペースで、左上隅にある新規をクリックします。 その他 を選択し、 クラスター をクリックします。
Photonのアクセラレーション をクリアします。
「オートスケールを有効にする」 をクリアします。
高度なパフォーマンス で、 Use spot workers をオフにします。
Advanced の アクセスモード で、手動をクリックし、 専用(旧称:シングルユーザー) を選択します。
Spark で、 Spark構成 に次のように入力します。
```
spark.databricks.streaming.realTimeMode.enabled true
```
作成をクリックします。

クラスターサイズの要件

クラスターに十分なタスクスロットがある場合は、クラスターごとに 1 つのリアルタイムジョブを実行できます。

低遅延モードで実行するには、使用可能なタスクスロットの合計数が、すべてのクエリステージのタスク数以上である必要があります。

スロット計算の例

シングルステージのステートレスパイプライン(Kafka ソース + シンク):

maxPartitions = 8 の場合、少なくとも 8 つのスロットが必要です。maxPartitions が設定されていない場合は、Kafka トピックパーティションの数を使用します。

2 段階のステートフルパイプライン (Kafka ソース + シャッフル):

maxPartitions = 8 でパーティションのシャッフル = 20 の場合、8 + 20 = 28 スロットが必要です。

3 段階のパイプライン (Kafka ソース + シャッフル + 再パーティション):

maxPartitions = 8 で、それぞれ 20 の 2 つのシャッフルステージの場合、8 + 20 + 20 = 48 スロットが必要です。

主な考慮事項

クラスターを設定するときは、次の点を考慮してください。

マイクロバッチモードとは異なり、リアルタイムタスクはデータを待っている間、アイドル状態のままになる可能性があるため、リソースの浪費を避けるためには、適切なサイジングが不可欠です。
目標使用率レベル (50% など) を目指すには、次のように調整します。
- maxPartitions ( Kafka対象)
- spark.sql.shuffle.partitions (シャッフルステージ用)
Databricks では、オーバーヘッドを減らすために、各タスクが複数の Kafka パーティションを処理するように maxPartitions を設定することをお勧めします。
ワーカーごとにタスクスロットを調整して、単純な 1 ステージジョブのワークロードに一致させます。
シャッフルを多用するジョブの場合、エクスペリメントはバックログを回避し、そこから調整するシャッフルパーティションの最小数を見つけます。クラスターに十分なスロットがない場合、ジョブはスケジュールされません。

注記

Databricks Runtime 16.4 LTS 以降では、すべてのリアルタイムパイプラインでチェックポイント v2 が使用され、リアルタイムモードとマイクロバッチモードをシームレスに切り替えることができます。

クエリ構成

リアルタイムトリガーを有効にして、クエリを低遅延モードで実行するように指定する必要があります。さらに、リアルタイムトリガーは更新モードでのみサポートされます。例えば：

Python
Scala

Python
query = (
    spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", broker_address)
        .option("subscribe", input_topic)
        .load()
        .writeStream
        .format("kafka")
        .option("kafka.bootstrap.servers", broker_address)
        .option("topic", output_topic)
        .option("checkpointLocation", checkpoint_location)
        .outputMode("update")
        # in PySpark, realTime trigger requires you to specify the interval.
        .trigger(realTime="5 minutes")
        .start()
)

Scala
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

val readStream = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic).load()
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .outputMode("update")
      .trigger(RealTimeTrigger.apply())
      // RealTimeTrigger can also accept an argument specifying the checkpoint interval.
      // For example, this code indicates a checkpoint interval of 5 minutes:
      // .trigger(RealTimeTrigger.apply("5 minutes"))
      .start()

オブザーバビリティ

以前は、エンドツーエンドのクエリレイテンシはバッチのデュテンシと密接に関連していたため、バッチのデュテンシはクエリのレイテンシの良い指標となっていました。ただし、この方法はリアルタイムモードでは適用されなくなり、レイテンシを測定するための別のアプローチが必要になります。エンドツーエンドのレイテンシはワークロードに固有であり、ビジネスロジックでしか正確に測定できない場合があります。たとえば、ソースのタイムスタンプが Kafka で出力される場合、レイテンシは Kafka の出力タイムスタンプとソースのタイムスタンプの差として計算できます。

エンドツーエンドのレイテンシは、ストリーミングプロセス中に収集された部分的な情報に基づいて、いくつかの方法で見積もることができます。

StreamingQueryProgress を使用する

次のメトリクスは StreamingQueryProgress イベントに含まれており、ドライバーログに自動的に記録されます。また、 StreamingQueryListenerの onQueryProgress() コールバック関数からアクセスすることもできます。QueryProgressEvent.json() または toString() には、追加のリアルタイムモードメトリクスが含まれています。

処理レイテンシ (processingLatencyMs)。 リアルタイム・モード・クエリがレコードを読み取ってから、次のステージまたはダウンストリームに書き込まれるまでの経過時間。シングルステージクエリの場合、これはE2Eレイテンシと同じ期間を測定します。このメトリクスは、タスクごとに報告されます。
ソースキューイング遅延 (sourceQueuingLatencyMs)。 レコードがメッセージバスに正常に書き込まれてから (Kafka のログ追加時間など) から、レコードがリアルタイムモードクエリによって最初に読み取られるまでにかかった時間。このメトリクスは、タスクごとに報告されます。
E2E 遅延 (e2eLatencyMs)。 レコードがメッセージ・バスに正常に書き込まれてから、レコードがリアルタイム・モード・クエリによってダウンストリームに書き込まれるまでの時間。このメトリクスは、すべてのタスクによって処理されたすべてのレコードのバッチごとに集計されます。

例えば：

"rtmMetrics" : {
    "processingLatencyMs" : {
      "P0" : 0,
      "P50" : 0,
      "P90" : 0,
      "P95" : 0,
      "P99" : 0
    },
    "sourceQueuingLatencyMs" : {
      "P0" : 0,
      "P50" : 1,
      "P90" : 1,
      "P95" : 2,
      "P99" : 3
    },
    "e2eLatencyMs" : {
      "P0" : 0,
      "P50" : 1,
      "P90" : 1,
      "P95" : 2,
      "P99" : 4
    },

ジョブで Observe API を使用する

Observe API は、別のジョブを起動せずにレイテンシを測定するのに役立ちます。ソースデータの到着時刻を概算したソースタイムスタンプがあり、シンクに到達する前にそのタイムスタンプが渡された場合、またはタイムスタンプを渡す方法が見つかった場合は、Observe API を使用して各バッチのレイテンシを見積もることができます。

Python
Scala

Python
from datetime import datetime

from pyspark.sql.functions import avg, col, lit, max, percentile_approx, udf, unix_millis
from pyspark.sql.types import TimestampType

@udf(returnType=TimestampType())
def current_timestamp():
  return datetime.now()

# Query before outputting
.withColumn("temp-timestamp", current_timestamp())
.withColumn(
  "latency",
  unix_millis(col("temp-timestamp")).cast("long") - unix_millis(col("timestamp")).cast("long"))
.observe(
  "observedLatency",
  avg(col("latency")).alias("avg"),
  max(col("latency")).alias("max"),
  percentile_approx(col("latency"), lit(0.99), lit(150)).alias("p99"),
  percentile_approx(col("latency"), lit(0.5), lit(150)).alias("p50"))
.drop(col("latency"))
.drop(col("temp-timestamp"))
# Output part of the query. For example, .WriteStream, etc.

Scala
import org.apache.spark.sql.functions.{avg, col, lit, max, percentile_approx, udf, unix_millis}

val currentTimestampUDF = udf(() => System.currentTimeMillis())

// Query before outputting
.withColumn("temp-timestamp", currentTimestampUDF())
.withColumn(
  "latency",
  col("temp-timestamp").cast("long") - unix_millis(col("timestamp")).cast("long"))
.observe(
  name = "observedLatency",
  avg(col("latency")).as("avg"),
  max(col("latency")).as("max"),
  percentile_approx(col("latency"), lit(0.99), lit(150)).as("p99"),
  percentile_approx(col("latency"), lit(0.5), lit(150)).as("p50"))
.drop(col("latency"))
.drop(col("temp-timestamp"))
// Output part of the query. For example, .WriteStream, etc.

この例では、エントリを出力する前に現在のタイムスタンプが記録され、このタイムスタンプとレコードのソースタイムスタンプの差を計算することでレイテンシーが推定されます。結果は進行状況レポートに含まれ、リスナーが利用できるようになります。出力例を次に示します。

"observedMetrics" : {
  "observedLatency" : {
    "avg" : 63.8369765176552,
    "max" : 219,
    "p99" : 154,
    "p50" : 49
  }
}

何がサポートされているのですか?

環境

クラスタータイプ	サポート
専用(旧:シングルユーザー)	Yes
標準(旧:共有)	No
Lakeflow Spark宣言型パイプライン Classic	No
Lakeflow Spark宣言型パイプラインサーバレス	No
サーバーレス	No

言語

言語	サポート
Scala	Yes
Java	Yes
Python	Yes

実行モード

実行モード	サポート
更新モード	Yes
追加モード	No
コンプリートモード	No

ソース

ソース	サポート
Apache Kafka	Yes
AWS MSK	Yes
Eventhub (Kafka Connector を使用)	Yes
Kinesis	はい(EFOモードのみ)
Google Pub/Sub	No
Apache Pulsar	No

シンク

シンク	サポート
Apache Kafka	Yes
Eventhub (Kafka Connector を使用)	Yes
Kinesis	No
Google Pub/Sub	No
Apache Pulsar	No
任意のシンク (forEachWriter を使用)	Yes

演算子

演算子	サポート
ステートレス操作
-選定	Yes
-投射	Yes
UDF
Scala UDF	Yes
Python UDF	はい (一部制限があります)
集計
-和	Yes
-数える	Yes
-マックス	Yes
-分	Yes
-平均	Yes
集計関数	Yes
ウィンドウ
-タンブリング	Yes
-スライディング	Yes
-セッション	No
重複排除
ドロップ重複	はい (状態は無制限です)
dropDuplicatesWithinウォーターマーク	No
ストリーム - テーブル結合
放送テーブル(小さいもの)	Yes
ストリーム - ストリーム結合	No
(フラット)MapGroupsWithState (英語)	No
transformWithState(トランスフォーム・ウィズ・ステート)	はい(一部異なります)
union	はい (一部制限があります)
For each	Yes
forEachBatch	No
マップパーティション	Yes

transformWithState をリアルタイムモードで使用する

カスタムステートフルアプリケーションを構築するために、Databricks は Apache Spark 構造化ストリーミングのAPIである transformWithStateをサポートしています。APIとコードスニペットの詳細については、「カスタムステートフルアプリケーションの構築」を参照してください。

ただし、API がリアルタイムモードで動作する方法と、マイクロバッチアーキテクチャを活用する従来のストリーミングクエリとの間には、いくつかの違いがあります。

リアルタイムモード handleInputRows(key: String, inputRows: Iterator[T], timerValues: TimerValues) のメソッドは、各行に対して呼び出されます。
- inputRows イテレータは 1 つの値を返します。マイクロバッチモードでは、キーごとに 1 回呼び出され、 inputRows イテレータはマイクロバッチ内のキーのすべての値を返します。
- 彼らのコードを書くときは、この違いを認識する必要があります。
イベント時間タイマーは、リアルタイムモードではサポートされていません。
リアルタイムモードでは、データの到着に応じてタイマーの発射が遅れます。それ以外の場合、データがない場合は、実行時間の長いバッチの終了時に発生します。たとえば、タイマーが 10:00:00 に起動することになっていて、同時にデータ到着がない場合、タイマーは起動されません。代わりに、データが 10:00:10 に到着した場合、タイマーは 10 秒の遅延で起動されます。または、データが到着せず、実行時間の長いバッチが終了している場合は、実行時間の長いバッチを終了する前にタイマーが実行されます。

Python UDF

Databricks では、ほとんどの Python ユーザー定義関数 (UDF) がリアルタイムモードでサポートされています。

UDFタイプ	サポート
ステートレス UDF
PythonスカラーUDF(リンク)	Yes
アロースカラーUDF	Yes
Pandas スカラー UDF (リンク)	Yes
矢印機能 (`mapInArrow`)	Yes
Pandas関数(リンク)	Yes
ステートフルグルーピング UDF (UDAF)
transformWithState (注: `Row` インターフェイスのみ)	Yes
applyInPandasWithState	No
非ステートフルグルーピング UDF (UDAF)
-申し込む	No
適用インアロー	No
ApplyInPandas(パンダスで適用)	No
テーブル関数
UDTF(リンク)	No
カリフォルニア大学UDF	No

Python UDF をリアルタイムモードで使用する場合、考慮すべき点がいくつかあります。

レイテンシーを最小限に抑えるには、Arrow のバッチサイズ (spark.sql.execution.arrow.maxRecordsPerBatch) を 1 に設定します。
- トレードオフ: この構成では、スループットを犠牲にして待機時間が最適化されます。ほとんどのワークロードでは、この設定をお勧めします。
- バッチサイズは、入力量に対応するためにより高いスループットが必要な場合にのみ増やし、レイテンシーの増加の可能性を受け入れます。
Pandas の UDF と関数は、Arrow のバッチサイズが 1 の場合、うまく機能しません。
- Pandas UDF または関数を使用する場合は、矢印のバッチサイズを大きい値 (たとえば、100 以上) に設定します。
- これは、レイテンシーが長くなることを意味します。Databricks では、可能であれば Arrow UDF または関数を使用することをお勧めします。
Pandasのパフォーマンスの問題により、transformWithState は Row インターフェイスでのみサポートされます。

制限

ソースの制限

Kinesis では、ポーリングモードはサポートされていません。さらに、頻繁にパーティションを再分割すると、レイテンシーに悪影響を与える可能性があります。

ユニオンの制限

Union には、いくつかの制限があります。

自己結合はサポートされていません。
- Kafka : 同じソースデータフレームオブジェクトと、そこからユニオン派生したデータフレームを使用することはできません。回避策: 同じソースから読み取る異なるデータフレームを使用します。
- Kinesis : 同じ設定の同じ Kinesis ソースから派生したデータフレームをユニオンすることはできません。回避策: 異なる Dataframe を使用するだけでなく、各 DataFrame に異なる 'consumerName' オプションを割り当てることができます。
ユニオンの前に定義されたステートフル演算子 ( aggregate、 deduplicate、 transformWithStateなど) はサポートされていません。
バッチソースとの結合はサポートされていません。

例

次の例は、サポートされているクエリを示しています。

ステートレスクエリ

単一または複数ステージのステートレスクエリがサポートされています。

Kafka ソースから Kafka シンクへ

この例では、Kafka ソースから読み取り、Kafka シンクに書き込みます。

Python
Scala

Python
query = (
    spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", broker_address)
        .option("startingOffsets", "earliest")
        .option("subscribe", input_topic)
        .load()
        .writeStream
        .format("kafka")
        .option("kafka.bootstrap.servers", broker_address)
        .option("topic", output_topic)
        .option("checkpointLocation", checkpoint_location)
        .trigger(realTime="5 minutes")
        .outputMode("update")
        .start()
)

Scala
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

パーティション

この例では、Kafka ソースから読み取り、データを 20 個のパーティションに再パーティション分割して、Kafka シンクに書き込みます。

現在の実装上の制限により、再パーティションを使用する前に、Spark 構成 spark.sql.execution.sortBeforeRepartition を false に設定してください。

Python
Scala

Python
# Sorting is not supported in repartition with real-time mode, so this has to be set to false to achieve low latency.
spark.conf.set("spark.sql.execution.sortBeforeRepartition", "false")

query = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("subscribe", input_topic)
    .option("startingOffsets", "earliest")
    .load()
    .repartition(20)
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

// Sorting is not supported in repartition with real-time mode, so this has to be set to false to achieve low latency.
spark.conf.set("spark.sql.execution.sortBeforeRepartition", "false")

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .repartition(20)
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

ストリームスナップショット結合 (ブロードキャストのみ)

この例では、Kafka から読み取り、データを静的テーブルと結合して、Kafka シンクに書き込みます。静的テーブルをブロードキャストするストリーム静的結合のみがサポートされているため、静的テーブルはメモリに収まる必要があることに注意してください。

Python
Scala

Python
from pyspark.sql.functions import broadcast, expr

# We assume the static table in the path `stateic_table_location` has a column 'lookupKey'.

query = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("subscribe", input_topic)
    .option("startingOffsets", "earliest")
    .load()
    .withColumn("joinKey", expr("CAST(value AS STRING)"))
    .join(
        broadcast(spark.read.format("parquet").load(static_table_location)),
        expr("joinKey = lookupKey")
    )
    .selectExpr("value AS key", "value")
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.functions.{broadcast, expr}
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .join(broadcast(spark.read.format("parquet").load(staticTableLocation)), expr("joinKey = lookupKey"))
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

Kinesis ソースから Kafka シンクへ

この例では、Kinesis ソースから読み取り、Kafka シンクに書き込みます。

Python
Scala

Python
query = (
    spark.readStream
        .format("kinesis")
        .option("region", region_name)
        .option("awsAccessKey", aws_access_key_id)
        .option("awsSecretKey", aws_secret_access_key)
        .option("consumerMode", "efo")
        .option("consumerName", consumer_name)
        .load()
        .selectExpr("parttitionKey AS key", "CAST(data AS STRING) AS value")
        .writeStream
        .format("kafka")
        .option("kafka.bootstrap.servers", broker_address)
        .option("topic", output_topic)
        .option("checkpointLocation", checkpoint_location)
        .trigger(realTime="5 minutes")
        .outputMode("update")
        .start()
)

Scala
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

spark.readStream
      .format("kinesis")
      .option("region", regionName)
      .option("awsAccessKey", awsAccessKeyId)
      .option("awsSecretKey", awsSecretAccessKey)
      .option("consumerMode", "efo")
      .option("consumerName", consumerName)
      .load()
      .select(
        col("partitionKey").alias("key"),
        col("data").cast("string").alias("value")
      )
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

組合

この例では、2 つの異なるトピックの 2 つの Kafka DataFrames をユニオンし、 Kafka シンクに書き込みます。

Python
Scala

Python
df1 = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic_1)
    .load()
)

df2 = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic_2)
    .load()
)

query = (
    df1.union(df2)
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

val df1 = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic1)
      .load()

val df2 = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic2)
      .load()

df1.union(df2)
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

ステートフルクエリ

重複排除

Python
Scala

Python
query = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic)
    .load()
    .dropDuplicates(["timestamp", "value"])
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .dropDuplicates("timestamp", "value")
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

集合体

Python
Scala

Python
from pyspark.sql.functions import col

query = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic)
    .load()
    .groupBy(col("timestamp"), col("value"))
    .count()
    .selectExpr("CAST(value AS STRING) AS key", "CAST(count AS STRING) AS value")
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.functions.col
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .groupBy(col("timestamp"), col("value"))
      .count()
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply("5 minutes"))
      .outputMode(OutputMode.Update())
      .start()

アグリゲーションとの結合

この例では、最初に 2 つの異なるトピックの 2 つの Kafka DataFrames を結合し、次に集計を行います。最終的には、Kafka シンクに書き込みます。

Python
Scala

Python
from pyspark.sql.functions import col

df1 = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic_1)
    .load()
)

df2 = (
    spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("startingOffsets", "earliest")
    .option("subscribe", input_topic_2)
    .load()
)

query = (
    df1.union(df2)
    .groupBy(col("timestamp"), col("value"))
    .count()
    .selectExpr("CAST(value AS STRING) AS key", "CAST(count AS STRING) AS value")
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", broker_address)
    .option("topic", output_topic)
    .option("checkpointLocation", checkpoint_location)
    .trigger(realTime="5 minutes")
    .outputMode("update")
    .start()
)

Scala
import org.apache.spark.sql.functions.col
import org.apache.spark.sql.execution.streaming.RealTimeTrigger

val df1 = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic1)
      .load()

val df2 = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic2)
      .load()

df1.union(df2)
      .groupBy(col("timestamp"), col("value"))
      .count()
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply())
      .outputMode(OutputMode.Update())
      .start()

TransformWithState(トランスフォーム・ウィズ・ステート)

Scala
import org.apache.spark.sql.Encoders
import org.apache.spark.sql.execution.streaming.RealTimeTrigger
import org.apache.spark.sql.streaming.{ListState, MapState, StatefulProcessor, OutputMode, TTLConfig, TimeMode, TimerValues, ValueState}

/**
 * This processor counts the number of records it has seen for each key using state variables
 * with TTLs. It redundantly maintains this count with a value, list, and map state to put load
 * on the state variable cleanup mechanism. (In practice, only one value state is needed to maintain
 * the count for a given grouping key.)
 *
 * The input schema it expects is (String, Long) which represents a (key, source-timestamp) tuple.
 * The source-timestamp is passed through so that we can calculate end-to-end latency. The output
 * schema is (String, Long, Long), which represents a (key, count, source-timestamp) 3-tuple.
 *
 */

class RTMStatefulProcessor(ttlConfig: TTLConfig)
  extends StatefulProcessor[String, (String, Long), (String, Long, Long)] {
  @transient private var _value: ValueState[Long] = _
  @transient private var _map: MapState[Long, String] = _
  @transient private var _list: ListState[String] = _

  override def init(outputMode: OutputMode, timeMode: TimeMode): Unit = {
    // Counts the number of records this key has seen
    _value = getHandle.getValueState("value", Encoders.scalaLong, ttlConfig)
    _map = getHandle.getMapState("map", Encoders.scalaLong, Encoders.STRING, ttlConfig)
    _list = getHandle.getListState("list", Encoders.STRING, ttlConfig)
  }

  override def handleInputRows(
      key: String,
      inputRows: Iterator[(String, Long)],
      timerValues: TimerValues): Iterator[(String, Long, Long)] = {
    inputRows.map { row =>
      val key = row._1
      val sourceTimestamp = row._2

      val oldValue = _value.get()
      _value.update(oldValue + 1)
      _map.updateValue(oldValue, key)
      _list.appendValue(key)

      (key, oldValue + 1, sourceTimestamp)
    }
  }
}

spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .select(col("key").cast("STRING"), col("value").cast("STRING"), col("timestamp"))
      .as[(String, String, Timestamp)]
      .groupByKey(row => row._1)
      .transformWithState(new RTMStatefulProcessor(TTLConfig(Duration.ofSeconds(30))), TimeMode.ProcessingTime, OutputMode.Update)
      .as[(String, Long, Long)]
      .select(
            col("_1").as("key"),
            col("_2").as("value")
      )
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", brokerAddress)
      .option("topic", outputTopic)
      .option("checkpointLocation", checkpointLocation)
      .trigger(RealTimeTrigger.apply("5 minutes"))
      .outputMode(OutputMode.Update())
      .start()

注記

構造化ストリーミングのリアルタイムモードと他の実行モードが StatefulProcessor を実行する方法には違いがあります transformWithState。「リアルタイムモードでの transformWithState の使用」を参照してください。

TransformWithState (PySpark、行インターフェイス)

Python
from typing import Iterator, Tuple

from pyspark.sql import Row
from pyspark.sql.streaming import StatefulProcessor, StatefulProcessorHandle
from pyspark.sql.types import LongType, StringType, TimestampType, StructField, StructType


class RTMStatefulProcessor(StatefulProcessor):
  """
  This processor counts the number of records it has seen for each key using state variables
  with TTLs. It redundantly maintains this count with a value, list, and map state to put load
  on the state variable cleanup mechanism. (In practice, only one value state is needed to maintain
  the count for a given grouping key.)

  The input schema it expects is (String, Long) which represents a (key, source-timestamp) tuple.
  The source-timestamp is passed through so that we can calculate end-to-end latency. The output
  schema is (String, Long, Long), which represents a (key, count, source-timestamp) 3-tuple.
  """

  def init(self, handle: StatefulProcessorHandle) -> None:
    state_schema = StructType([StructField("value", LongType(), True)])
    self.value_state = handle.getValueState("value", state_schema, 30000)
    map_key_schema = StructType([StructField("key", LongType(), True)])
    map_value_schema = StructType([StructField("value", StringType(), True)])
    self.map_state = handle.getMapState("map", map_key_schema, map_value_schema, 30000)
    list_schema = StructType([StructField("value", StringType(), True)])
    self.list_state = handle.getListState("list", list_schema, 30000)

  def handleInputRows(self, key, rows, timerValues) -> Iterator[Row]:
    for row in rows:
      # row is a tuple (key, source_timestamp)
      key_str = row[0]
      source_timestamp = row[1]
      old_value = value.get()
      if old_value is None:
        old_value = 0
      self.value_state.update((old_value + 1,))
      self.map_state.update((old_value,), (key_str,))
      self.list_state.appendValue((key_str,))
      yield Row(key=key_str, value=old_value + 1, timestamp=source_timestamp)

  def close(self) -> None:
    pass


output_schema = StructType(
  [
    StructField("key", StringType(), True),
    StructField("value", LongType(), True),
    StructField("timestamp", TimestampType(), True),
  ]
)

query = (
  spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", broker_address)
  .option("subscribe", input_topic)
  .load()
  .selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)", "timestamp")
  .groupBy("key")
  .transformWithState(
    statefulProcessor=RTMStatefulProcessor(),
    outputStructType=output_schema,
    outputMode="Update",
    timeMode="processingTime",
  )
  .writeStream
  .format("kafka")
  .option("kafka.bootstrap.servers", broker_address)
  .option("topic", output_topic)
  .option("checkpointLocation", checkpoint_location)
  .trigger(realTime="5 minutes")
  .outputMode("Update")
  .start()
)

注記

リアルタイムモードと構造化ストリーミングの他の実行モードがtransformWithStateでStatefulProcessorを実行する方法には違いがあります。「リアルタイムモードでの transformWithState の使用」を参照してください。

シンク

foreachSink による Postgres への書き込み

Scala
import java.sql.{Connection, DriverManager, PreparedStatement}

import org.apache.spark.sql.{ForeachWriter, Row}

/**
 * Groups connection properties for
 * the JDBC writers.
 *
 * @param url JDBC url of the form jdbc:subprotocol:subname to connect to
 * @param dbtable database table that should be written into
 * @param username username for authentication
 * @param password password for authentication
 */
class JdbcWriterConfig(
    val url: String,
    val dbtable: String,
    val username: String,
    val password: String,
) extends Serializable

/**
 * Handles streaming data writes to a database sink via JDBC, by:
 *  - connecting to the database
 *  - buffering incoming data rows in batches to reduce write overhead
 *
 * @param config connection parameters and configuration knobs for the writer
 */
class JdbcStreamingDataWriter(config: JdbcWriterConfig)
  extends ForeachWriter[Row] with Serializable {
  // The writer currently only supports this hard-coded schema
  private val UPSERT_STATEMENT_SQL =
    s"""MERGE INTO "${config.dbtable}"
       |USING (
       |  SELECT
       |    CAST(? AS INTEGER) AS "id",
       |    CAST(? AS CHARACTER VARYING) AS "data"
       |) AS "source"
       |ON "test"."id" = "source"."id"
       |WHEN MATCHED THEN
       |  UPDATE SET "data" = "source"."data"
       |WHEN NOT MATCHED THEN
       |  INSERT ("id", "data") VALUES ("source"."id", "source"."data")
       |""".stripMargin

  private val MAX_BUFFER_SIZE = 3
  private val buffer = new Array[Row](MAX_BUFFER_SIZE)
  private var bufferSize = 0

  private var connection: Connection = _

  /**
   * Flushes the [[buffer]] by writing all rows in the buffer to the database.
   */
  private def flushBuffer(): Unit = {
    require(connection != null)

    if (bufferSize == 0) {
      return
    }

    var upsertStatement: PreparedStatement = null

    try {
      upsertStatement = connection.prepareStatement(UPSERT_STATEMENT_SQL)

      for (i <- 0 until bufferSize) {
        val row = buffer(i)
        upsertStatement.setInt(1, row.getAs[String]("key"))
        upsertStatement.setString(2, row.getAs[String]("value"))
        upsertStatement.addBatch()
      }

      upsertStatement.executeBatch()
      connection.commit()

      bufferSize = 0
    } catch { case e: Exception =>
      if (connection != null) {
        connection.rollback()
      }
      throw e
    } finally {
      if (upsertStatement != null) {
        upsertStatement.close()
      }
    }
  }

  override def open(partitionId: Long, epochId: Long): Boolean = {
    connection = DriverManager.getConnection(config.url, config.username, config.password)
    true
  }

  override def process(row: Row): Unit = {
    buffer(bufferSize) = row
    bufferSize += 1
    if (bufferSize >= MAX_BUFFER_SIZE) {
      flushBuffer()
    }
  }

  override def close(errorOrNull: Throwable): Unit = {
    flushBuffer()
    if (connection != null) {
      connection.close()
      connection = null
    }
  }
}


spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", testUtils.brokerAddress)
      .option("subscribe", inputTopic)
      .load()
      .writeStream
      .outputMode(OutputMode.Update())
      .trigger(defaultTrigger)
      .foreach(new JdbcStreamingDataWriter(new JdbcWriterConfig(jdbcUrl, tableName, jdbcUsername, jdbcPassword)))
      .start()

陳列

重要

この機能は、Databricks Runtime 17.1 以降で使用できます。

表示レートソース

この例では、レートソースから読み取り、ストリーミング DataFrame をノートブックに表示します。

Python
Scala

Python
inputDF = (
  spark
  .readStream
  .format("rate")
  .option("numPartitions", 2)
  .option("rowsPerSecond", 1)
  .load()
)
display(inputDF, realTime="5 minutes", outputMode="update")

Scala
import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.streaming.OutputMode

val inputDF = spark
  .readStream
  .format("rate")
  .option("numPartitions", 2)
  .option("rowsPerSecond", 1)
  .load()
display(inputDF, trigger=Trigger.RealTime(), outputMode=OutputMode.Update())

運用ワークロード​

リアルタイム モードが低遅延を実現する方法​

クラスター構成​

クラスター サイズの要件​

スロット計算の例​

主な考慮事項​

クエリ構成​

オブザーバビリティ​

StreamingQueryProgress を使用する​

ジョブで Observe API を使用する​

何がサポートされているのですか?​

環境​

言語​

実行モード​

ソース​

シンク​

演算子​

transformWithState をリアルタイム モードで使用する​

Python UDF​

制限​

ソースの制限​

ユニオンの制限​

例​

ステートレス クエリ​

Kafka ソースから Kafka シンクへ​

パーティション​

ストリームスナップショット結合 (ブロードキャストのみ)​

Kinesis ソースから Kafka シンクへ​

組合​

ステートフル クエリ​

重複 排除​

集合体​

アグリゲーションとの結合​

TransformWithState(トランスフォーム・ウィズ・ステート)​

TransformWithState (PySpark、行インターフェイス)​