メインコンテンツまでスキップ

観察する

DataFrame上で監視する(名前付きの)メトリクスを定義します。このメソッドは、次の保証とともに、入力と同じ結果を返す「観測された」 DataFrameを返します。 その時点でデータセットを流れるすべてのデータに対して定義された集計 (メトリクス) が計算されます。 処理が完了する時点に達すると、定義された集計列の値が報告されます。

構文

observe(observation: Union["Observation", str], *exprs: Column)

パラメーター

パラメーター

Type

説明

observation

観察または構造

str 名前を指定するか、 Observationインスタンスを指定してメトリクスを取得します。

exprs

列式(列)。

戻り値

DataFrame: 観測されたDataFrame 。

注意

observationObservationの場合、このメソッドはバッチクエリのみをサポートします。observationが文字列の場合、このメソッドはバッチクエリとストリーミングクエリの両方で機能します。継続的な実行は現在サポートされていません。

Python
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}