観察する
DataFrame上で監視する(名前付きの)メトリクスを定義します。このメソッドは、次の保証とともに、入力と同じ結果を返す「観測された」 DataFrameを返します。 その時点でデータセットを流れるすべてのデータに対して定義された集計 (メトリクス) が計算されます。 処理が完了する時点に達すると、定義された集計列の値が報告されます。
構文
observe(observation: Union["Observation", str], *exprs: Column)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
| 観察または構造 |
|
| 列 | 列式(列)。 |
戻り値
DataFrame: 観測されたDataFrame 。
注意
observationがObservationの場合、このメソッドはバッチクエリのみをサポートします。observationが文字列の場合、このメソッドはバッチクエリとストリーミングクエリの両方で機能します。継続的な実行は現在サポートされていません。
例
Python
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}