観察する

DataFrame上で監視する（名前付きの）メトリクスを定義します。このメソッドは、次の保証とともに、入力と同じ結果を返す「観測された」 DataFrameを返します。その時点でデータセットを流れるすべてのデータに対して定義された集計 (メトリクス) が計算されます。処理が完了する時点に達すると、定義された集計列の値が報告されます。

構文

observe(observation: Union["Observation", str], *exprs: Column)

パラメーター

パラメーター	Type	説明
`observation`	観察または構造	`str` 名前を指定するか、 `Observation`インスタンスを指定してメトリクスを取得します。
`exprs`	列	列式（列）。

パラメーター	Type	説明
`observation`	観察または構造	`str` 名前を指定するか、 `Observation`インスタンスを指定してメトリクスを取得します。
`exprs`	列	列式（列）。

戻り値

DataFrame: 観測されたDataFrame 。

注意

observationがObservationの場合、このメソッドはバッチクエリのみをサポートします。observationが文字列の場合、このメソッドはバッチクエリとストリーミングクエリの両方で機能します。継続的な実行は現在サポートされていません。

例

Python
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}

構文​

パラメーター​

戻り値​

注意​

例​

構文

パラメーター

戻り値

注意

例