Pular para o conteúdo principal

observar

Defina métricas (nomeadas) para observar no DataFrame. Este método retorna um DataFrame 'observado' que retorna o mesmo resultado que a entrada, com as seguintes garantias: Ele compute os agregados (métricas) definidos em todos os dados que estão fluindo pelo conjunto de dados naquele ponto. O sistema exibirá o valor das colunas agregadas definidas assim que atingirmos um ponto de conclusão.

Sintaxe

observe(observation: Union["Observation", str], *exprs: Column)

Parâmetros

Parâmetro

Tipo

Descrição

observation

Observação ou força

str para especificar o nome ou uma instância Observation para obter as medidas.

exprs

Coluna

expressões de coluna (Coluna).

Devoluções

DataFrame: o DataFrame observado.

Notas

Quando observation é Observation, este método suporta apenas consultas de lotes. Quando observation é uma string, este método funciona tanto para consultas de lotes quanto para consultas de transmissão. A execução contínua ainda não é suportada.

Exemplos

Python
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}