itensFreq (Funções de Estatística do DataFrame)

Encontra itens frequentes em colunas, possivelmente com falsos positivos. Utiliza o algoritmo de contagem de elementos frequentes descrito por Karp, Schenker e Papadimitriou. DataFrame.freqItems e DataFrameStatFunctions.freqItems são sinônimos um do outro.

Sintaxe

freqItems(cols, support=None)

Parâmetros

Parâmetro	Tipo	Descrição
`cols`	lista ou tupla	Nomes das colunas para as quais serão calculados os itens frequentes.
`support`	flutuar, opcional	A frequência com que um item é considerado frequente. O valor padrão é 1% (0,01). Deve ser maior que 1e-4.

Devoluções

DataFrame

Notas

Este método destina-se à análise exploratória de dados. Não há garantia de retrocompatibilidade para o esquema do DataFrame resultante.

Exemplos

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos