Pular para o conteúdo principal

tabela cruzada (DataFrame)

Calcule uma tabela de frequência par a par das colunas fornecidas. Também conhecida como tabela de contingência. A primeira coluna de cada linha serão os valores distintos de col1 e os nomes das colunas serão os valores distintos de col2. O nome da primeira coluna será $col1_$col2. Os pares que não ocorrem terão zero como contagem. DataFrame.crosstab e DataFrameStatFunctions.crosstab são aliases.

Sintaxe

crosstab(col1: str, col2: str)

Parâmetros

Parâmetro

Tipo

Descrição

col1

str

O nome da primeira coluna. Os itens distintos constituirão o primeiro item de cada linha.

col2

str

O nome da segunda coluna. Os itens distintos formarão os nomes das colunas do DataFrame.

Devoluções

DataFrameMatriz de frequência de duas colunas.

Exemplos

Python
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+