Pular para o conteúdo principal

corr (DataFrame)

Calcula a correlação entre duas colunas de um DataFrame como um valor do tipo double. Atualmente, suporta apenas o Coeficiente de Correlação de Pearson. DataFrame.corr e DataFrameStatFunctions.corr são sinônimos um do outro.

Sintaxe

corr(col1: str, col2: str, method: Optional[str] = None)

Parâmetros

Parâmetro

Tipo

Descrição

col1

str

O nome da primeira coluna.

col2

str

O nome da segunda coluna.

method

str, opcional

O método de correlação. Atualmente, só é compatível com "Pearson".

Devoluções

float: Coeficiente de correlação de Pearson entre duas colunas.

Exemplos

Python
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0